論文の概要: Automated Journalistic Questions: A New Method for Extracting 5W1H in French
- arxiv url: http://arxiv.org/abs/2505.14804v1
- Date: Tue, 20 May 2025 18:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.695771
- Title: Automated Journalistic Questions: A New Method for Extracting 5W1H in French
- Title(参考訳): 自動ジャーナリズム:フランス語で5W1Hを抽出する新しい方法
- Authors: Richard Khoury, Maxence Verhaverbeke, Julie A. Gramaccia,
- Abstract要約: フランスのニュース記事から5W1H情報を取得するための,最初の自動抽出パイプラインを設計する。
また、4人のアノテータによってマークされた5W1Hの回答が付いた250本のケベックのニュース記事のコーパスも作成しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 5W1H questions -- who, what, when, where, why and how -- are commonly used in journalism to ensure that an article describes events clearly and systematically. Answering them is a crucial prerequisites for tasks such as summarization, clustering, and news aggregation. In this paper, we design the first automated extraction pipeline to get 5W1H information from French news articles. To evaluate the performance of our algo- rithm, we also create a corpus of 250 Quebec news articles with 5W1H answers marked by four human annotators. Our results demonstrate that our pipeline performs as well in this task as the large language model GPT-4o.
- Abstract(参考訳): 5W1Hの質問(いつ、いつ、どこで、なぜ、どのように、)は、記事がイベントを明確かつ体系的に記述することを保証するためにジャーナリズムで一般的に使用される。
それらを答えることは、要約、クラスタリング、ニュースアグリゲーションといったタスクにとって重要な前提条件である。
本稿では,フランス語ニュース記事から5W1H情報を取得するための,最初の自動抽出パイプラインを設計する。
5W1Hの回答を4つのアノテータで表した250のケベックのニュース記事のコーパスも作成した。
我々のパイプラインは,大規模言語モデル GPT-4o と同様に,このタスクでも機能することを示す。
関連論文リスト
- 5W1H Extraction With Large Language Models [27.409473072672277]
5W1Hフレームワークによる重要なニュース要素の抽出は、イベント抽出とテキスト要約に不可欠である。
ChatGPTは、より長いニューステキストの処理やコンテキスト内の特定の属性の分析において問題に直面している。
我々は、ゼロショット/ファウショットからのいくつかの戦略を設計し、より効率的な微調整を行い、元のニュース文書から5W1Hアスペクトを抽出する。
論文 参考訳(メタデータ) (2024-05-25T09:42:58Z) - NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism [28.443004656952343]
我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。
構築したベンチマークデータセットは、筆記能力の4つの面と安全性の6つの面に焦点を当てている。
本稿では,GPT-4をベースとした自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-02-29T21:05:14Z) - Framing the News:From Human Perception to Large Language Model
Inferences [8.666172545138272]
ニュースのフレームを特定することは、記事のビジョン、意図、伝達すべきメッセージ、ニュースのどの側面が強調されるかを理解するために重要である。
我々は,5カ国のヨーロッパの新聞のノヴァックス運動記事の1786年の見出しに,フレームの人為的ラベル付けのためのプロトコルを開発した。
まず, GPT-3.5 の微調整手法と, GPT-3.5 のプロンプトエンジニアリング手法の2つの手法について検討した。
論文 参考訳(メタデータ) (2023-04-27T18:30:18Z) - SumREN: Summarizing Reported Speech about Events in News [51.82314543729287]
本稿では,各話者の反応を,それぞれの発言によって表現された反応を,ある事象に要約する新しい課題を提案する。
我々は,多文書要約ベンチマークSUMRENを作成し,様々な公開人物からの報告文の745の要約を作成した。
論文 参考訳(メタデータ) (2022-12-02T12:51:39Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - NewsEdits: A News Article Revision Dataset and a Document-Level
Reasoning Challenge [122.37011526554403]
NewsEditsは、最初に公開されたニュースリビジョン履歴のデータセットである。
120万記事と、22以上の英語とフランス語の新聞ソースから460万バージョンを収録している。
論文 参考訳(メタデータ) (2022-06-14T18:47:13Z) - ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and
Condescending Language [1.3445335428144554]
本稿では,SemEval-2022 Task 4: Patronizing and Condescending Language (PCL) Detectionのサブタスク1でLTUの機械学習グループが使用しているシステムについて述べる。
本システムは,事前訓練されたテキスト・テキスト・トランスフォーマ(T5)を微調整し,そのクラス外予測を革新的に削減する。
論文 参考訳(メタデータ) (2022-04-15T12:00:25Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。