論文の概要: An Extensive Evaluation of Factual Consistency in Large Language Models for Data-to-Text Generation
- arxiv url: http://arxiv.org/abs/2411.19203v1
- Date: Thu, 28 Nov 2024 15:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:53.502610
- Title: An Extensive Evaluation of Factual Consistency in Large Language Models for Data-to-Text Generation
- Title(参考訳): データ・テキスト・ジェネレーションのための大規模言語モデルにおけるFactual Consistencyの大規模評価
- Authors: Joy Mahapatra, Utpal Garain,
- Abstract要約: 大規模言語モデル(LLM)は、様々なデータ・テキスト生成(DTG)タスクで例外的なパフォーマンスを示している。
DTGで事実上一貫したテキストを生成することは、LLMにとって依然として困難である。
本稿では,DTG 用 LLM の事実整合性について広範囲に評価する。
- 参考スコア(独自算出の注目度): 1.8876415010297893
- License:
- Abstract: Large Language Models (LLMs) have shown exceptional performance across various Data-to-Text Generation (DTG) tasks. However, generating factually consistent text in DTG remains challenging for LLMs. Despite this, in-depth evaluations of LLM factual consistency for DTG remain missing in the current literature. This paper addresses this gap by providing an extensive evaluation of factual consistency in LLMs for DTG. Our evaluation covers five widely used DTG datasets (E2E, ViGGo, WikiTableText, DART, and WebNLG) and five prominent LLM families (T5, BART, OPT, BLOOM, and Llama 2). To ensure a thorough evaluation of factual consistency, we use four state-of-the-art automatic metrics and include essential human assessments. Our extensive evaluations reveals three key findings regarding factual consistency in LLMs for DTG. First, Llama 2 often excels in generating factually consistent text, although smaller models like T5 and BART can achieve strong factual consistency on larger, lexically less-diverse datasets. Second, the average rate of change (AROC) indicates that increasing model size (number of model trainable parameters) generally enhances factual consistency of LLMs in DTG. Third, we observe that source-reference divergence (i.e., when the reference text diverges semantically from the source) typically reduces the factual consistency of LLMs in DTG.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なデータ・テキスト生成(DTG)タスクで例外的なパフォーマンスを示している。
しかし、DTGで現実的に一貫したテキストを生成することはLLMにとって依然として困難である。
それにもかかわらず、DTGのLCMの実際の整合性に関する詳細な評価は、現在の文献では欠落している。
本稿では,DTG 用 LLM の現実的整合性を評価することで,このギャップに対処する。
本評価では,広く使用されている5つのDTGデータセット(E2E, ViGGo, WikiTableText, DART, WebNLG)および5つのLLMファミリー(T5, BART, OPT, BLOOM, Llama 2)について検討した。
事実整合性の徹底的な評価を確保するため、4つの最先端自動測定値を使用し、本質的な人的評価を含む。
DTGのLCMにおける事実整合性に関する3つの重要な知見が得られた。
第一に、Llama 2は現実的に一貫性のあるテキストを生成するのに優れているが、T5やBARTのような小さなモデルでは、より大きく、語彙の少ないデータセットで強い事実整合性を達成することができる。
第2に、平均変化率(AROC)は、モデルサイズ(モデルのトレーニング可能なパラメータの数)の増加が一般的にDTGにおけるLCMの現実的一貫性を高めることを示している。
第3に、ソース参照のばらつき(つまり、参照テキストがソースから意味的に分岐する場合)が典型的にはDTGにおけるLCMの現実的一貫性を低下させる。
関連論文リスト
- Factual Inconsistency in Data-to-Text Generation Scales Exponentially with LLM Size: A Statistical Validation [1.6795461001108096]
本稿では,大規模言語モデル(LLM)のサイズがデータ・テキスト生成(D2T)における現実的矛盾に与える影響を考察する。
本稿では,予測性能評価,適合性評価,比較分析の3つの主要な段階からなる統計的検証フレームワークを用いる。
総合的な実証研究として,5つのD2Tデータセットにまたがる3つのLLMファミリーを分析し,4つの最先端整合性指標を用いて,事実整合性を測定した。
論文 参考訳(メタデータ) (2025-02-17T23:24:00Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation [1.8876415010297893]
Data-to-text (D2T) の生成は、テーブルやグラフなどの半構造化データから可読なテキストを生成することを目的としている。
D2Tタスク用微調整LDMの性能に及ぼすモデルサイズの影響を示す研究は行われていない。
我々は、広く使われている5つのD2Tデータセットにまたがって、モデルサイズをスケールする利点と限界の両方を解明することを目指している。
論文 参考訳(メタデータ) (2024-07-19T07:54:30Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Large Language Models Can Learn Temporal Reasoning [11.599570446840547]
本稿では,言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。
元の文脈を推論する代わりに、潜時表現、時間グラフ(TG)を採用する。
合成データセット(TGQA)は完全に制御可能であり、最小限の監督を必要とする。
論文 参考訳(メタデータ) (2024-01-12T19:00:26Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。