論文の概要: An Extensive Evaluation of Factual Consistency in Large Language Models for Data-to-Text Generation
- arxiv url: http://arxiv.org/abs/2411.19203v1
- Date: Thu, 28 Nov 2024 15:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:53.502610
- Title: An Extensive Evaluation of Factual Consistency in Large Language Models for Data-to-Text Generation
- Title(参考訳): データ・テキスト・ジェネレーションのための大規模言語モデルにおけるFactual Consistencyの大規模評価
- Authors: Joy Mahapatra, Utpal Garain,
- Abstract要約: 大規模言語モデル(LLM)は、様々なデータ・テキスト生成(DTG)タスクで例外的なパフォーマンスを示している。
DTGで事実上一貫したテキストを生成することは、LLMにとって依然として困難である。
本稿では,DTG 用 LLM の事実整合性について広範囲に評価する。
- 参考スコア(独自算出の注目度): 1.8876415010297893
- License:
- Abstract: Large Language Models (LLMs) have shown exceptional performance across various Data-to-Text Generation (DTG) tasks. However, generating factually consistent text in DTG remains challenging for LLMs. Despite this, in-depth evaluations of LLM factual consistency for DTG remain missing in the current literature. This paper addresses this gap by providing an extensive evaluation of factual consistency in LLMs for DTG. Our evaluation covers five widely used DTG datasets (E2E, ViGGo, WikiTableText, DART, and WebNLG) and five prominent LLM families (T5, BART, OPT, BLOOM, and Llama 2). To ensure a thorough evaluation of factual consistency, we use four state-of-the-art automatic metrics and include essential human assessments. Our extensive evaluations reveals three key findings regarding factual consistency in LLMs for DTG. First, Llama 2 often excels in generating factually consistent text, although smaller models like T5 and BART can achieve strong factual consistency on larger, lexically less-diverse datasets. Second, the average rate of change (AROC) indicates that increasing model size (number of model trainable parameters) generally enhances factual consistency of LLMs in DTG. Third, we observe that source-reference divergence (i.e., when the reference text diverges semantically from the source) typically reduces the factual consistency of LLMs in DTG.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なデータ・テキスト生成(DTG)タスクで例外的なパフォーマンスを示している。
しかし、DTGで現実的に一貫したテキストを生成することはLLMにとって依然として困難である。
それにもかかわらず、DTGのLCMの実際の整合性に関する詳細な評価は、現在の文献では欠落している。
本稿では,DTG 用 LLM の現実的整合性を評価することで,このギャップに対処する。
本評価では,広く使用されている5つのDTGデータセット(E2E, ViGGo, WikiTableText, DART, WebNLG)および5つのLLMファミリー(T5, BART, OPT, BLOOM, Llama 2)について検討した。
事実整合性の徹底的な評価を確保するため、4つの最先端自動測定値を使用し、本質的な人的評価を含む。
DTGのLCMにおける事実整合性に関する3つの重要な知見が得られた。
第一に、Llama 2は現実的に一貫性のあるテキストを生成するのに優れているが、T5やBARTのような小さなモデルでは、より大きく、語彙の少ないデータセットで強い事実整合性を達成することができる。
第2に、平均変化率(AROC)は、モデルサイズ(モデルのトレーニング可能なパラメータの数)の増加が一般的にDTGにおけるLCMの現実的一貫性を高めることを示している。
第3に、ソース参照のばらつき(つまり、参照テキストがソースから意味的に分岐する場合)が典型的にはDTGにおけるLCMの現実的一貫性を低下させる。
関連論文リスト
- DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory [96.35468670508476]
大規模言語モデル(LLM)のための文書レバレッジ翻訳エージェントであるDelTAを紹介する。
DelTAは、様々な粒度とスパンにまたがる情報を格納するマルチレベルメモリ構造を備えている。
実験結果から,DelTAは翻訳の一貫性や品質において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:30:09Z) - Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation [1.8876415010297893]
Data-to-text (D2T) の生成は、テーブルやグラフなどの半構造化データから可読なテキストを生成することを目的としている。
D2Tタスク用微調整LDMの性能に及ぼすモデルサイズの影響を示す研究は行われていない。
我々は、広く使われている5つのD2Tデータセットにまたがって、モデルサイズをスケールする利点と限界の両方を解明することを目指している。
論文 参考訳(メタデータ) (2024-07-19T07:54:30Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Large Language Models Can Learn Temporal Reasoning [11.599570446840547]
本稿では,言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。
元の文脈を推論する代わりに、潜時表現、時間グラフ(TG)を採用する。
合成データセット(TGQA)は完全に制御可能であり、最小限の監督を必要とする。
論文 参考訳(メタデータ) (2024-01-12T19:00:26Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - Benchmarking the Abilities of Large Language Models for RDF Knowledge
Graph Creation and Comprehension: How Well Do LLMs Speak Turtle? [0.0]
大きな言語モデル(LLM)は、自然言語処理とコーディングタスクにおいて大幅に改善され、急速に進歩している。
様々なLSMの習熟度を評価するために,Turtle構文でシリアライズされた知識グラフを解析,理解,分析,作成する5つのタスクのセットを作成した。
GPT-3.5、GPT-4、Claude 1.3、Claude 2.0の4つの商用LLMと、GPT4All VicunaとGPT4All Falcon 13Bの2つのオフラインモデルが含まれていた。
論文 参考訳(メタデータ) (2023-09-29T10:36:04Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。