論文の概要: Factuality of Large Language Models in the Year 2024
- arxiv url: http://arxiv.org/abs/2402.02420v1
- Date: Sun, 4 Feb 2024 09:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:49:02.855353
- Title: Factuality of Large Language Models in the Year 2024
- Title(参考訳): 2024年における大規模言語モデルの実態
- Authors: Yuxia Wang, Minghan Wang, Muhammad Arslan Manzoor, Georgi Georgiev,
Rocktim Jyoti Das, Preslav Nakov
- Abstract要約: 我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
- 参考スコア(独自算出の注目度): 30.28725708897957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs), especially when instruction-tuned for chat,
have become part of our daily lives, freeing people from the process of
searching, extracting, and integrating information from multiple sources by
offering a straightforward answer to a variety of questions in a single place.
Unfortunately, in many cases, LLM responses are factually incorrect, which
limits their applicability in real-world scenarios. As a result, research on
evaluating and improving the factuality of LLMs has attracted a lot of research
attention recently. In this survey, we critically analyze existing work with
the aim to identify the major challenges and their associated causes, pointing
out to potential solutions for improving the factuality of LLMs, and analyzing
the obstacles to automated factuality evaluation for open-ended text
generation. We further offer an outlook on where future research should go.
- Abstract(参考訳): 大規模な言語モデル(llm)は、特にチャットのインストラクション調整を行う場合には、日々の生活の一部となり、複数のソースから情報を検索、抽出、統合するプロセスから解放され、様々な質問に対して一箇所で簡単に答えることができます。
残念なことに、多くの場合、LLMの応答は実際には正しくないため、現実のシナリオでは適用性が制限される。
その結果,近年,LLMの実態評価と改善に関する研究が注目されている。
本研究では,LLMの事実性を改善するための潜在的な解決策を指摘し,オープンエンドテキスト生成における事実性の自動評価のための障害を解析し,課題とその関連要因を特定することを目的として,既存の作業を批判的に分析する。
今後の研究の行方についても,さらに見通しを述べています。
関連論文リスト
- A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - Federated Large Language Models: Current Progress and Future Directions [63.68614548512534]
本稿では,LLM(FedLLM)のフェデレーション学習について調査し,最近の進歩と今後の方向性を明らかにする。
ファインチューニングと迅速な学習という2つの重要な側面に注目し、既存の作業と関連する研究課題について議論する。
論文 参考訳(メタデータ) (2024-09-24T04:14:33Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。