論文の概要: Enabling Large Language Models to Generate Text with Citations
- arxiv url: http://arxiv.org/abs/2305.14627v2
- Date: Tue, 31 Oct 2023 15:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:27:19.095610
- Title: Enabling Large Language Models to Generate Text with Citations
- Title(参考訳): 大きな言語モデルで引用でテキストを生成することができる
- Authors: Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen
- Abstract要約: 大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
- 参考スコア(独自算出の注目度): 37.64884969997378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have emerged as a widely-used tool for
information seeking, but their generated outputs are prone to hallucination. In
this work, our aim is to allow LLMs to generate text with citations, improving
their factual correctness and verifiability. Existing work mainly relies on
commercial search engines and human evaluation, making it challenging to
reproduce and compare different modeling approaches. We propose ALCE, the first
benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a diverse set
of questions and retrieval corpora and requires building end-to-end systems to
retrieve supporting evidence and generate answers with citations. We develop
automatic metrics along three dimensions -- fluency, correctness, and citation
quality -- and demonstrate their strong correlation with human judgements. Our
experiments with state-of-the-art LLMs and novel prompting strategies show that
current systems have considerable room for improvement -- For example, on the
ELI5 dataset, even the best models lack complete citation support 50% of the
time. Our analyses further highlight promising future directions, including
developing better retrievers, advancing long-context LLMs, and improving the
ability to synthesize information from multiple sources.
- Abstract(参考訳): 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。
本研究の目的は,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることである。
既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリングアプローチを再現し比較することは困難である。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
alceは多様な質問と検索コーパスを収集し、証拠を収集し、引用で回答を生成するためにエンドツーエンドシステムを構築する必要がある。
我々は3次元 – フラレンシ,正確性,引用品質 – に沿って自動メトリクスを開発し,人間の判断と強い相関を示す。
最先端のLLMと新しいプロンプト戦略による我々の実験は、現在のシステムには改善の余地がかなりあることを示している -- 例えば、ELI5データセットでは、最高のモデルでさえ、その時間の50%を完全に引用サポートしていない。
本分析では, より優れた検索器の開発, 長期LLMの進展, 複数ソースからの情報合成能力の向上など, 将来的な方向性をさらに強調する。
関連論文リスト
- Advancing Large Language Model Attribution through Self-Improving [32.77250400438304]
大規模言語モデル(LLM)の帰属能力向上のためのフレームワークSTARTを提案する。
STARTは、サンプリングされた応答から構築されたきめ細かい選好監視信号を反復的に利用し、堅牢で包括的で帰属可能な生成を促進する。
ロングフォームQAとマルチステップ推論をカバーする3つのオープンドメイン質問回答データセットの実験は、平均25.13%のパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-10-17T07:55:33Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - Citekit: A Modular Toolkit for Large Language Model Citation Generation [20.509394248001723]
大規模言語モデル(LLM)は質問応答(QA)タスクで引用を生成する。
現在、異なる引用生成方法を標準化し、適切に比較するための統一されたフレームワークは存在しない。
既存の引用生成手法の実装と評価を容易にするために設計されたオープンソースのモジュール型ツールキットであるnameを紹介する。
論文 参考訳(メタデータ) (2024-08-06T02:13:15Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。