論文の概要: Enabling Large Language Models to Generate Text with Citations
- arxiv url: http://arxiv.org/abs/2305.14627v1
- Date: Wed, 24 May 2023 01:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:37:16.169801
- Title: Enabling Large Language Models to Generate Text with Citations
- Title(参考訳): 大きな言語モデルで引用でテキストを生成することができる
- Authors: Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen
- Abstract要約: 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。
我々は,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることを目的としている。
既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリング手法を再現し比較することは困難である。
- 参考スコア(独自算出の注目度): 20.403703478151186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as a widely-used tool for
information seeking, but their generated outputs are prone to hallucination. In
this work, we aim to enable LLMs to generate text with citations, improving
their factual correctness and verifiability. Existing work mainly relies on
commercial search engines and human evaluation, making it challenging to
reproduce and compare with different modeling approaches. We propose ALCE, the
first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a
diverse set of questions and retrieval corpora and requires building end-to-end
systems to retrieve supporting evidence and generate answers with citations. We
build automatic metrics along three dimensions -- fluency, correctness, and
citation quality -- and demonstrate their strong correlation with human
judgements. Our experiments with state-of-the-art LLMs and novel prompting
strategies show that current systems have considerable room for improvements --
for example, on the ELI5 dataset, even the best model has 49% of its
generations lacking complete citation support. Our extensive analyses further
highlight promising future directions, including developing better retrievers,
advancing long-context LLMs, and improving the ability to synthesize
information from multiple sources.
- Abstract(参考訳): 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。
本研究では,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることを目的とする。
既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリング手法を再現し比較することは困難である。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
alceは多様な質問と検索コーパスを収集し、証拠を収集し、引用で回答を生成するためにエンドツーエンドシステムを構築する必要がある。
私たちは3次元 – 流動性、正確性、引用品質 – に沿って自動メトリクスを構築し、人間の判断と強い相関関係を示しています。
最新のLCMと新しいプロンプト戦略による実験では、現在のシステムには改善の余地がかなりあることが示されています - 例えば、ELI5データセットでは、最高のモデルでさえ、その世代のうち49%が完全引用サポートを欠いているのです。
広範な分析では,より優れたレトリバーの開発,ロングコンテキストllmの進展,複数ソースからの情報を合成する能力の向上など,今後の方向性が注目される。
関連論文リスト
- Advancing Large Language Model Attribution through Self-Improving [32.77250400438304]
大規模言語モデル(LLM)の帰属能力向上のためのフレームワークSTARTを提案する。
STARTは、サンプリングされた応答から構築されたきめ細かい選好監視信号を反復的に利用し、堅牢で包括的で帰属可能な生成を促進する。
ロングフォームQAとマルチステップ推論をカバーする3つのオープンドメイン質問回答データセットの実験は、平均25.13%のパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-10-17T07:55:33Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - Citekit: A Modular Toolkit for Large Language Model Citation Generation [20.509394248001723]
大規模言語モデル(LLM)は質問応答(QA)タスクで引用を生成する。
現在、異なる引用生成方法を標準化し、適切に比較するための統一されたフレームワークは存在しない。
既存の引用生成手法の実装と評価を容易にするために設計されたオープンソースのモジュール型ツールキットであるnameを紹介する。
論文 参考訳(メタデータ) (2024-08-06T02:13:15Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。