Fugu-MT 論文翻訳(概要): Enabling Large Language Models to Generate Text with Citations

論文の概要: Enabling Large Language Models to Generate Text with Citations

arxiv url: http://arxiv.org/abs/2305.14627v2
Date: Tue, 31 Oct 2023 15:04:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 02:27:19.095610
Title: Enabling Large Language Models to Generate Text with Citations
Title（参考訳）: 大きな言語モデルで引用でテキストを生成することができる
Authors: Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen
Abstract要約: 大規模言語モデル (LLM) は情報検索のツールとして広く使われている。我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
参考スコア（独自算出の注目度）: 37.64884969997378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have emerged as a widely-used tool for information seeking, but their generated outputs are prone to hallucination. In this work, our aim is to allow LLMs to generate text with citations, improving their factual correctness and verifiability. Existing work mainly relies on commercial search engines and human evaluation, making it challenging to reproduce and compare different modeling approaches. We propose ALCE, the first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a diverse set of questions and retrieval corpora and requires building end-to-end systems to retrieve supporting evidence and generate answers with citations. We develop automatic metrics along three dimensions -- fluency, correctness, and citation quality -- and demonstrate their strong correlation with human judgements. Our experiments with state-of-the-art LLMs and novel prompting strategies show that current systems have considerable room for improvement -- For example, on the ELI5 dataset, even the best models lack complete citation support 50% of the time. Our analyses further highlight promising future directions, including developing better retrievers, advancing long-context LLMs, and improving the ability to synthesize information from multiple sources.
Abstract（参考訳）: 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。本研究の目的は,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることである。既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリングアプローチを再現し比較することは困難である。自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。 alceは多様な質問と検索コーパスを収集し、証拠を収集し、引用で回答を生成するためにエンドツーエンドシステムを構築する必要がある。我々は3次元 – フラレンシ,正確性,引用品質 – に沿って自動メトリクスを開発し,人間の判断と強い相関を示す。最先端のLLMと新しいプロンプト戦略による我々の実験は、現在のシステムには改善の余地がかなりあることを示している -- 例えば、ELI5データセットでは、最高のモデルでさえ、その時間の50%を完全に引用サポートしていない。本分析では, より優れた検索器の開発, 長期LLMの進展, 複数ソースからの情報合成能力の向上など, 将来的な方向性をさらに強調する。

関連論文リスト

MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Factuality or Fiction? Benchmarking Modern LLMs on Ambiguous QA with Citations [0.0]
質問回答(QA)タスクにおける最先端大言語モデル(LLM)の事実精度と引用性能を評価する。以上の結果から,より大規模で最近のモデルでは,不明瞭な文脈において,少なくとも1つの正解を常に予測するが,複数の有効な解のケースを処理できないことが示唆された。
論文参考訳（メタデータ） (2024-12-23T23:55:19Z)
Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [63.98194996746229]
大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
論文参考訳（メタデータ） (2024-12-19T13:55:48Z)
Advancing Large Language Model Attribution through Self-Improving [32.77250400438304]
大規模言語モデル(LLM)の帰属能力向上のためのフレームワークSTARTを提案する。 STARTは、サンプリングされた応答から構築されたきめ細かい選好監視信号を反復的に利用し、堅牢で包括的で帰属可能な生成を促進する。ロングフォームQAとマルチステップ推論をカバーする3つのオープンドメイン質問回答データセットの実験は、平均25.13%のパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-10-17T07:55:33Z)
On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文参考訳（メタデータ） (2024-10-15T03:04:26Z)
Citekit: A Modular Toolkit for Large Language Model Citation Generation [20.509394248001723]
大規模言語モデル(LLM)は質問応答(QA)タスクで引用を生成する。現在、異なる引用生成方法を標準化し、適切に比較するための統一されたフレームワークは存在しない。既存の引用生成手法の実装と評価を容易にするために設計されたオープンソースのモジュール型ツールキットであるnameを紹介する。
論文参考訳（メタデータ） (2024-08-06T02:13:15Z)
Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:47:47Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。 APOは、回答品質の高い最先端の引用F1を達成する。
論文参考訳（メタデータ） (2024-03-27T09:19:13Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。