論文の概要: Enabling Large Language Models to Generate Text with Citations
- arxiv url: http://arxiv.org/abs/2305.14627v1
- Date: Wed, 24 May 2023 01:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:37:16.169801
- Title: Enabling Large Language Models to Generate Text with Citations
- Title(参考訳): 大きな言語モデルで引用でテキストを生成することができる
- Authors: Tianyu Gao, Howard Yen, Jiatong Yu, Danqi Chen
- Abstract要約: 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。
我々は,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることを目的としている。
既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリング手法を再現し比較することは困難である。
- 参考スコア(独自算出の注目度): 20.403703478151186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as a widely-used tool for
information seeking, but their generated outputs are prone to hallucination. In
this work, we aim to enable LLMs to generate text with citations, improving
their factual correctness and verifiability. Existing work mainly relies on
commercial search engines and human evaluation, making it challenging to
reproduce and compare with different modeling approaches. We propose ALCE, the
first benchmark for Automatic LLMs' Citation Evaluation. ALCE collects a
diverse set of questions and retrieval corpora and requires building end-to-end
systems to retrieve supporting evidence and generate answers with citations. We
build automatic metrics along three dimensions -- fluency, correctness, and
citation quality -- and demonstrate their strong correlation with human
judgements. Our experiments with state-of-the-art LLMs and novel prompting
strategies show that current systems have considerable room for improvements --
for example, on the ELI5 dataset, even the best model has 49% of its
generations lacking complete citation support. Our extensive analyses further
highlight promising future directions, including developing better retrievers,
advancing long-context LLMs, and improving the ability to synthesize
information from multiple sources.
- Abstract(参考訳): 大規模言語モデル (LLM) は情報検索のツールとして広く利用されているが、その生成した出力は幻覚の傾向にある。
本研究では,LLMが引用文を生成できるようにし,その事実の正しさと妥当性を向上させることを目的とする。
既存の作業は主に商用検索エンジンと人的評価に依存しており、異なるモデリング手法を再現し比較することは困難である。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
alceは多様な質問と検索コーパスを収集し、証拠を収集し、引用で回答を生成するためにエンドツーエンドシステムを構築する必要がある。
私たちは3次元 – 流動性、正確性、引用品質 – に沿って自動メトリクスを構築し、人間の判断と強い相関関係を示しています。
最新のLCMと新しいプロンプト戦略による実験では、現在のシステムには改善の余地がかなりあることが示されています - 例えば、ELI5データセットでは、最高のモデルでさえ、その世代のうち49%が完全引用サポートを欠いているのです。
広範な分析では,より優れたレトリバーの開発,ロングコンテキストllmの進展,複数ソースからの情報を合成する能力の向上など,今後の方向性が注目される。
関連論文リスト
- Improving Attributed Text Generation of Large Language Models via Preference Learning [28.09715554543885]
属性タスクを選好学習としてモデル化し,自動選好最適化フレームワークを導入する。
APOは、回答品質の高い最先端の引用F1を達成する。
論文 参考訳(メタデータ) (2024-03-27T09:19:13Z) - Harnessing Multi-Role Capabilities of Large Language Models for
Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。
本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。
我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:13Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Can Text-based Knowledge Graph Completion Benefit From Zero-Shot Large
Language Models? [10.56565195524981]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著に改善されている。
本研究では,より効率的なテキスト記述がモデル性能を増幅できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - A Survey on Large Language Models for Recommendation [80.01023231943205]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。