論文の概要: Jointly Generating and Attributing Answers using Logits of Document-Identifier Tokens
- arxiv url: http://arxiv.org/abs/2508.08942v1
- Date: Tue, 12 Aug 2025 13:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.443122
- Title: Jointly Generating and Attributing Answers using Logits of Document-Identifier Tokens
- Title(参考訳): 文書識別トークンのロジットを用いた共同回答の生成と帰属
- Authors: Lucas Albarede, Jose Moreno, Lynda Tamine, Luce Lefeuvre,
- Abstract要約: 本稿では,RAGの回答を共同で生成し,忠実に属性付けする手法であるLoDITを紹介する。
信頼性を重視したテキスト生成ベンチマークであるTrust-Alignの実験では、LoDITがいくつかのメトリクスで最先端モデルよりも大幅に優れていることが示されている。
- 参考スコア(独自算出の注目度): 2.5724047391808025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive performances, Large Language Models (LLMs) remain prone to hallucination, which critically undermines their trustworthiness. While most of the previous work focused on tackling answer and attribution correctness, a recent line of work investigated faithfulness, with a focus on leveraging internal model signals to reflect a model's actual decision-making process while generating the answer. Nevertheless, these methods induce additional latency and have shown limitations in directly aligning token generation with attribution generation. In this paper, we introduce LoDIT, a method that jointly generates and faithfully attributes answers in RAG by leveraging specific token logits during generation. It consists of two steps: (1) marking the documents with specific token identifiers and then leveraging the logits of these tokens to estimate the contribution of each document to the answer during generation, and (2) aggregating these contributions into document attributions. Experiments on a trustworthiness-focused attributed text-generation benchmark, Trust-Align, show that LoDIT significantly outperforms state-of-the-art models on several metrics. Finally, an in-depth analysis of LoDIT shows both its efficiency in terms of latency and its robustness in different settings.
- Abstract(参考訳): 印象的なパフォーマンスにもかかわらず、Large Language Models (LLMs) は幻覚を起こす傾向にあり、その信頼性を著しく損なう。
これまでの研究のほとんどは、回答と帰属の正しさに取り組むことに焦点を当てていたが、最近の一連の研究は、忠実さを調査し、内部モデル信号を活用して、回答を生成しながら、モデルの実際の意思決定プロセスを反映することに焦点を当てた。
それにもかかわらず、これらの手法は追加のレイテンシを発生させ、トークン生成と属性生成を直接調整する際の制限を示してきた。
本稿では,特定のトークンのロジットを生成中に利用することにより,RAGの回答を共同で生成し,忠実に属性付けする手法であるLoDITを紹介する。
1)特定のトークン識別子で文書をマークし、次にこれらのトークンのロジットを活用して、生成中の各ドキュメントの回答への貢献を推定し、(2)これらの貢献をドキュメント属性に集約する。
信頼性を重視したテキスト生成ベンチマークであるTrust-Alignの実験では、LoDITがいくつかのメトリクスで最先端モデルよりも大幅に優れていることが示されている。
最後に、LoDITの詳細な分析は、レイテンシーの効率と異なる設定での堅牢性の両方を示している。
関連論文リスト
- Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [53.17363502535395]
信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。
現在のシステムは、外部レトリバーを推論時にクエリすることで、引用を挿入する。
本稿では,合成QAペアを継続的に事前訓練するActive Indexingを提案する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Enhanced Retrieval of Long Documents: Leveraging Fine-Grained Block Representations with Large Language Models [24.02950598944251]
文書の関連性評価の精度を高めることを目的とした,新しい,きめ細かいアプローチを提案する。
提案手法はまず,長い文書をブロックに分割し,それぞれを LLM を用いて埋め込む。
重み付け和法により,クエリブロック関連度スコアを集約し,ドキュメント全体のクエリに対する総合的なスコアを得る。
論文 参考訳(メタデータ) (2025-01-28T16:03:52Z) - Attention with Dependency Parsing Augmentation for Fine-Grained Attribution [26.603281615221505]
提案手法は,検索した文書から各回答に対する証拠を裏付ける,きめ細かな属性機構を開発する。
既存の属性法は、応答と文書間のモデル-内部類似度(Saliency scores)や隠れ状態類似度(hidden state similarity)など)に依存している。
まず,表現の粒度を保ちつつ,集合ユニオン操作を通じてトークンに関する証拠を集約する。
第二に、ターゲットスパンの意味的完全性を強化するために依存性解析を統合することで属性の強化を行う。
論文 参考訳(メタデータ) (2024-12-16T03:12:13Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。
バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-05-23T07:54:57Z) - Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding [23.061797784952855]
本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。
MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-22T21:50:01Z) - Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。