Fugu-MT 論文翻訳(概要): Citations and Trust in LLM Generated Responses

論文の概要: Citations and Trust in LLM Generated Responses

arxiv url: http://arxiv.org/abs/2501.01303v1
Date: Thu, 02 Jan 2025 15:32:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.27431
Title: Citations and Trust in LLM Generated Responses
Title（参考訳）: LLM生成反応の循環と信頼
Authors: Yifan Ding, Matthew Facciani, Amrit Poudel, Ellen Joyce, Salvador Aguinaga, Balaji Veeramani, Sanmitra Bhattacharya, Tim Weninger,
Abstract要約: 信頼は引用の存在と相関し、逆に引用をチェックすることに関係していると予測される。我々は、この仮説を、商用AIを用いて生成されたテキスト応答を示すライブ質問応答実験で検証した。その結果,引用が無作為であった場合でも,信頼度は著しく上昇した。
参考スコア（独自算出の注目度）: 6.69021669849899
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Question answering systems are rapidly advancing, but their opaque nature may impact user trust. We explored trust through an anti-monitoring framework, where trust is predicted to be correlated with presence of citations and inversely related to checking citations. We tested this hypothesis with a live question-answering experiment that presented text responses generated using a commercial Chatbot along with varying citations (zero, one, or five), both relevant and random, and recorded if participants checked the citations and their self-reported trust in the generated responses. We found a significant increase in trust when citations were present, a result that held true even when the citations were random; we also found a significant decrease in trust when participants checked the citations. These results highlight the importance of citations in enhancing trust in AI-generated content.
Abstract（参考訳）: 質問応答システムは急速に進歩しているが、不透明な性質はユーザーの信頼に影響を及ぼす可能性がある。我々は、信頼が引用の存在と相関し、逆に引用のチェックと関連していると予測される、アンチモニタリングの枠組みを通じて信頼を探究した。この仮説を,市販のチャットボットを用いて生成したテキスト応答と,関連性およびランダム性の両方の異なる引用(0,1,5)を用いて実感実験により検証した。その結果,引用が無作為であった場合においても信頼度は有意に増加し,また,参加者が引用を確認した場合の信頼度も著しく低下した。これらの結果は、AI生成コンテンツに対する信頼を高めるための引用の重要性を強調している。

関連論文リスト

Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs [3.2228025627337864]
質問応答(QA)タスクにおける自己報告された言語信頼度を分析して,DeepSeek R1-32Bの不確実性の原因について検討した。我々はDeepSeekに、最終回答の前に長い連鎖を強制することで、その分布を探求する予算を与えることで、その言語スコアの有効性を大幅に改善することを示します。
論文参考訳（メタデータ） (2025-05-28T17:01:30Z)
ClaimTrust: Propagation Trust Scoring for RAG Systems [7.7690689135107425]
ClaimTrustは、RAGシステムにおける文書の信頼性を動的に評価する、伝搬ベースの信頼評価フレームワークである。我々は、政治ニュース記事814件を前処理し分析し、2,173件のユニークなクレームを抽出し、965件の有意義な関係を分類する。 ClaimTrustは、信頼に値する記事と信頼できない記事とを効果的に区別し、コンバージェンスまで信頼スコアを反復的に更新する。
論文参考訳（メタデータ） (2025-03-12T07:52:24Z)
The Noisy Path from Source to Citation: Measuring How Scholars Engage with Past Research [20.649638393774048]
本稿では,大規模な引用忠実度を定量化する計算パイプラインを提案する。論文の全文を用いて、パイプラインは引用論文における引用と引用論文における対応するクレームを識別する。準実験を用いて「電話効果」を確立する - 引用論文が原主張に忠実度が低い場合、引用論文と原文を引用する将来の論文は原文に忠実度が低い。
論文参考訳（メタデータ） (2025-02-27T22:47:03Z)
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは自己教師型のアプローチで、LLMを調整して、生成された応答における文に対する高品質できめ細かい文レベルの引用を生成する。コストと労働集約的なアノテーションに頼る代わりに、SelfCiteはLLM自体が提供する報酬シグナルをコンテキストアブレーションを通じて活用する。 SelfCiteの有効性は、5つの長文質問応答タスクにわたるLongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文参考訳（メタデータ） (2025-02-13T18:55:13Z)
Correctness is not Faithfulness in RAG Attributions [47.48625339105129]
ソースドキュメントを明示的に引用することで、ユーザは生成されたレスポンスを検証し、信頼を高めることができる。先行研究は引用正当性(引用された文書が対応する文をサポートするかどうか)を概ね評価している。評価された回答に対する信頼を確立するためには、引用の正しさと引用の忠実さの両方を検討する必要がある。
論文参考訳（メタデータ） (2024-12-23T21:57:11Z)
When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。品質報酬と秩序保存アライメント報酬機能を統合する。実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-26T09:42:46Z)
Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data [48.409306245463]
事前学習データにおいて,信頼された情報源から動詞句を引用するモデルを構築した。 Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論機能である。実験により、Quote-Tuningは、ベースモデルと比較して高品質なドキュメントからの動詞の引用を最大130%増加させることが示された。
論文参考訳（メタデータ） (2024-04-05T02:27:09Z)
TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文参考訳（メタデータ） (2024-02-19T21:12:14Z)
RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文参考訳（メタデータ） (2023-11-28T14:55:52Z)
The Dangers of trusting Stochastic Parrots: Faithfulness and Trust in Open-domain Conversational Question Answering [20.439568097395995]
語彙アライメントなど,ある種の高度な言語対話行動を示すタスクベースシステムは,実際より好まれ,信頼されている。この結果から,不誠実な応答を提供しながらユーザの入力を傍受することで,信頼に値するシステムの可能性を強調した。
論文参考訳（メタデータ） (2023-05-25T22:54:13Z)
Evaluating Verifiability in Generative Search Engines [70.59477647085387]
生成検索エンジンは、インラインの引用とともに、ユーザークエリへの応答を直接生成する。我々は,一般的な4つの生成検索エンジンの評価を行う。既存の生成検索エンジンからの応答は流動的であり、情報的に見えるが、しばしばサポートされていない文や不正確な引用を含んでいる。
論文参考訳（メタデータ） (2023-04-19T17:56:12Z)
Correcting Exposure Bias for Link Recommendation [31.799185352323807]
露出バイアスは、ユーザーが特定の関連項目に体系的に過小評価されているときに生じる。このバイアスを軽減するために、既知の露光確率を利用する推定器を提案する。我々の手法は、推奨論文の研究分野においてより多様性をもたらす。
論文参考訳（メタデータ） (2021-06-13T16:51:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。