論文の概要: Facilitating Human-LLM Collaboration through Factuality Scores and Source Attributions
- arxiv url: http://arxiv.org/abs/2405.20434v1
- Date: Thu, 30 May 2024 19:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:24:43.295674
- Title: Facilitating Human-LLM Collaboration through Factuality Scores and Source Attributions
- Title(参考訳): ファクチュアリティスコアとソース属性による人間-LLMコラボレーションのファシリテート
- Authors: Hyo Jin Do, Rachel Ostrand, Justin D. Weisz, Casey Dugan, Prasanna Sattigeri, Dennis Wei, Keerthiram Murugesan, Werner Geyer,
- Abstract要約: 人間はますます大きな言語モデル(LLM)に依存している
LLMは「幻覚」としても知られる不正確な情報や偽の情報を生成する可能性がある。
- 参考スコア(独自算出の注目度): 35.48507905027844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While humans increasingly rely on large language models (LLMs), they are susceptible to generating inaccurate or false information, also known as "hallucinations". Technical advancements have been made in algorithms that detect hallucinated content by assessing the factuality of the model's responses and attributing sections of those responses to specific source documents. However, there is limited research on how to effectively communicate this information to users in ways that will help them appropriately calibrate their trust toward LLMs. To address this issue, we conducted a scenario-based study (N=104) to systematically compare the impact of various design strategies for communicating factuality and source attribution on participants' ratings of trust, preferences, and ease in validating response accuracy. Our findings reveal that participants preferred a design in which phrases within a response were color-coded based on the computed factuality scores. Additionally, participants increased their trust ratings when relevant sections of the source material were highlighted or responses were annotated with reference numbers corresponding to those sources, compared to when they received no annotation in the source material. Our study offers practical design guidelines to facilitate human-LLM collaboration and it promotes a new human role to carefully evaluate and take responsibility for their use of LLM outputs.
- Abstract(参考訳): 人間は大規模言語モデル(LLM)にますます依存するが、不正確な情報や偽の情報("hallucinations"としても知られる)を発生させる可能性がある。
モデル応答の事実性を評価し、それらの応答のセクションを特定のソース文書に関連付けることによって、幻覚コンテンツを検出するアルゴリズムで技術的進歩がなされている。
しかし, LLMに対する信頼度を適切に調整する上で, 利用者に効果的に情報を伝える方法については, 限定的な研究がなされている。
この課題に対処するため,我々は,事実性や情報源の属性を伝達する様々なデザイン戦略が参加者の信頼度,嗜好,応答精度の検証に与える影響を体系的に比較するシナリオベース研究(N=104)を行った。
実験の結果,回答に含まれるフレーズを実感スコアに基づいて色分けしたデザインが好まれていた。
さらに,資料の関連部分が強調表示された場合や,それらの資料に対応する基準番号が付加された場合の信頼度は,資料に注釈が記載されていない場合と比較して上昇した。
本研究は、人間とLLMのコラボレーションを促進するための実用的な設計ガイドラインを提供し、LLM出力の使用を慎重に評価し、責任を負う新しい人間の役割を促進する。
関連論文リスト
- Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。
文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。
その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T08:55:49Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。