論文の概要: FacLens: Transferable Probe for Foreseeing Non-Factuality in Fact-Seeking Question Answering of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.05328v4
- Date: Sat, 16 Aug 2025 09:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.619592
- Title: FacLens: Transferable Probe for Foreseeing Non-Factuality in Fact-Seeking Question Answering of Large Language Models
- Title(参考訳): FacLens:Fact-Seeking Question Answering of Large Language Models
- Authors: Yanling Wang, Haoyang Li, Hao Zou, Jing Zhang, Xinlei He, Qi Li, Ke Xu,
- Abstract要約: 本研究は、非実効性予測(NFP)について研究し、LLMが応答生成に先立って非実効性応答を生成するかどうかを予測する。
ファクチュアリティレンズ (FacLens) と呼ばれる軽量なモデルを提案し, 事実探索質問の隠れ表現を効果的に探索する。
大規模な実験は、FacLensの効率性と効率性の両方における優位性を強調している。
- 参考スコア(独自算出の注目度): 34.985758097434946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advancements in large language models (LLMs), non-factual responses still persist in fact-seeking question answering. Unlike extensive studies on post-hoc detection of these responses, this work studies non-factuality prediction (NFP), predicting whether an LLM will generate a non-factual response prior to the response generation. Previous NFP methods have shown LLMs' awareness of their knowledge, but they face challenges in terms of efficiency and transferability. In this work, we propose a lightweight model named Factuality Lens (FacLens), which effectively probes hidden representations of fact-seeking questions for the NFP task. Moreover, we discover that hidden question representations sourced from different LLMs exhibit similar NFP patterns, enabling the transferability of FacLens across different LLMs to reduce development costs. Extensive experiments highlight FacLens's superiority in both effectiveness and efficiency.
- Abstract(参考訳): 大規模言語モデル (LLMs) の進歩にもかかわらず、事実を問う質問応答は依然として継続している。
これらの反応の時間後検出に関する広範な研究とは異なり、この研究は非実効性予測(NFP)を研究し、LLMが応答生成に先立って非実効性反応を生成するかどうかを予測する。
従来のNFP手法はLLMの知識に対する認識を示してきたが、効率性と伝達性の観点からは課題に直面している。
本研究では,NFP課題に対する事実探索質問の隠れ表現を効果的に探索する,FacLens(FacLens)という軽量モデルを提案する。
さらに、異なるLLMから得られた隠れ質問表現は、同様のNFPパターンを示し、異なるLLM間でFacLensを転送し、開発コストを削減できることが判明した。
大規模な実験は、FacLensの効率性と効率性の両方における優位性を強調している。
関連論文リスト
- WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。
我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文 参考訳(メタデータ) (2025-07-22T03:21:48Z) - Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める
IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。
我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Transforming Scholarly Landscapes: Influence of Large Language Models on Academic Fields beyond Computer Science [77.31665252336157]
大規模言語モデル (LLM) は自然言語処理 (NLP) において転換期を迎えた。
本研究は,NLP以外の分野におけるLLMの影響と利用について実験的に検討する。
論文 参考訳(メタデータ) (2024-09-29T01:32:35Z) - From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning [89.9648814145473]
大規模言語モデル(LLM)は、ユーザプロンプトへの順守を、妥当な応答よりも優先する傾向がある。
近年の研究では、教師付き微調整(SFT)を用いて、梅毒問題を軽減することが提案されている。
そこで本研究では,特定の目的のために関心のあるモジュールを調整した新しいピンポイントチューニング(SPT)を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:01:37Z) - Defining Boundaries: A Spectrum of Task Feasibility for Large Language Models [6.008311204104302]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示しているが、多くの場合、その知識や能力を超えるクエリを処理できない。
本稿では,LLMが能力を超えるために必要なスキルのために,実用不可能なタスクを認識し,拒否する必要性に対処する。
論文 参考訳(メタデータ) (2024-08-11T22:58:23Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study [2.7731115923558143]
大規模言語モデル (LLM) は, NLP タスクにおいて顕著な性能を示したが, 高品質な対実数 (CF) の生成における有効性はいまだ不明である。
我々は、いくつかの共通LCMを比較し、そのCFを評価し、本質的なメトリクスとこれらのCFがデータ拡張に与える影響を評価した。
その結果, LLMは流動性CFを生成するが, 誘導される変化を最小限に抑えるのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-26T11:57:21Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。