Fugu-MT 論文翻訳(概要): Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators

論文の概要: Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators

arxiv url: http://arxiv.org/abs/2408.12325v3
Date: Fri, 13 Dec 2024 04:03:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.598818
Title: Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators
Title（参考訳）: 復号時間学習と真正比較による大規模言語モデルのファクタリティ向上
Authors: Dingkang Yang, Dongling Xiao, Jinjie Wei, Mingcheng Li, Zhaoyu Chen, Ke Li, Lihua Zhang,
Abstract要約: 大きな言語モデル(LLM)は、検証可能な事実に矛盾する応答を生成する傾向がある。応答幻覚を軽減するために,比較器駆動型復号時間(CDT)フレームワークを提案する。
参考スコア（独自算出の注目度）: 14.705475420665117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their remarkable capabilities, Large Language Models (LLMs) are prone to generate responses that contradict verifiable facts, i.e., unfaithful hallucination content. Existing efforts generally focus on optimizing model parameters or editing semantic representations, which compromise the internal factual knowledge of target LLMs. In addition, hallucinations typically exhibit multifaceted patterns in downstream tasks, limiting the model's holistic performance across tasks. In this paper, we propose a Comparator-driven Decoding-Time (CDT) framework to alleviate the response hallucination. Firstly, we construct hallucinatory and truthful comparators with multi-task fine-tuning samples. In this case, we present an instruction prototype-guided mixture of experts strategy to enhance the ability of the corresponding comparators to capture different hallucination or truthfulness patterns in distinct task instructions. CDT constrains next-token predictions to factuality-robust distributions by contrasting the logit differences between the target LLMs and these comparators. Systematic experiments on multiple downstream tasks show that our framework can significantly improve the model performance and response factuality.
Abstract（参考訳）: その顕著な能力にもかかわらず、Large Language Models (LLM) は、検証可能な事実、すなわち不信の幻覚内容に矛盾する応答を生成する傾向にある。既存の取り組みは一般的に、モデルパラメータの最適化や意味表現の編集に重点を置いている。加えて、幻覚は一般的に下流のタスクに多面的なパターンを示し、タスク全体でのモデル全体のパフォーマンスを制限する。本稿では、応答幻覚を軽減するための比較器駆動型デコード時間(CDT)フレームワークを提案する。まず,マルチタスク微調整サンプルを用いた幻覚・真理コンパレータを構築する。本稿では,異なる幻覚や真実のパターンを個別のタスク命令で捉える能力を高めるための,専門家戦略のプロトタイプとガイダンスの組み合わせを提案する。 CDTは、ターゲットのLSMとこれらのコンパレータのロジット差を対比することにより、次点の予測を事実性-ロバスト分布に制約する。複数の下流タスクに関する体系的な実験は、我々のフレームワークがモデルの性能と応答の事実性を著しく改善できることを示している。

関連論文リスト

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文参考訳（メタデータ） (2026-02-12T18:59:49Z)
Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection [5.0106565473767075]
大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。 LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
論文参考訳（メタデータ） (2025-09-03T18:52:24Z)
Towards Long Context Hallucination Detection [49.195854802543714]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。それらは文脈の幻覚に傾向があり、与えられた文脈に不一致または矛盾した情報を生成する。本稿では,BERTのような事前学習したエンコーダモデルを用いて,長期のコンテキストを処理し,文脈の幻覚を効果的に検出するアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-04-28T03:47:05Z)
A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-01T11:38:01Z)
Uncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models [2.98260857963929]
大規模言語モデル(LLM)は、ユーザの信頼を損なう可能性のある非実効的なアウトプットを幻覚し、生成することが知られている。表現編集やコントラスト復号といった幻覚を直接緩和する従来の手法は、しばしば追加のトレーニングデータを必要とし、実装の複雑さを伴います。本研究では,その精度と自己評価能力に基づいて,複数のLSMを戦略的に組み合わせて幻覚を低減するためのアンサンブルフレームワークであるUncertainty-Aware Fusion (UAF)を提案する。
論文参考訳（メタデータ） (2025-02-22T10:48:18Z)
ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models [15.156359255401812]
本稿では,大規模言語モデル(MLLM)におけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。
論文参考訳（メタデータ） (2024-09-14T05:31:29Z)
Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [44.37155553647802]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示している。時に、期待された出力と事実的に不正確な、あるいは不一致なコンテンツを生成する。近年の研究では,幻覚誘発モデルとアマチュアモデルとの対比的復号化について検討している。 LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを導入する。
論文参考訳（メタデータ） (2024-08-16T14:23:59Z)
CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文参考訳（メタデータ） (2024-06-04T03:04:21Z)
DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。 ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文参考訳（メタデータ） (2024-05-22T15:52:52Z)
Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T14:05:03Z)
Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文参考訳（メタデータ） (2024-04-17T07:20:56Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。