Fugu-MT 論文翻訳(概要): TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space

論文の概要: TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space

arxiv url: http://arxiv.org/abs/2402.17811v2
Date: Wed, 5 Jun 2024 11:15:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 01:01:43.414333
Title: TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space
Title（参考訳）: TruthX: 真の空間における大規模言語モデルの編集による幻覚の軽減
Authors: Shaolei Zhang, Tian Yu, Yang Feng,
Abstract要約: 大規模言語モデル(LLM)は、正しい知識を知っていても、時に非現実的な応答を生成する。 LLMの真偽を活性化する推論時間介入手法であるTrathXを提案する。
参考スコア（独自算出の注目度）: 31.769428095250912
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) sometimes suffer from producing hallucinations, especially LLMs may generate untruthful responses despite knowing the correct knowledge. Activating the truthfulness within LLM is the key to fully unlocking LLM's knowledge potential. In this paper, we propose TruthX, an inference-time intervention method to activate the truthfulness of LLM by identifying and editing the features within LLM's internal representations that govern the truthfulness. TruthX employs an auto-encoder to map LLM's representations into semantic and truthful latent spaces respectively, and applies contrastive learning to identify a truthful editing direction within the truthful space. During inference, by editing LLM's internal representations in truthful space, TruthX effectively enhances the truthfulness of LLM. Experiments show that TruthX improves the truthfulness of 13 advanced LLMs by an average of 20% on TruthfulQA benchmark. Further analyses suggest that TruthX can control LLM to produce truthful or hallucinatory responses via editing only one vector in LLM's internal representations.
Abstract（参考訳）: 大型言語モデル (LLMs) は幻覚を生じさせることがあるが、特にLLMは正しい知識を知っていながら、不合理な反応を生じさせることがある。 LLM内での真理性の活性化は、LLMの知識ポテンシャルを完全に解き放つ鍵である。本稿では, LLMの内部表現における特徴を識別し, 編集することにより, LLMの真しさを活性化する推論時間介入手法であるTruthXを提案する。 TruthXは自動エンコーダを使用して、LLMの表現をそれぞれ意味的および真正な潜在空間にマッピングし、真正空間内の真正な編集方向を特定するために対照的な学習を適用する。推測では、LLMの内部表現を真理空間で編集することで、TruthXはLLMの真理性を効果的に強化する。 TruthfulQAベンチマークでは,TruthXは13の高度なLCMの真偽を平均20%改善することを示した。さらなる分析により、TruthXはLSMの内部表現の1つのベクトルのみを編集することで、真理または幻覚の応答を生成するためにLSMを制御できることが示唆された。

関連論文リスト

Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks [31.379237532476875]
我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
論文参考訳（メタデータ） (2025-06-01T03:55:53Z)
AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents [27.10147264744531]
マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
論文参考訳（メタデータ） (2024-09-13T17:41:12Z)
Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文参考訳（メタデータ） (2024-07-03T13:01:54Z)
Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。 LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文参考訳（メタデータ） (2024-06-22T03:32:09Z)
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文参考訳（メタデータ） (2024-05-10T11:44:05Z)
FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文参考訳（メタデータ） (2024-05-02T17:54:54Z)
Truth-Aware Context Selection: Mitigating Hallucinations of Large Language Models Being Misled by Untruthful Contexts [31.769428095250912]
大規模言語モデル(LLM)は、ユーザや知識強化ツールが提供する非現実的なコンテキストによって容易に誤解される。本稿では,入力から非現実的コンテキストを適応的に認識し,マスクするために,TACS(Trath-Aware Context Selection)を提案する。 TACSは,非現実的な文脈を効果的にフィルタリングし,誤解を招く情報を提示した場合のLLMの応答の全体的な品質を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-12T11:40:44Z)
LLM Factoscope: Uncovering LLMs' Factual Discernment through Inner States Analysis [11.712916673150245]
大規模言語モデル(LLM)は、現実と異なる出力を生成する。この現象は特に、医療相談や法的な助言といった繊細な応用に関係している。本稿では,LCMの内部状態を実測に活用した,新しいシームズネットワークベースモデルであるLCMファクトスコープを提案する。
論文参考訳（メタデータ） (2023-12-27T01:44:47Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文参考訳（メタデータ） (2023-10-08T14:26:55Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文参考訳（メタデータ） (2023-04-26T02:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。