Fugu-MT 論文翻訳(概要): Dishonesty in Helpful and Harmless Alignment

論文の概要: Dishonesty in Helpful and Harmless Alignment

arxiv url: http://arxiv.org/abs/2406.01931v2
Date: Wed, 5 Jun 2024 07:21:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 11:48:58.012716
Title: Dishonesty in Helpful and Harmless Alignment
Title（参考訳）: 不名誉と無害なアライメント
Authors: Youcheng Huang, Jingkun Tang, Duanyu Feng, Zheng Zhang, Wenqiang Lei, Jiancheng Lv, Anthony G. Cohn,
Abstract要約: 大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。
参考スコア（独自算出の注目度）: 26.123327022999124
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: People tell lies when seeking rewards. Large language models (LLMs) are aligned to human values with reinforcement learning where they get rewards if they satisfy human preference. We find that this also induces dishonesty in helpful and harmless alignment where LLMs tell lies in generating harmless responses. Using the latest interpreting tools, we detect dishonesty, show how LLMs can be harmful if their honesty is increased, and analyze such conflicts at the parameter-level. Given these preliminaries and the hypothesis that reward-seeking stimulates dishonesty, we theoretically show that the dishonesty can in-turn decrease the alignment performances and augment reward-seeking alignment with representation regularization. Extensive results, including GPT-4 annotated win-rates, perplexities, and cases studies demonstrate that we can train more honest, helpful, and harmless LLMs. We will make all our codes and results be open-sourced upon this paper's acceptance.
Abstract（参考訳）: 人々は報酬を求めるときに嘘をつく。大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。最新の解釈ツールを用いて、不完全性を検出し、誠実さを増すとLLMが有害であることを示すとともに、パラメータレベルでの矛盾を分析する。これらの前提条件と報酬探索が不当さを刺激する仮説を考えると、不当さはアライメント性能を低下させ、報酬探索のアライメントを表現規則化とともに増大させることができることが理論的に示される。 GPT-4アノテートウインレート、パープレキシティ、ケーススタディを含む広範囲な結果から、より正直で、役に立つ、無害なLDMを訓練できることが示される。私たちは、この論文の受理に基づいて、すべてのコードと結果をオープンソースにします。

関連論文リスト

Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文参考訳（メタデータ） (2025-07-10T07:11:57Z)
But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors [0.0]
モデルからより正直な応答を引き出すために、単一のサンプルで訓練されたステアリングベクトルを利用する新しいフレームワークであるJUSSA(Jice Using Safety-Steered Alternatives)を導入する。 JUSSAにより、LLMの判断者は、不正直な反応と良心的な反応を区別し、微妙な操作行動の事例を特定することができる。
論文参考訳（メタデータ） (2025-05-23T11:34:02Z)
The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems [22.458311369795112]
正直性を直接測定する大規模人選データセットを提案する。より大規模なモデルは我々のベンチマークで高い精度を得るが、より正直になることはない。表現工学的介入のような単純な手法は、誠実さを向上させることができる。
論文参考訳（メタデータ） (2025-03-05T18:59:23Z)
Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文参考訳（メタデータ） (2025-02-17T16:10:30Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task? [1.4936946857731093]
SCALPEL -- LLMが失敗する理由に関するさまざまな仮説をテストするために、刺激を段階的に修正するテクニックを導入します。以上の結果から,LLMは本質的な常識推論を行なわなかったため,よくうまくいかないことが示唆された。現代のLLMは単なるパターンマッチングを超えてはいるものの、頑健な人間のようなToMには相変わらず不足していると結論付けている。
論文参考訳（メタデータ） (2024-06-20T21:02:30Z)
BeHonest: Benchmarking Honesty in Large Language Models [23.192389530727713]
我々は、大規模言語モデルにおける誠実さを評価するために特別に設計された、先駆的なベンチマークであるBeHonestを紹介する。 BeHonest氏は、知識境界の認識、偽造の回避、応答の一貫性の3つの重要な側面を評価している。以上の結果から,LSMの正直性には改善の余地がまだ残っていることが示唆された。
論文参考訳（メタデータ） (2024-06-19T06:46:59Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
Is Factuality Enhancement a Free Lunch For LLMs? Better Factuality Can Lead to Worse Context-Faithfulness [39.74642729786543]
我々は、現在の事実性向上手法は、大規模言語モデル(LLM)の文脈忠実性を著しく損なう可能性があると論じている。実験の結果、これらの手法は事実の正確性に矛盾する改善をもたらす可能性があるが、文脈不信感の低下も引き起こすことが明らかとなった。
論文参考訳（メタデータ） (2024-03-30T02:08:28Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
How do Large Language Models Navigate Conflicts between Honesty and Helpfulness? [14.706111954807021]
人間の振る舞いを特徴付けるための心理モデルと実験を用いて、大きな言語モデルを分析する。人間のフィードバックからの強化学習は、誠実さと有用性の両方を改善している。 GPT-4 Turboは、会話のフレーミングやリスナーの判断コンテキストに対する感度を含む人間的な応答パターンを実証する。
論文参考訳（メタデータ） (2024-02-11T19:13:26Z)
Alignment for Honesty [105.72465407518325]
最近の研究は、大きな言語モデル(LLM)を有用性と無害性と整合させることに大きく貢献している。本稿は,LLMが知識の欠如に積極的に回答を拒むことを確実にする,エンフォネストリーにおけるアライメントの重要性を論じる。これらの課題に対処するために、まずは正確な問題定義を確立し、儒教の分析に触発された「誠実さ」を定義します。
論文参考訳（メタデータ） (2023-12-12T06:10:42Z)
Localizing Lying in Llama: Understanding Instructed Dishonesty on True-False Questions Through Prompting, Probing, and Patching [0.0]
大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
論文参考訳（メタデータ） (2023-11-25T22:41:23Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文参考訳（メタデータ） (2023-10-13T16:12:57Z)
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文参考訳（メタデータ） (2023-04-06T17:59:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。