論文の概要: Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control
- arxiv url: http://arxiv.org/abs/2411.02461v1
- Date: Mon, 04 Nov 2024 08:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:40.629750
- Title: Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control
- Title(参考訳): スパース活性化制御によるLCMの複数次元信頼度向上
- Authors: Yuxin Xiao, Chaoqun Wan, Yonggang Zhang, Wenxiao Wang, Binbin Lin, Xiaofei He, Xu Shen, Jieping Ye,
- Abstract要約: 大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
- 参考スコア(独自算出の注目度): 44.326363467045496
- License:
- Abstract: As the development and application of Large Language Models (LLMs) continue to advance rapidly, enhancing their trustworthiness and aligning them with human preferences has become a critical area of research. Traditional methods rely heavily on extensive data for Reinforcement Learning from Human Feedback (RLHF), but representation engineering offers a new, training-free approach. This technique leverages semantic features to control the representation of LLM's intermediate hidden states, enabling the model to meet specific requirements such as increased honesty or heightened safety awareness. However, a significant challenge arises when attempting to fulfill multiple requirements simultaneously. It proves difficult to encode various semantic contents, like honesty and safety, into a singular semantic feature, restricting its practicality. In this work, we address this issue through ``Sparse Activation Control''. By delving into the intrinsic mechanisms of LLMs, we manage to identify and pinpoint components that are closely related to specific tasks within the model, i.e., attention heads. These heads display sparse characteristics that allow for near-independent control over different tasks. Our experiments, conducted on the open-source Llama series models, have yielded encouraging results. The models were able to align with human preferences on issues of safety, factuality, and bias concurrently.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発と適用が急速に進み、信頼性を高め、人間の好みに合わせることが重要な研究領域となっている。
従来の手法は、人間フィードバックからの強化学習(RLHF)のための広範なデータに大きく依存しているが、表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を活用してLLMの中間的隠蔽状態の表現を制御し、モデルが誠実さの増大や安全意識の高揚といった特定の要求を満たすことを可能にする。
しかしながら,複数の要件を同時に満たそうとする場合には,大きな課題が発生する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難であり、その実用性を制限する。
本稿では,この問題に ``Sparse Activation Control'' を通じて対処する。
LLMの本質的なメカニズムを掘り下げることで、モデル内の特定のタスク、すなわちアテンションヘッドと密接に関連しているコンポーネントを特定し、ピンポイントする。
これらのヘッドは、異なるタスクをほぼ独立に制御できるスパース特性を示す。
オープンソースのLlamaシリーズモデルで実施した本実験は,励振効果を得た。
モデルは安全性、事実性、バイアスの問題を同時に人間の好みに合わせることができた。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。
本稿では,これらの課題に対処する新しい枠組みを提案する。
意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文 参考訳(メタデータ) (2024-05-22T17:13:49Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Privacy Preserving Prompt Engineering: A Survey [14.402638881376419]
事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。
その結果、これらのモデルのサイズは近年顕著に拡大している。
プライバシーに関する懸念は、広く使われている中で大きな障害となっている。
論文 参考訳(メタデータ) (2024-04-09T04:11:25Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Aligning Large Language Models with Human Preferences through Representation Engineering [41.81020951061438]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。