論文の概要: Toward universal steering and monitoring of AI models
- arxiv url: http://arxiv.org/abs/2502.03708v2
- Date: Wed, 28 May 2025 19:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.103046
- Title: Toward universal steering and monitoring of AI models
- Title(参考訳): AIモデルの普遍的ステアリングとモニタリングに向けて
- Authors: Daniel Beaglehole, Adityanarayanan Radhakrishnan, Enric Boix-Adserà, Mikhail Belkin,
- Abstract要約: 大規模AIモデルにおける一般概念の線形表現を抽出するためのスケーラブルなアプローチを開発する。
これらの表現がモデルステアリングを実現する方法を示します。
- 参考スコア(独自算出の注目度): 16.303681959333883
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Modern AI models contain much of human knowledge, yet understanding of their internal representation of this knowledge remains elusive. Characterizing the structure and properties of this representation will lead to improvements in model capabilities and development of effective safeguards. Building on recent advances in feature learning, we develop an effective, scalable approach for extracting linear representations of general concepts in large-scale AI models (language models, vision-language models, and reasoning models). We show how these representations enable model steering, through which we expose vulnerabilities, mitigate misaligned behaviors, and improve model capabilities. Additionally, we demonstrate that concept representations are remarkably transferable across human languages and combinable to enable multi-concept steering. Through quantitative analysis across hundreds of concepts, we find that newer, larger models are more steerable and steering can improve model capabilities beyond standard prompting. We show how concept representations are effective for monitoring misaligned content (hallucinations, toxic content). We demonstrate that predictive models built using concept representations are more accurate for monitoring misaligned content than using models that judge outputs directly. Together, our results illustrate the power of using internal representations to map the knowledge in AI models, advance AI safety, and improve model capabilities.
- Abstract(参考訳): 現代のAIモデルは人間の知識の多くを含んでいるが、その内部的な知識の理解はいまだ解明されていない。
この表現の構造と特性を特徴付けることは、モデル機能の改善と効果的な安全対策の開発につながるだろう。
機能学習の最近の進歩に基づき,大規模AIモデル(言語モデル,視覚言語モデル,推論モデル)における一般概念の線形表現を抽出する,効果的でスケーラブルなアプローチを開発した。
これらの表現がモデルステアリングをどのように可能にしているかを示し、それによって脆弱性を露呈し、不一致の振る舞いを緩和し、モデル機能を改善する。
さらに、概念表現は人間の言語間で著しく伝達可能であり、複数概念のステアリングを可能にするために結合可能であることを実証する。
数百のコンセプトを定量的に分析することで、より新しい、より大きなモデルの方がより安定し、ステアリングは標準のプロンプトを超えてモデル機能を改善することができることがわかった。
概念表現は、誤った内容(幻覚、有毒な内容)のモニタリングにどのように有効かを示す。
概念表現を用いて構築された予測モデルは, 直接出力を判断するモデルよりも, 不正なコンテンツを監視する上でより正確であることを示す。
この結果から,AIモデルにおける知識のマップ化,AI安全性の向上,モデル能力の向上に内部表現を用いることのメリットが示唆された。
関連論文リスト
- World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Activation Space Interventions Can Be Transferred Between Large Language Models [0.0]
モデル間での安全介入は、共有活性化空間の学習されたマッピングを通して伝達可能であることを示す。
このアプローチは、バックドアの除去と有害なプロンプトの拒絶という、確立された2つのAI安全タスクに対して実証する。
また、バックドアに関連付けられた知識を組み込むために、モデルに微調整を施した新しいタスク、textitcorrupted機能を提案する。
論文 参考訳(メタデータ) (2025-03-06T13:38:44Z) - Refine Knowledge of Large Language Models via Adaptive Contrastive Learning [54.61213933999464]
方法の主流は、大規模言語モデルの知識表現を最適化することで幻覚を減らすことである。
知識を精錬するモデルのプロセスは、人間の学習方法から大きな恩恵を受けることができると私たちは信じています。
人間の学習過程を模倣することで,適応的コントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2025-02-11T02:19:13Z) - Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。
LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。
上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文 参考訳(メタデータ) (2024-06-19T21:45:20Z) - What's in an embedding? Would a rose by any embedding smell as sweet? [0.0]
大規模言語モデル(LLM)は、真の「理解」と知識を「理解」する能力に欠けるとしてしばしば批判される。
我々は, LLM が「幾何学的」な経験的「下地」を発達させ, NLP の様々な応用に適していると考えられることを示唆する。
これらの制限を克服するために、LLMはシンボリックAI要素を含む知識の「代数的」表現と統合されるべきである。
論文 参考訳(メタデータ) (2024-06-11T01:10:40Z) - Deep Learning for Robust and Explainable Models in Computer Vision [0.0]
この論文は、MLとDLを実際に使用する際の堅牢性と説明可能性の問題に対処する様々なアプローチを提示している。
この論文は、コンピュータビジョンモデルの堅牢性と説明可能性の発展を示す。
理論的発展に加えて、この論文は異なる文脈におけるMLとDLのいくつかの応用を実証している。
論文 参考訳(メタデータ) (2024-03-27T15:17:10Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Distilling Rule-based Knowledge into Large Language Models [90.7765003679106]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large
Language Models [34.43660759521586]
大規模言語モデル(LLM)は、自然言語理解および生成タスクにおいて顕著な性能を達成した。
しかし、新しい知識を取り入れることの難しさや幻覚を生じさせ、推論過程を説明するといった制限に悩まされることが多い。
本稿では,知識グラフ(KG)を利用してLLMの推論と透過性を向上する新しいプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:59:50Z) - Concept-Oriented Deep Learning with Large Language Models [0.4548998901594072]
大規模言語モデル(LLM)は、テキスト生成やAIチャットボットを含む多くの自然言語タスクやアプリケーションで成功している。
また、概念指向ディープラーニング(CODL)のための有望な新技術である。
画像からの概念抽出,画像からの概念グラフ抽出,概念学習など,CODLにおける視覚言語LLMの概念理解,最も重要なマルチモーダルLLMの活用について論じる。
論文 参考訳(メタデータ) (2023-06-29T16:47:11Z) - Towards Interpretable Deep Reinforcement Learning Models via Inverse
Reinforcement Learning [27.841725567976315]
本稿では,逆逆強化学習を利用した新しいフレームワークを提案する。
このフレームワークは、強化学習モデルによる決定のグローバルな説明を提供する。
モデルの意思決定過程を要約することで、モデルが従う直感的な傾向を捉える。
論文 参考訳(メタデータ) (2022-03-30T17:01:59Z) - Beyond Explaining: Opportunities and Challenges of XAI-Based Model
Improvement [75.00655434905417]
説明可能な人工知能(XAI)は、高度に複雑な機械学習(ML)モデルに透明性をもたらす新たな研究分野である。
本稿では,機械学習モデルの諸特性を改善するために,XAIを実用的に応用する手法を概観する。
実験では,モデル一般化能力や推論などの特性を改善する上で,説明がどのように役立つのかを,おもちゃと現実的な設定で実証的に示す。
論文 参考訳(メタデータ) (2022-03-15T15:44:28Z) - Analyzing a Caching Model [7.378507865227209]
解釈容易性は、現実世界のデプロイメントにおいて、依然として大きな障害である。
現状のキャッシュモデルを分析することで、単純な統計以上の概念を学習したことを示す。
論文 参考訳(メタデータ) (2021-12-13T19:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。