論文の概要: Building Better Activation Oracles
- arxiv url: http://arxiv.org/abs/2606.02609v1
- Date: Sat, 23 May 2026 20:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.58981
- Title: Building Better Activation Oracles
- Title(参考訳): より良いアクティベーションオラクルを構築する
- Authors: Jan Bauer, Celeste De Schamphelaere, Adam Karvonen, Niclas Luick, Neel Nanda,
- Abstract要約: アクティベーションオラクルは、残留ストリームアクティベーションを解釈するための有望な方法である。
現在のAOは幻覚や曖昧さといった重要な問題に直面している。
Activation Oracleのトレーニング体制を4つの方法で改善します。
- 参考スコア(独自算出の注目度): 9.489338929222493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation Oracles (AOs) are promising methods for interpreting residual stream activations. However, current AOs face important issues, such as hallucinations and vagueness. Additionally, text-inversion confounds make them hard to evaluate. To this end, we improve the Activation Oracle (AO) training regime in four ways: training on on-policy rollouts, improving the conversational dataset, feeding more layers and an improvement to the injection formula. The capability improvements are marginal, but quality of life improvements are quite substantial. In addition, we open source the first comprehensive evaluation suite for AO quality, which we call AObench. Overall, we hope that our work sets a foundation that helps improve AOs and other models in the paradigm of scalable, end-to-end interpretability.
- Abstract(参考訳): Activation Oracles (AOs) は、残留ストリームのアクティベーションを解釈するための有望な方法である。
しかし、現在のAOは幻覚や曖昧さといった重要な問題に直面している。
さらに、テキスト・インバージョン・コンファウンドは評価が難しい。
この目的のために、私たちはActivation Oracle(AO)トレーニング体制を、オンプレミスのロールアウトでのトレーニング、会話データセットの改善、より多くのレイヤの供給、インジェクション公式の改善の4つの方法で改善しています。
能力改善には限界があるが、生活改善の質は非常に高い。
さらに、我々はAO品質に関する初の総合的な評価スイートをオープンソース化しました。
全体として、当社の作業は、スケーラブルでエンドツーエンドの解釈可能性というパラダイムにおいて、AOやその他のモデルを改善するための基盤を定めていることを願っています。
関連論文リスト
- Skill-Aligned Annotation for Reliable Evaluation in Text-to-Image Generation [50.85337196571056]
テキスト・ツー・イメージ(T2I)生成は急速に進歩し、モデル間の性能差が狭まるにつれて信頼性の高い評価が重要になった。
既存の評価慣行は、通常、Likert-scale や binary question answering (BQA) のような一様アノテーション機構を適用している。
我々は,T2I評価を,各評価スキルの根底にある特徴を反映したアノテーション戦略のレンズを通して再検討する。
論文 参考訳(メタデータ) (2026-05-13T09:14:31Z) - Spectral Imbalance Causes Forgetting in Low-Rank Continual Adaptation [58.3773038915023]
継続的な学習は、事前訓練されたモデルを、以前取得した知識を忘れずにシーケンシャルなタスクに適応することを目的としている。
既存のほとんどのアプローチは、現在のタスク固有の更新が以前取得した知識を自然に保存するプロパティを考慮せずに、継続的な学習を過去の更新への干渉を避けるものとして扱う。
本稿では,視覚言語モデルで使用される標準深度ドットと互換性のある一階述語法を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2026-01-31T13:27:02Z) - Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers [10.70026676953023]
大きな言語モデル(LLM)のアクティベーションを理解するのは非常に難しい。
最近の研究で、LatentQAとして知られるシンプルなアプローチが提案されている。
我々は、LatentQA学習モデルについて、分布外設定で評価する。
論文 参考訳(メタデータ) (2025-12-17T18:26:28Z) - AlphaPO: Reward Shape Matters for LLM Alignment [8.753297661521007]
textbfAlphaPOは、標準的なログ報酬以外の報酬関数の形状を変えるのに役立つ新しいDAAである。
最高のパフォーマンスを持つDAAの1つであるSimPOと比較して、AlphaPOはアライメント性能が7%から10%向上した。
論文 参考訳(メタデータ) (2025-01-07T15:46:42Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。
テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。
本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。
提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-09-25T20:59:33Z) - Measured Albedo in the Wild: Filling the Gap in Intrinsics Evaluation [11.237916755616165]
固有画像分解と逆レンダリングは、コンピュータビジョンにおける長年の課題である。
アルベドの回収を評価するため、ほとんどのアルゴリズムは平均的ヒト診断率(W)で定量的な性能を報告している。
We propose three new metrics that complement W: intensity, chromaticity and texture metrics。
論文 参考訳(メタデータ) (2023-06-27T17:55:33Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。