論文の概要: Focus On This, Not That! Steering LLMs with Adaptive Feature Specification
- arxiv url: http://arxiv.org/abs/2410.22944v4
- Date: Thu, 05 Jun 2025 08:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 19:24:15.912882
- Title: Focus On This, Not That! Steering LLMs with Adaptive Feature Specification
- Title(参考訳): 適応的特徴仕様によるLLMのステアリング
- Authors: Tom A. Lamb, Adam Davies, Alasdair Paren, Philip H. S. Torr, Francesco Pinto,
- Abstract要約: Focus Instruction Tuning (FIT)は、大きな言語モデルをトレーニングして、特定の機能に注目しながら、他の機能を無視して応答を条件付けする。
我々は,FITが推論時に行動のステアリングに成功したこと,(ii)コアタスク信号の増幅による堅牢性の向上,(iii)人口統計特性の抑制による社会的偏見の軽減,(iv)分布シフト下での一般化,および以前には見つからなかった焦点特徴の緩和を実証した。
- 参考スコア(独自算出の注目度): 48.27684487597968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Instruction Tuning (IT) in training large language models (LLMs), such models often leverage spurious or biased features learnt from their training data and can become misaligned, leading to undesired behaviours. While existing techniques can steer model behaviour at inference-time, they are often post-hoc and do not embed steering as an intrinsic model feature. In this work, we introduce Focus Instruction Tuning (FIT), which trains LLMs to condition their responses by focusing on specific features whilst ignoring others, leading to different behaviours based on what features are specified. Across diverse benchmarks, we demonstrate that FIT: (i) successfully steers behaviour at inference time; (ii) increases robustness by amplifying core task signals and down-weighting spurious cues; (iii) mitigates social bias by suppressing demographic attributes; and (iv) generalises under distribution shifts and to previously unseen focus features. FIT therefore offers a lightweight, intrinsic mechanism for building more robust, fair, and easily controllable LLMs.
- Abstract(参考訳): 大規模な言語モデル(LLM)のトレーニングにおいて、インストラクションチューニング(IT)の成功にもかかわらず、そのようなモデルはトレーニングデータから学習した刺激的あるいは偏りのある機能を活用することが多く、不整合になり、望ましくない振る舞いにつながる。
既存のテクニックは推論時にモデル動作をステアリングできるが、それらはしばしばポストホックであり、本質的なモデル機能としてステアリングを組み込むことはない。
本研究では,FIT(Focus Instruction Tuning)を導入し,特定の特徴を無視しながら,特定の特徴に焦点を合わせ,その応答を条件づけるようにLCMを訓練する。
さまざまなベンチマークで、FITが示されています。
(i)推論時に行動の操縦を成功させる。
(ii) コアタスク信号の増幅と低重み付けによるロバスト性の向上。
三 人口特性を抑えることにより社会的偏見を緩和すること、及び
(四)分布シフトの下で一般化し、以前は見えなかった焦点特徴を一般化する。
したがって、FITはより頑丈で公平で制御しやすいLCMを構築するための軽量で本質的なメカニズムを提供する。
関連論文リスト
- Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning [1.6114012813668932]
小言語モデル(LLM)は、精神の理論(ToM)能力の開発に苦慮している。
長いRLトレーニングは、トレーニングデータセットの統計パターンをハッキングするモデルにつながる。
これは学習された振る舞いが、真の抽象的なToM能力の獲得ではなく、狭いオーバーフィッティングの形式であることを示唆している。
論文 参考訳(メタデータ) (2025-07-21T16:47:59Z) - Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling? [19.422376032675572]
我々は,視覚抵抗モデル(VLM)に推論時間的手法が効果的に拡張するか否かを検討する。
多数決や自己検証によるベスト・オブ・N選択といったデコード戦略はVLM推論性能を向上するが、前者のような生成手法は後者のような検証手法に比べて大幅に向上することがわかった。
RL学習されたVLMには、視覚とテキストの両モードで堅牢な自己検証機能がない。
論文 参考訳(メタデータ) (2025-06-20T18:23:48Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。
平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文 参考訳(メタデータ) (2025-04-03T16:17:56Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - Task-Agnostic Guided Feature Expansion for Class-Incremental Learning [59.78858949137853]
CIL(Class-Incremental Learning)における学習システムには,学習知識を維持しながら新しい概念を学習する能力が望ましい
近年,新しいタスクのトレーニング中に旧機能を修正し,新しいタスクに新たな機能を拡張したCILでは,モデルの機能拡張が主流となっている。
本稿では,タスク間の多様な特徴の学習と伝達を促進するために,タスク非依存型特徴拡張(TagFex)というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T09:56:50Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Fresh-CL: Feature Realignment through Experts on Hypersphere in Continual Learning [3.708456605408296]
連続学習(Fresh-CL)におけるハイパーSpHereのエキスパートによる特徴認識手法を提案する。
本研究では,ETFの動的拡張を専門家の混合により提案し,様々な部分空間への適応射影を可能とし,特徴表現を向上する。
11のデータセットの実験では、最強のベースラインに比べて精度が2%向上した。
論文 参考訳(メタデータ) (2025-01-04T05:20:53Z) - Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。
CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。
本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。
このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文 参考訳(メタデータ) (2024-11-21T09:00:15Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Revisiting Unsupervised Meta-Learning: Amplifying or Compensating for
the Characteristics of Few-Shot Tasks [30.893785366366078]
我々は,限られたデータを用いて視覚認識システムを構築する,少数ショット画像分類への実践的アプローチを開発した。
基本クラスセットラベルは不要であり、識別的埋め込みは教師なしの方法でメタ学習される可能性がある。
数ショットの学習ベンチマークの実験では、従来の手法よりも4~10%のパフォーマンス差で、アプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2020-11-30T10:08:35Z) - FoCL: Feature-Oriented Continual Learning for Generative Models [9.732863584750179]
逐次到着タスクにおける分布変化へのFoCLの適応が速いことを示す。
また、モデルが忘れることに苦しむ程度を正確に評価する忘れやすさ尺度も導入する。
論文 参考訳(メタデータ) (2020-03-09T00:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。