論文の概要: AI Steerability 360: A Toolkit for Steering Large Language Models
- arxiv url: http://arxiv.org/abs/2603.07837v1
- Date: Sun, 08 Mar 2026 22:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.316118
- Title: AI Steerability 360: A Toolkit for Steering Large Language Models
- Title(参考訳): AI Steerability 360: 大規模言語モデルをステアリングするためのツールキット
- Authors: Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney,
- Abstract要約: AI Steerability 360ツールキットは、LLMをステアリングするためのオープンソースのPythonライブラリである。
ツールキットはHugging Faceネイティブで、Apache 2.0ライセンスでリリースされている。
- 参考スコア(独自算出の注目度): 33.671137968302375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AI Steerability 360 toolkit is an extensible, open-source Python library for steering LLMs. Steering abstractions are designed around four model control surfaces: input (modification of the prompt), structural (modification of the model's weights or architecture), state (modification of the model's activations and attentions), and output (modification of the decoding or generation process). Steering methods exert control on the model through a common interface, termed a steering pipeline, which additionally allows for the composition of multiple steering methods. Comprehensive evaluation and comparison of steering methods/pipelines is facilitated by use case classes (for defining tasks) and a benchmark class (for performance comparison on a given task). The functionality provided by the toolkit significantly lowers the barrier to developing and comprehensively evaluating steering methods. The toolkit is Hugging Face native and is released under an Apache 2.0 license at https://github.com/IBM/AISteer360.
- Abstract(参考訳): AI Steerability 360ツールキットは、LLMをステアリングするための拡張可能なオープンソースのPythonライブラリである。
ステアリング抽象化は、入力(プロンプトの修正)、構造(モデルの重みやアーキテクチャの修正)、状態(モデルのアクティベーションとアテンションの修正)、出力(復号または生成プロセスの修正)の4つのモデル制御面を中心に設計されている。
ステアリング法は、複数のステアリング法の合成を可能にするステアリングパイプラインと呼ばれる共通のインタフェースを通じてモデルを制御する。
ステアリングメソッド/パイプラインの総合的な評価と比較は、ユースケースクラス(タスクを定義するために)とベンチマーククラス(与えられたタスクのパフォーマンス比較のために)によって容易になる。
このツールキットによって提供される機能は、ステアリング手法の開発と総合的な評価に対する障壁を著しく低下させる。
ツールキットはHugging Faceネイティブで、https://github.com/IBM/AISteer360でApache 2.0ライセンスでリリースされている。
関連論文リスト
- EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - HyperSteer: Activation Steering at Scale with Hypernetworks [25.6004576064897]
HyperSteerは、自然言語のステアリングプロンプトに条件付きステアリングベクトルを生成するために、エンドツーエンドでトレーニングされたハイパーネットワークベースのアーキテクチャのファミリーである。
何千ものステアリングプロンプトによるHyperSteerのスケーリングは、最先端のアクティベーションステアリング手法の性能を上回ることを示す。
論文 参考訳(メタデータ) (2025-06-03T18:32:01Z) - EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models [57.38572900217647]
EasyEdit2は、LLM(Large Language Model)の動作を制御するためのプラグインとプレイを可能にするために設計されたフレームワークである。
EasyEdit2は、シームレスなモデルステアリング用に特別に設計された新しいアーキテクチャを備えている。
EasyEdit2の主な利点の1つは、ユーザによる使いやすさが、広範な技術知識を必要としないことである。
論文 参考訳(メタデータ) (2025-04-21T14:33:55Z) - Effectively Steer LLM To Follow Preference via Building Confident Directions [39.40603123075168]
本稿では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,LDMの活性化を制御できる確実な方向ステアリング法(CONFST)を提案する。
このアプローチは、一般的な双方向モデルステアリング方法に対して、3つの大きな利点を提供します。
論文 参考訳(メタデータ) (2025-03-04T20:32:27Z) - Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。
スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。
Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-17T02:55:23Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。