論文の概要: SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics
- arxiv url: http://arxiv.org/abs/2604.16358v1
- Date: Wed, 18 Mar 2026 09:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.923617
- Title: SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics
- Title(参考訳): SaFeR-Steer: 合成ブートストラップとフィードバックダイナミクスによるマルチターンMLLMの進化
- Authors: Haolong Hu, Hanyu Li, Tiancheng He, Huahui Yi, An Zhang, Qiankun Li, Kun Wang, Yang Liu, Zhigang Zeng,
- Abstract要約: SaFeR-Steerはプログレッシブなマルチターンアライメントフレームワークである。
ステージ化されたブートストラップとチューター・イン・ザ・ループのGRPOを組み合わせることで、適応的でオン・ポリティクスな攻撃の下で1人の学生を訓練する。
STEERはSTEER-SFT (12,934), STEER-RL (2,000), STEER-Bench (3,227) ダイアログを210ターンに分散したマルチターンマルチモーダル安全データセットである。
- 参考スコア(独自算出の注目度): 47.27769702884728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MLLMs are increasingly deployed in multi-turn settings, where attackers can escalate unsafe intent through the evolving visual-text history and exploit long-context safety decay. Yet safety alignment is still dominated by single-turn data and fixed-template dialogues, leaving a mismatch between training and deployment.To bridge this gap, we propose SaFeR-Steer, a progressive multi-turn alignment framework that combines staged synthetic bootstrapping with tutor-in-the-loop GRPO to train a single student under adaptive, on-policy attacks. We also introduce TCSR, which uses trajectory minimum/average safety to propagate late-turn failures to earlier turns.I. Dataset. We release STEER, a multi-turn multimodal safety dataset with STEER-SFT (12,934), STEER-RL (2,000), and STEER-Bench (3,227) dialogues spanning 2~10 turns.II. Experiment. Starting from Qwen2.5-VL-3B/7B, SaFeR-Steer substantially improves Safety/Helpfulness on both single-turn (48.30/45.86 -> 81.84/70.77 for 3B; 56.21/60.32 -> 87.89/77.40 for 7B) and multi-turn benchmarks (12.55/27.13 -> 55.58/70.27 for 3B; 24.66/46.48 -> 64.89/72.35 for 7B), shifting failures to later turns and yielding robustness beyond scaling alone.Codes are available at https://github.com/Ed-Bg/SaFeR-Steer
- Abstract(参考訳): MLLMはマルチターン設定にますますデプロイされ、攻撃者は進化するビジュアルテキスト履歴を通じて安全でない意図をエスカレートし、長いコンテキストの安全性を損なうことができる。
しかし、このギャップを埋めるために、ステージ化された合成ブートストラップとチューター・イン・ザ・ループGRPOを組み合わせたプログレッシブなマルチターンアライメントフレームワークであるSaFeR-Steerを提案する。
また、TSRを導入し、軌道最小/平均安全を利用して、深夜の故障を早期のターンIに伝播させる。
データセット。
STEERはSTEER-SFT (12,934), STEER-RL (2,000), STEER-Bench (3,227) ダイアログを2~10ターンに分散したマルチターンマルチモーダル安全データセットである。
実験。
Qwen2.5-VL-3B/7B 以降、SaFeR-Steer はシングルターン (48.30/45.86 -> 81.84/70.77 for 3B; 56.21/60.32 -> 87.89/77.40 for 7B) とマルチターンベンチマーク (12.55/27.13 -> 55.58/70.27 for 3B; 24.66/46.48 -> 64.89/72.35 for 7B) の両方において、安全性/ヘルパフルネスを大幅に改善し、後にスケール以外の堅牢性を獲得している。
関連論文リスト
- ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - Rotated Robustness: A Training-Free Defense against Bit-Flip Attacks on Large Language Models [3.199466551704077]
ハードウェアの欠陥、特に量子化重みのビットフリップは、大規模言語モデル(LLM)に深刻な信頼性の脅威をもたらす
本稿では,家事変換を利用した無訓練防衛法であるRotated Robustness (RoR)を提案する。
RoRは真の堅牢性を実現し、実用的で信頼性の高いLLMデプロイメントを提供する。
論文 参考訳(メタデータ) (2026-03-17T11:11:17Z) - SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - Multi-Scenario Highway Lane-Change Intention Prediction: A Temporal Physics-Informed Multi-Modal Framework [7.719990052862356]
車線変更意図予測は、自動運転とADASにとって安全に欠かせないものである。
本稿では,物理に着想を得たインタラクションキューと深部時間表現を融合するハイブリッドフレームワークであるTPI-AIを提案する。
TPI-AIはスタンドアローンのLightGBMとBi-LSTMベースラインより優れており、マクロF1は0.9562、0.9124、0.8345、ハイDは0.9247、0.8197、0.7605、T = 1, 2, 3 sである。
論文 参考訳(メタデータ) (2025-12-30T08:36:35Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。