論文の概要: Controllable Reasoning Models Are Private Thinkers
- arxiv url: http://arxiv.org/abs/2602.24210v1
- Date: Fri, 27 Feb 2026 17:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.540214
- Title: Controllable Reasoning Models Are Private Thinkers
- Title(参考訳): 制御可能な推論モデルはプライベートな思考者である
- Authors: Haritz Puerto, Haonan Li, Xudong Han, Timothy Baldwin, Iryna Gurevych,
- Abstract要約: 我々は,最終回答だけでなく,トレースの推論においても指示に従うためのトレーニングモデルを提案する。
推論トレースを明示的に制限した命令追従データセット上でモデルを微調整する。
その結果,推論モデルにおける指示追従行動の改善は,プライバシーを著しく向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 74.40231123523115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI agents powered by reasoning models require access to sensitive user data. However, their reasoning traces are difficult to control, which can result in the unintended leakage of private information to external parties. We propose training models to follow instructions not only in the final answer, but also in reasoning traces, potentially under different constraints. We hypothesize that improving their instruction following abilities in the reasoning traces can improve their privacy-preservation skills. To demonstrate this, we fine-tune models on a new instruction-following dataset with explicit restrictions on reasoning traces. We further introduce a generation strategy that decouples reasoning and answer generation using separate LoRA adapters. We evaluate our approach on six models from two model families, ranging from 1.7B to 14B parameters, across two instruction-following benchmarks and two privacy benchmarks. Our method yields substantial improvements, achieving gains of up to 20.9 points in instruction-following performance and up to 51.9 percentage points on privacy benchmarks. These improvements, however, can come at the cost of task utility, due to the trade-off between reasoning performance and instruction-following abilities. Overall, our results show that improving instruction-following behavior in reasoning models can significantly enhance privacy, suggesting a promising direction for the development of future privacy-aware agents. Our code and data are available at https://github.com/UKPLab/arxiv2026-controllable-reasoning-models
- Abstract(参考訳): 推論モデルを利用したAIエージェントは、機密性の高いユーザデータにアクセスする必要がある。
しかし、それらの推論トレースは制御が難しいため、意図しない個人情報の外部への漏洩につながる可能性がある。
最終回答だけでなく,潜在的に異なる制約下でのトレースの推論においても,指示に従うためのトレーニングモデルを提案する。
推論トレースにおける学習能力の向上は,プライバシ保護能力の向上につながると仮定する。
これを示すために、推論トレースを明示的に制限した新しい命令追従データセット上で、モデルを微調整する。
さらに、別個のLoRAアダプタを用いて推論と解答を分離する生成戦略を導入する。
我々は、2つのモデルファミリから1.7Bから14Bパラメータまでの6つのモデルに対するアプローチを、2つの命令フォローベンチマークと2つのプライバシベンチマークで評価した。
提案手法では,命令追従性能が最大20.9ポイント,プライバシベンチマークが最大51.9%向上した。
しかしこれらの改善は、推論性能と命令追従能力のトレードオフのため、タスクユーティリティーのコストがかかる可能性がある。
全体として,推論モデルにおける指示追従行動の改善は,プライバシーを著しく向上させ,将来のプライバシ対応エージェントの開発に有望な方向性を示唆している。
私たちのコードとデータはhttps://github.com/UKPLab/arxiv2026-controllable-reasoning-modelsで利用可能です。
関連論文リスト
- Self-Supervised Bootstrapping of Action-Predictive Embodied Reasoning [22.45731787625021]
Embodied Chain-of-Thought (CoT)推論はビジョン・ランゲージ・アクション(VLA)モデルを大幅に強化した。
現在のメソッドは推論プリミティブを指定するために厳格なテンプレートに依存している。
R&B-EnCoReを導入し、インターネット規模の知識から具体的推論のブートストラップを可能にする。
論文 参考訳(メタデータ) (2026-02-09T00:10:17Z) - A Positive Case for Faithfulness: LLM Self-Explanations Help Predict Model Behavior [11.616524876789624]
LLMの自己説明は、しばしばAI監視のための有望なツールとして提示されるが、モデルの真の推論プロセスへの忠実さは理解されていない。
モデル決定基準の学習を忠実な説明で行うべきだという考え方に基づく指標である正規化シミュラタゲインビリティ(NSG)を紹介する。
自己説明はモデル行動の予測を大幅に改善する(11-37% NSG)。
論文 参考訳(メタデータ) (2026-02-02T18:54:51Z) - When Actions Teach You to Think: Reasoning-Action Synergy via Reinforcement Learning in Conversational Agents [2.689316553293938]
Supervised Fine-tuning (SFT) は、下流タスクにおける大規模言語モデル(LLM)の性能を改善する最も効果的な方法の1つである。
本稿では,LLMがツールの呼び出しと対話エージェントの応答生成の両方を導く推論ステップを生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-12T04:44:40Z) - UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following [37.69688837528397]
推論モデルは複雑な問題解決に優れるが、推論能力とそれに続く命令の間のトレードオフを示す。
本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:48:59Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - ARMOR: Shielding Unlearnable Examples against Data Augmentation [25.289775916629505]
我々は、データ拡張の潜在的な侵害からデータプライバシを保護するためのフレームワークARMORを提案する。
ARMORは、強化された保護されたサンプルでトレーニングされたモデルのテスト精度を、ベースラインよりも60%以上削減する。
論文 参考訳(メタデータ) (2025-01-15T15:22:57Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。