Fugu-MT 論文翻訳(概要): Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

論文の概要: Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains

arxiv url: http://arxiv.org/abs/2605.19940v1
Date: Tue, 19 May 2026 15:00:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.452656
Title: Robotics-Inspired Guardrails for Foundation Models in Socially Sensitive Domains
Title（参考訳）: 社会感性ドメインにおける基礎モデルのためのロボティクスにインスパイアされたガードレール
Authors: Rebecca Ramnauth, Drazen Brscic, Brian Scassellati,
Abstract要約: 既存のガードレールアプローチは、強制的な行動保証よりも経験的なリスク低減を提供する。我々は、相互作用軌跡に対する実行時の動作制御の問題としてガードレールを再構成した。我々は、これらのアイデアを3つの実世界の展開に適用する:小規模講演、家庭内自閉症治療、学校における行動脱エスカレーション。
参考スコア（独自算出の注目度）: 1.3190581566723918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models are increasingly deployed in socially sensitive domains such as education, mental health, and caregiving, where failures are often cumulative and context-dependent. Existing guardrail approaches -- ranging from training-time alignment to prompting, decoding constraints, and post-hoc moderation -- primarily provide empirical risk reduction rather than enforceable behavioral guarantees, and largely treat safety as a property of individual outputs rather than interaction trajectories. We reframe guardrails as a problem of runtime behavioral control over interaction trajectories, drawing on robotics to introduce formal constructs for constraint enforcement in uncertain, closed-loop systems. We instantiate these ideas in the Grounded Observer framework and apply it across three real-world deployments: small talk, in-home autism therapy, and behavioral de-escalation in schools. Across settings, the framework enables runtime interventions that mitigate drift into undesirable interaction regimes while adapting to diverse social contexts. We discuss extensions to the framework and propose research directions toward stronger guarantees.
Abstract（参考訳）: ファンデーションモデルは、教育、メンタルヘルス、介護といった社会的に敏感な領域に展開され、失敗はしばしば累積的かつ文脈に依存している。既存のガードレールアプローチ - トレーニング時間アライメントから、プロンプト、デコード制約、ポストホックのモデレーションまで - は、主に強制可能な行動保証よりも経験的なリスク低減を提供する。我々は,不確実なクローズドループシステムにおける制約執行のための形式的構成を導入するために,ロボット工学を参考に,相互作用軌跡に対する実行時の動作制御の問題としてガードレールを再構成した。我々は、これらのアイデアをGrounded Observerフレームワークでインスタンス化し、それを3つの現実世界の展開に適用する。設定全体にわたって、このフレームワークは実行時の介入を可能にし、さまざまな社会的コンテキストに適応しながら、望ましくない相互作用体制へのドリフトを緩和する。フレームワークの拡張について議論し、より強力な保証に向けた研究の方向性を提案する。

関連論文リスト

Interaction-Breaking Adversarial Learning Framework for Robust Multi-Agent Reinforcement Learning [8.730052972910157]
協調はマルチエージェント強化学習(MARL)の中心である本稿では,協調を阻害する攻撃を構築するために,情報理論的な視点を取り入れた対話破りの逆学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-05-18T08:14:38Z)
Learning Reactive Dexterous Grasping via Hierarchical Task-Space RL Planning and Joint-Space QP Control [50.28263951510334]
本稿では,リアクティブなデクスタリーグルーピングのためのハイブリッド階層型制御フレームワークを提案する。提案手法は,低レベル共同実行から高レベル空間意図を明示的に分離する。我々は厳密なシミュレーションと現実のパイプラインを通して提案したフレームワークを広範囲に検証する。
論文参考訳（メタデータ） (2026-05-05T04:49:38Z)
State-Dependent Safety Failures in Multi-Turn Language Model Interaction [70.52906620450847]
我々は、状態空間の観点から安全性障害を研究し、多くのマルチターン障害が構造化状態の進化から生じることを示す。本稿では,対話履歴を状態遷移演算子として扱う状態指向診断フレームワークSTARを紹介する。静的な評価の下で頑健なように見えるシステムは、構造化されたマルチターン相互作用の下で、迅速かつ再現可能な安全破壊を受けることができる。
論文参考訳（メタデータ） (2026-03-15T12:13:01Z)
VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments [19.811711277536187]
マルチロボット探索は通常、フロンティア割り当てをローカルナビゲーションから切り離す。 VORL-EXPLOREは,この制約に対処するハイブリッド学習・計画フレームワークである。また、グローバルA*ガイダンスとリアクティブ強化学習ポリシーとの間のリスク対応適応的仲裁機構も推進している。
論文参考訳（メタデータ） (2026-03-09T05:20:33Z)
Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。 ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文参考訳（メタデータ） (2025-10-06T14:48:39Z)
Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。 textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。 SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文参考訳（メタデータ） (2025-09-24T13:27:35Z)
A Grounded Observer Framework for Establishing Guardrails for Foundation Models in Socially Sensitive Domains [1.9116784879310025]
基礎モデルの複雑さを考えると、エージェントの振る舞いを制約する従来の手法は直接適用できない。本稿では,行動保証とリアルタイム変動性の両方を提供する基礎モデルの挙動を制約する基盤となるオブザーバフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T22:57:05Z)
Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-27T14:47:52Z)
Congestion-aware Multi-agent Trajectory Prediction for Collision Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文参考訳（メタデータ） (2021-03-26T02:42:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。