論文の概要: Bridging Distribution Shift and AI Safety: Conceptual and Methodological Synergies
- arxiv url: http://arxiv.org/abs/2505.22829v1
- Date: Wed, 28 May 2025 20:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.515666
- Title: Bridging Distribution Shift and AI Safety: Conceptual and Methodological Synergies
- Title(参考訳): ブリッジ配電シフトとAI安全性:概念と方法論のシナジー
- Authors: Chenruo Liu, Kenan Tang, Yao Qin, Qi Lei,
- Abstract要約: 本稿では,その概念的および方法論的相乗効果の包括的分析を通じて,配電シフトとAIの安全性を橋渡しする。
従来の議論では、狭いケースや非公式なアナロジーに焦点をあてることが多いが、分散シフトの特定の原因ときめ細かいAI安全性の問題との間には、2つのタイプの接続を確立する。
- 参考スコア(独自算出の注目度): 16.1537767963086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper bridges distribution shift and AI safety through a comprehensive analysis of their conceptual and methodological synergies. While prior discussions often focus on narrow cases or informal analogies, we establish two types connections between specific causes of distribution shift and fine-grained AI safety issues: (1) methods addressing a specific shift type can help achieve corresponding safety goals, or (2) certain shifts and safety issues can be formally reduced to each other, enabling mutual adaptation of their methods. Our findings provide a unified perspective that encourages fundamental integration between distribution shift and AI safety research.
- Abstract(参考訳): 本稿では,その概念的および方法論的相乗効果の包括的分析を通じて,配電シフトとAIの安全性を橋渡しする。
従来の議論では、狭いケースや非公式な類推に焦点をあてることが多いが、分布シフトの特定の原因と粒度の細かいAI安全性の問題の間には、(1)特定のシフトタイプに対処する手法が対応する安全目標を達成するのに役立つか、(2)特定のシフトと安全性の問題が互いに形式的に減少し、それぞれの方法の相互適応が可能であるかの2種類がある。
我々の発見は、分散シフトとAI安全研究の基本的な統合を促進する統一的な視点を提供する。
関連論文リスト
- Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization [47.64583975469164]
本稿では,この問題に対処するために,新しいクロスモーダルな画像テキストアライメント学習手法(Bayes-CAL)を提案する。
Bayes-CALは2次元分布シフトにおける最先端のOoD一般化性能を達成する。
CLIPのようなモデルと比較して、Bayes-CALは目に見えないクラスでより安定した一般化性能を得る。
論文 参考訳(メタデータ) (2025-04-13T06:13:37Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - AI Risk Management Should Incorporate Both Safety and Security [185.68738503122114]
AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。
我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-29T21:00:47Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Dialogue Possibilities between a Human Supervisor and UAM Air Traffic
Management: Route Alteration [0.0]
本稿では,知識表現と推論を用いた都市大気交通管理(UATM)におけるデトゥールマネージメントの新たなアプローチを提案する。
UAMデトゥールの複雑さと要求を理解することを目的としており、安全で効率的なルートを素早く識別する手法を可能にする。
論文 参考訳(メタデータ) (2023-08-11T23:01:59Z) - Safe Explicable Planning [3.3869539907606603]
安全計画(SEP:Safe Explicable Planning)を提案する。
提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
論文 参考訳(メタデータ) (2023-04-04T21:49:02Z) - Transdisciplinary AI Observatory -- Retrospective Analyses and
Future-Oriented Contradistinctions [22.968817032490996]
本稿では、本質的に学際的なAI観測アプローチの必要性を動機づける。
これらのAI観測ツールに基づいて、我々はAIの安全性に関する短期的な学際的ガイドラインを提示する。
論文 参考訳(メタデータ) (2020-11-26T16:01:49Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。