Fugu-MT 論文翻訳(概要): Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

論文の概要: Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

arxiv url: http://arxiv.org/abs/2605.07649v1
Date: Fri, 08 May 2026 12:17:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.035015
Title: Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models
Title（参考訳）: 操作設計領域内での動作:視覚言語モデルによるゼロショット知覚
Authors: Berkehan Ünal, Dierend Hauke, Fazlija Dren, Plachetka Christopher,
Abstract要約: 視覚言語モデル(VLM)は視覚認識と言語推論を統合し、タスク固有のトレーニングデータなしで機能する。本研究は, 安全クリティカルなアプリケーションにおいて, 透過的かつ効果的なODDに基づく認識の道を開くものである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over the last few years, research on autonomous systems has matured to such a degree that the field is increasingly well-positioned to translate research into practical, stakeholder-driven use cases across well-defined domains. However, for a wide-scale practical adoption of autonomous systems, adherence to safety regulations is crucial. Many regulations are influenced by the Operational Design Domain (ODD), which defines the specific conditions in which an autonomous agent can function. This is especially relevant for Automated Driving Systems (ADS), as a dependable perception of ODD elements is essential for safe implementation and auditing. Vision-language models (VLMs) integrate visual recognition and language reasoning, functioning without task-specific training data, which makes them suitable for adaptable ODD perception. To assess whether VLMs can function as zero-shot "ODD sensors" that adapt to evolving definitions, we contribute (i) an empirical study of zero-shot ODD classification and detection using four VLMs on a custom dataset and Mapillary Vistas, along with failure analyses; (ii) an ablation of zero-shot optimization strategies with a cost-performance overview; and (iii) a suite of reusable prompting templates with guidance for adaptation. Our findings indicate that definition-anchored chain-of-thought prompting with persona decomposition performs best, while other methods may result in reduced recall. Overall, our results pave the way for transparent and effective ODD-based perception in safety-critical applications.
Abstract（参考訳）: ここ数年、自律システムの研究は成熟していき、研究分野はより適切に位置づけられ、明確に定義されたドメインにわたる実践的でステークホルダー主導のユースケースに変換されるようになっている。しかし、大規模に自律システムを採用するためには、安全規制の遵守が不可欠である。多くの規制は、自律エージェントが機能する特定の条件を定義するオペレーショナルデザインドメイン(ODD)の影響を受けている。これは自動運転システム(ADS)にとって特に重要であり、ODD要素に対する信頼性の高い認識は安全な実装と監査に不可欠である。視覚言語モデル(VLM)は、視覚認識と言語推論を統合し、タスク固有のトレーニングデータなしで機能する。 VLMが進化する定義に適応するゼロショット「ODDセンサー」として機能するかどうかを評価するために,我々は貢献する。 i) カスタムデータセット上の4つのVLMとMapillary Vistasを用いたゼロショットORD分類と検出に関する実証的研究及び故障解析 (二コストパフォーマンス概要によるゼロショット最適化戦略のアブレーション (iii)再利用可能なテンプレートと適応のためのガイダンスのスイート。以上の結果から,ペルソナ分解を促進させる定義アンコールチェーンは,他の手法ではリコールが減少する可能性が示唆された。全体として、安全クリティカルなアプリケーションにおいて、ODDをベースとした透過的かつ効果的な認識の道を開いた。

関連論文リスト

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文参考訳（メタデータ） (2026-03-05T13:14:41Z)
Claim Automation using Large Language Model [0.0]
LLM(Large Language Models)は汎用言語タスクにおいて高いパフォーマンスを達成しているが、規制やデータに敏感なドメインへの展開は依然として限られている。本稿では,非構造化クレームの物語から構造化された修正-アクションレコメンデーションを生成する,ガバナンス対応言語モデリングコンポーネントを提案する。我々は,Low-Rank Adaptation (LoRA) を用いて事前学習LLMを微調整し,クレーム処理パイプライン内の初期決定モジュールにモデルをスコーピングし,クレーム調整者の判断を高速化する。
論文参考訳（メタデータ） (2026-02-18T20:01:12Z)
LHAW: Controllable Underspecification for Long-Horizon Tasks [8.46227536869596]
LHAW(Long-Horizon Augmenteds)は、モジュール型でデータセットに依存しない合成パイプラインである。あいまいさのLLM予測に依存するアプローチとは異なり、LHAWは経験的エージェント試行を通じて変種を検証し、観察された終端状態のばらつきに基づいて結果クリティカル、発散、良性として分類する。 TheAgentCompany、SWE-Bench Pro、MCP-Atlasから285のタスク変種をリリースし、現在のエージェントが不明瞭な設定に対して不特定性を検知し、推論し、解決する方法を測定した。
論文参考訳（メタデータ） (2026-02-11T04:49:50Z)
Incremental Validation of Automated Driving Functions using Generic Volumes in Micro- Operational Design Domains [0.0]
本稿では,操作設計領域(ODD)を管理可能なセクションに分割し,抽象オブジェクト表現を用いてテストケースを抽出する構造的手法を提案する。障害物は様々な大きさの一般的な立方体として表現され、知覚性能を評価するためのシンプルで堅牢な手段を提供する。その結果、障害物検出におけるエッジケースを体系的に探索し、認識品質を評価する方法が示された。
論文参考訳（メタデータ） (2025-12-12T07:59:58Z)
PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文参考訳（メタデータ） (2025-12-03T12:14:29Z)
Formalizing Operational Design Domains with the Pkl Language [0.4349640169711269]
人間の直接監督なしに操作できる自動化機能の展開は、より高いレベルの自動化を求めるドメインの安全性評価を変更した。説得力のある安全性を主張するためには、開発者は、意図した文脈で操作した場合、関数が不合理なリスクを伴わないという証拠によって支持される、徹底的な正当化の議論を提示する必要がある。本稿では,Pkl言語におけるオペレーショナルデザインドメイン仕様(ODD)の形式化について述べる。
論文参考訳（メタデータ） (2025-09-02T11:41:27Z)
Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文参考訳（メタデータ） (2023-10-03T10:10:42Z)
Decompose to Adapt: Cross-domain Object Detection via Feature Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。 DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文参考訳（メタデータ） (2022-01-06T05:43:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。