論文の概要: Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2510.26580v1
- Date: Thu, 30 Oct 2025 15:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.874772
- Title: Dynamic Context-Aware Scene Reasoning Using Vision-Language Alignment in Zero-Shot Real-World Scenarios
- Title(参考訳): ゼロショット実世界シナリオにおける視覚言語アライメントを用いた動的文脈認識シーン推論
- Authors: Manjunath Prasad Holenarasipura Rajiv, B. M. Vidyavathi,
- Abstract要約: この作業では、ゼロショットの現実シナリオに対処するDynamic Context-Aware Scene Reasoningフレームワークを導入している。
提案手法は、学習済みの視覚変換器と大規模言語モデルを統合し、視覚意味論と自然言語記述を整合させる。
実験では、複雑で見えない環境でのベースラインモデルよりも、シーン理解の精度が最大で18%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world environments, AI systems often face unfamiliar scenarios without labeled data, creating a major challenge for conventional scene understanding models. The inability to generalize across unseen contexts limits the deployment of vision-based applications in dynamic, unstructured settings. This work introduces a Dynamic Context-Aware Scene Reasoning framework that leverages Vision-Language Alignment to address zero-shot real-world scenarios. The goal is to enable intelligent systems to infer and adapt to new environments without prior task-specific training. The proposed approach integrates pre-trained vision transformers and large language models to align visual semantics with natural language descriptions, enhancing contextual comprehension. A dynamic reasoning module refines predictions by combining global scene cues and object-level interactions guided by linguistic priors. Extensive experiments on zero-shot benchmarks such as COCO, Visual Genome, and Open Images demonstrate up to 18% improvement in scene understanding accuracy over baseline models in complex and unseen environments. Results also show robust performance in ambiguous or cluttered scenes due to the synergistic fusion of vision and language. This framework offers a scalable and interpretable approach for context-aware reasoning, advancing zero-shot generalization in dynamic real-world settings.
- Abstract(参考訳): 現実の環境では、AIシステムはラベル付きデータなしでは馴染みの無いシナリオに直面し、従来のシーン理解モデルにとって大きな課題を生み出します。
目に見えないコンテキストをまたいで一般化できないことは、動的で非構造的な設定における視覚ベースのアプリケーションのデプロイを制限する。
この作業では、ビジョンランゲージアライメントを活用して、ゼロショット現実のシナリオに対処するDynamic Context-Aware Scene Reasoningフレームワークを導入している。
目標は、タスク固有のトレーニングを必要とせずに、インテリジェントなシステムが新しい環境を推論し、適応できるようにすることです。
提案手法は、事前学習された視覚変換器と大規模言語モデルを統合し、視覚意味論を自然言語記述と整合させ、文脈的理解を高める。
動的推論モジュールは、グローバルシーンキューと言語的先行性によって導かれるオブジェクトレベルの相互作用を組み合わせることで予測を洗練する。
COCO、Visual Genome、Open Imagesといったゼロショットベンチマークの大規模な実験では、複雑で見えない環境でのベースラインモデルよりも、シーン理解の精度が最大で18%向上している。
結果は、視覚と言語を相乗的に融合させることにより、曖昧な場面や散在した場面でも堅牢な性能を示す。
このフレームワークは、コンテキスト認識推論のためのスケーラブルで解釈可能なアプローチを提供し、動的な実世界の設定においてゼロショットの一般化を進める。
関連論文リスト
- Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments [0.0]
本研究では,事前学習した視覚エンコーダと大規模言語モデルを統一する視覚言語統合フレームワークを提案する。
提案システムでは,トップ1の精度が最大18%向上し,セマンティック・コヒーレンス・メトリクスが顕著に向上した。
論文 参考訳(メタデータ) (2025-10-29T01:16:21Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Object-Centric Representations Improve Policy Generalization in Robot Manipulation [43.18545365968973]
我々は,オブジェクト中心表現(OCR)を,視覚入力を完了したエンティティの集合に分割する構造的な代替品として検討する。
我々は、シミュレーションおよび実世界の操作タスクのスイート全体にわたって、視覚的エンコーダ中心、グローバル、そして密集したメソッドをベンチマークする。
この結果から,OCRに基づく政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密接かつグローバルな表現よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2025-05-16T07:06:37Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - SituationalLLM: Proactive language models with scene awareness for dynamic, contextual task guidance [13.155859243167619]
本研究では,構造化シーン情報を大規模言語モデルに統合する新しいアプローチである PresentalLLM を提案する。
カスタムのScene Graph Languageでオブジェクト、属性、関係をエンコードすることで、AciencealLLMは環境コンテキストのギャップを積極的に識別し、ユーザインタラクション中に明確化を求める。
実験結果から、ALLLMはタスク特異性、信頼性、適応性において、ジェネリックLLMベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-06-19T07:42:48Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。