論文の概要: Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
- arxiv url: http://arxiv.org/abs/2511.14210v1
- Date: Tue, 18 Nov 2025 07:41:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.989619
- Title: Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
- Title(参考訳): Orion: マルチモーダル認識,高度なビジュアル推論,実行のための統一ビジュアルエージェント
- Authors: N Dinesh Reddy, Sudeep Pillai,
- Abstract要約: Orionは任意のモダリティを取り込み、どんなモダリティも生成できるビジュアルエージェントフレームワークです。
Orionは、複雑な多段階の視覚分析を実行するために、特殊なコンピュータビジョンツール群を編成する。
本システムはMMMU,MMBench,DocVQA,MMLongBench上での競合性能を実現する。
- 参考スコア(独自算出の注目度): 5.508843847232953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.
- Abstract(参考訳): Orionは任意のモダリティを取り込み、どんなモダリティも生成できるビジュアルエージェントフレームワークです。
複数のツール呼び出し機能を備えたエージェントフレームワークを使用することで、OrionはビジュアルAIタスク用に設計され、最先端の結果が達成される。
記述的なアウトプットを生成する従来の視覚言語モデルとは異なり、Orionはオブジェクト検出、キーポイントのローカライゼーション、汎視的セグメンテーション、光学的文字認識、幾何学的解析など、複雑な多段階視覚ワークフローを実行するための特殊なコンピュータビジョンツール群を編成している。
MMMU、MMBench、DocVQA、MMLongBenchでは、モノリシックな視覚言語モデルをプロダクショングレードの視覚インテリジェンスに拡張しながら、競争性能を達成する。
神経知覚と象徴的実行を組み合わせることで、Orionは自律的な視覚推論を可能にし、受動的視覚理解からアクティブなツール駆動視覚インテリジェンスへの移行をマークする。
関連論文リスト
- DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.242852367476015]
DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-20T13:48:11Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - InsightSee: Advancing Multi-agent Vision-Language Models for Enhanced Visual Understanding [12.082379948480257]
本稿では,複雑な視覚理解シナリオを扱う上で,視覚言語モデルの能力を高めるためのマルチエージェントフレームワークであるInsightSeeを提案する。
このフレームワークは、視覚情報解釈のプロセスを洗練するために統合される記述エージェントと、2つの推論エージェントと決定エージェントとを含む。
このフレームワークは、9つのベンチマークテストのうち6つで最先端のアルゴリズムよりも優れており、マルチモーダル理解が大幅に進歩している。
論文 参考訳(メタデータ) (2024-05-31T13:56:55Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - AVA: Towards Autonomous Visualization Agents through Visual
Perception-Driven Decision-Making [19.09644604789813]
我々は,自然言語を用いてユーザ定義の可視化目標を解釈し,達成できる自律可視化エージェント(AVA)を開発した。
視覚的知覚の追加により、AVAは、微調整による可視化出力の知識や専門知識が欠けているかもしれないドメインエキスパートのための仮想視覚化アシスタントとして機能する。
本研究では,AVAが高レベルな可視化目標を達成する知的可視化システムを設計するための一般的なパラダイムであることを示す。
論文 参考訳(メタデータ) (2023-12-07T18:13:42Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。