Fugu-MT 論文翻訳(概要): Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning

論文の概要: Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning

arxiv url: http://arxiv.org/abs/2605.04304v1
Date: Tue, 05 May 2026 21:12:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-07 18:41:07.546895
Title: Hierarchical Visual Agent: Managing Contexts in Joint Image-Text Space for Advanced Chart Reasoning
Title（参考訳）: 階層型ビジュアルエージェント: 高度なチャート推論のための共同画像テキスト空間におけるコンテキスト管理
Authors: Qihua Dong, Ruozhen He, Junwen Chen, Yizhou Wang, Xu Ma, Songyao Jiang, Yun Fu,
Abstract要約: 高度なチャート質問応答には、小さな視覚要素の正確な認識と、複数のサブプロットにわたる多段階推論の両方が必要である。グラフ推論のための階層型ビジュアルエージェントフレームワークであるHierVAを提案する。
参考スコア（独自算出の注目度）: 38.40327066684086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advanced chart question answering requires both precise perception of small visual elements and multi-step reasoning across several subplots. While existing MLLMs are strong at understanding single plots, they often struggle with multi-step reasoning across multiple subplots. We propose HierVA, a hierarchical visual agent framework for chart reasoning that iteratively constructs and updates a working context in a joint image--text space. A high-level manager generates plans and maintains a compact context containing only key information, while specialized workers perform reasoning, gather evidence, and return results. In particular, the agent maintains separate visual and textual contexts, using a zoom-in tool to restrict the visual context. Experiments on the CharXiv reasoning subset demonstrate consistent improvements over strong multimodal baselines, and ablation studies verify that hierarchical architecture, scoped visual context, and distilled context contribute complementary gains.
Abstract（参考訳）: 高度なチャート質問応答には、小さな視覚要素の正確な認識と、複数のサブプロットにわたる多段階推論の両方が必要である。既存のMLLMは単一のプロットを理解するのが得意だが、複数のサブプロットをまたいだ多段階推論に苦戦することが多い。グラフ推論のための階層型ビジュアルエージェントフレームワークであるHierVAを提案する。高レベルの管理者は計画を生成し、キー情報のみを含むコンパクトなコンテキストを維持し、専門労働者は推論を行い、証拠を収集し、結果を返却する。特に、エージェントは、視覚的コンテキストを制限するためにズームインツールを使用して、視覚的コンテキストとテキスト的コンテキストを分離する。 CharXiv推論サブセットの実験は、強いマルチモーダルベースラインよりも一貫した改善を示し、アブレーション研究は階層的アーキテクチャ、スコープ化された視覚的コンテキスト、蒸留されたコンテキストが相補的なゲインに寄与することを検証する。

関連論文リスト

ChartAgent: A Multimodal Agent for Visually Grounded Reasoning in Complex Chart Question Answering [23.455587605758396]
本稿では,グラフの空間領域内で直接視覚的推論を行う新しいエージェントフレームワークであるChartAgentを紹介する。我々の研究は、ツール強化マルチモーダルエージェントを用いたチャート理解のための視覚的根拠に基づく推論を初めて示すものである。
論文参考訳（メタデータ） (2025-10-06T06:05:36Z)
CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文参考訳（メタデータ） (2025-06-27T06:09:56Z)
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文参考訳（メタデータ） (2025-01-08T06:27:07Z)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。