論文の概要: MARIC: Multi-Agent Reasoning for Image Classification
- arxiv url: http://arxiv.org/abs/2509.14860v1
- Date: Thu, 18 Sep 2025 11:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.189275
- Title: MARIC: Multi-Agent Reasoning for Image Classification
- Title(参考訳): MARIC:画像分類のためのマルチエージェント推論
- Authors: Wonduk Seo, Minhyeong Yu, Hyunjin An, Seunghyun Lee,
- Abstract要約: 画像分類のためのマルチエージェント型推論(MARIC)を提案する。
MARICは、画像分類を協調推論プロセスとして再構成するマルチエージェントフレームワークである。
4つの多様な画像分類ベンチマークデータセットの実験は、MARICがベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 6.303112232080335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image classification has traditionally relied on parameter-intensive model training, requiring large-scale annotated datasets and extensive fine tuning to achieve competitive performance. While recent vision language models (VLMs) alleviate some of these constraints, they remain limited by their reliance on single pass representations, often failing to capture complementary aspects of visual content. In this paper, we introduce Multi Agent based Reasoning for Image Classification (MARIC), a multi agent framework that reformulates image classification as a collaborative reasoning process. MARIC first utilizes an Outliner Agent to analyze the global theme of the image and generate targeted prompts. Based on these prompts, three Aspect Agents extract fine grained descriptions along distinct visual dimensions. Finally, a Reasoning Agent synthesizes these complementary outputs through integrated reflection step, producing a unified representation for classification. By explicitly decomposing the task into multiple perspectives and encouraging reflective synthesis, MARIC mitigates the shortcomings of both parameter-heavy training and monolithic VLM reasoning. Experiments on 4 diverse image classification benchmark datasets demonstrate that MARIC significantly outperforms baselines, highlighting the effectiveness of multi-agent visual reasoning for robust and interpretable image classification.
- Abstract(参考訳): 画像分類は伝統的にパラメータ集約型モデルトレーニングに依存しており、競争性能を達成するために大規模な注釈付きデータセットと広範囲な微調整が必要である。
近年の視覚言語モデル(VLM)はこれらの制約のいくつかを緩和しているが、それらはシングルパス表現への依存によって制限され続けており、しばしば視覚コンテンツの補完的な側面を捉えていない。
本稿では、画像分類を協調的推論プロセスとして再構成するマルチエージェントフレームワークであるMARIC(Multi Agent Based Reasoning for Image Classification)を紹介する。
MARICはまずOutliner Agentを使用して画像のグローバルなテーマを分析し、ターゲットのプロンプトを生成する。
これらのプロンプトに基づいて、3つのアスペクトエージェントは、異なる視覚次元に沿ってきめ細かい記述を抽出する。
最後に、Reasoning Agentはこれらの相補的な出力を統合リフレクションステップで合成し、分類のための統一表現を生成する。
タスクを複数の視点に明示的に分解し、反射合成を促進することで、MARICはパラメータ重トレーニングとモノリシックなVLM推論の両方の欠点を緩和する。
4つの多様な画像分類ベンチマークデータセットの実験により、MARICはベースラインを著しく上回り、頑健で解釈可能な画像分類に対するマルチエージェント視覚推論の有効性を強調した。
関連論文リスト
- The Demon is in Ambiguity: Revisiting Situation Recognition with Single Positive Multi-Label Learning [30.485929387603463]
コンテキスト認識は、画像から構造化された意味的要約を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
既存の方法では,動詞の分類を単一ラベル問題として扱うが,この定式化は視覚事象認識における固有の曖昧さに対処できないという包括的分析を通して示す。
第一に,動詞分類が本質的には多言語の問題であることを示す経験的分析を通して,動詞カテゴリー間のユビキタスな意味的重複から,その特徴を明らかにする。
第二に、複数ラベル付き大規模データセットの完全注釈付けの非現実性を考えると、動詞分類を1つの正のマルチラベル学習として再構成することを提案する。
論文 参考訳(メタデータ) (2025-08-29T17:51:55Z) - From Visual Explanations to Counterfactual Explanations with Latent Diffusion [11.433402357922414]
本稿では,近年の顕著な研究における2つの課題に対処するための新しいアプローチを提案する。
まず、ターゲットクラスの"概念"と元のクラスを区別するために、どの特定の反事実的特徴が重要かを決定する。
第二に、非ロバスト分類器に対して、対向的に堅牢なモデルのサポートに頼ることなく、重要な説明を提供する。
論文 参考訳(メタデータ) (2025-04-12T13:04:00Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。
我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文 参考訳(メタデータ) (2025-02-28T08:12:23Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Assessing a Single Image in Reference-Guided Image Synthesis [14.936460594115953]
本稿では,単一生成画像の品質を定量的に評価するための,参照誘導画像合成アセスメント(RISA)を提案する。
このアノテーションは監視信号として大きすぎるため、1)粗いラベルを洗練するためのピクセルワイズスキームと、2)ナイーブ回帰器を置き換える複数のバイナリ分類器の2つの手法を導入する。
RISAは人間の好みと非常に整合しており、モデル間での転送も良好である。
論文 参考訳(メタデータ) (2021-12-08T08:22:14Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。