Fugu-MT 論文翻訳(概要): Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic

論文の概要: Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic

arxiv url: http://arxiv.org/abs/2604.19567v1
Date: Tue, 21 Apr 2026 15:19:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.842474
Title: Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic
Title（参考訳）: 視覚意味論的算術におけるLLMを用いたマルチモーダル推論
Authors: Chuou Xu, Liya Ji, Qifeng Chen,
Abstract要約: 強化学習(Reinforcement Learning, RL)は, 大規模言語モデル(LLM)の推論能力を高めるために重要である。本稿では,2段階の減算と3段階の演算という2つの新しいタスクを定式化し,画像関連ペアデータセットを構築した。提案手法は,IRPDおよび実世界のVisual7W-Tellingデータセット上での最先端結果を実現する。
参考スコア（独自算出の注目度）: 46.96498424497751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) as post-training is crucial for enhancing the reasoning ability of large language models (LLMs) in coding and math. However, their capacity for visual semantic arithmetic, inferring relationships from images, remains underexplored. The classic text analogy "king"-"man"+"woman" = "queen" illustrates relational reasoning, yet replacing text with images of "king" and "man" significantly reduces performance because it requires commonsense knowledge and the extraction of concise concepts from irrelevant visual details. This capability is important for service and domestic robotics in unstructured environments, where robots must infer semantic relationships among objects, agents, and actions. In a kitchen, recognizing from images that "powder" and "cake" are related by "is made of" grounds symbolic relations in perception, enabling tool substitution, task generalization, and improved semantic reasoning. Prior work approaches semantic arithmetic by decoding image features after vector arithmetic, but suffers from modality gaps and lacks systematic evaluation. In this paper, we formulate two novel tasks, two-term subtraction and three-term operations, and construct the Image-Relation-Pair Dataset (IRPD) for benchmarking. We further propose Semantic Arithmetic Reinforcement Fine-Tuning (SAri-RFT), which post-trains large vision-language models (LVLMs) using a verifiable function and Group Relative Policy Optimization (GRPO). Our method achieves state-of-the-art results on IRPD and the real-world Visual7W-Telling dataset. By equipping LVLMs with robust cross-modal relational reasoning, this work advances domestic robots' ability to ground symbolic reasoning in perception, enhancing decision-making, tool adaptability, and human-robot interaction in complex environments. Datasets and source code are provided in the supplementary material.
Abstract（参考訳）: 後学習としての強化学習(RL)は、コーディングと数学における大規模言語モデル(LLM)の推論能力を高めるために不可欠である。しかし、画像から関係を推測する視覚的意味論的算術の能力はいまだ未定である。古典的な "king"-"man"+"woman" = "queen" は関係推論を描いているが、"king" と "man" のイメージでテキストを置き換えると、常識的な知識と、無関係な視覚的詳細から簡潔な概念を抽出する必要があるため、パフォーマンスが著しく低下する。この能力は、ロボットがオブジェクト、エージェント、アクション間のセマンティックな関係を推論する必要がある非構造環境におけるサービスと家庭のロボティクスにとって重要である。キッチンでは、"powder" と "cake" が"is made" の接点によって関連づけられたイメージから認識し、ツール置換、タスクの一般化、意味論的推論の改善を可能にする。先行研究は、ベクトル算術の後に画像特徴を復号することで意味論的算術にアプローチするが、モダリティのギャップに悩まされ、体系的な評価に欠ける。本稿では,2段階の減算と3段階の演算の2つの新しいタスクを定式化し,ベンチマークのための画像関連ペアデータセット(IRPD)を構築した。さらに、検証関数とグループ相対ポリシー最適化(GRPO)を用いて、大規模視覚言語モデル(LVLM)のポストトレーニングを行うセマンティック・算術的強化細調整(SAri-RFT)を提案する。提案手法は,IRPDおよび実世界のVisual7W-Tellingデータセット上での最先端結果を実現する。 LVLMに頑健な相互関係推論を装備することにより、複雑な環境下でのロボットの認識の象徴的推論、意思決定の強化、ツール適応性、人間とロボットの相互作用の能力を向上させる。補足材料にデータセットとソースコードが提供される。

関連論文リスト

Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning [10.364779390403337]
本稿では,複数の抽象化レベルにまたがるオープン語彙機能を統合し,オブジェクト-リレーショナル推論をサポートする階層型3Dシーングラフを提案する。本稿では,Large Language Models(LLM)とVLM(Vision Language Model)を組み合わせて,シーングラフのセマンティックおよびリレーショナル情報を解釈するタスク推論モジュールを提案する。我々は,複数の環境やタスクにおいて,四足歩行ロボットに配置することで,その方法を検証する。
論文参考訳（メタデータ） (2026-02-02T18:47:02Z)
SlotVLA: Towards Modeling of Object-Relation Representations in Robotic Manipulation [15.877350929231158]
我々は、より構造化され、効率的で、説明可能なビジュモータ制御のための経路として、オブジェクトリレーション中心の表現について研究する。まず,ロボット操作におけるオブジェクト関係推論の実現と評価を目的とした,詳細なベンチマークデータセットであるLIBERO+を紹介する。次に,SlotVLAを提案する。SlotVLAは,オブジェクトと動作復号化の関係をキャプチャするスロットアテンションベースのフレームワークである。
論文参考訳（メタデータ） (2025-11-10T06:33:44Z)
A Multi-Modal Neuro-Symbolic Approach for Spatial Reasoning-Based Visual Grounding in Robotics [20.82362652411105]
本研究では,パノラマ画像と3次元点雲情報を統合したニューロ・シンボリック・フレームワークを提案する。提案手法は,ロボット工学および組み込みAIアプリケーションに適した軽量設計を維持しつつ,混在する人間構築環境において,優れた性能と信頼性を示す。
論文参考訳（メタデータ） (2025-10-30T22:40:23Z)
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文参考訳（メタデータ） (2025-02-17T06:54:49Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文参考訳（メタデータ） (2022-10-03T12:21:45Z)
RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。 HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文参考訳（メタデータ） (2022-04-24T02:46:43Z)
Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文参考訳（メタデータ） (2020-04-17T09:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。