Fugu-MT 論文翻訳(概要): Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

論文の概要: Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.22062v1
Date: Thu, 23 Apr 2026 20:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.262597
Title: Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning
Title（参考訳）: 強化学習によるVLMにおけるニューロシンボリック言語に基づく推論のインセンティブ化
Authors: Karthic Palaniappan,
Abstract要約: ニューロシンボリック言語における視覚言語概念の表現と推論を探求することを目的としている。数学,科学,一般知識の質問からなる視覚言語評価データセットにおいて,3.33%の精度向上を実現した。私は、直面した計算上の課題、スケーリングの可能性、そしてニューロシンボリック言語における思考を改善するための今後の取り組みを文書化しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: There are 7,407 languages in the world. But, what about the languages that are not there in the world? Are humans so narrow minded that we don't care about the languages aliens communicate in? Aliens are humans too! In the 2016 movie Arrival, Amy Adams plays a linguist, Dr. Louise Banks who, by learning to think in an alien language (Heptapod) formed of non-sequential sentences, gains the ability to transcend time and look into the future. In this work, I aim to explore the representation and reasoning of vision-language concepts in a neuro-symbolic language, and study improvement in analytical reasoning abilities and efficiency of "thinking systems". With Qwen3-VL-2B-Instruct as base model and 4 $\times$ Nvidia H200 GPU nodes, I achieve an accuracy improvement of 3.33\% on a vision-language evaluation dataset consisting of math, science, and general knowledge questions, while reducing the reasoning tokens by 75\% over SymPy. I've documented the compute challenges faced, scaling possibilities, and the future work to improve thinking in a neuro-symbolic language in vision-language models. The training and inference setup can be found here: https://github.com/i-like-bfs-and-dfs/wolfram-reasoning.
Abstract（参考訳）: 世界には7,407の言語がある。しかし、世界に存在しない言語はどうでしょう? 人間は、エイリアンがコミュニケーションする言語が気にするほど狭いのか? エイリアンも人間だ! 2016年の映画『アーリバル』では、エイミー・アダムズが言語学者のルイーズ・バンクス(英語版)を演じ、非連続的な文からなる異言語(ヘプタポッド)で考えることを学ぶことで、時間を超越して未来を見る能力を得る。本研究では,ニューロシンボリック言語における視覚言語概念の表現と推論について検討し,分析的推論能力の向上と「思考システム」の効率性について考察する。 Qwen3-VL-2B-Instructをベースモデルとして、4$\times$ Nvidia H200 GPUノードを使用すれば、SymPyよりも推論トークンを75%削減しつつ、数学、科学、一般知識からなる視覚言語評価データセットで3.33\%の精度向上を実現できます。私は、視覚言語モデルにおけるニューロシンボリック言語における思考を改善するための計算上の課題、スケーリング可能性、今後の取り組みを文書化しました。トレーニングと推論のセットアップは、https://github.com/i-like-bfs-and-dfs/wolfram-reasoning.comで見ることができる。

関連論文リスト

Language Arithmetics: Towards Systematic Language Neuron Identification and Manipulation [9.518772041855923]
Llama-3.1-8B, Mistral-Nemo-12B, Aya-Expanse-8B & 32B の言語特異的ニューロンを21言語で解析した。これらのニューロンはより深い層に集結し、非ラテン語のスクリプトはより高度な特殊化を示す。不要な言語を非活性化し、望ましい言語をアクティベートし、より単純な代替アプローチよりも優れた性能を発揮する。
論文参考訳（メタデータ） (2025-07-30T12:23:39Z)
From Language to Cognition: How LLMs Outgrow the Human Language Network [21.08557980312889]
大規模言語モデル(LLM)は、人間の言語ネットワークにおける神経活動と著しく類似している。我々は8つのモデルサイズにまたがる300Bトークンにまたがる34のトレーニングチェックポイントをベンチマークし、脳のアライメントが言語能力とどのように関連しているかを分析した。
論文参考訳（メタデータ） (2025-03-03T18:54:19Z)
The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文参考訳（メタデータ） (2023-06-25T19:38:01Z)
Understanding Natural Language Understanding Systems. A Critical Analysis [91.81211519327161]
自然言語理解システム(Natural Language Understanding (NLU) system)としても知られる usguillemotright(英語版) のようなギユモトレフトークを持つ機械の開発は、人工知能の聖杯(英語版) (AI) である。しかし、Gillemottalking machineguillemotrightを構築することができるという信頼は、次世代のNLUシステムによってもたらされたものよりも強かった。私たちは新しい時代の夜明けに、ついに砂利が我々に近づいたのか?
論文参考訳（メタデータ） (2023-03-01T08:32:55Z)
Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文参考訳（メタデータ） (2022-01-14T14:54:58Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文参考訳（メタデータ） (2020-06-20T13:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。