論文の概要: X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
- arxiv url: http://arxiv.org/abs/2505.03981v1
- Date: Tue, 06 May 2025 21:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.918997
- Title: X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains
- Title(参考訳): X-Reasoner: モダリティとドメイン間の一般化可能な推論を目指して
- Authors: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon,
- Abstract要約: 一般ドメインテキストベースのポストトレーニングは、強力な一般化可能な推論を可能にする。
X-Reasonerは、推論機能をマルチモーダルとアウトオブドメインの両方に転送することに成功している。
X-Reasoner-Med(X-Reasoner-Med)は、テキストのみの医療ベンチマークとマルチモーダルな医療ベンチマークの新たな状態を実現する医療特化版である。
- 参考スコア(独自算出の注目度): 21.372435402505108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent proprietary models (e.g., o3) have begun to demonstrate strong multimodal reasoning capabilities. Yet, most existing open-source research concentrates on training text-only reasoning models, with evaluations limited to mainly mathematical and general-domain tasks. Therefore, it remains unclear how to effectively extend reasoning capabilities beyond text input and general domains. This paper explores a fundamental research question: Is reasoning generalizable across modalities and domains? Our findings support an affirmative answer: General-domain text-based post-training can enable such strong generalizable reasoning. Leveraging this finding, we introduce X-Reasoner, a vision-language model post-trained solely on general-domain text for generalizable reasoning, using a two-stage approach: an initial supervised fine-tuning phase with distilled long chain-of-thoughts, followed by reinforcement learning with verifiable rewards. Experiments show that X-Reasoner successfully transfers reasoning capabilities to both multimodal and out-of-domain settings, outperforming existing state-of-the-art models trained with in-domain and multimodal data across various general and medical benchmarks (Figure 1). Additionally, we find that X-Reasoner's performance in specialized domains can be further enhanced through continued training on domain-specific text-only data. Building upon this, we introduce X-Reasoner-Med, a medical-specialized variant that achieves new state of the art on numerous text-only and multimodal medical benchmarks.
- Abstract(参考訳): 最近のプロプライエタリなモデル(例:o3)は、強力なマルチモーダル推論能力を示し始めている。
しかし、既存のオープンソース研究はテキストのみの推論モデルのトレーニングに重点を置いており、評価は主に数学や一般分野のタスクに限られている。
したがって、テキスト入力や一般的なドメインを超えて推論能力を効果的に拡張する方法は、まだ不明である。
モーダル性や領域にまたがる推論は一般化可能か?
一般ドメインテキストベースのポストトレーニングは、そのような強力な一般化可能な推論を可能にする。
この発見を生かしたX-Reasonerは、一般化可能な推論のために汎用ドメインテキストのみに訓練された視覚言語モデルであり、2段階のアプローチである、蒸留された長いチェーン・オブ・シンクレットを用いた初期教師付き微調整フェーズと、検証可能な報酬付き強化学習を導入している。
実験の結果、X-Reasonerは推論能力をマルチモーダルとアウト・オブ・ドメインの両方に転送し、ドメイン内およびマルチモーダルデータでトレーニングされた既存の最先端モデルよりも優れていることがわかった(第1図)。
さらに,特定ドメインにおけるX-Reasonerの性能は,ドメイン固有のテキストのみのデータに関する継続的なトレーニングによってさらに向上できることがわかった。
そこで本研究では,X-Reasoner-Medについて紹介する。X-Reasoner-Medは,テキストのみの医療ベンチマークとマルチモーダルな医療ベンチマークにおいて,新たな最先端技術を実現する医療特化版である。
関連論文リスト
- Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - Federated Domain Generalization: A Survey [12.84261944926547]
機械学習では、データはさまざまなデバイス、組織、エッジノードに分散されることが多い。
この課題に応えて、連邦領域の一般化への関心が高まっている。
本稿では,この領域における最近の進歩に関する最初の調査について述べる。
論文 参考訳(メタデータ) (2023-06-02T07:55:42Z) - Single-domain Generalization in Medical Image Segmentation via Test-time
Adaptation from Shape Dictionary [64.5632303184502]
ドメインの一般化は通常、モデル学習のために複数のソースドメインからのデータを必要とする。
本稿では,1つのソースドメインのみで最悪のシナリオ下でモデルを学習し,異なる未確認対象ドメインに直接一般化する,重要な単一ドメインの一般化問題について考察する。
本稿では,領域間で不変なセグメンテーションのセグメンテーション先情報を抽出し,統合する医用画像セグメンテーションにおいて,この問題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-29T08:46:27Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z) - f-Domain-Adversarial Learning: Theory and Algorithms [82.97698406515667]
教師なしのドメイン適応は、トレーニング中、ターゲットドメイン内のラベルなしデータにアクセス可能な、多くの機械学習アプリケーションで使用されている。
領域適応のための新しい一般化法を導出し、f-発散体の変分的特徴に基づく分布間の相違性の新しい尺度を利用する。
論文 参考訳(メタデータ) (2021-06-21T18:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。