論文の概要: Game-RL: Synthesizing Verifiable Game Tasks at Scale to Boost VLMs General Reasoning
- arxiv url: http://arxiv.org/abs/2505.13886v4
- Date: Tue, 16 Sep 2025 15:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.678213
- Title: Game-RL: Synthesizing Verifiable Game Tasks at Scale to Boost VLMs General Reasoning
- Title(参考訳): Game-RL: VLMの一般推論を高めるために、大規模に検証可能なゲームタスクを合成する
- Authors: Jingqi Tong, Jixin Tang, Hangcheng Li, Yurong Mou, Ming Zhang, Jun Zhao, Yanbo Wen, Fan Song, Jiahao Zhan, Yuyang Lu, Chaoran Tao, Zhiyuan Guo, Jizhou Yu, Tianhao Cheng, Changhao Jiang, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Weifeng Ge, Guanhua Chen, Tao Gui, Xipeng Qiu, Qi Zhang, Xuanjing Huang,
- Abstract要約: 実世界の視覚言語推論のシナリオには、多様で複雑なタスクが含まれることが多い。
視覚言語強化学習は主に 限られたタスクに重点を置いています
本稿では,Large Language Models (LLMs) を用いて,検証可能なゲーム推論タスクを大規模に合成する新しいCode2Logicアプローチを提案する。
- 参考スコア(独自算出の注目度): 84.31454473084786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world vision language reasoning scenarios often include diverse and complex tasks. However, vision language reinforcement learning has primarily focused on a narrow set of tasks (e.g. geometry or chart reasoning), limiting the improvement of Vision Language Models' (VLMs) general reasoning. Therefore, we propose a novel Code2Logic approach, using Large Language Models (LLMs) to synthesize verifiable game reasoning tasks at scale via adapting game code. Using the Code2Logic, we developed the GameQA dataset to train and evaluate VLMs. GameQA is verifiable and scalable, offers controllable difficulty gradation and is diverse with 30 games and 158 tasks. Then we apply Game-RL, which is simple reinforcement learning on GameQA. Surprisingly, despite training solely on game tasks, VLMs demonstrated out of domain generalization, specifically Qwen2.5-VL-7B improving performance by 2.33% across 7 diverse vision-language benchmarks. Our code, dataset and models are available at the GitHub repository.
- Abstract(参考訳): 実世界の視覚言語推論のシナリオには、多様で複雑なタスクが含まれることが多い。
しかしながら、視覚言語強化学習は主に、視覚言語モデル(VLM)の一般的な推論の改善を制限する、狭いタスクセット(例えば、幾何学やチャート推論)に焦点を当てている。
そこで我々は,Large Language Models (LLMs) を用いた新しいCode2Logicアプローチを提案し,ゲームコードに適応することで,検証可能なゲーム推論タスクを大規模に合成する。
Code2Logicを用いて,VLMのトレーニングと評価を行うGameQAデータセットを開発した。
GameQAは検証可能で拡張性があり、コントロール可能な難易度グレードを提供し、30のゲームと158のタスクで多種多様である。
次に、GameQA上で単純な強化学習を行うGame-RLを適用する。
驚くべきことに、VLMはゲームタスクのみのトレーニングにもかかわらず、ドメインの一般化を実証し、特にQwen2.5-VL-7Bは7種類の視覚言語ベンチマークでパフォーマンスを2.33%改善した。
コード、データセット、モデルはGitHubリポジトリから入手可能です。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning [20.06743818187144]
私たちはCodeSenseという,一連のきめ細かいコード推論タスクを利用できる最初のベンチマークを提案しています。
この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。
当社の作業では,詳細なSE推論タスクに対して,真理を簡単に収集することのできる実行トレースフレームワークとツールセットを作成しました。
論文 参考訳(メタデータ) (2025-05-31T23:32:01Z) - Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。
以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。
コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文 参考訳(メタデータ) (2024-12-05T20:10:21Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。
OpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。
LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:44:47Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。
CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - Benchmarking Large Language Models for Automated Verilog RTL Code
Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。
機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。
その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-13T16:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。