Fugu-MT 論文翻訳(概要): Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

論文の概要: Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning

arxiv url: http://arxiv.org/abs/2505.13886v1
Date: Tue, 20 May 2025 03:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.659932
Title: Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning
Title（参考訳）: Code2Logic: VLMの汎用推論を支援するゲームコード駆動データ合成
Authors: Jingqi Tong, Jixin Tang, Hangcheng Li, Yurong Mou, Ming Zhang, Jun Zhao, Yanbo Wen, Fan Song, Jiahao Zhan, Yuyang Lu, Chaoran Tao, Zhiyuan Guo, Jizhou Yu, Tianhao Cheng, Changhao Jiang, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Weifeng Ge, Guanhua Chen, Tao Gui, Xipeng Qiu, Qi Zhang, Xuanjing Huang,
Abstract要約: マルチモーダル推論データ合成のための新しいゲームコード駆動型アプローチであるCode2Logicを提案する。提案手法では,Large Language Models (LLM) を用いてゲームコードに適応し,推論プロセスと結果の自動取得を可能にする。 GameQAはコスト効率が高くスケーラブルで、最先端のモデルには挑戦的であり、30のゲームと158のタスクで多種多様である。
参考スコア（独自算出の注目度）: 69.7882311630412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual-language Chain-of-Thought (CoT) data resources are relatively scarce compared to text-only counterparts, limiting the improvement of reasoning capabilities in Vision Language Models (VLMs). However, high-quality vision-language reasoning data is expensive and labor-intensive to annotate. To address this issue, we leverage a promising resource: game code, which naturally contains logical structures and state transition processes. Therefore, we propose Code2Logic, a novel game-code-driven approach for multimodal reasoning data synthesis. Our approach leverages Large Language Models (LLMs) to adapt game code, enabling automatic acquisition of reasoning processes and results through code execution. Using the Code2Logic approach, we developed the GameQA dataset to train and evaluate VLMs. GameQA is cost-effective and scalable to produce, challenging for state-of-the-art models, and diverse with 30 games and 158 tasks. Surprisingly, despite training solely on game data, VLMs demonstrated out of domain generalization, specifically Qwen2.5-VL-7B improving performance by 2.33\% across 7 diverse vision-language benchmarks. Our code and dataset are available at https://github.com/tongjingqi/Code2Logic.
Abstract（参考訳）: 視覚言語Chain-of-Thought(CoT)データリソースはテキストのみと比較して比較的少ないため、視覚言語モデル(VLM)における推論能力の改善が制限されている。しかし、高品質な視覚言語推論データは高価であり、アノテートには労働集約的である。この問題に対処するために私たちは,論理構造や状態遷移プロセスを自然に含むゲームコードという,有望なリソースを活用しています。そこで我々は,マルチモーダル推論データ合成のための新しいゲームコード駆動型アプローチであるCode2Logicを提案する。提案手法では,Large Language Models (LLM) を用いてゲームコードに適応し,推論プロセスと結果の自動取得を可能にする。 Code2Logicのアプローチを用いて,VLMのトレーニングと評価を行うGameQAデータセットを開発した。 GameQAはコスト効率が高くスケーラブルで、最先端のモデルには挑戦的であり、30のゲームと158のタスクで多種多様である。驚くべきことに、VLMはゲームデータのみをトレーニングしたにもかかわらず、ドメインの一般化を実証し、特にQwen2.5-VL-7Bは7つのビジョン言語ベンチマークでパフォーマンスを2.33倍改善した。私たちのコードとデータセットはhttps://github.com/tongjingqi/Code2Logic.orgで公開されています。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning [20.06743818187144]
私たちはCodeSenseという,一連のきめ細かいコード推論タスクを利用できる最初のベンチマークを提案しています。この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。当社の作業では,詳細なSE推論タスクに対して,真理を簡単に収集することのできる実行トレースフレームワークとツールセットを作成しました。
論文参考訳（メタデータ） (2025-05-31T23:32:01Z)
Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文参考訳（メタデータ） (2024-12-05T20:10:21Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。 OpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。 LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文参考訳（メタデータ） (2024-10-04T15:44:47Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。 CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文参考訳（メタデータ） (2024-04-15T14:44:08Z)
CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。 CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
Benchmarking Large Language Models for Automated Verilog RTL Code Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文参考訳（メタデータ） (2022-12-13T16:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。