論文の概要: TIT: A Tree-Structured Instruction Tuning Approach for LLM-Based Code Translation
- arxiv url: http://arxiv.org/abs/2510.09400v1
- Date: Fri, 10 Oct 2025 13:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.196092
- Title: TIT: A Tree-Structured Instruction Tuning Approach for LLM-Based Code Translation
- Title(参考訳): TIT:LLMに基づくコード翻訳のための木構造命令チューニング手法
- Authors: He Jiang, Yufu Wang, Hao Lin, Peiyu Zou, Zhide Zhou, Ang Jia, Xiaochen Li, Zhilei Ren,
- Abstract要約: LLMに基づくコード翻訳のためのツリー構造化命令チューニングパラダイムであるTITを提案する。
構文的混乱を軽減するため、構文的情報表現モジュールは言語に依存しない構文的特徴を統合する。
高品質の粒度並列データを生成するために、細粒度並列データセット拡張モジュールは、ノードとコードセグメントを整列する。
- 参考スコア(独自算出の注目度): 11.882496324328905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong performance in automated source-to-target code translation through pretraining on extensive code corpora. However, mainstream LLM-based code translation methods suffer from two critical limitations. First, they are highly sensitive to language-specific features, which often introduce source-language syntax or lexicon into the output, leading to syntactic confusion. Second, they lack fine-grained semantic alignment due to an over-reliance on function-level parallel datasets, resulting in semantic misalignment between the translated code and the original source. To overcome these limitations, we propose TIT, a Tree-structured Instruction Tuning paradigm for LLM-based code translation. Specifically, TIT consists of three modules. First, to mitigate syntactic confusion, the syntactic information representation module integrates language-agnostic syntactic features via structured parsing. Then, to generate high-quality fine-grained parallel data, the fine-grained parallel dataset augmentation module aligns nodes with code segments through statement-level segmentation and contrastive matching. Finally, we leverage the dual-stage tree instruction tuning module to alleviate the contextual processing burden on the LLM caused by the introduction of syntactic information. The first stage employs syntax-aware fine-tuning to enable the LLM to autonomously comprehend structured syntactic information, while the second stage utilizes code generation fine-tuning to guide the model in generating accurate target code based on function-level syntactic dependencies. The experimental results demonstrate that the proposed method significantly outperforms existing approaches in multiple LLMs, achieving a success rate 1.22x-1.75x higher in code translation while markedly reducing syntactic confusion.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲なコードコーパスの事前トレーニングを通じて、ソースからターゲットへの自動コード翻訳において、強力なパフォーマンスを示している。
しかし、主要なLLMベースのコード翻訳法には2つの限界がある。
まず、言語固有の機能に非常に敏感で、しばしばソース言語の構文や語彙を出力に導入し、構文的混乱を引き起こす。
第二に、関数レベルの並列データセットの過度な信頼性のため、細粒度のセマンティックアライメントが欠如しているため、翻訳されたコードと元のソースとのセマンティックアライメントが相違する。
これらの制限を克服するために,LLMに基づくコード翻訳のためのツリー構造化命令チューニングパラダイムであるTITを提案する。
具体的には、TITは3つのモジュールから構成される。
まず、構文的混乱を軽減するために、構文的情報表現モジュールは構造化解析を通して言語に依存しない構文的特徴を統合する。
そして、高品質な並列データを生成するために、細粒度並列データセット拡張モジュールは、ステートメントレベルセグメンテーションとコントラストマッチングを通じて、ノードとコードセグメントを整列する。
最後に,構文情報の導入によるLLMの文脈的処理負担を軽減するために,二段木命令チューニングモジュールを利用する。
第1段階は構文認識の微調整を使用して、LLMが構造的構文情報を自律的に理解できるようにし、第2段階はコード生成の微調整を使用して、関数レベルの構文依存に基づいて正確なターゲットコードを生成する。
実験の結果,提案手法は複数のLLMにおいて既存の手法よりも優れており,コード翻訳における成功率 1.22x-1.75x が高く,構文的混乱を著しく低減していることがわかった。
関連論文リスト
- Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Post-Incorporating Code Structural Knowledge into LLMs via In-Context Learning for Code Translation [10.77747590700758]
大規模言語モデル(LLM)はソフトウェアマイニングにおいて大きな進歩を遂げた。
ソースコードの構文構造を扱うことは 依然として課題です
本稿では、コード構造知識を事前学習したLLMに組み込むために、インコンテキスト学習(ICL)を用いる。
論文 参考訳(メタデータ) (2025-03-28T10:59:42Z) - Semantic Alignment-Enhanced Code Translation via an LLM-Based Multi-Agent System [24.52067108242477]
コード翻訳は、ソフトウェアマイグレーション、システムアブレーション、クロスプラットフォーム開発に不可欠である。
従来のルールベースのメソッドは手書きのルールに依存している。
最近では、LLM(Large Language Models)の進歩により、学習ベースのコード翻訳がさらに強化されている。
本稿では,構文誤りや意味的誤りを解消し,LLMに基づくコード翻訳を強化した新しいマルチエージェントシステムTransagENTを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:53:03Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。