Fugu-MT 論文翻訳(概要): Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks

論文の概要: Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks

arxiv url: http://arxiv.org/abs/2602.06976v1
Date: Fri, 16 Jan 2026 09:06:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-15 14:54:53.675786
Title: Bridging the Knowledge Void: Inference-time Acquisition of Unfamiliar Programming Languages for Coding Tasks
Title（参考訳）: 知識ボイドをブリッジする: コーディングタスクのための不慣れなプログラミング言語の推論時間獲得
Authors: Chen Shen, Wei Cheng, Jingyue Yang, Huan Zhang, Yuhan Wu, Wei Hu,
Abstract要約: コーディングタスクにおけるLarge Language Models (LLM) は、しばしばその広範な事前学習コーパスの反映である。動作プリミティブのセットをLCMに装備する一般のIRAフレームワークであるIRAエージェントを提案する。我々は,Cangjie 用の ILA エージェントをインスタンス化し,コード生成,翻訳,プログラム修復タスクのパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 22.908904483320953
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proficiency of Large Language Models (LLMs) in coding tasks is often a reflection of their extensive pre-training corpora, which typically collapses when confronted with previously unfamiliar programming languages. Departing from data-intensive finetuning, we investigate the paradigm of Inference-time Language Acquisition (ILA), where an LLM masters an unfamiliar language through dynamic interaction with limited external resources. In this paper, we propose ILA-agent, a general ILA framework that equips LLMs with a set of behavioral primitives. By modeling essential human-like behaviors as a suite of tools, ILA-agent enables LLMs to incrementally explore, apply, and verify language knowledge through structured interactions with the official documentation and execution environment. To provide a rigorous evaluation in a low-resource setting, we construct Cangjie-bench, a multi-task benchmark based on the novel statically-typed language Cangjie. We instantiate ILA-agent for Cangjie and evaluate its performance across code generation, translation, and program repair tasks. Results using diverse LLMs demonstrate that ILA-agent significantly outperforms retrieval-augmented baselines. Further analysis of agent trajectories characterizes the emergent behavior patterns while highlighting persisting performance gaps.
Abstract（参考訳）: コーディングタスクにおけるLarge Language Models (LLM) の習熟度は、かつてなじみの無いプログラミング言語に直面すると、しばしば崩壊する大規模な事前学習コーパスの反映である。データ集約的な微調整とは別に、LLMが限られた外部リソースとの動的相互作用を通じて馴染みのない言語をマスターする推論時言語習得(ILA)のパラダイムを考察する。本稿では,LDMに行動プリミティブのセットを組み込む汎用的なIRAフレームワークであるIRAエージェントを提案する。ツールセットとしての人間のような振る舞いをモデリングすることによって、ILAエージェントはLLMが公式ドキュメントと実行環境との構造化された相互作用を通じて言語知識を段階的に探求し、適用し、検証することを可能にする。低リソース環境で厳密な評価を行うため,新しい静的型言語であるCangjieをベースとしたマルチタスクベンチマークであるCangjie-benchを構築した。我々は,Cangjie 用の ILA エージェントをインスタンス化し,コード生成,翻訳,プログラム修復タスクのパフォーマンスを評価する。多様なLDMを用いた結果, ILA-agentは検索ベースラインよりも有意に優れていた。エージェントトラジェクトリのさらなる解析は、持続的なパフォーマンスギャップを強調しながら、創発的な動作パターンを特徴付ける。

関連論文リスト

IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文参考訳（メタデータ） (2024-10-25T23:38:28Z)
Scaffolded Language Models with Language Supervision for Mixed-Autonomy: A Survey [52.00674453604779]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文参考訳（メタデータ） (2024-10-21T18:06:25Z)
Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。 Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文参考訳（メタデータ） (2024-04-09T22:03:39Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Cross-lingual Transfer in Programming Languages: An Extensive Empirical Study [5.350495525141013]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて最先端のパフォーマンスを達成した。 RustやSwiftといった重要な言語は、公開コードに制限があるため、低リソースのままである。対象とタスクに対して最適なソース言語を推定する性能予測モデルを構築した。
論文参考訳（メタデータ） (2023-10-25T19:04:33Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。