論文の概要: Training with Pseudo-Code for Instruction Following
- arxiv url: http://arxiv.org/abs/2505.18011v1
- Date: Fri, 23 May 2025 15:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.185685
- Title: Training with Pseudo-Code for Instruction Following
- Title(参考訳): Pseudo-Code を用いたインストラクション後のトレーニング
- Authors: Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor,
- Abstract要約: 我々は、擬似コードで表現された場合、モデルが指示に従うことを示唆する最近の研究から着想を得た。
擬似コードで再表現された命令を含む命令調整データを用いた微調整大規模言語モデルを提案する。
我々は、5ドルの異なるモデルで厳密な実験を行い、擬似コードで訓練された場合、モデルが指示に従うだけでなく、数学的および常識推論に関連する他のタスクにもその能力を維持することを発見した。
- 参考スコア(独自算出の注目度): 4.7188893422904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the rapid progress in the capabilities of Large Language Models (LLMs), they continue to have difficulty following relatively simple, unambiguous instructions, especially when compositions are involved. In this paper, we take inspiration from recent work that suggests that models may follow instructions better when they are expressed in pseudo-code. However, writing pseudo-code programs can be tedious and using few-shot demonstrations to craft code representations for use in inference can be unnatural for non-expert users of LLMs. To overcome these limitations, we propose fine-tuning LLMs with instruction-tuning data that additionally includes instructions re-expressed in pseudo-code along with the final response. We evaluate models trained using our method on $11$ publicly available benchmarks comprising of tasks related to instruction-following, mathematics, and common-sense reasoning. We conduct rigorous experiments with $5$ different models and find that not only do models follow instructions better when trained with pseudo-code, they also retain their capabilities on the other tasks related to mathematical and common sense reasoning. Specifically, we observe a relative gain of $3$--$19$% on instruction-following benchmark, and an average gain of upto 14% across all tasks.
- Abstract(参考訳): LLM(Large Language Models)の能力は急速に進歩しているが、特に構成が関与する場合、比較的単純で曖昧な命令に従うことは困難である。
本稿では,モデルが擬似コードで表現された場合,モデルが命令をより良く従うことを示唆する最近の研究から着想を得た。
しかし、擬似コードプログラムを書くのは面倒で、推論に使用するコード表現を作るために数発のデモを使うのは、LLMのエキスパートでないユーザにとっては不自然なことだ。
これらの制限を克服するため、擬似コードで再表現された命令と最終応答を含む命令調整データを用いた微調整LLMを提案する。
我々は,提案手法を用いて訓練されたモデルについて,命令追従,数学,常識推論に関連するタスクからなる11ドルの公開ベンチマークで評価した。
我々は、5ドルの異なるモデルで厳密な実験を行い、擬似コードで訓練された場合、モデルが指示に従うだけでなく、数学的および常識推論に関連する他のタスクにもその能力を維持することを発見した。
具体的には、命令追従ベンチマークで3ドル~19ドル%の相対的なゲインと、すべてのタスクで平均14%のゲインを観察する。
関連論文リスト
- LLMs can be easily Confused by Instructional Distractions [16.060402139507644]
大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。
この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。
DIM-Benchと呼ばれる新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-02-05T04:52:57Z) - Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks [4.945902994386117]
我々は,知識と指示の相互作用について検討し,LLMが単純な回答修正命令に従うのに苦労していることを観察する。
テキスト操作や数値処理,リスト操作,インタプリタ命令など,単純な命令のセットを適用する。
論文 参考訳(メタデータ) (2024-10-16T19:07:37Z) - From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。
我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-05-30T07:54:07Z) - Dual Instruction Tuning with Large Language Models for Mathematical Reasoning [26.00472810721806]
本稿では,前方方向と逆方向の両方から数学的推論をモデル化するための二重命令チューニング手法を提案する。
これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。
総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。
論文 参考訳(メタデータ) (2024-03-27T06:43:58Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。