論文の概要: Complex Logical Instruction Generation
- arxiv url: http://arxiv.org/abs/2508.09125v1
- Date: Tue, 12 Aug 2025 17:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.535444
- Title: Complex Logical Instruction Generation
- Title(参考訳): 複雑な論理的命令生成
- Authors: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song,
- Abstract要約: 大言語モデル(LLM)がロジックに富んだ命令でどれだけうまく機能するかは、まだ解明されていない。
LogicIFGenとLogicIFEvalを提案する。
LogicIFGenは、コード関数から検証可能な命令を生成するためのスケーラブルで自動化されたフレームワークである。
LogicIFEvalは426の検証可能なロジックリッチな命令からなるベンチマークである。
- 参考スコア(独自算出の注目度): 32.47317492080224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction following has catalyzed the recent era of Large Language Models (LLMs) and is the foundational skill underpinning more advanced capabilities such as reasoning and agentic behaviors. As tasks grow more challenging, the logic structures embedded in natural language instructions becomes increasingly intricate. However, how well LLMs perform on such logic-rich instructions remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a scalable, automated framework for generating verifiable instructions from code functions, which can naturally express rich logic such as conditionals, nesting, recursion, and function calls. We further curate a collection of complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark comprising 426 verifiable logic-rich instructions. Our experiments demonstrate that current state-of-the-art LLMs still struggle to correctly follow the instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the instructions, revealing significant deficiencies in the instruction-following ability. Code and Benchmark: https://github.com/mianzhang/LogicIF
- Abstract(参考訳): 以下に示す命令は、最近のLarge Language Models (LLMs) の時代を触媒し、推論やエージェントの振る舞いといったより高度な能力を支える基礎的なスキルである。
タスクがより困難になるにつれて、自然言語命令に埋め込まれた論理構造はますます複雑化する。
しかし、そのような論理に富んだ命令でLLMがどの程度うまく機能するかはまだ未定である。
LogicIFGenとLogicIFEvalを提案する。
LogicIFGenは、コード関数から検証可能な命令を生成するためのスケーラブルで自動化されたフレームワークである。
さらに複雑なコード関数の集合をキュレートし、LogicIFGenを使ってLogicIFEvalを構築する。
我々の実験は、現在のLLMがLogicIFEvalの命令を正しく従うのに苦戦していることを示している。
ほとんどのLSMは命令の60%未満しか追跡できず、命令追従能力に重大な欠陥があることが判明した。
コードとベンチマーク:https://github.com/mianzhang/LogicIF
関連論文リスト
- Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。