Fugu-MT 論文翻訳(概要): Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability

論文の概要: Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability

arxiv url: http://arxiv.org/abs/2506.15629v1
Date: Wed, 18 Jun 2025 17:00:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.748967
Title: Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability
Title（参考訳）: 学習能力を考慮した大規模言語モデルの構成一般化能力の再検討
Authors: Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
Abstract要約: ジェネレーティブ・コモンセンス推論タスクでは、ジェネレーティブ・大型言語モデル(LLM)は、与えられたすべての概念を含む文を構成する。このベンチマークは、特定の順序で概念が生成されるかどうかを評価するために、カバレッジを順序付けする。最も命令準拠のLLMでさえ、約75%の順序付きカバレッジしか達成せず、命令追従機能と合成一般化機能の両方の改善の必要性を強調した。
参考スコア（独自算出の注目度）: 27.84922167294656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In generative commonsense reasoning tasks such as CommonGen, generative large language models (LLMs) compose sentences that include all given concepts. However, when focusing on instruction-following capabilities, if a prompt specifies a concept order, LLMs must generate sentences that adhere to the specified order. To address this, we propose Ordered CommonGen, a benchmark designed to evaluate the compositional generalization and instruction-following abilities of LLMs. This benchmark measures ordered coverage to assess whether concepts are generated in the specified order, enabling a simultaneous evaluation of both abilities. We conducted a comprehensive analysis using 36 LLMs and found that, while LLMs generally understand the intent of instructions, biases toward specific concept order patterns often lead to low-diversity outputs or identical results even when the concept order is altered. Moreover, even the most instruction-compliant LLM achieved only about 75% ordered coverage, highlighting the need for improvements in both instruction-following and compositional generalization capabilities.
Abstract（参考訳）: CommonGenのような生成的コモンセンス推論タスクでは、生成的大言語モデル(LLM)は、与えられたすべての概念を含む文を構成する。しかし、命令フォロー機能にフォーカスする場合、プロンプトが概念順序を指定した場合、LLMは指定された順序に従う文を生成する必要がある。そこで本研究では,LLMの構成一般化と命令追従能力を評価するためのベンチマークである Ordered CommonGen を提案する。このベンチマークは、特定の順序で概念が生成されるかどうかを評価するために、カバレッジを順序付けし、両方の能力の同時評価を可能にする。 LLMは命令の意図を一般的に理解しているのに対し、特定の概念の順序パターンに対する偏りは、概念の順序が変更されても、低多様性の出力や同一の結果につながることが多い。さらに、最も命令準拠のLLMでさえ、約75%の順序付きカバレッジしか達成せず、命令追従機能と合成一般化機能の両方の改善の必要性を強調した。

関連論文リスト

RELIC: Evaluating Compositional Instruction Following via Language Recognition [37.49115450182637]
大規模言語モデル(LLM)は、コンテキストで提供されるタスクの仕様に基づいてのみタスクを実行することがますます期待されている。本稿では,言語認識を用いたインコンテキスト認識(RELIC)フレームワークについて紹介する。
論文参考訳（メタデータ） (2025-06-05T16:17:24Z)
Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability [5.393872292662451]
Meeseeksは,反復的なフィードバックフレームワークを通じて,現実的な人間-LLMインタラクションをシミュレートする。 MeeseeksはマルチターンシナリオにおけるLLMの命令フォロー機能に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-04-30T13:28:19Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前訓練された大言語(Ms と PLMs)が生成するテキストの意味やスタイルを,推論時に様々なタスクに対して制御することを目的としている。これらの方法は、しばしば、欲求的かつ明示的にターゲットを選択することによって、もっともらしい連続を導く。認知二重プロセス理論に着想を得て,新しい復号化フレームワークDECDERを提案する。
論文参考訳（メタデータ） (2024-03-04T11:49:08Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Learning to Predict Concept Ordering for Common Sense Generation [32.2052248473022]
入力概念の順序付けと生成文の品質の関係について検討する。 BART-largeモデルは,本研究で検討した他のLMよりも一貫して優れていた。 GPT3ベースの大きな言語モデル(LLM)は、必ずしもこのタスクにおいてより小さなLMよりも優れているとは限らない。
論文参考訳（メタデータ） (2023-09-12T16:27:18Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文参考訳（メタデータ） (2023-08-17T18:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。