論文の概要: Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets
- arxiv url: http://arxiv.org/abs/2509.13131v1
- Date: Tue, 16 Sep 2025 14:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.127922
- Title: Reasoning with Preference Constraints: A Benchmark for Language Models in Many-to-One Matching Markets
- Title(参考訳): 嗜好制約による推論: 複数対1のマッチング市場における言語モデルのベンチマーク
- Authors: Marylou Fauchard, Florian Carichon, Margarida Carvalho, Golnoosh Farnadi,
- Abstract要約: 大規模言語モデル (LLM) は、最適化を含む複雑な数学的タスクにおいて強い性能を示している。
優先的かつ構造的な制約の下で推論を必要とする問題にLLMを適用することは、まだ未定である。
我々は,大学入学問題の369件の新たなベンチマークを用いて,実用性,安定性,最適性といった重要な次元にわたるLSMを評価する。
- 参考スコア(独自算出の注目度): 13.111181135818184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in reasoning with large language models (LLMs) have demonstrated strong performance on complex mathematical tasks, including combinatorial optimization. Techniques such as Chain-of-Thought and In-Context Learning have further enhanced this capability, making LLMs both powerful and accessible tools for a wide range of users, including non-experts. However, applying LLMs to matching problems, which require reasoning under preferential and structural constraints, remains underexplored. To address this gap, we introduce a novel benchmark of 369 instances of the College Admission Problem, a canonical example of a matching problem with preferences, to evaluate LLMs across key dimensions: feasibility, stability, and optimality. We employ this benchmark to assess the performance of several open-weight LLMs. Our results first reveal that while LLMs can satisfy certain constraints, they struggle to meet all evaluation criteria consistently. They also show that reasoning LLMs, like QwQ and GPT-oss, significantly outperform traditional models such as Llama, Qwen or Mistral, defined here as models used without any dedicated reasoning mechanisms. Moreover, we observed that LLMs reacted differently to the various prompting strategies tested, which include Chain-of-Thought, In-Context Learning and role-based prompting, with no prompt consistently offering the best performance. Finally, we report the performances from iterative prompting with auto-generated feedback and show that they are not monotonic; they can peak early and then significantly decline in later attempts. Overall, this work offers a new perspective on model reasoning performance and the effectiveness of prompting strategies in combinatorial optimization problems with preferential constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた推論の最近の進歩は、組合せ最適化を含む複雑な数学的タスクにおいて強い性能を示している。
Chain-of-ThoughtやIn-Context Learningといったテクニックにより、この機能がさらに強化され、LLMは、非専門家を含む幅広いユーザに対して、強力でアクセスしやすいツールとなる。
しかし、優先的かつ構造的な制約の下での推論を必要とするマッチング問題にLLMを適用することは、まだ未定である。
このギャップに対処するため,大学入学問題(College Admission Problem)の369件の新たなベンチマークを導入する。
オープンウェイトLLMの性能評価には,このベンチマークを用いている。
その結果, LLMは一定の制約を満たすことができるが, 全ての評価基準を一貫して満たすのに苦慮していることが明らかとなった。
また、QwQ や GPT-oss のような推論 LLM は、Llama や Qwen や Mistral といった従来のモデルよりも大幅に優れており、特別な推論機構を持たないモデルとしてここで定義されている。
さらに,LLMは,Chain-of-Thought,In-Context Learning,ロールベースのプロンプトなど,テスト対象のプロンプト戦略と異なる反応を示した。
最後に、自動生成フィードバックによる反復的フィードバックによるパフォーマンスを報告し、モノトニックではないことを示す。
全体として、本研究はモデル推論性能の新しい視点と、優先的な制約を伴う組合せ最適化問題における戦略の促進効果を提供する。
関連論文リスト
- Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling [1.219841051166348]
本稿では,テキスト内検索とテスト時間スケーリングの併用の可能性について検討する。
内部スケーリングを付加したLLMに高度なコンテキスト内探索プロンプトを付加することにより、変換性能のブレークスルーを実現することができる。
論文 参考訳(メタデータ) (2025-05-28T12:28:18Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。