論文の概要: Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization
- arxiv url: http://arxiv.org/abs/2605.21751v1
- Date: Wed, 20 May 2026 21:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.491745
- Title: Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization
- Title(参考訳): モデルではモデル化できるが、バインディングできない: テキストから最適化における構造化グラウンド
- Authors: Zhiqi Gao, Albert Ge, Alexander Berenbeim, Nathaniel D. Bastian, Frederic Sala,
- Abstract要約: 定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 54.749573452394664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-optimization requires two separable capabilities: modeling -- choosing the right optimization structure -- and binding -- grounding every coefficient, index, and parameter in the concrete problem data. We study this via Text2Opt-Bench, a scalable benchmark of solver-verified optimization problems spanning 12 categories, from textbook linear programs to stochastic and multi-objective formulations with up to thousands of variables. Across 10+ models, we find that accuracy collapses as instance data grows, even when the formulation itself is simple. We call this the effective binding limit. We address this via a simple inference-time approach, BIND, which externalizes numeric data to structured files so the model binds data programmatically rather than transcribing from the prompt. BIND improves GPT-5-Nano from 59.1% to 82.4% accuracy, matching pass@5 (82.0%) at lower token cost than pass@1, and GPT-5 from 86.2% to 95.8%. Furthermore, we validate our hypothesis by finetuning a model exclusively on binding and show that it outperforms end-to-end SFT and RL across three structurally distinct optimization categories, with a 1.5B binding specialist alone matching a 7B end-to-end baseline.
- Abstract(参考訳): テキストを最適化するには、モデリング -- 適切な最適化構造を選択する -- とバインディング -- という2つの分離可能な機能が必要です。
テキスト2Opt-Benchは、教科書の線形プログラムから、最大数千の変数を持つ確率的・多目的的定式化まで、12のカテゴリにまたがるソルバ検証最適化問題のスケーラブルなベンチマークである。
10モデル以上のモデルでは、定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
これを効果的なバインディング制限と呼びます。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いてこの問題に対処する。
BIND は GPT-5-Nano を 59.1% から 82.4% に改善し、pass@5 (82.0%) と 86.2% から 95.8% に低いトークンコストで一致する。
さらに,バインディングのみに限定してモデルを微調整し,構造的に異なる3つの最適化カテゴリにおいて,エンド・ツー・エンドのSFTとRLを上回り,1.5Bのバインディングスペシャリストのみを7Bのエンド・ツー・エンドのベースラインに適合させることを示した。
関連論文リスト
- Bayesian Model Merging [17.887004278413915]
モデルマージは、複数のタスク固有のエキスパートモデルを、共同トレーニングなしで単一のモデルに結合することを目的としている。
本稿では,プラグインとプレイの双方向最適化フレームワークであるBayesian Model Merging (BMM)を紹介する。
BMMは、すべてのプラグアンドプレイアンカーベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-13T00:36:47Z) - VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents [1.06378109904813]
VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
論文 参考訳(メタデータ) (2026-03-16T11:15:56Z) - Robust LLM-based Column Type Annotation via Prompt Augmentation with LoRA Tuning [0.749377967268953]
カラムタイプ。
CTAはスキーマアライメントとセマンティック理解を実現するための基本的なステップです。
既存のエンコーダのみの言語モデルでは,ラベル付き列を微調整すると高い精度が得られる。
本稿では,CTAのパラメータ効率向上のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-28T02:04:17Z) - TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文 参考訳(メタデータ) (2025-11-27T06:09:54Z) - Combatting Dimensional Collapse in LLM Pre-Training Data via Diversified File Selection [65.96556073745197]
DiverSified File selection algorithm (DiSF) は特徴空間における最も非相関なテキストファイルを選択するために提案される。
DiSFは590万のトレーニングファイルの98.5%をSlimPajamaに保存し、50Bのトレーニング予算内でのデータ事前トレーニングを上回っている。
論文 参考訳(メタデータ) (2025-04-29T11:13:18Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。