論文の概要: BoN Appetit Team at LeWiDi-2025: Best-of-N Test-time Scaling Can Not Stomach Annotation Disagreements (Yet)
- arxiv url: http://arxiv.org/abs/2510.12516v1
- Date: Tue, 14 Oct 2025 13:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.335249
- Title: BoN Appetit Team at LeWiDi-2025: Best-of-N Test-time Scaling Can Not Stomach Annotation Disagreements (Yet)
- Title(参考訳): BoN Appetit Team at LeWiDi-2025: Best-of-N Test-time Scaling Can Not Stomach Annotation Disagreements (Yet)
- Authors: Tomas Ruiz, Siyao Peng, Barbara Plank, Carsten Schwemmer,
- Abstract要約: 現在,Best-of-N法は数学からLeWiDiタスクに移行していない。
実験の結果,Best-of-N法は現在,数学からLeWiDiタスクへ移行していないことが示唆された。
- 参考スコア(独自算出の注目度): 33.82391556763442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling is a family of techniques to improve LLM outputs at inference time by performing extra computation. To the best of our knowledge, test-time scaling has been limited to domains with verifiably correct answers, like mathematics and coding. We transfer test-time scaling to the LeWiDi-2025 tasks to evaluate annotation disagreements. We experiment with three test-time scaling methods: two benchmark algorithms (Model Averaging and Majority Voting), and a Best-of-N sampling method. The two benchmark methods improve LLM performance consistently on the LeWiDi tasks, but the Best-of-N method does not. Our experiments suggest that the Best-of-N method does not currently transfer from mathematics to LeWiDi tasks, and we analyze potential reasons for this gap.
- Abstract(参考訳): テストタイムスケーリング(Test-time Scaling)は、余分な計算を行うことで、推論時にLLM出力を改善する技術群である。
私たちの知る限りでは、テストタイムのスケーリングは、数学やコーディングといった、間違いなく正しい答えを持つ領域に限られています。
我々は、アノテーションの不一致を評価するために、テスト時間スケーリングをLeWiDi-2025タスクに転送する。
2つのベンチマークアルゴリズム(モデル平均化と多数投票)とBest-of-Nサンプリング手法を実験した。
2つのベンチマークメソッドは、LeWiDiタスクでLLMのパフォーマンスを一貫して改善するが、Best-of-Nメソッドは改善しない。
実験の結果,現在Best-of-N法は数学からLeWiDiタスクに移行していないことが示唆された。
関連論文リスト
- Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning [8.73181950200897]
本稿では,55言語における競合レベルの問題を特徴とする多言語数学ベンチマークMCLMを紹介する。
テスト時間スケーリングの3つのメソッドをテストします - Outcome Reward Modeling(ORM)、Process Reward Modeling(ORM)、Budget Forcing(BF)です。
実験の結果,Qwen2.5-1.5B Math with ORMはMCLMでは35.8,MR1-1.5BではBFは35.2であった。
論文 参考訳(メタデータ) (2025-02-24T18:36:15Z) - CodeMonkeys: Scaling Test-Time Compute for Software Engineering [45.84513832258217]
テスト時間計算のスケーリングは、LLM機能を改善するための有望な軸である。
ここでは、SWE-benchデータセットから現実のGitHub問題を解決するという文脈で、この問題について検討する。
CodeMonkeysという名前の私たちのシステムは、ドラフト編集と同時にテストスクリプトを共同で生成して実行することで、モデルを反復的に編集することができる。
論文 参考訳(メタデータ) (2025-01-24T18:58:40Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。