論文の概要: FEval-TTC: Fair Evaluation Protocol for Test-Time Compute
- arxiv url: http://arxiv.org/abs/2511.01203v1
- Date: Mon, 03 Nov 2025 03:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.111944
- Title: FEval-TTC: Fair Evaluation Protocol for Test-Time Compute
- Title(参考訳): FEval-TTC:テスト時間計算のための公正な評価プロトコル
- Authors: Pavel Rumiantsev, Soumyasundar Pal, Yingxue Zhang, Mark Coates,
- Abstract要約: We propose a Fair Evaluation Protocol for Test-Time Compute (FEval-TTC)。
FEval-TTCは、基礎となるChains-of-Thought(CoT)を利用したTTC法の評価に重点を置いている。
クエリ毎にトークンとドルの両方のコストを見積もるコストモデリング手順を提供する。
- 参考スコア(独自算出の注目度): 24.100661801653924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) and the associated dollar costs of API calls can fluctuate over time, potentially invalidating conclusions drawn in prior research. To address this, we propose a Fair Evaluation protocol for Test-Time Compute (FEval-TTC), designed to ensure consistent assessment of test-time compute (TTC) methods, regardless of such fluctuations. FEval-TTC focuses on the evaluation of TTC methods that utilize underlying Chains-of-Thought (CoT). It supports evaluations across multiple LLMs on a diverse set of mathematical and commonsense reasoning datasets. The few-shot prompting and answer extraction processes are standardized across datasets, reducing both time and monetary overhead for researchers. Furthermore, we provide a cost modelling procedure that estimates both the token and dollar cost per query, facilitating equitable comparisons of prevalent TTC methods. We open-source FEval-TTC for public use at https://github.com/networkslab/feval_ttc .
- Abstract(参考訳): LLM(Large Language Models)のパフォーマンスと関連するAPI呼び出しのドル費用は、時間とともに変動し、以前の研究で得られた結論を無効にする可能性がある。
このような変動によらず,テスト時間計算(TTC)手法の整合性を確保するために,テスト時間計算(FEval-TTC)のための公正な評価プロトコルを提案する。
FEval-TTCは、基礎となるChains-of-Thought(CoT)を利用するTTC手法の評価に重点を置いている。
数学的および常識的推論データセットの多種多様なセットにおいて、複数のLLMに対する評価をサポートする。
数ショットのプロンプトと回答抽出プロセスはデータセット間で標準化されており、研究者の時間と金銭的オーバーヘッドを減らしている。
さらに,クエリ毎のトークンとドルの両方のコストを見積もるコストモデリング手法を提案し,TTC手法の等価比較を容易にする。
私たちは FEval-TTC を https://github.com/networkslab/feval_ttc で公開しています。
関連論文リスト
- RTTC: Reward-Guided Collaborative Test-Time Compute [0.9208007322096533]
Test-Time Compute (TTC) は,Large Language Models (LLM) の性能向上のための強力なパラダイムとして登場した。
Reward-Guided Test-Time Compute (RTTC) は、クエリ毎に最も効果的なTTC戦略を適応的に選択する新しいフレームワークである。
RTTCは分散サーバクライアントアーキテクチャで動作し、リモートの知識ベースから関連するサンプルを取得し、RAGまたはクライアントデバイスに軽量な微調整を適用する。
論文 参考訳(メタデータ) (2025-08-07T21:18:52Z) - The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models [86.9724209223541]
視覚言語モデル(VLM)上でのTTA手法評価のための総合ベンチマークであるTTA-VLMを紹介する。
本ベンチマークでは,8つのエピソードなTTAメソッドと7つのオンラインTTAメソッドを,統一的かつ再現可能なフレームワーク内に実装し,広く使用されている15のデータセットで評価する。
1)既存のTTA手法は,従来の先駆的手法と比較して限られた利得が得られること,2)現在のTTA手法は訓練時の微調整手法との連携が不十分であること,3)モデルの信頼性を低下させるコストがしばしば発生すること,などが判明した。
論文 参考訳(メタデータ) (2025-06-30T16:05:55Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Evaluation of Test-Time Adaptation Under Computational Time Constraints [80.40939405129102]
テスト時間適応(TTA)メソッドは、テスト時にラベルのないデータを活用して、分散シフトに適応する。
現在の評価プロトコルは、この余分なコストの影響を見落とし、実際の適用性に影響を与える。
本稿では,TTA手法のより現実的な評価プロトコルを提案し,一定の速度のデータストリームからデータをオンライン形式で受信する。
論文 参考訳(メタデータ) (2023-04-10T18:01:47Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering Regularized Self-Training [37.75537703971045]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
自己学習(ST)はラベルのないデータから学ぶ上で大きな成功を収めた。
TTAC++は、5つのTTデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-03-20T04:30:18Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering [37.76664203157892]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
TTACはソースドメインとターゲットドメインの両方のクラスタを検出し、ターゲットクラスタとソースクラスタを一致させて、一般化を改善する。
すべてのTTプロトコルにおいて,TTACは5つのTTデータセットの最先端手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-06-06T16:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。