Fugu-MT 論文翻訳(概要): RETUYT-INCO at BEA 2025 Shared Task: How Far Can Lightweight Models Go in AI-powered Tutor Evaluation?

論文の概要: RETUYT-INCO at BEA 2025 Shared Task: How Far Can Lightweight Models Go in AI-powered Tutor Evaluation?

arxiv url: http://arxiv.org/abs/2506.11243v1
Date: Thu, 12 Jun 2025 19:24:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 17:50:49.559293
Title: RETUYT-INCO at BEA 2025 Shared Task: How Far Can Lightweight Models Go in AI-powered Tutor Evaluation?
Title（参考訳）: ReTUYT-INCO at BEA 2025 Shared Task: 軽量モデルはAIによるチュータ評価でどこまで進むことができるか?
Authors: Santiago Góngora, Ignacio Sastre, Santiago Robaina, Ignacio Remersaro, Luis Chiruzzo, Aiala Rosá,
Abstract要約: BEA 2025共有タスクにおけるRETUYT-INCO参加について紹介する。サイズが1B未満のモデルがこれらのタスクに競争力があることが分かりました。
参考スコア（独自算出の注目度）: 0.46730137477295186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present the RETUYT-INCO participation at the BEA 2025 shared task. Our participation was characterized by the decision of using relatively small models, with fewer than 1B parameters. This self-imposed restriction tries to represent the conditions in which many research labs or institutions are in the Global South, where computational power is not easily accessible due to its prohibitive cost. Even under this restrictive self-imposed setting, our models managed to stay competitive with the rest of teams that participated in the shared task. According to the $exact\ F_1$ scores published by the organizers, the performance gaps between our models and the winners were as follows: $6.46$ in Track 1; $10.24$ in Track 2; $7.85$ in Track 3; $9.56$ in Track 4; and $13.13$ in Track 5. Considering that the minimum difference with a winner team is $6.46$ points -- and the maximum difference is $13.13$ -- according to the $exact\ F_1$ score, we find that models with a size smaller than 1B parameters are competitive for these tasks, all of which can be run on computers with a low-budget GPU or even without a GPU.
Abstract（参考訳）: 本稿では,BEA 2025共有タスクにおけるRETUYT-INCO参加について述べる。我々の参加は,1Bパラメータ未満の比較的小さなモデルを使用するという決定が特徴である。この自己意図的な制限は、多くの研究所や機関がグローバル・サウスにある状況を表しようとしている。この制限的な自己決定的な設定の下でも、私たちのモデルは、共有タスクに参加した他のチームと競争し続けることができました。主催者が公表した$exact\ F_1$スコアによると、我々のモデルと受賞者のパフォーマンスギャップは、トラック1の6.46ドル、トラック2の10.24ドル、トラック3の7.85ドル、トラック4の9.56ドル、トラック5の13.13ドルである。 $exact\ F_1$スコアによると、勝者チームとの最小差は6.46ドルポイントであり、最大差は13.13ドルである。

関連論文リスト

Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale [0.0]
我々は、Kaggleの投稿から生成される合成タスクを用いて、ベンチマークを構築する。各タスクには、構造化された入力テストケースと推定価格が伴う。本ベンチマークでは,現代LLM (3.5 Claude Haiku, GPT-4o-mini, Qwen 2.5, Mistral) の評価を行った。
論文参考訳（メタデータ） (2025-05-16T22:42:04Z)
Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文参考訳（メタデータ） (2024-06-15T14:44:43Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Cost Aware Best Arm Identification [13.380383930882784]
emphCost Aware Best Arm Identification (CABAI)と呼ぶ。平方根規則に基づくemphChernoff Overlap (CO)と呼ばれる単純なアルゴリズムを提案する。この結果から,不均一な動作コストを無視すると,実行時の準最適性が得られ,また,簡単なアルゴリズムにより,幅広い問題に対してほぼ最適性能が得られることがわかった。
論文参考訳（メタデータ） (2024-02-26T16:27:08Z)
Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-10-20T16:46:41Z)
The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。一般関数クラスと一般モデルクラスで学ぶことに集中する。対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文参考訳（メタデータ） (2022-03-03T02:55:55Z)
Dynamic Ranking with the BTL Model: A Nearest Neighbor based Rank Centrality Method [5.025654873456756]
静的設定から動的設定への古典的BTL(Bradley-Terry-Luce)モデルの拡張について検討する。我々は mathbbRn$ のアイテム $w_t* の潜在強度をいつでも回復することを目指している。また、実データおよび合成データに関する実験で理論解析を補完する。
論文参考訳（メタデータ） (2021-09-28T14:01:40Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
Adversarial robustness against multiple $l_p$-threat models at the price of one and how to quickly fine-tune robust models to another threat model [79.05253587566197]
対向的堅牢性を実現するために, 対向的トレーニング (AT) を単一$l_p$-threatモデルで行うことが広く議論されている。本稿では,$l_p$-threatモデルの結合に対する対角的ロバスト性を実現するための,シンプルで効率的なトレーニング手法を開発する。
論文参考訳（メタデータ） (2021-05-26T12:20:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。