論文の概要: Searching for Difficult-to-Translate Test Examples at Scale
- arxiv url: http://arxiv.org/abs/2509.26619v1
- Date: Tue, 30 Sep 2025 17:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.653014
- Title: Searching for Difficult-to-Translate Test Examples at Scale
- Title(参考訳): 大規模翻訳困難試験事例の探索
- Authors: Wenda Xu, Vilém Zouhar, Parker Riley, Mara Finkelstein, Markus Freitag, Daniel Deutsch,
- Abstract要約: インターネットには数万もの潜在的なトピックがある。
すべてのトピックにまたがって多数の例を描いて評価することで、最も難しいものを見つけることは不可能です。
このフレームワークでは、各トピックは'腕'であり、(コストで)腕を引っ張るには、ひとつの例を描き、それを評価し、その難しさを測る。
- 参考スコア(独自算出の注目度): 36.23371211688237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP models require test data that are sufficiently challenging. The difficulty of an example is linked to the topic it originates from (''seed topic''). The relationship between the topic and the difficulty of its instances is stochastic in nature: an example about a difficult topic can happen to be easy, and vice versa. At the scale of the Internet, there are tens of thousands of potential topics, and finding the most difficult one by drawing and evaluating a large number of examples across all topics is computationally infeasible. We formalize this task and treat it as a multi-armed bandit problem. In this framework, each topic is an ''arm,'' and pulling an arm (at a cost) involves drawing a single example, evaluating it, and measuring its difficulty. The goal is to efficiently identify the most difficult topics within a fixed computational budget. We illustrate the bandit problem setup of finding difficult examples for the task of machine translation. We find that various bandit strategies vastly outperform baseline methods like brute-force searching the most challenging topics.
- Abstract(参考訳): NLPモデルは十分に困難なテストデータを必要とする。
例の難しさは、それが発するトピック('シードトピック')と関連付けられている。
トピックとそのインスタンスの難しさの関係は、本質的には確率的です。
インターネットの規模では、潜在的なトピックが数万あり、すべてのトピックにまたがる多数のサンプルを描画し、評価することで、最も難しいトピックを見つけることは、計算的に不可能である。
このタスクを形式化し、マルチアームバンディット問題として扱う。
このフレームワークでは、各トピックは'腕'であり、(コストがかかる)腕を引くには、ひとつの例を描き、それを評価し、その難しさを測る。
目標は、固定された計算予算内で最も難しいトピックを効率的に識別することである。
本稿では,機械翻訳作業の難解な例を見つけるための帯域幅問題のセットアップについて説明する。
さまざまな帯域戦略が,最も困難なトピックを探索するブルートフォースなど,ベースライン手法を大きく上回っていることが分かりました。
関連論文リスト
- Generating Difficult-to-Translate Texts [30.410896278271863]
現実世界から得られた機械翻訳ベンチマークは、急速に廃止された。
サブサンプリングやオフスクラッチ合成のような難しいテストケースを作成するための現在の手法は、難しい例を識別できないか、多様性と自然性の欠如に悩まされているかのいずれかである。
MTブレーカ(MT-breaker)は,大規模な言語モデルにおいて,翻訳の難易度を高めるために,ソーステキストを反復的に洗練する手法である。
論文 参考訳(メタデータ) (2025-09-30T17:46:08Z) - ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。
難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。
我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文 参考訳(メタデータ) (2025-09-25T12:22:44Z) - Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。
計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。
最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文 参考訳(メタデータ) (2025-07-09T22:22:49Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z) - Least-to-Most Prompting Enables Complex Reasoning in Large Language
Models [52.59923418570378]
本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。
最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。
SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
論文 参考訳(メタデータ) (2022-05-21T15:34:53Z) - Pushing the Limits of Rule Reasoning in Transformers through Natural
Language Satisfiability [30.01308882849197]
本稿では,アルゴリズム推論データセットを作成するための新しい手法を提案する。
鍵となる考え方は、ハードプロポーズSAT問題の経験的なサンプリングや、言語に関する複雑性理論的な研究から洞察を得ることである。
十分なトレーニングデータを得た現在のトランスフォーマーは、結果のNLSat問題を解決するのに驚くほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-12-16T17:47:20Z) - Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文 参考訳(メタデータ) (2020-10-14T16:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。