論文の概要: Data Contamination in Neural Hieroglyphic Translation: A Reproducibility Study
- arxiv url: http://arxiv.org/abs/2605.07453v1
- Date: Fri, 08 May 2026 09:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.932187
- Title: Data Contamination in Neural Hieroglyphic Translation: A Reproducibility Study
- Title(参考訳): ニューラルヒエログリフ翻訳におけるデータ汚染 : 再現性の検討
- Authors: Ammar Toutou, Abdelrahman Harb, Christine Basta,
- Abstract要約: 古代および絶滅危惧言語は、NLPに固有の課題を提起する。
微調整M2M-100を用いた61.5BLEUの最近の研究
我々の再生はリリースされたモデルでわずか37.0 BLEUしか得られない。
- 参考スコア(独自算出の注目度): 0.8684482273743698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ancient and endangered languages pose a unique challenge for NLP: their datasets are inherently scarce, difficult to expand, and built from formulaic corpora -- making data-quality issues especially consequential yet rarely audited. Motivated by the need to understand what current NMT can realistically achieve for such languages, we investigate hieroglyphic-to-German translation, where a recent study reported 61.5 BLEU using fine-tuned M2M-100. Our reproduction yields only 37.0 BLEU with the released model. Investigating this gap, we find 2\% of test targets appear identically in training (16/50; 50\% under 8-gram overlap at 70\% threshold). This contamination inflates scores dramatically: contaminated samples achieve up to 83.8 BLEU / 0.924 COMET-22 versus 30.9--39.2 BLEU / 0.622--0.676 COMET-22 on clean samples across five model configurations spanning two architectures. Document-level decontamination reduces contaminated BLEU by only 4.6 points because 8/16 targets persist via other source documents -- target-level deduplication is required. We release a decontaminated 34-sample test set and establish corrected baselines (30.9--39.2 BLEU), providing a realistic assessment of NMT capability for this endangered writing system.
- Abstract(参考訳): データセットは本質的に不足しており、拡張が困難で、定式化されたコーパスから構築されている。
このような言語に対して現在のNMTが現実的に何を達成できるかを理解する必要性に感銘を受けて、我々はヒエログリフ語からドイツ語への翻訳を調査し、最近61.5 BLEUを微調整M2M-100を用いて報告した。
我々の再生はリリースされたモデルでわずか37.0 BLEUしか得られない。
このギャップを調査すると、トレーニング中に2\%のテストターゲットが同じように見える(70\%の閾値で8グラムオーバーラップする16/50; 50\%)。
汚染されたサンプルは83.8 BLEU / 0.924 COMET-22対30.9--39.2 BLEU / 0.622--0.676 COMET-22を、2つのアーキテクチャにまたがる5つのモデル構成のクリーンなサンプルで達成する。
文書レベルの汚染除去は、他のソースドキュメントを通じて8/16のターゲットが持続するため、BLEUの汚染を4.6ポイント削減する。
我々は,34サンプルの非汚染検査セットを公開し,修正ベースライン(30.9--39.2 BLEU)を確立する。
関連論文リスト
- Self Driving Datasets: From 20 Million Papers to Nuanced Biomedical Knowledge at Scale [34.468123235616524]
PubMedは、より大きく、よりニュアンスが高く、より正確に構造化されたデータセットに、自律的で費用効率良く変換できることを示す。
本報告では,(1) バイオメディカルレポジトリを基盤としたエンティティタグパイプライン,(2) エンティティターゲットコーパスレポジトリを支援するハイブリッド検索,(3) 自然言語記述のみを付与したディープリサーチシステムであるStarlingの3つの貢献について述べる。
論文 参考訳(メタデータ) (2026-05-07T23:08:18Z) - BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation [34.429649156970015]
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
論文 参考訳(メタデータ) (2026-04-03T16:30:58Z) - Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations [2.7946918847372277]
大規模言語モデルは、数学的推論ベンチマークにおいて強い性能を示すが、意味を保存する表面摂動に対して驚くほど脆弱である。
我々は677 GSM8K問題に対して,3つのオープンウェイトLLM(Mistral-7B,Llama-3-8B,Qwen2.5-7B)を意味論的に等価な変種と組み合わせて評価した。
3つのモデルはいずれも相当な解答フリップ率(28.8%-45.1%)を示し、数字のパラフレーズは名前スワップよりも一貫して破壊的である。
論文 参考訳(メタデータ) (2026-04-02T05:30:20Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。