論文の概要: AutoArabic: A Three-Stage Framework for Localizing Video-Text Retrieval Benchmarks
- arxiv url: http://arxiv.org/abs/2509.16438v1
- Date: Fri, 19 Sep 2025 21:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.790166
- Title: AutoArabic: A Three-Stage Framework for Localizing Video-Text Retrieval Benchmarks
- Title(参考訳): AutoArabic: ビデオテキスト検索ベンチマークをローカライズするための3段階フレームワーク
- Authors: Mohamed Eltahir, Osamah Sarraj, Abdulrahman Alfrihidi, Taha Alshatiri, Mohammed Khurd, Mohammed Bremoo, Tanveer Hussain,
- Abstract要約: 我々は、アラビア語以外のベンチマークを現代標準アラビア語に翻訳する3段階のフレームワーク、オートアラビアを導入する。
このフレームワークには、潜在的な翻訳エラーを自動的に97%の精度でフラグするエラー検出モジュールが含まれている。
このフレームワークをDiDeMoに適用したビデオ検索ベンチマークでは、40,144のアラビア語記述を持つアラビア語の変種であるDiDeMo-ARを生成する。
- 参考スコア(独自算出の注目度): 3.065560256430169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-to-text and text-to-video retrieval are dominated by English benchmarks (e.g. DiDeMo, MSR-VTT) and recent multilingual corpora (e.g. RUDDER), yet Arabic remains underserved, lacking localized evaluation metrics. We introduce a three-stage framework, AutoArabic, utilizing state-of-the-art large language models (LLMs) to translate non-Arabic benchmarks into Modern Standard Arabic, reducing the manual revision required by nearly fourfold. The framework incorporates an error detection module that automatically flags potential translation errors with 97% accuracy. Applying the framework to DiDeMo, a video retrieval benchmark produces DiDeMo-AR, an Arabic variant with 40,144 fluent Arabic descriptions. An analysis of the translation errors is provided and organized into an insightful taxonomy to guide future Arabic localization efforts. We train a CLIP-style baseline with identical hyperparameters on the Arabic and English variants of the benchmark, finding a moderate performance gap (about 3 percentage points at Recall@1), indicating that Arabic localization preserves benchmark difficulty. We evaluate three post-editing budgets (zero/ flagged-only/ full) and find that performance improves monotonically with more post-editing, while the raw LLM output (zero-budget) remains usable. To ensure reproducibility to other languages, we made the code available at https://github.com/Tahaalshatiri/AutoArabic.
- Abstract(参考訳): ビデオ・トゥ・テキスト・トゥ・ビデオ検索は、英語のベンチマーク(例: DiDeMo, MSR-VTT)と最近の多言語コーパス(例: RUDDER)によって支配されているが、アラビア語は保存されていない。
我々は、現在最先端の大規模言語モデル(LLM)を活用して、非アラビアベンチマークをモダン標準アラビア語に変換する3段階フレームワークであるAutoArabicを導入し、ほぼ4倍のマニュアルリビジョンを削減した。
このフレームワークには、潜在的な翻訳エラーを自動的に97%の精度でフラグするエラー検出モジュールが含まれている。
このフレームワークをDiDeMoに適用したビデオ検索ベンチマークでは、40,144のアラビア語記述を持つアラビア語の変種であるDiDeMo-ARを生成する。
翻訳エラーの分析が提供され、将来のアラビア語のローカライゼーションの取り組みを導くための洞察に富んだ分類に組織化される。
ベンチマークのアラビア語と英語の変種で同一のハイパーパラメータを持つCLIPスタイルのベースラインをトレーニングし、中程度のパフォーマンスギャップ(Recall@1で約3ポイント)を見つけ、アラビアのローカライゼーションがベンチマークの困難を保っていることを示す。
我々は,3つの後処理予算(ゼロ/フラグ付きのみ/フル)を評価し,生のLLM出力(ゼロ予算)を引き続き使用しながら,より後処理で単調に性能が向上することを確認した。
他の言語への再現性を確保するため、私たちはhttps://github.com/Tahaalshatiri/AutoArabic.comでコードを公開しました。
関連論文リスト
- TARA: Simple and Efficient Time Aware Retrieval Adaptation of MLLMs for Video Understanding [54.66784646111214]
TARA(Time Aware Retrieval Adaptation)は、ビデオデータを全く使用せずに、タイムアウェアなビデオテキスト埋め込みモデルにMultimodal LLM(MLLM)を適用する。
TARAは、時間的に逆の(キラルな)アクションをハードネガティブとしてベンチマークで、既存のすべてのビデオテキストモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-15T16:38:59Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - BALSAM: A Platform for Benchmarking Arabic Large Language Models [34.50348949235453]
BALSAMは、アラビア語のLLM開発と評価を進めることを目的とした総合的なコミュニティ主導のベンチマークである。
14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
論文 参考訳(メタデータ) (2025-07-30T12:16:39Z) - 3LM: Bridging Arabic, STEM, and Code through Benchmarking [0.7227323884094952]
3LMはアラビア語用に特別に設計された3つのベンチマークのスイートである。
1つ目は、アラビア語の教科書と教育用ワークシートから自然に派生した、STEM関連の質問応答ペアのセットである。
2つ目は、同じソースを用いて合成されたSTEM質問である。
第3のベンチマークは、2つの広く使用されているコードベンチマークを注意深く翻訳することで構築されたコード生成に焦点を当てている。
論文 参考訳(メタデータ) (2025-07-21T17:58:27Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Automatic Error Type Annotation for Arabic [20.51341894424478]
現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。
我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えている。
ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-09-16T15:50:11Z) - AraT5: Text-to-Text Transformers for Arabic Language Understanding and
Generation [6.021269454707625]
アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。
アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前学習し、2つのベンチマークで評価する。
我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。
論文 参考訳(メタデータ) (2021-08-31T02:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。