論文の概要: PolyFrame at MWE-2026 AdMIRe 2: When Words Are Not Enough: Multimodal Idiom Disambiguation
- arxiv url: http://arxiv.org/abs/2602.18652v1
- Date: Fri, 20 Feb 2026 23:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.224656
- Title: PolyFrame at MWE-2026 AdMIRe 2: When Words Are Not Enough: Multimodal Idiom Disambiguation
- Title(参考訳): ポリフレーム - MWE-2026 AdMIRE 2: 単語が十分でないとき:マルチモーダルイディオムの曖昧さ
- Authors: Nina Hosseini-Kivanani,
- Abstract要約: PolyFrameは、画像+テキストランキング(Subtask A)とテキストのみのキャプションランキング(Subtask B)の両方のための統合パイプラインである。
全てのモデルでは、凍ったCLIPスタイルの視覚言語エンコーダと、軽量モジュールのみを訓練する多言語BGE M3エンコーダが保持されている。
マルチリンガルブラインドテストでは,Subtask Aは0.35/0.73,Subtask Bは0.32/0.71であった。
- 参考スコア(独自算出の注目度): 0.533024001730262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal models struggle with idiomatic expressions due to their non-compositional meanings, a challenge amplified in multilingual settings. We introduced PolyFrame, our system for the MWE-2026 AdMIRe2 shared task on multimodal idiom disambiguation, featuring a unified pipeline for both image+text ranking (Subtask A) and text-only caption ranking (Subtask B). All model variants retain frozen CLIP-style vision--language encoders and the multilingual BGE M3 encoder, training only lightweight modules: a logistic regression and LLM-based sentence-type predictor, idiom synonym substitution, distractor-aware scoring, and Borda rank fusion. Starting from a CLIP baseline (26.7% Top-1 on English dev, 6.7% on English test), adding idiom-aware paraphrasing and explicit sentence-type classification increased performance to 60.0% Top-1 on English and 60.0% Top-1 (0.822 NDCG@5) in zero-shot transfer to Portuguese. On the multilingual blind test, our systems achieved average Top-1/NDCG scores of 0.35/0.73 for Subtask A and 0.32/0.71 for Subtask B across 15 languages. Ablation results highlight idiom-aware rewriting as the main contributor to performance, while sentence-type prediction and multimodal fusion enhance robustness. These findings suggest that effective idiom disambiguation is feasible without fine-tuning large multimodal encoders.
- Abstract(参考訳): マルチモーダルモデルは、非構成的意味から慣用的な表現に苦しむが、これは多言語設定で増幅される。
我々は、MWE-2026 AdMIRe2共有タスクであるPolyFrameを導入し、画像+テキストランキング(Subtask A)とテキストのみのキャプションランキング(Subtask B)を統一したパイプラインを特徴とした。
全てのモデル変種は、凍結したCLIPスタイルの視覚-言語エンコーダと多言語BGE M3エンコーダを保持し、ロジスティック回帰とLLMベースの文型予測器、イディオム同義語置換、イントラクタ・アウェア・スコアリング、ボルダ級数融合などの軽量モジュールのみを訓練する。
CLIPベースライン(英語開発では26.7%、英語テストでは6.7%)から始まり、イディオム対応のパラフレーズと明示的な文型分類を追加し、英語では60.0%、ポルトガル語では60.0%のTop-1(0.822 NDCG@5)に向上した。
マルチリンガルブラインドテストでは,Subtask Aは0.35/0.73,Subtask Bは0.32/0.71であった。
アブレーションの結果は,文型予測やマルチモーダル融合が堅牢性を高める一方で,イディオム認識による書き換えがパフォーマンスの主要因であることが示された。
これらの結果から,大規模なマルチモーダルエンコーダを微調整することなく,効果的なイディオム曖昧化が可能であることが示唆された。
関連論文リスト
- A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - Mario at EXIST 2025: A Simple Gateway to Effective Multilingual Sexism Detection [8.40042895828361]
EXIST 2025 Task 1は、Llama 3.1 8Bの階層的低ランク適応(LoRA)を通じて、英語とスペイン語のツイートでテキストベースの性差別を検出する。
本手法では,3つの階層的なサブタスク間の依存関係を明示的にモデル化する条件付きアダプタルーティングを導入する。
提案手法は,トレーニング時間を75%削減し,モデルストレージを98%削減すると同時に,すべてのサブタスクで競合性能を実現する。
論文 参考訳(メタデータ) (2025-07-15T05:30:32Z) - NeoBabel: A Multilingual Open Tower for Visual Generation [32.79724699684266]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。
英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。
それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T16:19:45Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。