論文の概要: Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2606.02147v1
- Date: Mon, 01 Jun 2026 12:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.982816
- Title: Multilingual Idioms in Sentences and Conversations Across High-, Medium-, and Low-Resource Languages
- Title(参考訳): 高, 中, 低ソース言語間の文・会話における多言語イディオム
- Authors: Saeed Almheiri, Bilal Elbouardi, Salsabila Zahirah Pranida, Irina Nikishina, Ashwath Rao B, Parameswari Krishnamurthy, Muhammad Cendekia Airlangga, Rifo Ahmad Genadi, Nguyen Phan Gia Bao, Amir Hossein Yari, Hawau Olamide Toyin, Nurdaulet Mukhituly, Mena Attia, Besher Hassan, Ahmad Fathan Hidayatullah, Tatsuki Kuribayashi, Haonan Li, Suma Bhat, Fajri Koto,
- Abstract要約: MIDIは、3つの高レベル、3つの中級、12の低リソース言語にまたがるデータセットである。
文レベルと会話コンテキストの両方に埋め込まれたイディオムを提供し、リテラルとフィギュラティブの両方をキャプチャする。
最先端モデルのベンチマークでは、低リソース言語では理解力が低下し、すべてのリソース層では、リテラル解釈が比喩的言語よりもかなり難しいことが示されている。
- 参考スコア(独自算出の注目度): 24.57041755792604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idiomatic expressions pose a major challenge for multilingual NLP because their meanings shift between figurative and literal usage, often requiring context for accurate interpretation. Prior work has focused on high-resource languages typically evaluates isolated idiom-meaning questions, overlooking realistic discourse. We introduce MIDI, a multilingual idiom dataset spanning 3 high-, 3 medium-, and 12 low-resource languages, curated by native speakers. Unlike previous datasets, MIDI provides idioms embedded in both sentence-level and conversational contexts, capturing both literal and figurative readings. Benchmarking state-of-the-art models shows that idiom comprehension degrades in low-resource languages and that, in all resource tiers, literal interpretations are substantially harder than figurative ones. Conversational context improves performance but does not eliminate these disparities. Through controlled tests and interventions on hidden representations, we further separate memorization from reasoning, exposing core limitations of current models.
- Abstract(参考訳): 慣用的な表現は多言語NLPにとって大きな課題となる。
以前の研究は、高リソース言語に焦点を合わせ、現実的な言説を見越して、孤立したイディオムの意味の質問を評価するのが一般的であった。
MIDIは3つのハイ、ミディアム、3つの低リソース言語と12の低リソース言語にまたがる多言語イディオムデータセットである。
以前のデータセットとは異なり、MIDIは文レベルと会話コンテキストの両方に埋め込まれたイディオムを提供し、リテラルとフィギュラティブの両方をキャプチャする。
最先端モデルのベンチマークでは、低リソース言語ではイディオム理解が劣化し、すべてのリソース層において、リテラル解釈が比喩的解釈よりもかなり難しいことが示されている。
会話の文脈はパフォーマンスを改善するが、これらの格差を排除しない。
制御されたテストと隠れ表現への介入により、我々はさらに記憶を推論から切り離し、現在のモデルの中核的な限界を露呈する。
関連論文リスト
- That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。