論文の概要: Multi-Lingual Implicit Discourse Relation Recognition with Multi-Label Hierarchical Learning
- arxiv url: http://arxiv.org/abs/2508.20712v1
- Date: Thu, 28 Aug 2025 12:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.381367
- Title: Multi-Lingual Implicit Discourse Relation Recognition with Multi-Label Hierarchical Learning
- Title(参考訳): 多言語階層学習を用いた多言語インプシシト・ディスコリレーション認識
- Authors: Nelson Filipe Costa, Leila Kosseim,
- Abstract要約: 暗黙的談話関係認識(IDRR)のための最初の多言語・多言語分類モデルを提案する。
我々のモデルであるHArchは、最近リリースされたDiscoGeM 2.0コーパスで評価され、談話感覚間の階層的依存関係を利用して確率分布を予測する。
我々は,DiscoGeM 1.0コーパスにSOTAの結果を報告し,階層的アプローチの有効性をさらに検証した。
- 参考スコア(独自算出の注目度): 0.05729426778193397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the first multi-lingual and multi-label classification model for implicit discourse relation recognition (IDRR). Our model, HArch, is evaluated on the recently released DiscoGeM 2.0 corpus and leverages hierarchical dependencies between discourse senses to predict probability distributions across all three sense levels in the PDTB 3.0 framework. We compare several pre-trained encoder backbones and find that RoBERTa-HArch achieves the best performance in English, while XLM-RoBERTa-HArch performs best in the multi-lingual setting. In addition, we compare our fine-tuned models against GPT-4o and Llama-4-Maverick using few-shot prompting across all language configurations. Our results show that our fine-tuned models consistently outperform these LLMs, highlighting the advantages of task-specific fine-tuning over prompting in IDRR. Finally, we report SOTA results on the DiscoGeM 1.0 corpus, further validating the effectiveness of our hierarchical approach.
- Abstract(参考訳): 本稿では,暗黙的対話関係認識(IDRR)のための最初の多言語・多言語分類モデルを提案する。
我々のモデルであるHArchは、最近リリースされたDiscoGeM 2.0コーパスで評価され、談話感覚間の階層的依存関係を活用し、PDTB 3.0フレームワークの3つの感覚レベルすべてにわたる確率分布を予測する。
我々は、事前学習したエンコーダのバックボーンを比較し、RoBERTa-HArchが英語で最高の性能を発揮するのに対して、XLM-RoBERTa-HArchは多言語設定で最高の性能を発揮することを発見した。
さらに,GPT-4o や Llama-4-Maverick と比較した。
我々の細調整モデルはこれらのLCMを常に上回り、IDRRのプロンプトよりもタスク固有の細調整の利点を強調した。
最後に, DiscoGeM 1.0コーパスにSOTAの結果を報告し, 階層的アプローチの有効性をさらに検証した。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - A Multi-Task and Multi-Label Classification Model for Implicit Discourse Relation Recognition [0.23020018305241333]
暗黙的対話関係認識(IDRR)のための新しい多言語分類手法を提案する。
提案手法は,PDTB 3.0フレームワークにおける3つの意味レベルすべてにまたがる暗黙の対話関係のマルチラベル表現を共同で学習するマルチタスクモデルである。
両設定で最適なモデル構成と損失関数を識別するための広範囲な実験を行う。
論文 参考訳(メタデータ) (2024-08-16T18:47:08Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - DetIE: Multilingual Open Information Extraction Inspired by Object
Detection [10.269858179091111]
コンピュータビジョンからオブジェクト検出アルゴリズムにインスパイアされたOpenIEのための新しいシングルパス方式を提案する。
マルチリンガルなRe-OIE2016では、パフォーマンス改善が15%向上し、ポルトガル語とスペイン語の両方で75%のF1に達した。
論文 参考訳(メタデータ) (2022-06-24T23:47:00Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。