論文の概要: Low-Resource Cross-Lingual Summarization through Few-Shot Learning with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04630v1
- Date: Fri, 7 Jun 2024 04:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:29:23.658119
- Title: Low-Resource Cross-Lingual Summarization through Few-Shot Learning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたFew-Shot Learningによる低リソース言語間要約
- Authors: Gyutae Park, Seojin Hwang, Hwanhee Lee,
- Abstract要約: 言語間要約(XLS)は、ソース言語文書とは異なる対象言語で要約を生成することを目的としている。
大規模言語モデル(LLM)では、ゼロショットXLSのパフォーマンスが期待できるが、このタスクの少数ショット機能はまだ探索されていない。
Mistral-7B-Instruct-v0.2, GPT-3.5, GPT-4など, 各種モデルのXLS性能について検討した。
- 参考スコア(独自算出の注目度): 4.9325206373289125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual summarization (XLS) aims to generate a summary in a target language different from the source language document. While large language models (LLMs) have shown promising zero-shot XLS performance, their few-shot capabilities on this task remain unexplored, especially for low-resource languages with limited parallel data. In this paper, we investigate the few-shot XLS performance of various models, including Mistral-7B-Instruct-v0.2, GPT-3.5, and GPT-4. Our experiments demonstrate that few-shot learning significantly improves the XLS performance of LLMs, particularly GPT-3.5 and GPT-4, in low-resource settings. However, the open-source model Mistral-7B-Instruct-v0.2 struggles to adapt effectively to the XLS task with limited examples. Our findings highlight the potential of few-shot learning for improving XLS performance and the need for further research in designing LLM architectures and pre-training objectives tailored for this task. We provide a future work direction to explore more effective few-shot learning strategies and to investigate the transfer learning capabilities of LLMs for cross-lingual summarization.
- Abstract(参考訳): 言語間要約(XLS)は、ソース言語文書とは異なる対象言語で要約を生成することを目的としている。
大規模言語モデル(LLM)ではゼロショットXLSのパフォーマンスが期待できるが、特に並列データに制限のある低リソース言語では、このタスクでの少数ショットの機能は未探索のままである。
本稿では,Mistral-7B-Instruct-v0.2,GPT-3.5,GPT-4を含む各種モデルのXLS性能について検討する。
実験により,低リソース環境下でのLLM,特にGPT-3.5およびGPT-4のXLS性能が向上することが確認された。
しかし、オープンソースのMistral-7B-Instruct-v0.2は、限られた例でXLSタスクに効果的に対応するのに苦労している。
この結果から,XLS 性能向上のための数発学習の可能性や,LLM アーキテクチャの設計におけるさらなる研究の必要性や,この課題に適した事前学習目標の必要性が浮かび上がっている。
我々は、より効果的な数発学習戦略を探求し、言語間要約のためのLLMの転写学習能力を検討するために、今後の作業指示を提供する。
関連論文リスト
- TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Language Model Self-improvement by Reinforcement Learning Contemplation [13.152789365858812]
本稿では,LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) という,教師なしの新しい手法を提案する。
学生として、モデルはラベルのない質問に対する回答を生成し、教師として、生成されたテキストを評価し、それに応じてスコアを割り当てる。
我々は,SIRLCを推論問題,テキスト生成,機械翻訳など,様々なNLPタスクに適用できることを実証した。
論文 参考訳(メタデータ) (2023-05-23T19:25:52Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。