論文の概要: ding-01 :ARG0: An AMR Corpus for Spontaneous French Dialogue
- arxiv url: http://arxiv.org/abs/2508.12819v1
- Date: Mon, 18 Aug 2025 10:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.251861
- Title: ding-01 :ARG0: An AMR Corpus for Spontaneous French Dialogue
- Title(参考訳): ding-01 :ARG0 : 自発フランス語対話のためのAMRコーパス
- Authors: Jeongwoo Kang, Maria Boritchev, Maximin Coavoux,
- Abstract要約: 抽象的意味表現(AMR)におけるフランス語対話の注釈付けによるフランス語意味コーパスの構築について述べる。
具体的には,DinGコーパスを注釈し,ボードゲームCataanで記録された自発的なフランス語対話の書き起こしからなる。
AMRは自然発話のダイナミックスを十分にカバーできないため、フランス語特有の自然発話や文構造をよりよく表現するために、この枠組みを拡張した。
- 参考スコア(独自算出の注目度): 4.909170127604826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our work to build a French semantic corpus by annotating French dialogue in Abstract Meaning Representation (AMR). Specifically, we annotate the DinG corpus, consisting of transcripts of spontaneous French dialogues recorded during the board game Catan. As AMR has insufficient coverage of the dynamics of spontaneous speech, we extend the framework to better represent spontaneous speech and sentence structures specific to French. Additionally, to support consistent annotation, we provide an annotation guideline detailing these extensions. We publish our corpus under a free license (CC-SA-BY). We also train and evaluate an AMR parser on our data. This model can be used as an assistance annotation tool to provide initial annotations that can be refined by human annotators. Our work contributes to the development of semantic resources for French dialogue.
- Abstract(参考訳): 本稿では, 抽象的意味表現(AMR)において, フランス語の対話に注釈を付けることで, 意味コーパスを構築する作業について述べる。
具体的には,DinGコーパスを注釈し,ボードゲームCataanで記録された自発的なフランス語対話の書き起こしからなる。
AMRは自然発話のダイナミックスを十分にカバーできないため,フランス語特有の自然発話や文構造をよりよく表現するために,この枠組みを拡張した。
さらに、一貫性のあるアノテーションをサポートするために、これらの拡張を詳述するアノテーションガイドラインを提供します。
当社のコーパスをフリーライセンス(CC-SA-BY)で公開しています。
また、データ上でAMRパーサをトレーニングし、評価する。
このモデルは、人間のアノテーションによって洗練される初期アノテーションを提供する補助アノテーションツールとして使用することができる。
我々の研究は、フランス語対話のための意味資源の開発に寄与している。
関連論文リスト
- MDC-R: The Minecraft Dialogue Corpus with Reference [10.134703480245568]
Minecraft Dialogue Corpus with Reference (MDC-R) について紹介する。
MDC-Rは、オリジナルのMinecraft Dialogue Corpus (MDC) を補完する新しい言語リソースであり、アナフォリックおよびデリケートな参照のエキスパートアノテーションを備えている。
論文 参考訳(メタデータ) (2025-06-27T09:56:40Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Automatic Annotation of Direct Speech in Written French Narratives [2.943391000885789]
AADSモデルをフランス語で設計し、評価するためのフレームワークを作成します。
我々は,一語あたりのDSで注釈付けされた,過去最大のフランス語物語データセットを統合する。
このフレームワークは改善される可能性があるが、このトピックに関するさらなる研究を促進するための一歩である。
論文 参考訳(メタデータ) (2023-06-27T17:21:00Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Spanish Abstract Meaning Representation: Annotation of a General Corpus [7.837003011850223]
我々は、スペイン語でAMRのアノテーションを提案した結果、架空のテキスト"The Little Prince"のために50のスペイン語のAMRアノテーションがリリースされた。
アノテーションへのアプローチは、AnCora-Net lexiconからのスペイン語のロールセットを利用し、スペイン語固有の意味的特徴を持つ英語のAMRを拡張します。
論文 参考訳(メタデータ) (2022-04-15T22:26:04Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Making Better Use of Bilingual Information for Cross-Lingual AMR Parsing [88.08581016329398]
概念の誤認は、英語のトークンとAMRの概念の関連性が高いためである、と我々は主張する。
モデルがより正確な概念を予測できるように、バイリンガル入力、すなわち翻訳されたテキストと非英語のテキストを導入します。
論文 参考訳(メタデータ) (2021-06-09T05:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。