論文の概要: Automated Motif Indexing on the Arabian Nights
- arxiv url: http://arxiv.org/abs/2603.19283v1
- Date: Fri, 06 Mar 2026 04:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.837214
- Title: Automated Motif Indexing on the Arabian Nights
- Title(参考訳): アラビア夜のモチーフ自動指標作成
- Authors: Ibrahim H. Alyami, Mark A. Finlayson,
- Abstract要約: モチーフインデクシングに対する最初の計算手法を提案する。
58,450文にわたる200の異なるモチーフの2,670のモチーフ表現を手動で同定したコーパスを作成した。
Llama3モデルで0.85F1の総合的な性能を実現しています。
- 参考スコア(独自算出の注目度): 1.9737875250876253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motifs are non-commonplace, recurring narrative elements, often found originally in folk stories. In addition to being of interest to folklorists, motifs appear as metaphoric devices in modern news, literature, propaganda, and other cultural texts. Finding expressions of motifs in the original folkloristic text is useful for both folkloristic analysis (motif indexing) as well as for understanding the modern usage of motifs (motif detection and interpretation). Prior work has primarily shown how difficult these problems are to tackle using automated techniques. We present the first computational approach to motif indexing. Our choice of data is a key enabler: we use a large, widely available text (the Arabian Nights) paired with a detailed motif index (by El-Shamy in 2006), which overcomes the common problem of inaccessibility of texts referred to by the index. We created a manually annotated corpus that identified 2,670 motif expressions of 200 different motifs across 58,450 sentences for training and testing. We tested five types of approaches for detecting motif expressions given a motif index entry: (1) classic retrieve and re-rank using keywords and a fine-tuned cross-encoder; (2) off-the-shelf embedding models; (3) fine-tuned embedding models; (4) generative prompting of off-the-shelf LLMs in N-shot setups; and (5) the same generative approaches on LLMs fine-tuned with LoRA. Our best performing system is a fine-tuned Llama3 model which achieves an overall performance of 0.85 F1.
- Abstract(参考訳): モチーフ(Motif)は非日常的で、物語の要素を繰り返す要素であり、元々は民話によく見られる。
民俗学者への関心に加えて、モチーフは現代のニュース、文学、プロパガンダ、その他の文化文献において比喩的な道具として現れる。
原文でモチーフの表現を見つけることは、民俗学的分析(モチーフインデックス)だけでなく、モチーフの現代的使用法(モチーフの検出と解釈)を理解するのにも有用である。
これまでの研究は、これらの問題がいかに自動化されたテクニックを使うのが難しいかを示してきた。
モチーフインデクシングに対する最初の計算手法を提案する。
大規模なテキスト(アラビア夜)と詳細なモチーフインデックス(El-Shamyが2006年に発表した)を組み合わせることで、インデックスによって参照されるテキストがアクセスできないという一般的な問題を克服します。
我々は手動で注釈付きコーパスを作成し、58,450文にわたる200の異なるモチーフのモチーフ表現を2,670個同定した。
1)キーワードと微調整されたクロスエンコーダを用いた古典的検索と再ランク,(2)オフザシェルフ埋め込みモデル,(3)微調整埋め込みモデル,(4)オフザシェルフLLMのNショット設定における生成的プロンプト,(5)LORAで微調整されたLLMに対する同様の生成的アプローチの5種類のモチーフ式の検出方法を検討した。
Llama3モデルで0.85F1の総合的な性能を実現しています。
関連論文リスト
- Real, Fake, or Manipulated? Detecting Machine-Influenced Text [56.32138057356434]
我々はHiErarchical, length-RObust machine-influenced text detector (HERO)を紹介する。
HEROは、人書き、機械生成、機械処理、機械翻訳の4つの主要なタイプから、さまざまな長さのテキストサンプルを分離することを学ぶ。
論文 参考訳(メタデータ) (2025-09-18T18:41:57Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Mitigating Paraphrase Attacks on Machine-Text Detectors via Paraphrase Inversion [4.148732457277201]
高品質なパラフレーズは命令調整言語モデルを使って容易に生成できる。
x2013$$は、マシンテキスト検出器の性能を著しく低下させることで知られている。
本稿では,パラフレーズ付きテキストから元のテキストへのパラフレーズとして,この問題をフレーム化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:46:24Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Lex2Sent: A bagging approach to unsupervised sentiment analysis [0.628122931748758]
本稿では,テキストの分類方法として,Lex2Sentを提案する。
テキストを分類するために、文書埋め込みと適切な辞書の埋め込みの距離を決定するために埋め込みモデルを訓練する。
本稿では,このモデルがレキシカよりも優れており,バイナリ感情分析のタスクにおいて,高パフォーマンスな数発の微調整手法の基盤となることを示す。
論文 参考訳(メタデータ) (2022-09-26T20:49:18Z) - Finding Trolls Under Bridges: Preliminary Work on a Motif Detector [9.04990933647291]
本稿では,モチーフを自動的に検出するシステムの開発について予備報告する。
我々は、現在進行中のトレーニングモチーフ検出のためのデータを生成するためのアノテーションの取り組みを簡潔に説明する。
この記述は、モチーフ検出の特徴としてオフザシェルフ比喩検出器のテストを含み、モチーフ上のF1は0.35で、マクロ平均F1は0.21で、モチーフ候補に割り当てる4つのカテゴリからなる。
論文 参考訳(メタデータ) (2022-04-12T21:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。