論文の概要: Evaluation of Chunking Strategies for Effective Text Embedding in Low-Resource Language on Agricultural Documents
- arxiv url: http://arxiv.org/abs/2605.22203v1
- Date: Thu, 21 May 2026 09:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.18105
- Title: Evaluation of Chunking Strategies for Effective Text Embedding in Low-Resource Language on Agricultural Documents
- Title(参考訳): 農業文書における低資源言語における効果的なテキスト埋め込みのためのチャンキング戦略の評価
- Authors: Sovandara Chhoun, Pichdara Po, Sereiwathna Ros, Wan-Sup Cho, Saksonita Khoeurn,
- Abstract要約: Average Retrieval Score (L2 distance)、Answer Relevance、Khmer Coverage、Khmer Intersection over Unionの4つの指標を用いてパフォーマンスを評価する。
我々は,300文字のチャンクサイズを持つ文字ベースの再帰的チャンク法において,最適な性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we compare the performance of four text chunking approaches: Recursive, Khmer-Aware, Sentence-Based, and LLM-Based within a Retrieval-Augmented Generation (RAG) framework applied to Khmer agricultural documents. The document chunks are encoded using the BGE-M3 multilingual embedding model and retrieved using the FAISS library. Performance is evaluated using four metrics: Average Retrieval Score (L2 distance), Answer Relevance, Khmer Coverage, and Khmer Intersection over Union, all measured against ground-truth question-answer pairs. For evaluation, we perform 5-fold cross-validation over 18 question-answer pairs. We observe the best performance for the character-based Recursive chunking method with a chunk size of 300 characters, achieving the lowest L2 distance (0.4295 +- 0.0461), highest Answer Relevance (0.8663 +- 0.0199), and highest Khmer IoU (0.6441 +- 0.0347). A paired t-test shows a statistically significant improvement over the Sentence-Based chunking method in L2 distance (p = 0.0121). These results highlight the importance of segmentation granularity and structural preservation for optimizing dense retrieval in morphologically complex, low-resource languages such as Khmer.
- Abstract(参考訳): 本研究では, 再帰的, クメール認識, センテンスベース, およびLLMベースという4つのテキストチャンキング手法の性能を, クメール農業文書に適用した検索型Augmented Generation (RAG) フレームワークで比較した。
文書チャンクは、BGE-M3多言語埋め込みモデルを用いて符号化され、FAISSライブラリを使用して検索される。
Average Retrieval Score (L2 distance)、Answer Relevance、Khmer Coverage、Khmer Intersection over Unionの4つの測定値を用いて評価を行った。
評価のために18対の質問応答対に対して5倍のクロスバリデーションを行う。
我々は,300文字のチャンクサイズを持つ文字ベースの再帰チャンク法において,最低L2距離 (0.4295 +- 0.0461),最高アンサー関連 (0.8663 +- 0.0199),最高Khmer IoU (0.6441 +- 0.0347) を達成した。
対t検定は、L2距離(p = 0.0121)におけるセンテンスベースのチャンキング法よりも統計的に有意な改善を示す。
これらの結果は,Khmerのような形態的に複雑で低リソースの言語において,セグメンテーションの粒度と構造保存の重要性を強調した。
関連論文リスト
- SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction [0.00954904463032233]
形態学的に豊かな低リソース言語のためのキーフレーズ抽出は現在も検討されている。
著者指定キーフレーズを用いた227,432の科学的要約データセットを構築した。
KeyLLMは、著者によって割り当てられた標準形式に近いキーフレーズを生成する。
統計的手法では,形態的ミスマッチが主流の障害モードであることがわかった。
論文 参考訳(メタデータ) (2026-03-16T16:47:45Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - TextMine: Data, Evaluation Framework and Ontology-guided LLM Pipeline for Humanitarian Mine Action [4.990484801014005]
HMA(Humanitarian Mine Action)は、紛争地域からの地雷の検出と除去の課題に対処する。
HMA機関が生み出す生命維持活動の知識の多くは、非構造的な報告書に埋もれている。
この問題に対処するために、最初のデータセット、評価フレームワーク、オントロジー誘導型大規模言語モデル(LLM)パイプラインであるTextMineを提案する。
論文 参考訳(メタデータ) (2025-09-18T15:55:19Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Enhancing Cross-Language Code Translation via Task-Specific Embedding Alignment in Retrieval-Augmented Generation [1.64043572114825]
本稿では,タスク固有の埋め込みアライメントを統合することで,FortranからC++へのクロス言語コード変換を強化する手法を提案する。
我々の戦略は、CodeBLEUメトリックによって定量化されているように、検索モデルを翻訳品質を最大化する目的と直接一致させる。
これらのCodeBLEU最適化埋め込みをRAGフレームワークに統合することにより、検索精度とコード生成品質の両方を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T16:22:32Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。