論文の概要: RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish
- arxiv url: http://arxiv.org/abs/2602.03652v1
- Date: Tue, 03 Feb 2026 15:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.545328
- Title: RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish
- Title(参考訳): RAGTurk:トルコの検索能力向上のためのベストプラクティス
- Authors: Süha Kağan Köse, Mehmet Can Baytekin, Burak Aktaş, Bilge Kaan Görür, Evren Ayberk Munis, Deniz Yılmaz, Muhammed Yusuf Kartal, Çağrı Toraman,
- Abstract要約: トルコ語ウィキペディアとCulturaXから派生した包括的トルコ語RAGデータセットを構築した。
RAGパイプラインの7つのステージをベンチマークし、クエリ変換から、タスク固有の微調整を使わずに、改善に答えるように再ランク付けする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances LLM factuality, yet design guidance remains English-centric, limiting insights for morphologically rich languages like Turkish. We address this by constructing a comprehensive Turkish RAG dataset derived from Turkish Wikipedia and CulturaX, comprising question-answer pairs and relevant passage chunks. We benchmark seven stages of the RAG pipeline, from query transformation and reranking to answer refinement, without task-specific fine-tuning. Our results show that complex methods like HyDE maximize accuracy (85%) that is considerably higher than the baseline (78.70%). Also a Pareto-optimal configuration using Cross-encoder Reranking and Context Augmentation achieves comparable performance (84.60%) with much lower cost. We further demonstrate that over-stacking generative modules can degrade performance by distorting morphological cues, whereas simple query clarification with robust reranking offers an effective solution.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)はLLMの事実性を高めるが、設計指導は英語中心であり、トルコ語のような形態的に豊かな言語に対する洞察を制限する。
トルコ語ウィキペディアとCulturaXから派生した包括的トルコ語RAGデータセットを構築することでこの問題に対処する。
RAGパイプラインの7つのステージをベンチマークし、クエリ変換から、タスク固有の微調整を使わずに、改善に答えるように再ランク付けする。
その結果,HyDEのような複雑な手法では,ベースライン(78.70%)よりもかなり高い精度(85%)が得られた。
また、Cross-Encoder Re rankとContext Augmentationを使用したPareto-Optimal構成では、同等のパフォーマンス(84.60%)をはるかに低コストで実現している。
さらに, 構造的手がかりを歪ませることで, オーバースタックな生成モジュールが性能を劣化させることができることを実証した。
関連論文リスト
- BIRDTurk: Adaptation of the BIRD Text-to-SQL Dataset to Turkish [0.0]
我々は、BIRDベンチマークの最初のトルコ適応であるBIRDTurkを紹介する。
BirderTurkは、スキーマ識別子をトルコ語に適応させる制御された翻訳パイプラインによって構築される。
我々は推論に基づくプロンプト、エージェント多段階推論、教師付き微調整を評価する。
論文 参考訳(メタデータ) (2026-02-03T15:21:00Z) - Predict the Retrieval! Test time adaptation for Retrieval Augmented Generation [66.36556189794526]
TTARAGは、特殊ドメインにおけるRAGシステム性能を改善するために、推論中に言語モデルのパラメータを動的に更新するテスト時適応手法である。
提案手法では,モデルが検索した内容の予測を学習し,対象領域への自動パラメータ調整を可能にする。
論文 参考訳(メタデータ) (2026-01-16T17:07:01Z) - LLM-Assisted Question-Answering on Technical Documents Using Structured Data-Aware Retrieval Augmented Generation [0.432776344138537]
大きな言語モデル(LLM)は自然言語の理解と生成を可能にする。
ファインチューニングは可能なソリューションのひとつだが、リソース集約であり、データ更新毎に繰り返す必要がある。
Retrieval-Augmented Generation (RAG)は、LLMが外部の知識ソースにアクセスできるようにすることにより、効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-29T08:22:03Z) - Optimizing RAG Pipelines for Arabic: A Systematic Analysis of Core Components [0.0]
Retrieval-Augmented Generation (RAG) は、検索システムの精度と大規模言語モデルの流速を結合する強力なアーキテクチャとして登場した。
本研究では,最先端のRAGコンポーネントの包括的評価,チャンキング戦略,埋め込みモデル,リランカー,言語モデルなど,さまざまなアラビアデータセットの集合を包括的に比較した。
論文 参考訳(メタデータ) (2025-06-01T00:04:58Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks [0.0]
関係抽出(RE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
本研究では、微調整LDMの性能と、Retrieval Augmented-based (RAG) REアプローチへの統合について検討する。
論文 参考訳(メタデータ) (2024-06-20T21:27:57Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。