論文の概要: Qwen Goes Brrr: Off-the-Shelf RAG for Ukrainian Multi-Domain Document Understanding
- arxiv url: http://arxiv.org/abs/2605.10296v1
- Date: Mon, 11 May 2026 09:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.713927
- Title: Qwen Goes Brrr: Off-the-Shelf RAG for Ukrainian Multi-Domain Document Understanding
- Title(参考訳): Qwen Brrr: ウクライナのマルチドメインドキュメント理解のためのオフザシェルフRAG
- Authors: Anton Bazdyrev, Ivan Bashtovyi, Ivan Havlytskyi, Oleksandr Kharytonov, Artur Khodakovskyi,
- Abstract要約: 本稿では,PDFの文脈的チャンク,質問認識高密度検索,再ランク付けという3つのアイデアに基づいて構築された検索拡張パイプラインを提案する。
以上の結果から,厳密なコード競合制約の下では,文書構造を保ち,応答空間を意識して関連性評価を行うことが,複雑な下流の追加よりも効果的であることが示唆された。
- 参考スコア(独自算出の注目度): 12.174346896225153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We participated in the Fifth UNLP shared task on multi-domain document understanding, where systems must answer Ukrainian multiple-choice questions from PDF collections and localize the supporting document and page. We propose a retrieval-augmented pipeline built around three ideas: contextual chunking of PDFs, question-aware dense retrieval and reranking conditioned on both the question and answer options, and constrained answer generation from a small set of reranked passages. Our final system uses Qwen3-Embedding-8B for retrieval, a fine-tuned Qwen3-Reranker-8B for passage ranking, and Qwen3-32B for answer selection. On a held-out split, reranking improves Recall@1 from 0.6957 to 0.7935, while using the top-2 reranked passages raises answer accuracy from 0.9348 to 0.9674. Our best leaderboard run reached 0.9452 on the public leaderboard and 0.9598 on the private leaderboard. Our results suggest that, under strict code-competition constraints, preserving document structure and making relevance estimation aware of the answer space are more effective than adding complex downstream heuristics.
- Abstract(参考訳): 我々は,マルチドメイン文書理解に関する第5回UNLP共有タスクに参加し,PDFコレクションからウクライナ語複数選択質問に回答し,支援文書とページをローカライズする。
本稿では,PDFの文脈的チャンク,質問認識の高次検索,質問と回答の両オプションで条件付き再ランク化,小さな繰り返し文からの制約付き回答生成という,3つのアイデアに基づいて構築された検索拡張パイプラインを提案する。
最終システムは検索にQwen3-Embedding-8B、通過ランキングにQwen3-Reranker-8B、回答選択にQwen3-32Bを使用する。
リコール@1は0.6957から0.7935に改善され、トップ2のリランクパスは0.9348から0.9674に改善された。
私たちの最高のリーダーボードランニングは、公開リーダーボードで0.9452、プライベートリーダーボードで0.9598に達しました。
以上の結果から,厳密な符号競合制約の下では,文書構造を保ち,応答空間を意識して関連性評価を行うことが,複雑な下流ヒューリスティックを付加するよりも効果的であることが示唆された。
関連論文リスト
- KohakuRAG: A simple RAG framework with hierarchical document indexing [1.0844295385744671]
文書構造を4段階のツリー表現で保存する階層型RAGフレームワークであるKohakuragを提案する。
われわれはWattBot 2025 Challengeの評価を行った。これは32の文書から技術的質問に答えるシステムを必要とするベンチマークである。
論文 参考訳(メタデータ) (2026-03-08T12:52:39Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - Transforming Questions and Documents for Semantically Aligned Retrieval-Augmented Generation [1.223779595809275]
マルチホップ質問応答に適した新しい検索拡張世代(RAG)フレームワークを提案する。
本システムは,大規模言語モデル(LLM)を用いて,複雑なマルチホップ質問を文書検索を導く単一ホップ要求列に分解する。
生文書やチャンクを直接埋め込む代わりに、Qwen3-8Bを使って各文書チャンクから回答可能な質問を生成し、これらの生成された質問を埋め込んで、質問-問合せの類似性を通じて関連チャンクを検索する。
論文 参考訳(メタデータ) (2025-08-13T12:35:04Z) - Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。
補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。
再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-07-01T01:01:54Z) - AUEB-Archimedes at RIRAG-2025: Is obligation concatenation really all you need? [11.172264842171682]
本稿では,RIRAG-2025のために開発したシステムについて述べる。
生成された回答は、参照フリーでモデルベースのメトリクスであるRePASを用いて評価される。
抽出された節から重要な文(「無視」)を抽出するRePASの神経成分を利用することで、精度の高いスコア(0.947)が得られることを示す。
そして、いくつかの代替案の中で最も優れたRePASで答えを選択することで、より可読で比較的高い結果が得られる可読で一貫性のある回答を生成することができることを示す。
論文 参考訳(メタデータ) (2024-12-16T08:54:21Z) - C-MORE: Pretraining to Answer Open-Domain Questions by Consulting
Millions of References [47.20656650130518]
主な課題は、タスク固有のアノテーションを使わずに、高品質な質問-回答-コンテキスト三つ子を構築する方法である。
本研究では,ウィキペディアで引用される数百万の参照を参考に,3つの基準をすべて満たす大規模コーパスを自動構築する。
事前学習したレトリバーは,トップ20の精度で2%~10%の絶対ゲインを達成し,事前学習した読者では,システム全体の一致率を最大4%向上させる。
論文 参考訳(メタデータ) (2022-03-16T20:30:05Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z) - Open-Domain Question Answering with Pre-Constructed Question Spaces [70.13619499853756]
オープンドメインの質問応答は、大量の文書の集合の中でユーザ生成した質問に対する回答を見つけるという課題を解決することを目的としている。
ソリューションには、レトリバーリーダーとナレッジグラフベースのアプローチの2つのファミリーがある。
本稿では,両家系と異なるリーダ・リトリバー構造を持つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T04:31:09Z) - Differentiable Reasoning over a Virtual Knowledge Base [156.94984221342716]
コーパスを仮想知識ベース(KB)として,複雑なマルチホップ質問に答えるタスクについて検討する。
特に、コーパス内のエンティティの参照間の関係の経路をソフトに追従し、KBのようにテキストデータをトラバースするDrKITについて述べる。
DrKITは非常に効率的で、既存のマルチホップシステムよりも毎秒10-100倍のクエリを処理する。
論文 参考訳(メタデータ) (2020-02-25T03:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。