論文の概要: The Effect of Document Selection on Query-focused Text Analysis
- arxiv url: http://arxiv.org/abs/2604.12099v1
- Date: Mon, 13 Apr 2026 22:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.141119
- Title: The Effect of Document Selection on Query-focused Text Analysis
- Title(参考訳): クエリに着目したテキスト分析における文書選択の効果
- Authors: Sandesh S Rangreji, Mian Zhong, Anjalie Field,
- Abstract要約: 提案手法は,26個のオープンエンドクエリを持つ2つのデータセットに対して,ランダム選択からハイブリッド検索までの7つの選択手法を体系的に評価する。
セマンティック検索またはハイブリッド検索は、より弱い選択戦略の落とし穴を避ける強力なゴートアプローチを提供する。
- 参考スコア(独自算出の注目度): 2.7473982588529657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyses of document collections often require selecting what data to analyze, as not all documents are relevant to a particular research question and computational constraints preclude analyzing all documents, yet little work has examined effects of selection strategy choices. We systematically evaluate seven selection methods (from random selection to hybrid retrieval) on outputs from four text analyses methods (LDA, BERTopic, TopicGPT, HiCode) over two datasets with 26 open-ended queries. Our evaluation reveals practice guidance: semantic or hybrid retrieval offer strong go-to approaches that avoid the pitfalls of weaker selection strategies and the unnecessary compute overhead of more complicated ones. Overall, our evaluation framework establishes data selection as a methodological decision, rather than a practical necessity, inviting the development of new strategies.
- Abstract(参考訳): 文書収集の分析は、特定の研究課題に関連するすべての文書や計算上の制約が全ての文書を分析できないため、分析するデータを選択する必要があることが多いが、選択戦略の選択の影響を調査する研究はほとんどない。
提案手法は,26個のオープンエンドクエリを持つ2つのデータセットに対して,テキスト解析手法(LDA,BERTopic,TopicGPT,HiCode)の出力に対して,ランダム選択からハイブリッド検索までの7つの選択手法を体系的に評価した。
セマンティック検索またはハイブリッド検索は、より弱い選択戦略の落とし穴や、より複雑なものに対する不要な計算オーバーヘッドを避ける強力なゴートアプローチを提供する。
概して,我々の評価フレームワークは,新たな戦略開発を促すために,実践的な必要性ではなく,方法論的な決定としてデータ選択を確立している。
関連論文リスト
- Automating aggregation strategy selection in federated learning [0.0]
我々は、連合学習のための集約戦略選択を自動化し、合理化し、適応するエンドツーエンドのフレームワークを提案する。
本手法は,非IID条件下でのロバスト性や一般化を向上し,手動介入の必要性を低減させる。
論文 参考訳(メタデータ) (2026-04-09T10:08:28Z) - Test-Time Strategies for More Efficient and Accurate Agentic RAG [58.44913384057518]
Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。
このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。
本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
論文 参考訳(メタデータ) (2026-03-12T19:18:59Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Overcoming Black-box Attack Inefficiency with Hybrid and Dynamic Select Algorithms [7.837881800517111]
既存のブラックボックス攻撃法は、しばしば大量のクエリを必要とするため、研究者にとって非効率で実用的ではない。
本稿では,従来の選択アルゴリズムの強みをうまく組み合わせたHybridとDynamic Selectという2つの新しい攻撃選択戦略を提案する。
4つのデータセットと6つのターゲットモデルにまたがって、我々のベストメソッド(センスレベルハイブリッドセレクト)は、アタック毎の要求クエリ数を平均25.82%削減できる。
論文 参考訳(メタデータ) (2025-09-25T03:06:35Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。
既存の調査では、微調整フェーズの詳細な調査を見落としている。
特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - Aspect-Oriented Summarization through Query-Focused Extraction [23.62412515574206]
実際のユーザのニーズは、特定のクエリではなく、ユーザが興味を持っているデータセットの幅広いトピックという側面に、より深く浸透することが多い。
抽出クエリに焦点を絞った学習手法をベンチマークし、モデルを訓練するための対照的な拡張手法を提案する。
我々は2つのアスペクト指向データセットを評価し、この手法が一般的な要約システムよりも焦点を絞った要約を得られることを発見した。
論文 参考訳(メタデータ) (2021-10-15T18:06:21Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。