Fugu-MT 論文翻訳(概要): ClusterChat: Multi-Feature Search for Corpus Exploration

論文の概要: ClusterChat: Multi-Feature Search for Corpus Exploration

arxiv url: http://arxiv.org/abs/2412.14533v2
Date: Tue, 17 Jun 2025 14:18:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 15:22:19.54211
Title: ClusterChat: Multi-Feature Search for Corpus Exploration
Title（参考訳）: ClusterChat: コーパス探索のための多機能検索
Authors: Ashish Chouhan, Saifeldin Mandour, Michael Gertz,
Abstract要約: ClusterChatは、クラスタベースのドキュメント組織を統合するコーパス探索用のオープンソースのシステムである。我々は,400万の抽象PubMedデータセットを2つのケーススタディで検証した。
参考スコア（独自算出の注目度）: 3.4123736336071864
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Exploring large-scale text corpora presents a significant challenge in biomedical, finance, and legal domains, where vast amounts of documents are continuously published. Traditional search methods, such as keyword-based search, often retrieve documents in isolation, limiting the user's ability to easily inspect corpus-wide trends and relationships. We present ClusterChat (The demo video and source code are available at: https://github.com/achouhan93/ClusterChat), an open-source system for corpus exploration that integrates cluster-based organization of documents using textual embeddings with lexical and semantic search, timeline-driven exploration, and corpus and document-level question answering (QA) as multi-feature search capabilities. We validate the system with two case studies on a four million abstract PubMed dataset, demonstrating that ClusterChat enhances corpus exploration by delivering context-aware insights while maintaining scalability and responsiveness on large-scale document collections.
Abstract（参考訳）: 大規模テキストコーパスの探索は、大量の文書が継続的に発行されるバイオメディカル、ファイナンス、法的な領域において重要な課題となる。キーワードベースの検索のような従来の検索手法では、文書を独立して検索することが多く、コーパス全体の傾向や関係を簡単に検査する能力が制限される。 https://github.com/achouhan93/ClusterChatはコーパス探索のためのオープンソースのシステムで、語彙とセマンティック検索、タイムライン駆動探索、コーパスと文書レベルの質問応答(QA)を多機能検索機能として使用する。我々は,400万の抽象的なPubMedデータセットを2つのケーススタディで検証し,大規模文書コレクションのスケーラビリティと応答性を維持しつつ,コンテキスト対応の洞察を提供することにより,ClusterChatがコーパス探索を強化することを実証した。

関連論文リスト

Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。 AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文参考訳（メタデータ） (2026-02-24T18:57:33Z)
Intelligent Scientific Literature Explorer using Machine Learning (ISLE) [0.797970449705065]
本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。提案するフレームワークは,AIによる科学的発見の基盤となる。
論文参考訳（メタデータ） (2025-12-14T16:54:24Z)
Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research [31.973886754355547]
Doc-Researcherは、テキストのみ、ビジョンのみ、ハイブリッドパラダイム間のギャップを埋める統一システムである。マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。 Doc-Researcherの精度は50.6%で、最先端のベースラインよりも3.4倍高い。
論文参考訳（メタデータ） (2025-10-24T16:07:54Z)
Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文参考訳（メタデータ） (2025-06-09T17:58:35Z)
ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。 ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文参考訳（メタデータ） (2025-05-23T17:02:02Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Ranking Narrative Query Graphs for Biomedical Document Retrieval (Technical Report) [7.527096697768715]
本稿では,生物医学領域における既存のグラフベースの発見システムを拡張する。グラフベースの非教師付きランキング手法、新しいクエリ緩和パラダイム、存在論的書き換えに寄与する。
論文参考訳（メタデータ） (2024-12-06T12:49:28Z)
PseudoSeer: a Search Engine for Pseudocode [18.726136894285403]
疑似コードを含む学術論文の効率的な検索と検索を容易にするために、新しい擬似コード検索エンジンが設計された。スニペットを活用することで、ユーザはタイトル、抽象情報、著者情報、コードスニペットなど、紙のさまざまな面を検索できる。重み付けされたBM25ベースのランキングアルゴリズムを検索エンジンで使用し、検索結果の優先順位付け時に考慮される要因について述べる。
論文参考訳（メタデータ） (2024-11-19T16:58:03Z)
Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文参考訳（メタデータ） (2024-10-17T17:03:23Z)
Organizing Unstructured Image Collections using Natural Language [37.16101036513514]
本稿では,大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的とした,オープンエンドセマンティック・マルチクラスタリングの課題を紹介する。我々のフレームワークであるX-Clusterは、テキストをプロキシとして使用し、大規模な画像コレクションを同時に推論し、クラスタリングの基準を発見し、セマンティックなサブ構造を明らかにする。我々は、偏見の発見やソーシャルメディア画像の人気の分析など、様々な現実世界のアプリケーションにX-Clusterを適用した。
論文参考訳（メタデータ） (2024-10-07T17:21:46Z)
ELCC: the Emergent Language Corpus Collection [1.6574413179773761]
Emergent Language Corpus Collection (ELCC) は、緊急通信システムのオープンソース実装から生成されたコーパスのコレクションである。各コーパスには、ソースコードの特徴を記述したメタデータと、コーパスの分析スイートが添付されている。
論文参考訳（メタデータ） (2024-07-04T21:23:18Z)
Enhancing Text Corpus Exploration with Post Hoc Explanations and Comparative Design [6.8863648800930655]
テキストコーパス探索(TCE)は探索探索タスクの範囲にまたがる。現在のシステムは、実際に遭遇するタスクの範囲をサポートする柔軟性に欠けています。ポストホックな説明やマルチスケールな比較設計によるTCEツールの強化手法を提案する。
論文参考訳（メタデータ） (2024-06-14T03:13:58Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
DiscoverPath: A Knowledge Refinement and Retrieval System for Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。 DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文参考訳（メタデータ） (2023-09-04T20:52:33Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
MICO: Selective Search with Mutual Information Co-training [14.456028769565386]
MICOは、選択探索のための相互情報COトレーニングフレームワークである。トレーニング後、MICOは文書をクラスタ化するだけでなく、検索を効率的にするために、未確認のクエリを関連するクラスタにルーティングする。
論文参考訳（メタデータ） (2022-09-09T16:26:52Z)
Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文参考訳（メタデータ） (2021-10-14T20:19:27Z)
Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文参考訳（メタデータ） (2021-05-31T21:14:58Z)
A New Neural Search and Insights Platform for Navigating and Organizing AI Research [56.65232007953311]
我々は、古典的なキーワード検索とニューラル検索を組み合わせた新しいプラットフォームであるAI Research Navigatorを導入し、関連する文献を発見し整理する。本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。
論文参考訳（メタデータ） (2020-10-30T19:12:25Z)
Answering Complex Open-Domain Questions with Multi-Hop Dense Retrieval [117.07047313964773]
複雑なオープンドメインの質問に答えるために, 単純で効率的なマルチホップ高密度検索手法を提案する。本手法では,文書間ハイパーリンクやアノテートされたエンティティマーカーなど,コーパス固有の情報へのアクセスは不要である。提案システムでは,HotpotQA上でのベストパブリッシュ精度と,推論時の10倍の速度で,より優れた効率・精度のトレードオフも実現している。
論文参考訳（メタデータ） (2020-09-27T06:12:29Z)
A Feature Analysis for Multimodal News Retrieval [9.269820020286382]
画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
論文参考訳（メタデータ） (2020-07-13T14:09:29Z)
Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文参考訳（メタデータ） (2020-06-07T13:26:32Z)
Search Result Clustering in Collaborative Sound Collections [17.48516881308658]
大規模オンラインデータベースを問合せする際に得られた多様な音声コレクションをクラスタリングするために,音声特徴を用いたグラフベースのアプローチを提案する。不整合クラスタを破棄する信頼性尺度を用いることで,パーティションの品質が向上することを示す。
論文参考訳（メタデータ） (2020-04-08T13:08:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。