論文の概要: ClusterChat: Multi-Feature Search for Corpus Exploration
- arxiv url: http://arxiv.org/abs/2412.14533v2
- Date: Tue, 17 Jun 2025 14:18:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 15:22:19.54211
- Title: ClusterChat: Multi-Feature Search for Corpus Exploration
- Title(参考訳): ClusterChat: コーパス探索のための多機能検索
- Authors: Ashish Chouhan, Saifeldin Mandour, Michael Gertz,
- Abstract要約: ClusterChatは、クラスタベースのドキュメント組織を統合するコーパス探索用のオープンソースのシステムである。
我々は,400万の抽象PubMedデータセットを2つのケーススタディで検証した。
- 参考スコア(独自算出の注目度): 3.4123736336071864
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Exploring large-scale text corpora presents a significant challenge in biomedical, finance, and legal domains, where vast amounts of documents are continuously published. Traditional search methods, such as keyword-based search, often retrieve documents in isolation, limiting the user's ability to easily inspect corpus-wide trends and relationships. We present ClusterChat (The demo video and source code are available at: https://github.com/achouhan93/ClusterChat), an open-source system for corpus exploration that integrates cluster-based organization of documents using textual embeddings with lexical and semantic search, timeline-driven exploration, and corpus and document-level question answering (QA) as multi-feature search capabilities. We validate the system with two case studies on a four million abstract PubMed dataset, demonstrating that ClusterChat enhances corpus exploration by delivering context-aware insights while maintaining scalability and responsiveness on large-scale document collections.
- Abstract(参考訳): 大規模テキストコーパスの探索は、大量の文書が継続的に発行されるバイオメディカル、ファイナンス、法的な領域において重要な課題となる。
キーワードベースの検索のような従来の検索手法では、文書を独立して検索することが多く、コーパス全体の傾向や関係を簡単に検査する能力が制限される。
https://github.com/achouhan93/ClusterChatはコーパス探索のためのオープンソースのシステムで、語彙とセマンティック検索、タイムライン駆動探索、コーパスと文書レベルの質問応答(QA)を多機能検索機能として使用する。
我々は,400万の抽象的なPubMedデータセットを2つのケーススタディで検証し,大規模文書コレクションのスケーラビリティと応答性を維持しつつ,コンテキスト対応の洞察を提供することにより,ClusterChatがコーパス探索を強化することを実証した。
関連論文リスト
- PseudoSeer: a Search Engine for Pseudocode [18.726136894285403]
疑似コードを含む学術論文の効率的な検索と検索を容易にするために、新しい擬似コード検索エンジンが設計された。
スニペットを活用することで、ユーザはタイトル、抽象情報、著者情報、コードスニペットなど、紙のさまざまな面を検索できる。
重み付けされたBM25ベースのランキングアルゴリズムを検索エンジンで使用し、検索結果の優先順位付け時に考慮される要因について述べる。
論文 参考訳(メタデータ) (2024-11-19T16:58:03Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Organizing Unstructured Image Collections using Natural Language [37.16101036513514]
本稿では,大規模で非構造化画像コレクションからクラスタリング基準を自動的に検出することを目的とした,オープンエンドセマンティック・マルチクラスタリングの課題を紹介する。
我々のフレームワークであるX-Clusterは、テキストをプロキシとして使用し、大規模な画像コレクションを同時に推論し、クラスタリングの基準を発見し、セマンティックなサブ構造を明らかにする。
我々は、偏見の発見やソーシャルメディア画像の人気の分析など、様々な現実世界のアプリケーションにX-Clusterを適用した。
論文 参考訳(メタデータ) (2024-10-07T17:21:46Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - DiscoverPath: A Knowledge Refinement and Retrieval System for
Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。
本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。
DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文 参考訳(メタデータ) (2023-09-04T20:52:33Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - MICO: Selective Search with Mutual Information Co-training [14.456028769565386]
MICOは、選択探索のための相互情報COトレーニングフレームワークである。
トレーニング後、MICOは文書をクラスタ化するだけでなく、検索を効率的にするために、未確認のクエリを関連するクラスタにルーティングする。
論文 参考訳(メタデータ) (2022-09-09T16:26:52Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - A New Neural Search and Insights Platform for Navigating and Organizing
AI Research [56.65232007953311]
我々は、古典的なキーワード検索とニューラル検索を組み合わせた新しいプラットフォームであるAI Research Navigatorを導入し、関連する文献を発見し整理する。
本稿では,システム全体のアーキテクチャの概要と,文書分析,質問応答,検索,分析,専門家検索,レコメンデーションの構成要素について概説する。
論文 参考訳(メタデータ) (2020-10-30T19:12:25Z) - A Feature Analysis for Multimodal News Retrieval [9.269820020286382]
画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。
実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
論文 参考訳(メタデータ) (2020-07-13T14:09:29Z) - Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。
本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-07T13:26:32Z) - Search Result Clustering in Collaborative Sound Collections [17.48516881308658]
大規模オンラインデータベースを問合せする際に得られた多様な音声コレクションをクラスタリングするために,音声特徴を用いたグラフベースのアプローチを提案する。
不整合クラスタを破棄する信頼性尺度を用いることで,パーティションの品質が向上することを示す。
論文 参考訳(メタデータ) (2020-04-08T13:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。