論文の概要: Perspectives - Interactive Document Clustering in the Discourse Analysis Tool Suite
- arxiv url: http://arxiv.org/abs/2602.15540v1
- Date: Tue, 17 Feb 2026 12:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.063347
- Title: Perspectives - Interactive Document Clustering in the Discourse Analysis Tool Suite
- Title(参考訳): 講演分析ツールスイートにおけるインタラクティブなドキュメントクラスタリング
- Authors: Tim Fischer, Chris Biemann,
- Abstract要約: Perspectivesは、デジタル人文科学(DH)の研究者が大規模で非構造化の文書コレクションを探索し組織化するためのツールスイートである。
パースペクティブは、ヒューマン・イン・ザ・ループの洗練機能を備えたフレキシブルでアスペクト指向のドキュメントクラスタリングパイプラインを実装している。
- 参考スコア(独自算出の注目度): 20.935269641413694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Perspectives, an interactive extension of the Discourse Analysis Tool Suite designed to empower Digital Humanities (DH) scholars to explore and organize large, unstructured document collections. Perspectives implements a flexible, aspect-focused document clustering pipeline with human-in-the-loop refinement capabilities. We showcase how this process can be initially steered by defining analytical lenses through document rewriting prompts and instruction-based embeddings, and further aligned with user intent through tools for refining clusters and mechanisms for fine-tuning the embedding model. The demonstration highlights a typical workflow, illustrating how DH researchers can leverage Perspectives's interactive document map to uncover topics, sentiments, or other relevant categories, thereby gaining insights and preparing their data for subsequent in-depth analysis.
- Abstract(参考訳): 本稿では,デジタル人文科学(DH)の研究者に対して,大規模で構造化されていない文書コレクションを探索・整理するための対話的拡張であるパースペクティブスを紹介する。
パースペクティブは、ヒューマン・イン・ザ・ループの洗練機能を備えたフレキシブルでアスペクト指向のドキュメントクラスタリングパイプラインを実装している。
本稿では、まず、文書書き換えプロンプトや命令ベースの埋め込みを通じて分析レンズを定義し、さらにクラスタの精細化のためのツールや埋め込みモデルを微調整するためのメカニズムを通じてユーザ意図に適合させることによって、このプロセスをどのように制御できるかを示す。
このデモは典型的なワークフローを強調し、DH研究者がパースペクティブスのインタラクティブなドキュメントマップを使ってトピックや感情、その他の関連するカテゴリを明らかにすることで、洞察を得て、その後の詳細な分析のためにデータを準備する方法について説明している。
関連論文リスト
- DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Conceptual Topic Aggregation [0.0]
本稿では,FAT-CATを提案する。FAT-CATは,意味のあるトピックアグリゲーションと可視化を強化するための形式概念分析(FCA)に基づくアプローチである。
当社のアプローチでは,さまざまなトピックやファイルタイプ – ディレクトリによってグループ化された – を処理して,そのトピック分布の構造化された階層的な表現を提供する概念格子を構築することが可能です。
論文 参考訳(メタデータ) (2025-06-27T15:19:38Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
動的精錬ツールの文書化を目的とした新しいフレームワーク DRAFT を提案する。
この方法論は、3つの異なる学習フェーズからなる革新的な試行錯誤アプローチに基づいている。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - HADES: Homologous Automated Document Exploration and Summarization [3.3509104620016092]
HADESは大量の文書を扱う専門家の仕事の合理化を目的としている。
このツールは、トピックモデリング、要約、トピック毎の最も重要な単語の解析を用いてPDF文書の処理から始まる多段階パイプラインを使用する。
論文 参考訳(メタデータ) (2023-02-25T15:16:10Z) - Doc-GCN: Heterogeneous Graph Convolutional Networks for Document Layout
Analysis [4.920817773181236]
我々のDoc-GCNは、文書レイアウト分析のための異種側面の調和と統合に有効な方法を提供する。
まず、構文、意味、密度、外見/視覚情報を含む4つの主要な側面を明示的に記述するグラフを構築した。
情報の各側面を表現するためにグラフ畳み込みネットワークを適用し、それらを統合するためにプールを使用する。
論文 参考訳(メタデータ) (2022-08-22T07:22:05Z) - Scholastic: Graphical Human-Al Collaboration for Inductive and
Interpretive Text Analysis [20.008165537258254]
解釈学者は、意味のあるテーマが現れるまで、文書を手作業でサンプリングし、コードを適用し、コードをカテゴリに書き換え、照合することで、テキストコーパスから知識を生成する。
大規模なコーパスがあれば、機械学習はデータのサンプリングと分析をスケールするのに役立ちますが、以前の研究は、専門家が一般的に、解釈奨学金の破壊や推進に懸念を抱いていることを示しています。
我々は,機械・イン・ザ・ループクラスタリングアルゴリズムに関わる問題に対処するために,人間中心の設計アプローチを採り入れ,解釈テキスト分析を足場とした。
論文 参考訳(メタデータ) (2022-08-12T06:41:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - iFacetSum: Coreference-based Interactive Faceted Summarization for
Multi-Document Exploration [63.272359227081836]
iFacetSumは、インタラクティブな要約と顔検索を統合している。
微粒なファセットは、クロスドキュメントのコア参照パイプラインに基づいて自動的に生成される。
論文 参考訳(メタデータ) (2021-09-23T20:01:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。