論文の概要: Leveraging Machine Learning and Large Language Models for Automated Image Clustering and Description in Legal Discovery
- arxiv url: http://arxiv.org/abs/2512.08079v1
- Date: Mon, 08 Dec 2025 22:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.742491
- Title: Leveraging Machine Learning and Large Language Models for Automated Image Clustering and Description in Legal Discovery
- Title(参考訳): 機械学習と大規模言語モデルの活用による画像クラスタリングの自動化と法的発見の記述
- Authors: Qiang Mao, Fusheng Wei, Robert Neary, Charles Wang, Han Qin, Jianping Zhang, Nathaniel Huber-Fliflet,
- Abstract要約: 本稿では,画像クラスタリング,画像キャプション,大規模言語モデル(LLM)を用いた自動クラスタ記述生成の体系的検討を行う。
K平均クラスタリングを20の視覚的コヒーレントクラスタにグループ化し、Azure AI Vision APIを使用してベースキャプションを生成する。
次に,クラスタ記述プロセスの3つの重要な側面について評価する:(1)ランダム,センチロイド,成層,ハイブリッド,および密度に基づくサンプリングをすべてのクラスタ画像と比較する画像サンプリング戦略,(2)標準プロンプトとチェーン・オブ・シークレットのプロンプトとを対比する手法,(3)LCMベースの生成を従来のTF-IDFと比較する記述生成手法,である。
- 参考スコア(独自算出の注目度): 4.799746336710645
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid increase in digital image creation and retention presents substantial challenges during legal discovery, digital archive, and content management. Corporations and legal teams must organize, analyze, and extract meaningful insights from large image collections under strict time pressures, making manual review impractical and costly. These demands have intensified interest in automated methods that can efficiently organize and describe large-scale image datasets. This paper presents a systematic investigation of automated cluster description generation through the integration of image clustering, image captioning, and large language models (LLMs). We apply K-means clustering to group images into 20 visually coherent clusters and generate base captions using the Azure AI Vision API. We then evaluate three critical dimensions of the cluster description process: (1) image sampling strategies, comparing random, centroid-based, stratified, hybrid, and density-based sampling against using all cluster images; (2) prompting techniques, contrasting standard prompting with chain-of-thought prompting; and (3) description generation methods, comparing LLM-based generation with traditional TF-IDF and template-based approaches. We assess description quality using semantic similarity and coverage metrics. Results show that strategic sampling with 20 images per cluster performs comparably to exhaustive inclusion while significantly reducing computational cost, with only stratified sampling showing modest degradation. LLM-based methods consistently outperform TF-IDF baselines, and standard prompts outperform chain-of-thought prompts for this task. These findings provide practical guidance for deploying scalable, accurate cluster description systems that support high-volume workflows in legal discovery and other domains requiring automated organization of large image collections.
- Abstract(参考訳): デジタル画像の作成と保持の急速な増加は、法的発見、デジタルアーカイブ、コンテンツ管理において重大な課題を呈している。
企業や法務チームは、厳格な時間的プレッシャーの下で大規模な画像収集から有意義な洞察を組織化し、分析し、抽出し、手作業によるレビューを非現実的かつコスト的にしなければなりません。
これらの要求は、大規模な画像データセットを効率的に整理し記述できる自動化手法への関心を強めている。
本稿では,画像クラスタリング,画像キャプション,大規模言語モデル(LLM)の統合による自動クラスタ記述生成の体系的検討を行う。
K平均クラスタリングを20の視覚的コヒーレントクラスタにグループ化し、Azure AI Vision APIを使用してベースキャプションを生成する。
次に,クラスタ記述プロセスの3つの重要な側面として,(1)ランダム,センチロイド,成層,ハイブリッド,および密度に基づくサンプリングをすべてのクラスタ画像と比較する画像サンプリング戦略,(2)標準プロンプトとチェーン・オブ・シークレットのプロンプトとを対比する手法,(3)LCMベースの生成を従来のTF-IDFとテンプレートベースのアプローチと比較する記述生成手法,の3つを評価する。
意味的類似度とカバレッジ指標を用いて記述品質を評価する。
その結果, クラスタ毎の20画像による戦略的サンプリングは, 計算コストを著しく低減しつつ, 網羅的インクルージョンと相容れない性能を示した。
LLMベースのメソッドはTF-IDFベースラインを一貫して上回り、標準ではこのタスクのためにチェーン・オブ・シークレットのプロンプトを上回ります。
これらの知見は,大規模画像収集の自動化を必要とする法律的発見および他の領域において,高ボリュームワークフローをサポートするスケーラブルで正確なクラスタ記述システムをデプロイするための実用的なガイダンスを提供する。
関連論文リスト
- Zero-Shot Fine-Grained Image Classification Using Large Vision-Language Models [4.499940819352075]
LVLM(Large Vision-Language Models)は、視覚言語推論タスクにおいて顕著な性能を示す。
ゼロショットのきめ細かい画像分類を視覚的問合せフレームワークに変換する新しい手法を提案する。
提案手法は現状のSOTA(State-of-the-art)手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-10-04T18:56:41Z) - MARIC: Multi-Agent Reasoning for Image Classification [6.303112232080335]
画像分類のためのマルチエージェント型推論(MARIC)を提案する。
MARICは、画像分類を協調推論プロセスとして再構成するマルチエージェントフレームワークである。
4つの多様な画像分類ベンチマークデータセットの実験は、MARICがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-18T11:27:00Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Google is all you need: Semi-Supervised Transfer Learning Strategy For Light Multimodal Multi-Task Classification Model [1.8160945635344523]
本研究では,複数のラベルを単一画像にアサインする頑健なマルチラベル分類システムを提案する。
本稿では,高度な画像認識アルゴリズムを自然言語処理(NLP)モデルと組み合わせたマルチモーダル分類器を提案する。
提案する分類モデルは,画像処理のための畳み込みニューラルネットワーク(CNN)と,テキスト記述を解析するためのNLP技術を組み合わせたものである。
論文 参考訳(メタデータ) (2025-01-03T03:11:17Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Clustering by Maximizing Mutual Information Across Views [62.21716612888669]
本稿では,共同表現学習とクラスタリングを組み合わせた画像クラスタリングのための新しいフレームワークを提案する。
提案手法は,様々な画像データセットにおける最先端の単一ステージクラスタリング手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-24T15:36:49Z) - Information Maximization Clustering via Multi-View Self-Labelling [9.947717243638289]
本稿では,意味のある表現を同時に学習し,対応するアノテーションを割り当てる単一フェーズクラスタリング手法を提案する。
これは、離散表現をネットを通じて自己監督パラダイムに統合することで達成される。
実験の結果,提案手法は,平均精度89.1%,49.0%で最先端技術を上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-12T16:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。