論文の概要: LLMs in Political Science: Heralding a New Era of Visual Analysis
- arxiv url: http://arxiv.org/abs/2403.00154v1
- Date: Thu, 29 Feb 2024 22:11:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:54:53.582359
- Title: LLMs in Political Science: Heralding a New Era of Visual Analysis
- Title(参考訳): 政治科学におけるllm--視覚分析の新しい時代を告げる
- Authors: Yu Wang and Mengying Xing
- Abstract要約: 画像分析は、政治科学界の比較的小さなグループに限られている。
本稿では,画像コンテンツ分析におけるジェミニの利用可能性の意識を高めることを目的とする。
ジェミニは、政治的科学者にとって画像分析において最も一般的かつ基本的な課題である物体検出を行うのに非常に正確であることが判明した。
- 参考スコア(独自算出の注目度): 3.19428095493284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interest is increasing among political scientists in leveraging the extensive
information available in images. However, the challenge of interpreting these
images lies in the need for specialized knowledge in computer vision and access
to specialized hardware. As a result, image analysis has been limited to a
relatively small group within the political science community. This landscape
could potentially change thanks to the rise of large language models (LLMs).
This paper aims to raise awareness of the feasibility of using Gemini for image
content analysis. A retrospective analysis was conducted on a corpus of 688
images. Content reports were elicited from Gemini for each image and then
manually evaluated by the authors. We find that Gemini is highly accurate in
performing object detection, which is arguably the most common and fundamental
task in image analysis for political scientists. Equally important, we show
that it is easy to implement as the entire command consists of a single prompt
in natural language; it is fast to run and should meet the time budget of most
researchers; and it is free to use and does not require any specialized
hardware. In addition, we illustrate how political scientists can leverage
Gemini for other image understanding tasks, including face identification,
sentiment analysis, and caption generation. Our findings suggest that Gemini
and other similar LLMs have the potential to drastically stimulate and
accelerate image research in political science and social sciences more
broadly.
- Abstract(参考訳): 画像で利用可能な広範な情報を活用することで、政治科学者の間で関心が高まっている。
しかし、これらの画像の解釈の課題は、コンピュータビジョンの専門知識と特殊なハードウェアへのアクセスの必要性にある。
その結果、画像分析は政治科学コミュニティ内の比較的小さなグループに限定された。
この状況は、大きな言語モデル(LLM)の台頭によって変化する可能性がある。
本稿では,画像コンテンツ分析におけるジェミニの利用可能性の意識を高めることを目的とする。
688画像のコーパスを用いてふりかえり分析を行った。
コンテンツレポートはgeminiから画像ごとに引き出され、その後著者によって手動で評価された。
Geminiは、政治的科学者のための画像分析において、最も一般的かつ基本的なタスクであるオブジェクト検出を行うのに非常に正確であることがわかった。
同様に、コマンド全体が自然言語の1つのプロンプトで構成されているため、実装が容易であること、実行が速く、ほとんどの研究者の時間予算を満たすこと、使用が自由であること、特別なハードウェアを必要としないこと、などが示される。
さらに、政治科学者が顔の識別、感情分析、キャプション生成など、他の画像理解タスクにgeminiを活用する方法を示す。
以上の結果から,geminiや他の類似のllmは,政治科学や社会科学における画像研究を劇的に促進・促進する可能性が示唆された。
関連論文リスト
- Structuring Quantitative Image Analysis with Object Prominence [0.0]
データとして画像を分析するための重要なステップとして,オブジェクトの優位性について慎重に検討する。
我々の手法は質的な分析と定量的アプローチのスケーラビリティを組み合わせる。
論文 参考訳(メタデータ) (2024-08-30T19:05:28Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Bird's-Eye View to Street-View: A Survey [16.90516098120805]
衛星画像からストリートビュー画像がどのように合成されるのかを概観するため、20の最近の研究論文をレビューした。
主な発見は, (i) より現実的で正確なストリートビュー画像の合成に新しいディープラーニング技術が必要であること, (ii) 公共利用のためにより多くのデータセットを収集する必要があること, (iii) 生成された画像を適切に評価するためには,より具体的な評価指標を検討する必要があること,である。
論文 参考訳(メタデータ) (2024-05-14T21:01:12Z) - Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis [12.432542525489236]
近年,視覚言語モデル (VLM) が登場し,画像とテキストデータの双対モダリティを理解する能力の注目を浴びている。
本研究では、ChatGPT、LLaVA、Gemini、SAMに分類、セグメンテーション、カウント、VQAタスクを様々な顕微鏡画像上で課金する。
我々は,ChatGPTとGeminiが顕微鏡画像の視覚的特徴を驚くほど理解できるのに対し,SAMは一般的な意味での人工物を分離する能力が高いことを観察した。
論文 参考訳(メタデータ) (2024-05-01T21:35:04Z) - An In-depth Look at Gemini's Language Abilities [49.897870833250494]
OpenAI GPTとGoogle Geminiモデルの能力を比較する。
この分析は、さまざまな言語能力をテストする10のデータセットに対して実施します。
Gemini Pro は GPT 3.5 Turbo よりも近いがわずかに劣る精度を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:47:42Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - A Survey on Evolutionary Computation for Computer Vision and Image
Analysis: Past, Present, and Future Trends [6.48586558584924]
異なるアプローチの貢献について議論することで、進化的コンピュータビジョン(ECV)をよりよく理解することを目的としている。
この研究分野に関連する応用、課題、課題、傾向についても論じ、まとめる。
論文 参考訳(メタデータ) (2022-09-14T03:35:25Z) - Portrait Interpretation and a Benchmark [49.484161789329804]
提案した肖像画解釈は,人間の知覚を新たな体系的視点から認識する。
我々は,身元,性別,年齢,体格,身長,表情,姿勢をラベル付けした25万枚の画像を含む新しいデータセットを構築した。
筆者らの実験結果から, 肖像画解釈に関わるタスクを組み合わせることで, メリットが得られることが示された。
論文 参考訳(メタデータ) (2022-07-27T06:25:09Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - Country Image in COVID-19 Pandemic: A Case Study of China [79.17323278601869]
国像は国際関係と経済発展に大きな影響を与えている。
新型コロナウイルス(COVID-19)の世界的な流行で、各国と国民は異なる反応を見せている。
本研究では,中国を具体的かつ典型的な事例として捉え,大規模Twitterデータセットのアスペクトベース感情分析を用いてそのイメージを考察する。
論文 参考訳(メタデータ) (2020-09-12T15:54:51Z) - Advances in Deep Learning for Hyperspectral Image Analysis--Addressing
Challenges Arising in Practical Imaging Scenarios [7.41157183358269]
我々は,強靭なハイパースペクトル画像解析にディープラーニングを活用するコミュニティの進歩を概観する。
課題は 地上の真実と データの高次元的な性質です
具体的には,画像解析における教師なし,半教師付き,アクティブな学習手法について検討する。
論文 参考訳(メタデータ) (2020-07-16T19:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。