このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240803となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# U-MedSAM:医療画像セグメンテーションのための不確かさを意識したMedSAM
U-MedSAM: Uncertainty-aware MedSAM for Medical Image Segmentation ( http://arxiv.org/abs/2408.08881v1 ) ライセンス: Link先を確認 | Xin Wang, Xiaoyu Liu, Peng Huang, Pu Huang, Shu Hu, Hongtu Zhu, | (参考訳) Medical Image Foundation Modelsは、さまざまなデータセットにわたるマスク予測のための強力なツールであることが証明されている。
しかし、予測の不確かさを正確に評価することは依然として重要な課題である。
そこで本研究では,MedSAMモデルと不確実性認識損失関数,Sharpness-Aware Minimization (SharpMin)オプティマイザを統合した新しいモデルU-MedSAMを提案する。
不確実性認識損失関数は、自動的に領域ベース、分布ベース、画素ベースの損失設計を組み合わせることにより、セグメント化精度とロバスト性を高める。
SharpMinは、ロスランドスケープにフラットなミニマを見つけることで、一般化を改善し、オーバーフィッティングを減らす。
The CVPR24 MedSAM on Laptop Challengeでは,U-MedSAMが有望な性能を示した。
Medical Image Foundation Models have proven to be powerful tools for mask prediction across various datasets. However, accurately assessing the uncertainty of their predictions remains a significant challenge. To address this, we propose a new model, U-MedSAM, which integrates the MedSAM model with an uncertainty-aware loss function and the Sharpness-Aware Minimization (SharpMin) optimizer. The uncertainty-aware loss function automatically combines region-based, distribution-based, and pixel-based loss designs to enhance segmentation accuracy and robustness. SharpMin improves generalization by finding flat minima in the loss landscape, thereby reducing overfitting. Our method was evaluated in the CVPR24 MedSAM on Laptop challenge, where U-MedSAM demonstrated promising performance. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-03 |
# マルチロボットコラボレーションのためのロボット学習の現状と課題:総合的調査
State-of-the-art in Robot Learning for Multi-Robot Collaboration: A Comprehensive Survey ( http://arxiv.org/abs/2408.11822v1 ) ライセンス: Link先を確認 | Bin Wu, C Steve Suh, | (参考訳) コアテクノロジーの継続的なブレークスルーにより、ロボットシステムの大規模統合が日々の生活に広まりつつある。
この基盤上に構築されたマルチロボットシステム(MRS)は劇的な進化を遂げている。
ロボットハードウェアと人工知能技術の融合は、MSSの幅広い応用可能性を示している。この記事では、近年のMRC(Multi-Robot Cooperation)の文脈で、ロボット学習の現状を調査する。
人間や動物にインスパイアされたロボット学習手法(あるいはフレームワーク)を概ね検討し、関連する技術的課題とともにその利点と欠点について議論する。
ロボット学習とMSS統合の潜在的なトレンドは,これらの手法と実世界の応用を融合させることによっても議論されている。
具体的に統計学的手法は、この記事で詳述されたアイデアを定量的に相関づけるために用いられる。
With the continuous breakthroughs in core technology, the dawn of large-scale integration of robotic systems into daily human life is on the horizon. Multi-robot systems (MRS) built on this foundation are undergoing drastic evolution. The fusion of artificial intelligence technology with robot hardware is seeing broad application possibilities for MRS. This article surveys the state-of-the-art of robot learning in the context of Multi-Robot Cooperation (MRC) of recent. Commonly adopted robot learning methods (or frameworks) that are inspired by humans and animals are reviewed and their advantages and disadvantages are discussed along with the associated technical challenges. The potential trends of robot learning and MRS integration exploiting the merging of these methods with real-world applications is also discussed at length. Specifically statistical methods are used to quantitatively corroborate the ideas elaborated in the article. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-03 |
# システムレビューにおける大規模言語モデルの有効性
Efficacy of Large Language Models in Systematic Reviews ( http://arxiv.org/abs/2408.04646v1 ) ライセンス: Link先を確認 | Aaditya Shah, Shridhar Mehendale, Siddha Kanthi, | (参考訳) 本研究では,環境・社会・ガバナンス(ESG)要因と財務業績との関係を体系的に検討し,既存の文献を解釈する上での言語モデル(LLM)の有効性について検討した。
第一の目的は、ESGに焦点を当てた論文のコーパスにおいて、LLMが体系的なレビューをいかに再現できるかを評価することである。
私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。
さらに,2015年1月から2020年2月までにESG文献の体系的レビューを行った。
我々は,メタAIのLlama 3 8BとOpenAIのGPT-4oの2つの現状のLCMを,両論文の人為的分類に対する解釈の精度に基づいて評価した。
次に,238論文のコーパスをトレーニングデータとして用いた「カスタムGPT」と微調整GPT-4o Miniモデルと比較した。
微調整のGPT-4o Miniモデルは、プロンプト1の精度で平均28.3%向上した。
同時に、「カスタムGPT」は、プロンプト2と3の総合的精度で平均3.0%と15.7%の改善を示した。
この結果から、投資家や機関がLSMを活用してESG投資に関する複雑な証拠を要約し、迅速な意思決定とより効率的な市場を実現することが期待できる結果となった。
This study investigates the effectiveness of Large Language Models (LLMs) in interpreting existing literature through a systematic review of the relationship between Environmental, Social, and Governance (ESG) factors and financial performance. The primary objective is to assess how LLMs can replicate a systematic review on a corpus of ESG-focused papers. We compiled and hand-coded a database of 88 relevant papers published from March 2020 to May 2024. Additionally, we used a set of 238 papers from a previous systematic review of ESG literature from January 2015 to February 2020. We evaluated two current state-of-the-art LLMs, Meta AI's Llama 3 8B and OpenAI's GPT-4o, on the accuracy of their interpretations relative to human-made classifications on both sets of papers. We then compared these results to a "Custom GPT" and a fine-tuned GPT-4o Mini model using the corpus of 238 papers as training data. The fine-tuned GPT-4o Mini model outperformed the base LLMs by 28.3% on average in overall accuracy on prompt 1. At the same time, the "Custom GPT" showed a 3.0% and 15.7% improvement on average in overall accuracy on prompts 2 and 3, respectively. Our findings reveal promising results for investors and agencies to leverage LLMs to summarize complex evidence related to ESG investing, thereby enabling quicker decision-making and a more efficient market. | 翻訳日:2024-08-19 04:27:34 公開日:2024-08-03 |
# チャットボットを人間から駆除する
Distinguishing Chatbot from Human ( http://arxiv.org/abs/2408.04647v1 ) ライセンス: Link先を確認 | Gauri Anil Godghase, Rishit Agrawal, Tanush Obili, Mark Stamp, | (参考訳) ジェネレーティブ・人工知能(AI)とLarge Language Models(LLM)の分野では、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)モデルが主要な「チャットボット」となっている。
LLMベースのチャットボットは非常に強力になり、人書きテキストと機械生成テキストの区別が難しいように思える。
この問題を解析するために,75万以上の人文文からなる新しいデータセットを開発し,それぞれに対応するチャットボット生成段落を作成した。
このデータセットに基づいて、テキスト(人間またはチャットボット)の起源を決定するために機械学習(ML)技術を適用します。
具体的には、この問題に対処するための方法として、特徴分析と埋め込みの2つを検討する。
特徴分析手法では,テキストから特徴の集合を抽出して分類する。
また、文脈埋め込みとトランスフォーマーベースのアーキテクチャを使って分類モデルを訓練する方法について検討する。
提案手法は高い分類精度を提供し、テキスト解析の有用なツールとして機能し、この時代の高度なAI技術のチャットボット生成テキストをよりよく理解する。
There have been many recent advances in the fields of generative Artificial Intelligence (AI) and Large Language Models (LLM), with the Generative Pre-trained Transformer (GPT) model being a leading "chatbot." LLM-based chatbots have become so powerful that it may seem difficult to differentiate between human-written and machine-generated text. To analyze this problem, we have developed a new dataset consisting of more than 750,000 human-written paragraphs, with a corresponding chatbot-generated paragraph for each. Based on this dataset, we apply Machine Learning (ML) techniques to determine the origin of text (human or chatbot). Specifically, we consider two methodologies for tackling this issue: feature analysis and embeddings. Our feature analysis approach involves extracting a collection of features from the text for classification. We also explore the use of contextual embeddings and transformer-based architectures to train classification models. Our proposed solutions offer high classification accuracy and serve as useful tools for textual analysis, resulting in a better understanding of chatbot-generated text in this era of advanced AI technology. | 翻訳日:2024-08-19 04:27:34 公開日:2024-08-03 |
# PLUGH:大規模言語モデルにおける空間的理解と推論のためのベンチマーク
PLUGH: A Benchmark for Spatial Understanding and Reasoning in Large Language Models ( http://arxiv.org/abs/2408.04648v1 ) ライセンス: Link先を確認 | Alexey Tikhonov, | (参考訳) PLUGH (https://www.urbandictionary.com/define.php?term=plugh)は、現在5つのタスクからなる最新のベンチマークであり、それぞれが48の異なるゲームから抽出された125の入力テキストを持ち、61の異なる(非同型)空間グラフを表現し、空間的理解と推論のための大規模言語モデル(LLM)の能力を評価する。
APIベースおよびオープンソース LLM の評価では,いくつかの商用 LLM には強い推論能力があるが,オープンソースコンペティタは,ほぼ同じレベルの品質を示すことができるが,すべてのモデルにはまだ改善の余地が残っている。
LLM障害の典型的な原因を特定し、それらに対処する方法について議論する。
データセットと評価コードはリリースされている(https://github.com/altsoph/PLUGH)。
We present PLUGH (https://www.urbandictionary.com/define.php?term=plugh), a modern benchmark that currently consists of 5 tasks, each with 125 input texts extracted from 48 different games and representing 61 different (non-isomorphic) spatial graphs to assess the abilities of Large Language Models (LLMs) for spatial understanding and reasoning. Our evaluation of API-based and open-sourced LLMs shows that while some commercial LLMs exhibit strong reasoning abilities, open-sourced competitors can demonstrate almost the same level of quality; however, all models still have significant room for improvement. We identify typical reasons for LLM failures and discuss possible ways to deal with them. Datasets and evaluation code are released (https://github.com/altsoph/PLUGH). | 翻訳日:2024-08-19 04:16:58 公開日:2024-08-03 |
# スタンスの連鎖:大規模言語モデルを用いたスタンス検出
Chain of Stance: Stance Detection with Large Language Models ( http://arxiv.org/abs/2408.04649v1 ) ライセンス: Link先を確認 | Junxia Ma, Changjiang Wang, Hanwen Xing, Dongming Zhao, Yazhou Zhang, | (参考訳) スタンス検出は、テキスト内の特定のターゲットに対する著者の姿勢を特定することを目的として、自然言語処理(NLP)において活発なタスクである。
大規模言語モデル(LLM)の言語理解能力と百科事典的事前知識から,姿勢検出におけるLLMの可能性を探究する方法が注目されている。
大規模データセットによる微調整にのみ焦点をあてる既存のLCMベースのアプローチとは異なり、我々は新しいプロンプト法である「textit{Chain of Stance} (CoS)」を提案する。
特に、LSMを専門家のスタンス検出装置として位置づけ、スタンス検出プロセスを最終判断に終止符を打つ一連の中間的、スタンス関連アサーションに分解する。
このアプローチは、分類性能を大幅に改善する。
我々はSemEval 2016データセット上で4つのSOTA LLMを用いて広範囲に実験を行い、ゼロショットと少数ショットの学習設定をカバーした。
提案手法は,F1スコアが79.84であり,この結果が得られたことを示唆する。
Stance detection is an active task in natural language processing (NLP) that aims to identify the author's stance towards a particular target within a text. Given the remarkable language understanding capabilities and encyclopedic prior knowledge of large language models (LLMs), how to explore the potential of LLMs in stance detection has received significant attention. Unlike existing LLM-based approaches that focus solely on fine-tuning with large-scale datasets, we propose a new prompting method, called \textit{Chain of Stance} (CoS). In particular, it positions LLMs as expert stance detectors by decomposing the stance detection process into a series of intermediate, stance-related assertions that culminate in the final judgment. This approach leads to significant improvements in classification performance. We conducted extensive experiments using four SOTA LLMs on the SemEval 2016 dataset, covering the zero-shot and few-shot learning setups. The results indicate that the proposed method achieves state-of-the-art results with an F1 score of 79.84 in the few-shot setting. | 翻訳日:2024-08-19 04:16:58 公開日:2024-08-03 |
# メンタルヘルスチャットボットにおける信頼構築--安全基準とLCMに基づく評価ツール
Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools ( http://arxiv.org/abs/2408.04650v1 ) ライセンス: Link先を確認 | Jung In Park, Mahyar Abbasian, Iman Azimi, Dawn Bounds, Angela Jun, Jaesu Han, Robert McCarron, Jessica Borelli, Jia Li, Mona Mahmoudi, Carmen Wiedenhoeft, Amir Rahmani, | (参考訳) 目的: 本研究の目的は, アクセシビリティ, ヒューマンライクなインタラクション, コンテキスト認識サポートなどにより, ますます普及しているメンタルヘルスチャットボットの安全性と信頼性を確保するための評価枠組みの開発と検証である。
Materials and Methods: 100のベンチマーク質問と理想的な回答と,チャットボット応答に関する5つのガイドライン質問を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
自動評価手法には,大規模言語モデル(LLM)に基づくスコアリング,リアルタイムデータを用いたエージェントアプローチ,チャットボットの応答と地上の真実の基準を比較するための埋め込みモデルなどが含まれる。
結果: LLM評価精度向上のためのガイドラインと根拠的真理の重要性を強調した。
エージェント手法は、信頼性のある情報に動的にアクセスし、人間の評価と最適な整合性を実証した。
標準化された専門家公認フレームワークへの準拠により、チャットボットの応答安全性と信頼性が大幅に向上した。
考察:本研究は,メンタルヘルスチャットボットの総合的,専門家による安全評価指標の必要性を強調した。
LLMは大きな可能性を秘めているが、リスクを軽減するには慎重な実装が必要である。
エージェントアプローチの優れたパフォーマンスは、チャットボットの信頼性を高める上で、リアルタイムデータアクセスの重要性を強調している。
結論: 本研究はメンタルヘルスチャットボットの評価枠組みを検証し, 安全性と信頼性を向上させる効果を実証した。
今後の作業は、評価を正確性、偏見、共感、プライバシにまで拡張し、総合的な評価と医療への責任ある統合を保証する必要がある。
標準化された評価は、ユーザーと専門家の間で信頼を築き、より広範な採用を促進し、技術を通じたメンタルヘルスサポートを改善する。
Objective: This study aims to develop and validate an evaluation framework to ensure the safety and reliability of mental health chatbots, which are increasingly popular due to their accessibility, human-like interactions, and context-aware support. Materials and Methods: We created an evaluation framework with 100 benchmark questions and ideal responses, and five guideline questions for chatbot responses. This framework, validated by mental health experts, was tested on a GPT-3.5-turbo-based chatbot. Automated evaluation methods explored included large language model (LLM)-based scoring, an agentic approach using real-time data, and embedding models to compare chatbot responses against ground truth standards. Results: The results highlight the importance of guidelines and ground truth for improving LLM evaluation accuracy. The agentic method, dynamically accessing reliable information, demonstrated the best alignment with human assessments. Adherence to a standardized, expert-validated framework significantly enhanced chatbot response safety and reliability. Discussion: Our findings emphasize the need for comprehensive, expert-tailored safety evaluation metrics for mental health chatbots. While LLMs have significant potential, careful implementation is necessary to mitigate risks. The superior performance of the agentic approach underscores the importance of real-time data access in enhancing chatbot reliability. Conclusion: The study validated an evaluation framework for mental health chatbots, proving its effectiveness in improving safety and reliability. Future work should extend evaluations to accuracy, bias, empathy, and privacy to ensure holistic assessment and responsible integration into healthcare. Standardized evaluations will build trust among users and professionals, facilitating broader adoption and improved mental health support through technology. | 翻訳日:2024-08-19 04:16:58 公開日:2024-08-03 |
# 電気自動車充電挙動シミュレーションのための大規模言語モデルに基づくエージェントフレームワーク
Large Language Model based Agent Framework for Electric Vehicle Charging Behavior Simulation ( http://arxiv.org/abs/2408.05233v1 ) ライセンス: Link先を確認 | Junkang Feng, Chenggang Cui, Chuanlin Zhang, Zizhu Fan, | (参考訳) 本稿では,電気自動車(EV)の充電動作をシミュレーションし,ユーザの嗜好,心理的特徴,環境要因を統合し,充電プロセスを最適化するための新しいLCMベースのエージェントフレームワークを提案する。
このフレームワークはいくつかのモジュールから構成されており、高度で適応的なシミュレーションを可能にする。
動的意思決定は、継続的なリフレクションとメモリ更新によってサポートされ、ユーザの期待に一致し、効率が向上する。
このフレームワークは、パーソナライズされたユーザープロファイルとリアルタイムな意思決定を生成する能力により、都市部のEV充電管理に大きな進歩をもたらす。
将来的には、より複雑なシナリオを取り入れ、予測精度と実用性を高めるためにデータソースを拡張することに重点を置くだろう。
This paper introduces a new LLM based agent framework for simulating electric vehicle (EV) charging behavior, integrating user preferences, psychological characteristics, and environmental factors to optimize the charging process. The framework comprises several modules, enabling sophisticated, adaptive simulations. Dynamic decision making is supported by continuous reflection and memory updates, ensuring alignment with user expectations and enhanced efficiency. The framework's ability to generate personalized user profiles and real-time decisions offers significant advancements for urban EV charging management. Future work could focus on incorporating more intricate scenarios and expanding data sources to enhance predictive accuracy and practical utility. | 翻訳日:2024-08-19 04:07:11 公開日:2024-08-03 |
# CAR: Contrast-invariant Latent Regularization を用いたContrast-Agnostic Deformable Medical Image Registration
CAR: Contrast-Agnostic Deformable Medical Image Registration with Contrast-Invariant Latent Regularization ( http://arxiv.org/abs/2408.05341v1 ) ライセンス: Link先を確認 | Yinsong Wang, Siyi Du, Shaoming Zheng, Xinzhe Luo, Chen Qin, | (参考訳) マルチコントラスト画像登録は、異なる画像コントラスト間の複雑な強度関係のために難しい課題である。
従来の画像登録法は、通常、各入力画像対の反復最適化に基づいており、これは時間を要するため、コントラストの変動に敏感である。
学習ベースのアプローチは推論段階ではより高速であるが、一般化可能性の問題のため、通常はトレーニング段階で観察される固定されたコントラストにのみ適用できる。
本研究では,任意のコントラスト画像に一般化可能な,コントラストに依存しない新しい画像登録フレームワークを提案する。
特に,画像のコントラストの任意のコントラストをシミュレートするランダム畳み込みに基づくコントラスト拡張手法を提案する。
コントラスト非依存登録を容易にするために、ネットワークがコントラスト不変表現を学習できるように、コントラスト不変潜在正規化(CLR)を導入する。
実験により、CARは登録精度に関するベースラインアプローチよりも優れており、画像のコントラストを発見できないような一般化能力も優れていることが示された。
コードは \url{https://github.com/Yinsong0510/CAR} で入手できる。
Multi-contrast image registration is a challenging task due to the complex intensity relationships between different imaging contrasts. Conventional image registration methods are typically based on iterative optimizations for each input image pair, which is time-consuming and sensitive to contrast variations. While learning-based approaches are much faster during the inference stage, due to generalizability issues, they typically can only be applied to the fixed contrasts observed during the training stage. In this work, we propose a novel contrast-agnostic deformable image registration framework that can be generalized to arbitrary contrast images, without observing them during training. Particularly, we propose a random convolution-based contrast augmentation scheme, which simulates arbitrary contrasts of images over a single image contrast while preserving their inherent structural information. To ensure that the network can learn contrast-invariant representations for facilitating contrast-agnostic registration, we further introduce contrast-invariant latent regularization (CLR) that regularizes representation in latent space through a contrast invariance loss. Experiments show that CAR outperforms the baseline approaches regarding registration accuracy and also possesses better generalization ability to unseen imaging contrasts. Code is available at \url{https://github.com/Yinsong0510/CAR}. | 翻訳日:2024-08-19 04:07:11 公開日:2024-08-03 |
# DDIM Redux: 数学的基礎といくつかの拡張
DDIM Redux: Mathematical Foundation and Some Extension ( http://arxiv.org/abs/2408.07285v1 ) ライセンス: Link先を確認 | Manhyung Han, | (参考訳) このノートは、一般化拡散復号化暗黙モデル(gDDIM)と指数積分器(EI)スキームの基礎となる数学的概念の批判的なレビューを提供する。
本稿では,確率フローODEにおける逆軌道の正確な表現や,gDDIMスキームにおける共分散行列の正確な表現を含む数学的結果を示す。
さらに、変数の変化の観点から、EIスキームの効率性を改良した理解を提供する。
DDIMにおけるノイズ発生過程は、非平衡統計物理学の観点から解析される。
さらに,主軸DDIM(paDDIM)と呼ばれるDDIMの新しい手法を提案する。
This note provides a critical review of the mathematical concepts underlying the generalized diffusion denoising implicit model (gDDIM) and the exponential integrator (EI) scheme. We present enhanced mathematical results, including an exact expression for the reverse trajectory in the probability flow ODE and an exact expression for the covariance matrix in the gDDIM scheme. Furthermore, we offer an improved understanding of the EI scheme's efficiency in terms of the change of variables. The noising process in DDIM is analyzed from the perspective of non-equilibrium statistical physics. Additionally, we propose a new scheme for DDIM, called the principal-axis DDIM (paDDIM). | 翻訳日:2024-08-19 03:47:26 公開日:2024-08-03 |
# 大規模量子回路上での2ソース最適ルーティングによるロバストな量子ビットマッピングアルゴリズム
Robust Qubit Mapping Algorithm via Double-Source Optimal Routing on Large Quantum Circuits ( http://arxiv.org/abs/2210.01306v5 ) ライセンス: Link先を確認 | Chin-Yi Cheng, Chien-Yi Yang, Yi-Hsiang Kuo, Ren-Chu Wang, Hao-Chung Cheng, Chung-Yang Ric Huang, | (参考訳) 量子マッピングは、実際のハードウェアデバイスに量子回路を実装する上で重要な側面である。
現在、量子ビットマッピングのための既存のアルゴリズムは、数百の量子ビットを含むより大きな回路サイズを扱う際に困難に直面している。
本稿では,量子ビットマッピングアルゴリズムであるDuostraを導入し,接続性に制限のある実ハードウェアデバイスに大規模量子回路を実装するという課題に対処する。
Duostraは、ダブルキュービットゲートの最適経路を効率よく決定し、実際のデバイス上でのダブルキュービット操作を実装するためにSWAPゲートを挿入する。
2つのヒューリスティックなスケジューリングアルゴリズム、Limitedly-Exhausitive (LE) Search と Shortest-Path (SP) Estimation と組み合わせて、合理的なランタイム内で良質な結果が得られる。
実験の結果,特にNISQ時代を超える大規模回路において,アルゴリズムの優位性が示された。
例えば、50量子ビット以上の大きな回路では、QMAP、t|ket>、Qiskit、SABREの仮想ベスト値よりも平均21.75%のマッピングコストを削減できる。
さらに、SABRE-largeベンチマークのような中規模の回路では、QMAP、TOQM、t|ket>、Qiskit、SABREと比較して、マッピングコストを4.5%、5.2%、16.3%、20.7%、25.7%改善する。
Qubit Mapping is a critical aspect of implementing quantum circuits on real hardware devices. Currently, the existing algorithms for qubit mapping encounter difficulties when dealing with larger circuit sizes involving hundreds of qubits. In this paper, we introduce an innovative qubit mapping algorithm, Duostra, tailored to address the challenge of implementing large-scale quantum circuits on real hardware devices with limited connectivity. Duostra operates by efficiently determining optimal paths for double-qubit gates and inserting SWAP gates accordingly to implement the double-qubit operations on real devices. Together with two heuristic scheduling algorithms, the Limitedly-Exhausitive (LE) Search and the Shortest-Path (SP) Estimation, it yields results of good quality within a reasonable runtime, thereby striving toward achieving quantum advantage. Experimental results showcase our algorithm's superiority, especially for large circuits beyond the NISQ era. For example, on large circuits with more than 50 qubits, we can reduce the mapping cost on an average 21.75% over the virtual best results among QMAP, t|ket>, Qiskit and SABRE. Besides, for mid-size circuits such as the SABRE-large benchmark, we improve the mapping costs by 4.5%, 5.2%, 16.3%, 20.7%, and 25.7%, when compared to QMAP, TOQM, t|ket>, Qiskit, and SABRE, respectively. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-03 |
# 一般制約による変分不等式の解法
A Primal-Dual Approach to Solving Variational Inequalities with General Constraints ( http://arxiv.org/abs/2210.15659v4 ) ライセンス: Link先を確認 | Tatjana Chavdarova, Tong Yang, Matteo Pagliardini, Michael I. Jordan, | (参考訳) Yang et al (2023) は最近、特定のサブプロブレムの分析解が利用できるという限定的な仮定の下で、一般変分不等式 (VIs) を解くために一階勾配法を使う方法を示した。
本稿では,この仮定をウォームスタート法により回避し,前回の繰り返しで見いだされた近似解を用いて変数を近似的に初期化する。
この方法の収束性を証明し、演算子が$L$-Lipschitz と monotone であるとき、この方法の最後の繰り返しのギャップ関数が$O(\frac{1}{\sqrt{K}})$で減少することを示す。
数値実験では、この手法は正確な手法よりもはるかに高速に収束できることが示されている。
さらに、不等式制約が単純である場合には、ACVIの代替変種を導入し、同じ条件下で収束を確立する。
最後に、Yang et al における滑らかさの仮定を緩和し、つまり我々の知識に従えば、作用素が $L$-Lipschitz であるという仮定に依存しない一般の制約を持つ VI に対する最初の収束結果が得られる。
Yang et al. (2023) recently showed how to use first-order gradient methods to solve general variational inequalities (VIs) under a limiting assumption that analytic solutions of specific subproblems are available. In this paper, we circumvent this assumption via a warm-starting technique where we solve subproblems approximately and initialize variables with the approximate solution found at the previous iteration. We prove the convergence of this method and show that the gap function of the last iterate of the method decreases at a rate of $O(\frac{1}{\sqrt{K}})$ when the operator is $L$-Lipschitz and monotone. In numerical experiments, we show that this technique can converge much faster than its exact counterpart. Furthermore, for the cases when the inequality constraints are simple, we introduce an alternative variant of ACVI and establish its convergence under the same conditions. Finally, we relax the smoothness assumptions in Yang et al., yielding, to our knowledge, the first convergence result for VIs with general constraints that does not rely on the assumption that the operator is $L$-Lipschitz. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-03 |
# 双曲格子上の自由フェルミオンの絡み合いスケーリング挙動
Entanglement scaling behaviors of free fermions on hyperbolic lattices ( http://arxiv.org/abs/2408.01706v1 ) ライセンス: Link先を確認 | Xiang-You Huang, Yao Zhou, Peng Ye, | (参考訳) 近年、双曲格子上の強結合モデル(離散化されたAdS空間)が注目され、双曲的バンド理論と非アベリアブロッホ状態が導かれる。
本稿では、量子情報の観点からこれらの量子系を考察し、特に、物質の異方性相への強力な量子情報プローブと見なされるエンタングルメントエントロピー(EE)のスケーリングに焦点を当てる。
d$ 次元の変換不変ユークリッド格子上では、バンド絶縁体の EE が領域法則 (\sim L^{d-1}$; $L$) としてスケールすることが知られている。
一方、金属のEE(すなわちDOS)は、有名なジョエフ=クリッヒ=ウィドムスケール法(\sim L^{d-1}\log L$)としてスケールする。
対数発散の出現と係数 $c$ の解析形式は、トープリッツ行列の漸近的振る舞いのウィドム予想によって数学的に制御され、スウィングルの議論を通じて物理的に理解することができる。
しかし、翻訳対称性を一般化する双曲格子は、ウィドム予想を適用不可能にし、重要な解析的困難を生じさせる。
ここでは数値シミュレーションによる最初の試みを行う。
両症例とも領域法則に従属し, 背景双曲幾何学により, 有限DOSから生じる対数発散が抑制されることが示唆された。
結果を得るため,まず頂点インフレーション法を適用し,ポインカー{e}円板上の双曲格子を生成し,次にハイドック再帰法をDOSの計算に適用する。
最後に, 異なる分割に対するEEのスケーリングを, 正確な対角化によって検討し, 有限サイズスケーリングを行う。
また,領域法則の係数がバルクギャップやDOSとどのように相関するかについても検討した。
今後の方向性について論じる。
Recently, tight-binding models on hyperbolic lattices (discretized AdS space), have gained significant attention, leading to hyperbolic band theory and non-Abelian Bloch states. In this paper, we investigate these quantum systems from the perspective of quantum information, focusing particularly on the scaling of entanglement entropy (EE) that has been regarded as a powerful quantum-information probe into exotic phases of matter. It is known that on $d$-dimensional translation-invariant Euclidean lattice, the EE of band insulators scales as an area law ($\sim L^{d-1}$; $L$ is the linear size of the boundary between two subsystems). Meanwhile, the EE of metals (with finite Density-of-State, i.e., DOS) scales as the renowned Gioev-Klich-Widom scaling law ($\sim L^{d-1}\log L$). The appearance of logarithmic divergence, as well as the analytic form of the coefficient $c$ is mathematically controlled by the Widom conjecture of asymptotic behavior of Toeplitz matrices and can be physically understood via the Swingle's argument. However, the hyperbolic lattice, which generalizes translational symmetry, results in inapplicability of the Widom conjecture and thus presents significant analytic difficulties. Here we make an initial attempt through numerical simulation. Remarkably, we find that both cases adhere to the area law, indicating that the logarithmic divergence arising from finite DOS is suppressed by the background hyperbolic geometry. To achieve the results, we first apply the vertex inflation method to generate hyperbolic lattice on the Poincar\'{e} disk, and then apply the Haydock recursion method to compute DOS. Finally, we study the scaling of EE for different bipartitions via exact diagonalization and perform finite-size scaling. We also investigate how the coefficient of the area law is correlated to bulk gap and DOS. Future directions are discussed. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-03 |
# 因果フェルミオン系のフェルミオンエントロピーの表記
Notions of Fermionic Entropies of a Causal Fermion System ( http://arxiv.org/abs/2408.01710v1 ) ライセンス: Link先を確認 | Felix Finster, Robert H. Jonsson, Magdalena Lottner, Albert Much, Simone Murro, | (参考訳) フェルミオンフォンノイマンエントロピー、フェルミオンエンタングルメントエントロピー、フェルミオン相対エントロピーは、因果フェルミオン系に対して定義される。
我々の定義では、還元された一粒子密度作用素の観点から、準自由フェルミオン状態に対するエントロピー公式を用いる。
我々の定義は、2次元および4次元ミンコフスキー空間のディラックスピノル、シュワルツシルトブラックホール幾何学、フェルミオン格子の様々な例で示される。
ミンコフスキー空間における2次元ダイヤモンドと3次元空間領域の領域法則を概観する。
この関係はモジュラー理論を用いて相対エントロピーの計算に結びつく。
The fermionic von Neumann entropy, the fermionic entanglement entropy and the fermionic relative entropy are defined for causal fermion systems. Our definition makes use of entropy formulas for quasi-free fermionic states in terms of the reduced one-particle density operator. Our definitions are illustrated in various examples for Dirac spinors in two- and four-dimensional Minkowski space, in the Schwarzschild black hole geometry and for fermionic lattices. We review area laws for the two-dimensional diamond and a three-dimensional spatial region in Minkowski space. The connection is made to the computation of the relative entropy using modular theory. | 翻訳日:2024-08-07 16:27:42 公開日:2024-08-03 |
# 量子グラフネットワークにおける経路積分形式を用いた同期の解釈について
On Using The Path Integral Formalism to Interpret Synchronization in Quantum Graph Networks ( http://arxiv.org/abs/2408.02690v1 ) ライセンス: Link先を確認 | JTM Campbell, | (参考訳) 本稿では, 絡み合ったネットワーク, キャビティ, 貯水池における同期現象の記述における経路積分形式の適用について検討する。
同期システムにラグランジアン力学を用いるという概念と、最小作用原理との関係について論じる。
最小作用の概念を最小シグナリング項に置き換えることで、絡み合ったネットワークにおける同期力学の研究に経路積分表現を適用し、鞍本モデルのような位相空間モデルにおける結合振動子と並列を描画し、ネットワークの最適化に使用するためのファイアフライアルゴリズムのようなアルゴリズムとの関係について検討する。
本論では, 交絡信号自体が古典的同期のしきい値に達する高調波発振器の順序系と強く相互作用し, 位相ダイナミクスが注目される弱い測定プローブとして交絡信号を用いる方法について述べる。
This article explores the application of the path integral formalism in describing synchronization phenomena in entangled networks, cavities, and reservoirs. We discuss the concept of using Lagrangian mechanics for systems undergoing synchronization and its connection to least-action principles. By replacing the concept of least action with a least signaling term, we investigate how the path integral representation can be applied to study synchronization dynamics in entangled networks, drawing parallels with coupled oscillators in phase space models such as the Kuramoto model, as well as its relation to algorithms, such as the firefly algorithm for potential use in optimization in networks. This article also illustrates how entanglement signals themselves can interact strongly with ordered systems of harmonic oscillators that reach thresholds of classical synchronization with potential therefore for using entangled signals as weak measurement probes where phase dynamics is of interest. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-03 |
# 推薦のための雑音視点に対する対称グラフコントラスト学習
Symmetric Graph Contrastive Learning against Noisy Views for Recommendation ( http://arxiv.org/abs/2408.02691v1 ) ライセンス: Link先を確認 | Chu Zhao, Enneng Yang, Yuliang Liang, Jianzhe Zhao, Guibing Guo, Xingwei Wang, | (参考訳) Graph Contrastive Learning (GCL)は、データ拡張技術を活用してコントラストビューを生成し、コントラストビュー間の一貫性を学ぶことによってレコメンデーションシステムの精度を高める。
しかし、直接摂動相互作用グラフ(例えばノード/エッジドロップアウト)のような既存の拡張手法は、元の接続を妨害し、コントラストの低いビューを生成し、その結果、準最適性能をもたらす。
本稿では,データ拡張が不十分なため,少数の情報のみを元のグラフと共有するビューをノイズの多いビューとして定義する(つまり,コサイン類似度値が0.1未満のビューの最後の20%を元のビューと定義する)。
ノイズの多いビューが推奨性能を著しく低下させることを示す。
さらに,モデルに依存しないSGCL(Symmetric Graph Contrastive Learning)手法を提案する。
具体的には、対称性理論をグラフのコントラスト学習に導入し、ノイズ干渉に耐性のある対称形式とコントラスト損失を提案する。
本稿では,提案手法が雑音に対する高い耐性を有することの理論的証明を提供する。
さらに3つの実世界のデータセットに関する広範な実験を行うことで、さらなるデモンストレーションを行うことができる。
実験の結果,提案手法は推奨精度を大幅に向上し,他の9つの競合モデルよりも12.25%の精度で相対的な改善が達成された。
これらの結果は,本手法の有効性を浮き彫りにした。
Graph Contrastive Learning (GCL) leverages data augmentation techniques to produce contrasting views, enhancing the accuracy of recommendation systems through learning the consistency between contrastive views. However, existing augmentation methods, such as directly perturbing interaction graph (e.g., node/edge dropout), may interfere with the original connections and generate poor contrasting views, resulting in sub-optimal performance. In this paper, we define the views that share only a small amount of information with the original graph due to poor data augmentation as noisy views (i.e., the last 20% of the views with a cosine similarity value less than 0.1 to the original view). We demonstrate through detailed experiments that noisy views will significantly degrade recommendation performance. Further, we propose a model-agnostic Symmetric Graph Contrastive Learning (SGCL) method with theoretical guarantees to address this issue. Specifically, we introduce symmetry theory into graph contrastive learning, based on which we propose a symmetric form and contrast loss resistant to noisy interference. We provide theoretical proof that our proposed SGCL method has a high tolerance to noisy views. Further demonstration is given by conducting extensive experiments on three real-world datasets. The experimental results demonstrate that our approach substantially increases recommendation accuracy, with relative improvements reaching as high as 12.25% over nine other competing models. These results highlight the efficacy of our method. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-03 |
# CNNをベースとしたフラッシュ・フラッシャー・サセプティビリティー・モデルの改善には注意が必要だ。モロッコのラハヤ川流域を例に
Attention is all you need for an improved CNN-based flash flood susceptibility modeling. The case of the ungauged Rheraya watershed, Morocco ( http://arxiv.org/abs/2408.02692v1 ) ライセンス: Link先を確認 | Akram Elghouat, Ahmed Algouti, Abdellah Algouti, Soukaina Baid, | (参考訳) 効果的な洪水ハザード管理には、洪水の危険性を評価し予測する必要がある。
畳み込みニューラルネットワーク(CNN)はこのタスクに一般的に使用されるが、勾配の爆発や過度な適合といった問題に直面している。
本研究は, 未開のラハヤ流域における洪水感受性向上のためのCNNモデルを構築するために, 注意機構, 特に, 畳み込みブロックアテンションモジュール(CBAM)の利用について検討した。
私たちはResNet18、DenseNet121、Xceptionをバックボーンアーキテクチャとして使用し、CBAMを異なる場所で統合しました。
データセットには16の条件因子と522のフラッシュフラッドインベントリポイントが含まれていた。
精度,精度,リコール,F1スコア,受信動作特性(ROC)の曲線(AUC)に基づく評価を行った。
その結果、CBAMはモデル性能を著しく改善し、DenseNet121は各畳み込みブロックにCBAMを組み込んで最良の結果を得る(精度=0.95、AUC=0.98)。
河川への距離と排水密度は重要な要因として同定された。
これらの結果から, 洪水感受性モデルの改善におけるアテンションメカニズムの有効性が示され, 災害管理に有用な知見が得られた。
Effective flood hazard management requires evaluating and predicting flash flood susceptibility. Convolutional neural networks (CNNs) are commonly used for this task but face issues like gradient explosion and overfitting. This study explores the use of an attention mechanism, specifically the convolutional block attention module (CBAM), to enhance CNN models for flash flood susceptibility in the ungauged Rheraya watershed, a flood prone region. We used ResNet18, DenseNet121, and Xception as backbone architectures, integrating CBAM at different locations. Our dataset included 16 conditioning factors and 522 flash flood inventory points. Performance was evaluated using accuracy, precision, recall, F1-score, and the area under the curve (AUC) of the receiver operating characteristic (ROC). Results showed that CBAM significantly improved model performance, with DenseNet121 incorporating CBAM in each convolutional block achieving the best results (accuracy = 0.95, AUC = 0.98). Distance to river and drainage density were identified as key factors. These findings demonstrate the effectiveness of the attention mechanism in improving flash flood susceptibility modeling and offer valuable insights for disaster management. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-03 |
# Diff-PIC:拡散モデルによる核融合促進のための粒子・セル内革命シミュレーション
Diff-PIC: Revolutionizing Particle-In-Cell Simulation for Advancing Nuclear Fusion with Diffusion Models ( http://arxiv.org/abs/2408.02693v1 ) ライセンス: Link先を確認 | Chuan Liu, Chunshu Wu, Mingkai Chen, James Chenhao Liang, Ang Li, Michael Huang, Chuang Ren, Dongfang Liu, Ying Nian Wu, Tong Geng, | (参考訳) 持続可能エネルギーは重要な世界的な課題であり、近年の核融合点火のブレークスルーは、核融合から抽出されたエネルギーを日常生活で活用する可能性を強調しており、核融合点火研究、特にレーザー-プラズマ相互作用(LPI)に大きな注目を集めている。
残念ながら、点火スケールでのLPIの複雑さは理論に基づく分析をほぼ不可能にしている。代わりに、非常に計算集約的なPIC(Particle-in-Cell)シミュレーションに大きく依存する必要があるため、核融合点火の進行において大きなボトルネックとなっている。
Diff-PICは、条件付き拡散モデルを利用して、高忠実度科学データを生成するための計算効率のよいPICシミュレーションの代替となる新しいパラダイムである。
具体的には,PICシミュレーションによって得られた物理パターンを拡散モデルに蒸留する蒸留パラダイムを設計し,理論的および実用的実現可能性の両立を実証する。
さらに, 実用性を確保するために, 1) 数学的に連続した物理条件に対する有意義な埋め込みを学習・生成できる物理的インフォームドな条件拡散モデルを開発する。
本モデルは,物理条件とシミュレーション結果の複雑な関係を効果的に把握し,アルゴリズムの一般化と適応可能な伝達性を提供する。
Diff-PICは核融合研究における計算障壁を克服するために拡散モデルを使用するための新しいパラダイムを確立し、この分野での将来のイノベーションと進歩のベンチマークを設定する。
Sustainable energy is a crucial global challenge, and recent breakthroughs in nuclear fusion ignition underscore the potential of harnessing energy extracted from nuclear fusion in everyday life, thereby drawing significant attention to fusion ignition research, especially Laser-Plasma Interaction (LPI). Unfortunately, the complexity of LPI at ignition scale renders theory-based analysis nearly impossible -- instead, it has to rely heavily on Particle-in-Cell (PIC) simulations, which is extremely computationally intensive, making it a major bottleneck in advancing fusion ignition. In response, this work introduces Diff-PIC, a novel paradigm that leverages conditional diffusion models as a computationally efficient alternative to PIC simulations for generating high-fidelity scientific data. Specifically, we design a distillation paradigm to distill the physical patterns captured by PIC simulations into diffusion models, demonstrating both theoretical and practical feasibility. Moreover, to ensure practical effectiveness, we provide solutions for two critical challenges: (1) We develop a physically-informed conditional diffusion model that can learn and generate meaningful embeddings for mathematically continuous physical conditions. This model offers algorithmic generalization and adaptable transferability, effectively capturing the complex relationships between physical conditions and simulation outcomes; and (2) We employ the rectified flow technique to make our model a one-step conditional diffusion model, enhancing its efficiency further while maintaining high fidelity and physical validity. Diff-PIC establishes a new paradigm for using diffusion models to overcome the computational barriers in nuclear fusion research, setting a benchmark for future innovations and advancements in this field. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-03 |
# 量子世界におけるワンウェイ関数のセキュア計算
One-Way Functions Imply Secure Computation in a Quantum World ( http://arxiv.org/abs/2011.13486v3 ) ライセンス: Link先を確認 | James Bartusek, Andrea Coladangelo, Dakshita Khurana, Fermi Ma, | (参考訳) 量子ハードの一方向関数は、任意の量子関数のセキュアな計算法として知られているQOT(Simulation-Secure Quant Oblivious Transfer)を暗示する。
さらに、我々の構成は、量子ハード片道関数をブラックボックスでのみ利用する。
我々の主要な技術的貢献は、標準モデルにおける量子ハード片道関数のブラックボックス利用に基づく、抽出可能かつ等価な量子ビットコミットメントの構築である。
Cr\epeau-Kilian (FOCS 1988) フレームワークをこれらのコミットメントで強化すると、シミュレーションセーフな QOT が得られる。
We prove that quantum-hard one-way functions imply simulation-secure quantum oblivious transfer (QOT), which is known to suffice for secure computation of arbitrary quantum functionalities. Furthermore, our construction only makes black-box use of the quantum-hard one-way function. Our primary technical contribution is a construction of extractable and equivocal quantum bit commitments based on the black-box use of quantum-hard one-way functions in the standard model. Instantiating the Cr\'epeau-Kilian (FOCS 1988) framework with these commitments yields simulation-secure QOT. | 翻訳日:2024-08-07 01:00:27 公開日:2024-08-03 |
# EmoWrite: 感情分析に基づく麻痺者のためのテキスト変換
EmoWrite: A Sentiment Analysis-Based Thought to Text Conversion for Paralytic People ( http://arxiv.org/abs/2103.02238v2 ) ライセンス: Link先を確認 | Imran Raza, Syed Asad Hussain, Muhammad Hasan Jamal, Mejdl Safran, Sultan Alfarhood, Imran Ashraf, | (参考訳) 目的-本研究の目的は、既存のBCIベースのシステムの限界に対処することを目的とした、新しい脳-コンピュータインタフェース(BCI)システムであるEmoWriteの導入である。
具体的には、BCI技術のコンテキスト内でのタイピング速度、精度、ユーザ利便性、感情状態のキャプチャ、感情分析を改善することを含む。
方法- この手法は、ユーザ中心のリカレントニューラルネットワーク(RNN)を用いて、思考からテキストへの変換を行うEmoWriteの開発と実装を含む。
このシステムは視覚フィードバックを取り入れ、文脈適応的な文字外観を持つ動的キーボードを導入する。
精度,タイピング速度,感情分析,感情状態のキャプチャ,ユーザインターフェースのレイテンシなど,さまざまな指標を考慮した既存手法に対する総合的な評価と比較を行う。
結果- EmoWriteは6.6ワード毎分(WPM)と31.9文字毎分(CPM)のタイピング速度を90.36%高い精度で達成している。
感情状態の取得に優れており、コマンドは87.55ビット/分、文字は72.52ビット/分であり、他のシステムを上回っている。
さらに、レイテンシが2.685秒の直感的なユーザーインターフェイスを提供する。
結論- EmoWriteの導入は、BCIのユーザビリティと感情統合を強化するための重要な一歩である。
この結果は、EmoWriteが、運動障害のある人のためのコミュニケーション援助に革命をもたらす有望な可能性を秘めていることを示唆している。
Objective- The objective of this study is to introduce EmoWrite, a novel brain-computer interface (BCI) system aimed at addressing the limitations of existing BCI-based systems. Specifically, the objective includes improving typing speed, accuracy, user convenience, emotional state capturing, and sentiment analysis within the context of BCI technology. Method- The method involves the development and implementation of EmoWrite, utilizing a user-centric Recurrent Neural Network (RNN) for thought-to-text conversion. The system incorporates visual feedback and introduces a dynamic keyboard with a contextually adaptive character appearance. Comprehensive evaluation and comparison against existing approaches are conducted, considering various metrics such as accuracy, typing speed, sentiment analysis, emotional state capturing, and user interface latency. Results- EmoWrite achieves notable results, including a typing speed of 6.6 Words Per Minute (WPM) and 31.9 Characters Per Minute (CPM) with a high accuracy rate of 90.36%. It excels in capturing emotional states, with an Information Transfer Rate (ITR) of 87.55 bits/min for commands and 72.52 bits/min for letters, surpassing other systems. Additionally, it offers an intuitive user interface with low latency of 2.685 seconds. Conclusion- The introduction of EmoWrite represents a significant stride towards enhancing BCI usability and emotional integration. The findings suggest that EmoWrite holds promising potential for revolutionizing communication aids for individuals with motor disabilities. | 翻訳日:2024-08-07 01:00:27 公開日:2024-08-03 |
# 入力ベクトルニューラルネット
Input Invex Neural Network ( http://arxiv.org/abs/2106.08748v4 ) ライセンス: Link先を確認 | Suman Sapkota, Binod Bhattarai, | (参考訳) 接続された決定境界は、イメージセグメンテーション、クラスタリング、アルファシェープ、nD空間内の領域の定義など、いくつかのタスクで有用である。
しかし、機械学習の文献にはニューラルネットワークを使って接続された決定境界を生成する方法が欠けている。
凸関数を保持することは凸関数の一般化であり、そのような決定境界を生成する。
本稿では,ニューラルネットワークを用いた凸関数構築のための2つの手法を提案する。
最初のアプローチは、勾配をクリップしてペナライズするGCGP(Gradient Clipped-Gradient Penality)でニューラルネットワークを制約することに基づいている。
対照的に、後者は可逆関数と凸関数の合成との関係に基づいている。
基本解釈法として接続性を使用し、接続された領域ベースの分類器を作成する。
複数の連結集合ベース分類器が任意の分類関数を近似できることを示す。
実験では,1-vs-allモデルのアンサンブルと,小規模データセット上での単一マルチクラスモデルを用いて,タスクの分類を行う。
実験により、接続された集合ベースの分類器は通常のニューラルネットワーク分類器よりも不利ではなく、解釈可能性を高めることが示された。
また,インベックス関数と連結集合の解釈可能性およびネットワーク準同型に関する広範な研究を行い,玩具および実世界のデータセットの実験を行った。
本研究は, 入力空間の局所性と連結性を理解し, 適用するためには, インベックス関数が重要であることを示唆する。
Connected decision boundaries are useful in several tasks like image segmentation, clustering, alpha-shape or defining a region in nD-space. However, the machine learning literature lacks methods for generating connected decision boundaries using neural networks. Thresholding an invex function, a generalization of a convex function, generates such decision boundaries. This paper presents two methods for constructing invex functions using neural networks. The first approach is based on constraining a neural network with Gradient Clipped-Gradient Penality (GCGP), where we clip and penalise the gradients. In contrast, the second one is based on the relationship of the invex function to the composition of invertible and convex functions. We employ connectedness as a basic interpretation method and create connected region-based classifiers. We show that multiple connected set based classifiers can approximate any classification function. In the experiments section, we use our methods for classification tasks using an ensemble of 1-vs-all models as well as using a single multiclass model on small-scale datasets. The experiments show that connected set-based classifiers do not pose any disadvantage over ordinary neural network classifiers, but rather, enhance their interpretability. We also did an extensive study on the properties of invex function and connected sets for interpretability and network morphism with experiments on toy and real-world data sets. Our study suggests that invex function is fundamental to understanding and applying locality and connectedness of input space which is useful for various downstream tasks. | 翻訳日:2024-08-07 01:00:27 公開日:2024-08-03 |
# 二次光学を用いたスキーリング型量子センシング
Squeezing-enhanced quantum sensing with quadratic optomechanics ( http://arxiv.org/abs/2202.08690v2 ) ライセンス: Link先を確認 | Sheng-Dian Zhang, Jie Wang, Qian Zhang, Ya-Feng Jiao, Yun-Lan Zuo, Şahin K. Özdemir, Cheng-Wei Qiu, Franco Nori, Hui Jing, | (参考訳) Cavity Opomechanical (COM) センサーは、量子スクイーズや絡み合いによって強化され、高精度で感度の高い超弱力を測定するための強力なツールとなっている。
しかしながら、これらのセンサーは通常、機械エネルギーの測定が望まれる場合の基本的制限である線形COM結合に依存している。
直近では,2次COMシステムにおいて信号対雑音比の大幅な向上が予測された。
ここでは、量子圧縮光を用いて、標準量子限界を超え、そのようなシステムの性能をさらに向上させることができることを示す。
提案手法は,高度なCOMセンサの工学的手法と互換性があり,物理および量子メトロジーの基本的な法則のテストにCOMセンサを使用する新たな機会を提供する。
Cavity optomechanical (COM) sensors, enhanced by quantum squeezing or entanglement, have become powerful tools for measuring ultra-weak forces with high precision and sensitivity. However, these sensors usually rely on linear COM couplings, a fundamental limitation when measurements of the mechanical energy are desired. Very recently, a giant enhancement of the signal-to-noise ratio was predicted in a quadratic COM system. Here we show that the performance of such a system can be further improved surpassing the standard quantum limit by using quantum squeezed light. Our approach is compatible with available engineering techniques of advanced COM sensors and provides new opportunities for using COM sensors in tests of fundamental laws of physics and quantum metrology applications. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-03 |
# ニューラルネットワークカーネルを用いたDFTとベイズ最適化によるグラフェンナノ結晶の迅速発見
Rapid Discovery of Graphene Nanocrystals Using DFT and Bayesian Optimization with Neural Network Kernel ( http://arxiv.org/abs/2208.07612v2 ) ライセンス: Link先を確認 | Şener Özönder, H. Kübra Küçükkartal, | (参考訳) 密度汎関数理論 (DFT) は、材料の物理的および化学的性質を得るために用いられる強力な計算法である。
材料発見フレームワークでは、望まれる性質を持つ材料を見つけるために、大規模で高次元の化学空間を仮想的にスクリーニングする必要があることが多い。
しかし、DFTで大きな化学空間を探索するグリッドは計算コストが高いため非効率である。
本稿では,ベイズ最適化(BO)とニューラルネットワークカーネルを併用して,スマート検索を実現する手法を提案する。
この方法は、限られた数のDFT結果に基づいてトレーニングされたニューラルネットワークが、化学空間の最も有望な領域を次の反復で探索するBOアルゴリズムを利用する。
提案手法は, DFT計算の最小化を図り, 対象特性を持つ材料を発見することを目的としている。
本手法の有効性を実証するため, 63個のグラフェン量子ドット(GQD)を1nmから2nmまでの大きさで検討し, 光吸収率の高い構造を見いだした。
時間依存型DFT(TDDFT)をわずか12回しか使わず、ニューラルネットワークカーネルを用いたBOアルゴリズムを用いることで、完全なグリッド検索に必要な約20%の計算コストを大幅に削減した。
1つのGQDに対するTDDFT計算は、高性能な計算ノードで約半日間のウォールタイムを必要とするため、この削減は極めて重要である。
我々のアプローチは、高次元で大きな化学空間を持つ新薬、化学物質、結晶、および合金の発見に一般化することができ、材料科学の様々な応用にスケーラブルなソリューションを提供する。
Density functional theory (DFT) is a powerful computational method used to obtain physical and chemical properties of materials. In the materials discovery framework, it is often necessary to virtually screen a large and high-dimensional chemical space to find materials with desired properties. However, grid searching a large chemical space with DFT is inefficient due to its high computational cost. We propose an approach utilizing Bayesian optimization (BO) with an artificial neural network kernel to enable smart search. This method leverages the BO algorithm, where the neural network, trained on a limited number of DFT results, determines the most promising regions of the chemical space to explore in subsequent iterations. This approach aims to discover materials with target properties while minimizing the number of DFT calculations required. To demonstrate the effectiveness of this method, we investigated 63 doped graphene quantum dots (GQDs) with sizes ranging from 1 to 2 nm to find the structure with the highest light absorbance. Using time-dependent DFT (TDDFT) only 12 times, we achieved a significant reduction in computational cost, approximately 20% of what would be required for a full grid search, by employing the BO algorithm with a neural network kernel. Considering that TDDFT calculations for a single GQD require about half a day of wall time on high-performance computing nodes, this reduction is substantial. Our approach can be generalized to the discovery of new drugs, chemicals, crystals, and alloys with high-dimensional and large chemical spaces, offering a scalable solution for various applications in materials science. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-03 |
# 視覚言語モデルのための一貫性誘導型プロンプト学習
Consistency-guided Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2306.01195v4 ) ライセンス: Link先を確認 | Shuvendu Roy, Ali Etemad, | (参考訳) 視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。
さらに、2つの摂動入力に対する一貫性の強化と、チューニング、プロンプト、アダプタの2つの支配的なパラダイムを組み合わせることで、パフォーマンスをさらに向上させるために、一貫性制約に以下の2つのコンポーネントを導入します。
摂動入力における一貫性の強制は、一貫性の制約をさらに規則化し、一般化を改善するのに役立つ。
さらに、アダプタとプロンプトの統合により、下流タスクのパフォーマンスが向上するだけでなく、入力空間と出力空間の両方でチューニングの柔軟性が向上する。
これにより、数ショットの学習環境において、下流タスクへのより効果的な適応が容易になる。
実験により、CoPromptは、ベース・ツー・ノーベルの一般化、ドメインの一般化、データセット間の評価など、様々な評価スイートにおいて既存の手法よりも優れていることが示された。
一般化では、CoPromptはゼロショットタスクの最先端と、11データセットの全体的な調和平均を改善している。
詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。
コードはhttps://github.com/ShuvenduRoy/CoPrompt.comで公開しています。
We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning method for vision-language models. Our approach improves the generalization of large foundation models when fine-tuned on downstream tasks in a few-shot setting. The basic idea of CoPrompt is to enforce a consistency constraint in the prediction of the trainable and pre-trained models to prevent overfitting on the downstream task. Additionally, we introduce the following two components into our consistency constraint to further boost the performance: enforcing consistency on two perturbed inputs and combining two dominant paradigms of tuning, prompting and adapter. Enforcing consistency on perturbed input serves to further regularize the consistency constraint, thereby improving generalization. Moreover, the integration of adapters and prompts not only enhances performance on downstream tasks but also offers increased tuning flexibility in both input and output spaces. This facilitates more effective adaptation to downstream tasks in a few-shot learning setting. Experiments show that CoPrompt outperforms existing methods on a range of evaluation suites, including base-to-novel generalization, domain generalization, and cross-dataset evaluation. On generalization, CoPrompt improves the state-of-the-art on zero-shot tasks and the overall harmonic mean over 11 datasets. Detailed ablation studies show the effectiveness of each of the components in CoPrompt. We make our code available at https://github.com/ShuvenduRoy/CoPrompt. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-03 |
# 高次元および均一スペクトルにおける非エルミート皮膚効果の位相的起源
Topological origin of non-Hermitian skin effect in higher dimensions and uniform spectra ( http://arxiv.org/abs/2306.12022v3 ) ライセンス: Link先を確認 | Haiping Hu, | (参考訳) 非エルミート皮膚効果は、非エルミート系における系の境界付近の固有状態の凝集を特徴とする象徴的な現象である。
1次元で広く研究されているが、皮膚効果を理解し、非ブロックバンド理論を高次元に拡張することは、主に無限の格子幾何学や開境界条件のために、恐ろしい挑戦に直面する。
この研究は点ギャップの観点を採用し、すべての空間次元における非エルミート皮膚効果は点ギャップから生じることを明らかにしている。
我々は、均一スペクトルの概念を導入し、格子幾何学によらず、そのエネルギースペクトルが均一スペクトルによって普遍的に与えられることを明らかにした。
均一なスペクトルに基づいて、一般的な格子切断による皮膚効果を考慮し、運動量-基底変換によって異なる幾何学的形状のスキンモードの接続を確立する方法を示す。
本研究は,すべての次元において非エルミート皮膚効果のトポロジカルな起源を統一的に理解する上で,ポイントギャップが果たす重要な役割を強調した。
The non-Hermitian skin effect is an iconic phenomenon characterized by the aggregation of eigenstates near the system boundaries in non-Hermitian systems. While extensively studied in one dimension, understanding the skin effect and extending the non-Bloch band theory to higher dimensions encounters a formidable challenge, primarily due to infinite lattice geometries or open boundary conditions. This work adopts a point-gap perspective and unveils that non-Hermitian skin effect in all spatial dimensions originates from point gaps. We introduce the concept of uniform spectra and reveal that regardless of lattice geometry, their energy spectra are universally given by the uniform spectra, even though their manifestations of skin modes may differ. Building on the uniform spectra, we demonstrate how to account for the skin effect with generic lattice cuts and establish the connections of skin modes across different geometric shapes via momentum-basis transformations. Our findings highlight the pivotal roles point gaps play, offering a unified understanding of the topological origin of non-Hermitian skin effect in all dimensions. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-03 |
# 機械学習ソフトウェアシステムにおける品質問題
Quality Issues in Machine Learning Software Systems ( http://arxiv.org/abs/2306.15007v2 ) ライセンス: Link先を確認 | Pierre-Olivier Côté, Amin Nikanjam, Rached Bouchoucha, Ilan Basta, Mouna Abidi, Foutse Khomh, | (参考訳) コンテキスト: 複雑な問題を解決するために機械学習(ML)を採用するために、さまざまな領域で需要が高まっているのが分かる。
MLモデルはソフトウェアコンポーネントとして実装され、機械学習ソフトウェアシステム(MLSS)にデプロイされる。
問題:MLSSのサービス品質を保証するためには,強いニーズがある。
このようなシステムの不正または劣悪な決定は、他のシステムの誤動作、重大な財政的損失、さらには人間の生命への脅威につながる可能性がある。
MLSSの品質保証は難しい課題と考えられており、現在ホットな研究トピックとなっている。
目的:本稿は,実践者の視点から,MLSSにおける実際の品質問題の特徴を考察することを目的とする。
本研究は,MLSSにおける品質問題カタログの同定を目的とした実証研究である。
方法: 品質問題に対処する際の経験や実践についての洞察を集めるため,実践者や専門家への一連のインタビューを実施します。
機械学習の実践者による調査を通じて、特定された品質問題を検証する。
結果:37件のインタビューの内容から,18件の品質問題と21件の戦略を検証した。
それぞれの課題について,実践者の経験に基づいて原因と結果を説明する。
結論:本研究で開発された課題のカタログは,コミュニティがMLモデルやMLSSの効率的な品質保証ツールを開発できると考えている。
私たちの研究の複製パッケージは、GitHubのパブリックリポジトリで公開されています。
Context: An increasing demand is observed in various domains to employ Machine Learning (ML) for solving complex problems. ML models are implemented as software components and deployed in Machine Learning Software Systems (MLSSs). Problem: There is a strong need for ensuring the serving quality of MLSSs. False or poor decisions of such systems can lead to malfunction of other systems, significant financial losses, or even threats to human life. The quality assurance of MLSSs is considered a challenging task and currently is a hot research topic. Objective: This paper aims to investigate the characteristics of real quality issues in MLSSs from the viewpoint of practitioners. This empirical study aims to identify a catalog of quality issues in MLSSs. Method: We conduct a set of interviews with practitioners/experts, to gather insights about their experience and practices when dealing with quality issues. We validate the identified quality issues via a survey with ML practitioners. Results: Based on the content of 37 interviews, we identified 18 recurring quality issues and 21 strategies to mitigate them. For each identified issue, we describe the causes and consequences according to the practitioners' experience. Conclusion: We believe the catalog of issues developed in this study will allow the community to develop efficient quality assurance tools for ML models and MLSSs. A replication package of our study is available on our public GitHub repository | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-03 |
# 大規模AIモデルに基づく意味コミュニケーション
Large AI Model-Based Semantic Communications ( http://arxiv.org/abs/2307.03492v2 ) ライセンス: Link先を確認 | Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You, | (参考訳) セマンティック・コミュニケーション(SC)は、メタバース、混合現実、インターネット・オブ・オールズといった様々な未来のアプリケーション向けのソリューションを提供する、新たなインテリジェント・パラダイムである。
しかし、現在のSCシステムでは、知識ベース(KB)の構築は、限られた知識表現、頻繁な知識更新、安全でない知識共有など、いくつかの問題に直面している。
幸いなことに、大きなAIモデル(LAM)の開発は、上記の問題を克服するための新しいソリューションを提供する。
本稿では、画像データに特化して設計されたLAMベースのSCフレームワーク(LAM-SC)を提案する。そこでは、まず、元のイメージを異なるセマンティックセグメントに分割できるSAMベースのKB(SKB)を適用する。
そこで本研究では,SKBが生成する意味セグメントを人間の参加なしに評価し,意味認識画像として統合するための注意ベースセマンティック統合(ASI)を提案する。
さらに,アダプティブ・セマンティック・圧縮(ASC)符号化により,意味的特徴の冗長な情報を除去し,通信オーバーヘッドを低減する。
最後に, LAM-SC フレームワークの有効性と今後の SC パラダイムに LAM-KB を適用する可能性を示す。
Semantic communication (SC) is an emerging intelligent paradigm, offering solutions for various future applications like metaverse, mixed reality, and the Internet of Everything. However, in current SC systems, the construction of the knowledge base (KB) faces several issues, including limited knowledge representation, frequent knowledge updates, and insecure knowledge sharing. Fortunately, the development of the large AI model (LAM) provides new solutions to overcome the above issues. Here, we propose a LAM-based SC framework (LAM-SC) specifically designed for image data, where we first apply the segment anything model (SAM)-based KB (SKB) that can split the original image into different semantic segments by universal semantic knowledge. Then, we present an attention-based semantic integration (ASI) to weigh the semantic segments generated by SKB without human participation and integrate them as the semantic aware image. Additionally, we propose an adaptive semantic compression (ASC) encoding to remove redundant information in semantic features, thereby reducing communication overhead. Finally, through simulations, we demonstrate the effectiveness of the LAM-SC framework and the possibility of applying the LAM-based KB in future SC paradigms. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-03 |
# FreeDrag: 信頼性の高いポイントベースの画像編集のための機能ドラッグ
FreeDrag: Feature Dragging for Reliable Point-based Image Editing ( http://arxiv.org/abs/2307.04684v4 ) ライセンス: Link先を確認 | Pengyang Ling, Lin Chen, Pan Zhang, Huaian Chen, Yi Jin, Jinjin Zheng, | (参考訳) 画像編集の複雑で多様な要求を満たすためには、画像内容の正確で柔軟な操作が不可欠である。
近年,Dragベースの編集手法が注目されている。
しかし、これらの手法は主に点のドラッグを中心にしており、2つの注目すべき欠点、すなわち、所定のハンドルポイントを正確に追跡することが困難である「ミストラッキング」と、トラックされたポイントがハンドルポイントとよく似た間違った領域に置かれる可能性がある「あいまいなトラッキング」である。
上記の問題に対処するため、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragは2つの重要な設計、すなわち適応更新によるテンプレート機能とバックトラックによるライン検索、前者はドラッグ後の特徴更新スケールを精巧に制御することで劇的なコンテンツ変更に対する安定性を改善し、後者はライン内の検索領域を積極的に制限することで類似点からの誤認を軽減する。
これら2つの技術は、より高い効率でより安定したセマンティックドラッグに寄与する。
総合的な実験結果から,提案手法が既存の手法よりも大幅に優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能であることが示唆された。
To serve the intricate and varied demands of image editing, precise and flexible manipulation in image content is indispensable. Recently, Drag-based editing methods have gained impressive performance. However, these methods predominantly center on point dragging, resulting in two noteworthy drawbacks, namely "miss tracking", where difficulties arise in accurately tracking the predetermined handle points, and "ambiguous tracking", where tracked points are potentially positioned in wrong regions that closely resemble the handle points. To address the above issues, we propose FreeDrag, a feature dragging methodology designed to free the burden on point tracking. The FreeDrag incorporates two key designs, i.e., template feature via adaptive updating and line search with backtracking, the former improves the stability against drastic content change by elaborately controls feature updating scale after each dragging, while the latter alleviates the misguidance from similar points by actively restricting the search area in a line. These two technologies together contribute to a more stable semantic dragging with higher efficiency. Comprehensive experimental results substantiate that our approach significantly outperforms pre-existing methodologies, offering reliable point-based editing even in various complex scenarios. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-03 |
# ディープフェイク画像検出器はどこまで一般化可能か? : 実証研究
How Generalizable are Deepfake Image Detectors? An Empirical Study ( http://arxiv.org/abs/2308.04177v2 ) ライセンス: Link先を確認 | Boquan Li, Jun Sun, Christopher M. Poskitt, Xingmei Wang, | (参考訳) ディープフェイクはますます信頼性が高くなり、詐欺やバイパスアクセス制御システムを促進する可能性から、大きな脅威となっている。
これはディープフェイク検出法の発展を動機付け、ディープラーニングモデルが実際の映像と合成映像を区別するために訓練されている。
残念ながら、既存の検出器はトレーニングされていないデータセットのディープフェイクを一般化するのに苦労していますが、なぜこの制限に対処できるのか、どのように対処できるのかを調査する作業はほとんど行われていません。
特に、これらの単一モードのディープフェイク画像は、ディープフェイク動画を検出するよりも大きな課題を生んでいる、偽造の証拠がほとんどない。
本研究は, ディープフェイク検出器の汎用性に関する最初の実証的研究であり, 検出器が攻撃者より一歩先を行くための重要な目標である。
本研究では,6つのディープフェイクデータセット,5つのディープフェイク画像検出手法,および2つのモデル拡張手法を用いて,検出器がゼロショット設定では一般化しないことを確認した。
さらに, 検出器は, 合成法に特有の不要な特性を学習し, 識別的特徴の抽出に苦慮し, 一般化能力に限界があることが判明した。
最後に、目に見えないデータセットをまたいだ検出に普遍的に寄与するニューロンがあることがわかり、ゼロショットの一般化可能性への道のりを示唆している。
Deepfakes are becoming increasingly credible, posing a significant threat given their potential to facilitate fraud or bypass access control systems. This has motivated the development of deepfake detection methods, in which deep learning models are trained to distinguish between real and synthesized footage. Unfortunately, existing detectors struggle to generalize to deepfakes from datasets they were not trained on, but little work has been done to examine why or how this limitation can be addressed. Especially, those single-modality deepfake images reveal little available forgery evidence, posing greater challenges than detecting deepfake videos. In this work, we present the first empirical study on the generalizability of deepfake detectors, an essential goal for detectors to stay one step ahead of attackers. Our study utilizes six deepfake datasets, five deepfake image detection methods, and two model augmentation approaches, confirming that detectors do not generalize in zero-shot settings. Additionally, we find that detectors are learning unwanted properties specific to synthesis methods and struggling to extract discriminative features, limiting their ability to generalize. Finally, we find that there are neurons universally contributing to detection across seen and unseen datasets, suggesting a possible path towards zero-shot generalizability. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-03 |
# 近視画像の非直線化のための領域縮小戦略
Domain Reduction Strategy for Non Line of Sight Imaging ( http://arxiv.org/abs/2308.10269v2 ) ライセンス: Link先を確認 | Hyunbo Shim, In Cho, Daekyu Kwon, Seon Joo Kim, | (参考訳) 本稿では,非視線(NLOS)画像の新しい最適化手法を提案する。
NLOSイメージングでは、対象物体の可視光面は顕著に希薄である。
空き領域から生じる不要な計算を緩和するため,隠れ空間から連続的にサンプリングされた点集合からの部分的伝播を通して過渡現象をレンダリングする手法を設計した。
本手法は, 表面標準値を用いたビュー依存反射率の高精度かつ効率的なモデリングが可能であり, 表面形状やアルベドの取得が可能となる。
本稿では,空き領域における過剰な計算を除去する新しい領域還元手法を提案する。
最適化の過程では,サンプル領域から空の領域を粗い方法で定期的に抽出し,効率を大幅に向上させる。
スパーススキャンパターンを用いた様々なNLOSシナリオにおいて,本手法の有効性を示す。
合成データと実世界のデータの両方で行った実験は、一般的なNLOSシナリオの有効性と、従来の最適化ベースのソリューションと比較して、提案手法の効率性の向上を支えている。
私たちのコードはhttps://github.com/hyunbo9/ domain-reduction-strategy.comで利用可能です。
This paper presents a novel optimization-based method for non-line-of-sight (NLOS) imaging that aims to reconstruct hidden scenes under general setups with significantly reduced reconstruction time. In NLOS imaging, the visible surfaces of the target objects are notably sparse. To mitigate unnecessary computations arising from empty regions, we design our method to render the transients through partial propagations from a continuously sampled set of points from the hidden space. Our method is capable of accurately and efficiently modeling the view-dependent reflectance using surface normals, which enables us to obtain surface geometry as well as albedo. In this pipeline, we propose a novel domain reduction strategy to eliminate superfluous computations in empty regions. During the optimization process, our domain reduction procedure periodically prunes the empty regions from our sampling domain in a coarse-to-fine manner, leading to substantial improvement in efficiency. We demonstrate the effectiveness of our method in various NLOS scenarios with sparse scanning patterns. Experiments conducted on both synthetic and real-world data support the efficacy in general NLOS scenarios, and the improved efficiency of our method compared to the previous optimization-based solutions. Our code is available at https://github.com/hyunbo9/domain-reduction-strategy. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-03 |
# LAMBO:エッジインテリジェンスを活用した大規模AIモデル
LAMBO: Large AI Model Empowered Edge Intelligence ( http://arxiv.org/abs/2308.15078v2 ) ライセンス: Link先を確認 | Li Dong, Feibo Jiang, Yubo Peng, Kezhi Wang, Kun Yang, Cunhua Pan, Robert Schober, | (参考訳) 次世代エッジインテリジェンスは、オフロード技術を通じて様々なアプリケーションに恩恵をもたらすことが期待されている。
しかし、従来のオフロードアーキテクチャは、不均一な制約、部分的な認識、不確実な一般化、トラクタビリティの欠如など、いくつかの問題に直面している。
本稿では、これらの問題を解決するための10億以上のパラメータを持つLarge AI Model-Based Offloading(LAMBO)フレームワークを提案する。
まず、入力埋め込み(IE)を用いて、不均一な制約とタスクプロンプトを持つ正規化された特徴表現を実現する。
そこで我々は, 深部エンコーダと浅部デコーダからなる改良型トランスフォーマアーキテクチャである, 決定モデルとして, 新たな非対称エンコーダデコーダ(AED)を導入する。
次に、アクター批判学習(ACL)を使用して、対応するプロンプトの下で異なる最適化タスクのためにAEDを事前訓練し、マルチタスクシナリオにおけるAEDの一般化を強化する。
最後に、AEDのデコーダを微調整し、動的環境の変化を追跡するために、エキスパートフィードバック(ALEF)法からアクティブに学習する手法を提案する。
シミュレーションの結果,提案する LAMBO フレームワークの利点を検証した。
Next-generation edge intelligence is anticipated to benefit various applications via offloading techniques. However, traditional offloading architectures face several issues, including heterogeneous constraints, partial perception, uncertain generalization, and lack of tractability. In this paper, we propose a Large AI Model-Based Offloading (LAMBO) framework with over one billion parameters for solving these problems. We first use input embedding (IE) to achieve normalized feature representation with heterogeneous constraints and task prompts. Then, we introduce a novel asymmetric encoder-decoder (AED) as the decision-making model, which is an improved transformer architecture consisting of a deep encoder and a shallow decoder for global perception and decision. Next, actor-critic learning (ACL) is used to pre-train the AED for different optimization tasks under corresponding prompts, enhancing the AED's generalization in multi-task scenarios. Finally, we propose an active learning from expert feedback (ALEF) method to fine-tune the decoder of the AED for tracking changes in dynamic environments. Our simulation results validate the advantages of the proposed LAMBO framework. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-03 |
# 画像融合・露光補正のためのホロスティックダイナミック周波数変換器
Holistic Dynamic Frequency Transformer for Image Fusion and Exposure Correction ( http://arxiv.org/abs/2309.01183v2 ) ライセンス: Link先を確認 | Xiaoke Shang, Gehui Li, Zhiying Jiang, Shaomin Zhang, Nai Ding, Jinyuan Liu, | (参考訳) 露出に関連する問題の修正は、画像の品質を高める上で重要な要素であり、様々なコンピュータビジョンタスクに重大な影響を及ぼす。
歴史的に、ほとんどの方法論は空間領域の回復を主に利用しており、周波数領域の可能性について限定的な考察がなされている。
さらに、低照度化、露光補正、マルチ露光融合に対する統一的な視点が欠如しており、画像処理の最適化を複雑にし妨げている。
本稿では,これらの課題に対応するために,周波数領域を利用して露出補正タスクの処理を改善し,統一する手法を提案する。
本手法では,空間領域における従来の相関計算に代えて,ホロスティック周波数注意と動的周波数フィードフォワードネットワークを導入する。
彼らはU字型のホロスティックダイナミック周波数変換器をフィルタとして構成し、グローバル情報を抽出し、画像復元のために重要な周波数帯域を動的に選択する。
補足することで、ラプラシアンピラミッドを用いて、画像を異なる周波数帯域に分解し、次いで複数の復調器を用いて特定の周波数帯域情報を復元する。
ピラミッド融合により、より詳細で微妙な画像復元プロセスが可能になる。
最終的に、我々の構造は、低照度化、露光補正、マルチ露光融合の3つのタスクを統一し、すべての古典的な露光誤差の包括的処理を可能にした。
これらのタスクの主流データセットをベンチマークし、提案手法は最先端の結果を達成し、露光補正におけるより高度で統一された解の道を開く。
The correction of exposure-related issues is a pivotal component in enhancing the quality of images, offering substantial implications for various computer vision tasks. Historically, most methodologies have predominantly utilized spatial domain recovery, offering limited consideration to the potentialities of the frequency domain. Additionally, there has been a lack of a unified perspective towards low-light enhancement, exposure correction, and multi-exposure fusion, complicating and impeding the optimization of image processing. In response to these challenges, this paper proposes a novel methodology that leverages the frequency domain to improve and unify the handling of exposure correction tasks. Our method introduces Holistic Frequency Attention and Dynamic Frequency Feed-Forward Network, which replace conventional correlation computation in the spatial-domain. They form a foundational building block that facilitates a U-shaped Holistic Dynamic Frequency Transformer as a filter to extract global information and dynamically select important frequency bands for image restoration. Complementing this, we employ a Laplacian pyramid to decompose images into distinct frequency bands, followed by multiple restorers, each tuned to recover specific frequency-band information. The pyramid fusion allows a more detailed and nuanced image restoration process. Ultimately, our structure unifies the three tasks of low-light enhancement, exposure correction, and multi-exposure fusion, enabling comprehensive treatment of all classical exposure errors. Benchmarking on mainstream datasets for these tasks, our proposed method achieves state-of-the-art results, paving the way for more sophisticated and unified solutions in exposure correction. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-03 |
# KERMIT:逆変換を用いた強化関係モデリングの知識グラフ補完
KERMIT: Knowledge Graph Completion of Enhanced Relation Modeling with Inverse Transformation ( http://arxiv.org/abs/2309.14770v2 ) ライセンス: Link先を確認 | Haotian Li, Bin Yu, Yuliang Wei, Kai Wang, Richard Yi Da Xu, Bailing Wang, | (参考訳) 知識グラフ補完(KGC)は、利用可能な情報を使用して知識グラフに欠落した三つ子を投入する。
テキストベースの手法は、トリプルのテキスト記述に依存するが、これらの記述がデータセット固有の正確な予測に十分な情報がなく、モデリングだけでは容易に解決できない場合、しばしば困難に直面する。
この問題に対処し、データの一貫性を確保するために、まず大きな言語モデル(LLM)を使用して一貫性のある記述を生成し、クエリと回答のセマンティックなギャップを埋めます。
次に、逆関係を利用して対称グラフを作成し、KGCのための強化トレーニングサンプルを提供する。
さらに、知識グラフ(KG)に固有のラベル情報を用いて、既存のコントラストフレームワークを強化し、完全に管理する。
これらの取り組みにより、WN18RRとFB15k-237データセットのパフォーマンスが大幅に向上した。
標準評価指標によると,本手法はWN18RRではHit@1が4.2%,FB15k-237ではHit@3が3.4%向上し,優れた性能を示した。
Knowledge graph completion (KGC) revolves around populating missing triples in a knowledge graph using available information. Text-based methods, which depend on textual descriptions of triples, often encounter difficulties when these descriptions lack sufficient information for accurate prediction-an issue inherent to the datasets and not easily resolved through modeling alone. To address this and ensure data consistency, we first use large language models (LLMs) to generate coherent descriptions, bridging the semantic gap between queries and answers. Secondly, we utilize inverse relations to create a symmetric graph, thereby providing augmented training samples for KGC. Additionally, we employ the label information inherent in knowledge graphs (KGs) to enhance the existing contrastive framework, making it fully supervised. These efforts have led to significant performance improvements on the WN18RR and FB15k-237 datasets. According to standard evaluation metrics, our approach achieves a 4.2% improvement in Hit@1 on WN18RR and a 3.4% improvement in Hit@3 on FB15k-237, demonstrating superior performance. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-03 |
# カリキュラム駆動型Edubot:会話データ合成による言語学習チャットボット開発フレームワーク
Curriculum-Driven Edubot: A Framework for Developing Language Learning Chatbots Through Synthesizing Conversational Data ( http://arxiv.org/abs/2309.16804v2 ) ライセンス: Link先を確認 | Yu Li, Shang Qu, Jili Shen, Shangchao Min, Zhou Yu, | (参考訳) チャットボットは、学生が教材とどのように相互作用するか、そして教師が教える方法に革命をもたらした。
本稿では,チャットボットの対話的特徴と英語教科書の体系的な素材を組み合わせたチャットボットを開発するためのフレームワークであるCurriculum-Driven EduBotについて紹介する。
まず、教科書から関連するトピックを抽出し、大きな言語モデルを用いてこれらのトピックに関連する対話を生成する。
そして、生成された会話データを使ってオープンソースモデルを微調整して、カリキュラム駆動のチャットボットを作成します。
ユーザスタディによると、EduBotは、カリキュラムベースの対話においてChatGPTよりも優れており、その対話をユーザの英語の習熟度に合わせるために適応している。
従来の教科書手法と会話型AIを組み合わせることで,学習者がカリキュラムに合わせた対話型ツールを提供し,ユーザに適した会話実践を提供する。
これにより、意味のある学生とボットの対話が促進され、カリキュラムの教育的枠組みにおける全体的な学習経験が強化される。
Chatbots have become popular in educational settings, revolutionizing how students interact with material and how teachers teach. We present Curriculum-Driven EduBot, a framework for developing a chatbot that combines the interactive features of chatbots with the systematic material of English textbooks to assist students in enhancing their conversational skills. We begin by extracting pertinent topics from textbooks and using large language models to generate dialogues related to these topics. We then fine-tune an open-source model using our generated conversational data to create our curriculum-driven chatbot. User studies demonstrate that EduBot outperforms ChatGPT in leading curriculum-based dialogues and adapting its dialogue to match the user's English proficiency level. By combining traditional textbook methodologies with conversational AI, our approach offers learners an interactive tool that aligns with their curriculum and provides user-tailored conversation practice. This facilitates meaningful student-bot dialogues and enriches the overall learning experience within the curriculum's pedagogical framework. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-03 |
# TranDRL: 規範的メンテナンスフレームワークを実現するトランスフォーマー駆動の深層強化学習
TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework ( http://arxiv.org/abs/2309.16935v3 ) ライセンス: Link先を確認 | Yang Zhao, Jiaxi Yang, Wenbo Wang, Helin Yang, Dusit Niyato, | (参考訳) 産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。
本稿では,Transformerモデルに基づくニューラルネットワークと深部強化学習(DRL)アルゴリズムの機能を活用し,システムの保守動作を最適化する統合フレームワークを提案する。
本研究ではTransformerモデルを用いて,センサデータの複雑な時間パターンを効果的に捕捉し,機器の残存寿命(RUL)を正確に予測する。
さらに、我々のフレームワークのDRLコンポーネントはコスト効率とタイムリーなメンテナンスのレコメンデーションを提供します。
我々は、NASA C-MPASSデータセット上で、我々のフレームワークの有効性を検証し、RUL予測精度とメンテナンス動作の最適化の両方において、他の一般的な機械学習ベースの手法と比較して大きな進歩を示す。
提案手法は,機器寿命を正確に予測し,メンテナンススケジュールを最適化し,ダウンタイムとコスト削減を実現する,産業機械システムのための革新的なデータ駆動型フレームワークを提供する。
Industrial systems demand reliable predictive maintenance strategies to enhance operational efficiency and reduce downtime. This paper introduces an integrated framework that leverages the capabilities of the Transformer model-based neural networks and deep reinforcement learning (DRL) algorithms to optimize system maintenance actions. Our approach employs the Transformer model to effectively capture complex temporal patterns in sensor data, thereby accurately predicting the remaining useful life (RUL) of an equipment. Additionally, the DRL component of our framework provides cost-effective and timely maintenance recommendations. We validate the efficacy of our framework on the NASA C-MPASS dataset, where it demonstrates significant advancements in both RUL prediction accuracy and the optimization of maintenance actions, compared to the other prevalent machine learning-based methods. Our proposed approach provides an innovative data-driven framework for industry machine systems, accurately forecasting equipment lifespans and optimizing maintenance schedules, thereby reducing downtime and cutting costs. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-03 |
# 拡散モデルトレーニングにおけるアンマキングバイアス
Unmasking Bias in Diffusion Model Training ( http://arxiv.org/abs/2310.08442v3 ) ライセンス: Link先を確認 | Hu Yu, Li Shen, Jie Huang, Hongsheng Li, Feng Zhao, | (参考訳) 拡散モデルのデノイングは画像生成の主流のアプローチとして現れてきたが、それでもトレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,拡散モデルの既定訓練パラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
具体的には、拡散モデルの$\epsilon$-predictionにおける一定の損失重み付け戦略がトレーニングフェーズの偏りを生じさせ、元の画像の正確な推定を妨げているという理論的知見を提供する。
この問題に対処するため,アンロックされた偏り部から導出した簡易かつ効果的な重み付け戦略を提案する。
さらに、我々は、その存在、影響、根本原因の観点から、固有のバイアス問題を解き放ち、包括的で体系的な調査を行う。
これらの分析は拡散モデルの理解の促進に寄与する。
実験の結果, 損失重み付け戦略を調整しただけで, 試料品質が著しく向上し, トレーニングおよびサンプリングプロセスの効率が向上したことが明らかとなった。
コードは \url{https://github.com/yuhuUSTC/Debias} で公開されている。
Denoising diffusion models have emerged as a dominant approach for image generation, however they still suffer from slow convergence in training and color shift issues in sampling. In this paper, we identify that these obstacles can be largely attributed to bias and suboptimality inherent in the default training paradigm of diffusion models. Specifically, we offer theoretical insights that the prevailing constant loss weight strategy in $\epsilon$-prediction of diffusion models leads to biased estimation during the training phase, hindering accurate estimations of original images. To address the issue, we propose a simple but effective weighting strategy derived from the unlocked biased part. Furthermore, we conduct a comprehensive and systematic exploration, unraveling the inherent bias problem in terms of its existence, impact and underlying reasons. These analyses contribute to advancing the understanding of diffusion models. Empirical results demonstrate that our method remarkably elevates sample quality and displays improved efficiency in both training and sampling processes, by only adjusting loss weighting strategy. The code is released publicly at \url{https://github.com/yuhuUSTC/Debias} | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-03 |
# 国家専用デモから学んだスムースガイダンスによる政策最適化
Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations ( http://arxiv.org/abs/2401.00162v3 ) ライセンス: Link先を確認 | Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen, | (参考訳) 報酬フィードバックの幅は、オンライン深層強化学習(DRL)において依然として難しい問題である。
従来のアプローチでは、オフラインのデモを使用して、複数のハードタスクで印象的な結果を実現しています。
しかしながら、これらのアプローチは、デモ品質に高い要求を課し、専門家のような行動を取得することは、しばしばコストがかかり非現実的である。
これらの問題に対処するために,我々は,ごく少数の州のみのデモンストレーション(専門家の行動情報がデモに含まれていない)を活用して,間接的に近似的かつ有効な長期クレジットの割り当てを行い,探索を容易にする,簡易かつ効率的なPOSGアルゴリズムを提案する。
具体的には、まず、実演に対する現在の軌道の質を決定するために、軌道重要度評価機構を設計する。
そこで我々は,各状態-動作ペアの影響を計測するために,軌道重要度に基づく誘導報酬計算技術を導入する。
我々は,スムーズな指導報酬による性能改善を理論的に分析し,性能改善に新たな最悪な下限を導出する。
その結果、グリッドワールド迷路、Hopper-v4、HalfCheetah-v4、Ant迷路を含む4つの疎逆環境におけるPOSGの制御性能と収束速度に大きな利点が示された。
特に、POSGの優位性を示すために、特定の測定値と定量化結果について検討した。
The sparsity of reward feedback remains a challenging problem in online deep reinforcement learning (DRL). Previous approaches have utilized offline demonstrations to achieve impressive results in multiple hard tasks. However, these approaches place high demands on demonstration quality, and obtaining expert-like actions is often costly and unrealistic. To tackle these problems, we propose a simple and efficient algorithm called Policy Optimization with Smooth Guidance (POSG), which leverages a small set of state-only demonstrations (where expert action information is not included in demonstrations) to indirectly make approximate and feasible long-term credit assignments and facilitate exploration. Specifically, we first design a trajectory-importance evaluation mechanism to determine the quality of the current trajectory against demonstrations. Then, we introduce a guidance reward computation technology based on trajectory importance to measure the impact of each state-action pair, fusing the demonstrator's state distribution with reward information into the guidance reward. We theoretically analyze the performance improvement caused by smooth guidance rewards and derive a new worst-case lower bound on the performance improvement. Extensive results demonstrate POSG's significant advantages in control performance and convergence speed in four sparse-reward environments, including the grid-world maze, Hopper-v4, HalfCheetah-v4, and Ant maze. Notably, the specific metrics and quantifiable results are investigated to demonstrate the superiority of POSG. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-03 |
# ダイアリゼーションLM:大規模言語モデルを用いた話者ダイアリゼーション後処理
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v9 ) ライセンス: Link先を確認 | Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao, | (参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。
提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。
この枠組みでは、自動音声認識(ASR)と話者ダイアリゼーションシステムの出力を、任意に微調整されたLLMのプロンプトに含まれるコンパクトテキスト形式として表現する。
LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。
後処理のステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、市販のASRおよび話者ダイアリゼーションシステムに容易に適用することができる。
実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。
Fisher 電話の会話データセットで55.5%、rel。
44.9%であった。
In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-03 |
# 物理診断論理を大規模言語モデルに統合する:プロセスフィードバックからの選好学習
Integrating Physician Diagnostic Logic into Large Language Models: Preference Learning from Process Feedback ( http://arxiv.org/abs/2401.05695v2 ) ライセンス: Link先を確認 | Chengfeng Dou, Zhi Jin, Wenpin Jiao, Haiyan Zhao, Yongqiang Zhao, Zhenwei Tao, | (参考訳) 医療対話生成における大規模言語モデルの使用は、応答品質と流布性の改善に焦点が当てられ、大きな注目を集めている。
これまでの研究では,シングルラウンド医療Q&Aタスクにおけるモデル性能の最適化が進んでいるが,論理的不整合を回避するために,マルチラウンド会話におけるモデルの能力を高める必要がある。
そこで本研究では,医師の診断ロジックをLCMに組み込む,プロセスフィードバックからの選好学習(PLPF)アプローチを提案する。
PLPFは、ルールモデリング、嗜好データ生成、そして、診断プロセスに準拠するようにモデルをトレーニングするための嗜好アライメントを含む。
標準化された患者試験を用いた実験の結果、PLPFは医療会話におけるベースラインモデルの診断精度を17.6%向上させ、人間のフィードバックから従来の強化学習よりも優れていた。
さらに、PLPFは、多ラウンド・単ラウンドの対話タスクにおいて効果を示し、医療対話生成の改善の可能性を示している。
The use of large language models in medical dialogue generation has garnered significant attention, with a focus on improving response quality and fluency. While previous studies have made progress in optimizing model performance for single-round medical Q&A tasks, there is a need to enhance the model's capability for multi-round conversations to avoid logical inconsistencies. To address this, we propose an approach called preference learning from process feedback~(PLPF), which integrates the doctor's diagnostic logic into LLMs. PLPF involves rule modeling, preference data generation, and preference alignment to train the model to adhere to the diagnostic process. Experimental results using Standardized Patient Testing show that PLPF enhances the diagnostic accuracy of the baseline model in medical conversations by 17.6%, outperforming traditional reinforcement learning from human feedback. Additionally, PLPF demonstrates effectiveness in both multi-round and single-round dialogue tasks, showcasing its potential for improving medical dialogue generation. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-03 |
# 量子生成拡散モデル:量子状態アンサンブル生成のための完全量子力学モデル
Quantum Generative Diffusion Model: A Fully Quantum-Mechanical Model for Generating Quantum State Ensemble ( http://arxiv.org/abs/2401.07039v4 ) ライセンス: Link先を確認 | Chuangtao Chen, Qinglin Zhao, MengChu Zhou, Zhimin He, Zhili Sun, Haozhen Situ, | (参考訳) 古典的な拡散モデルは優れた生成結果を示している。
量子領域でそれらを探索することは、量子生成学習の分野を前進させる可能性がある。
この研究は、単純でエレガントな量子対向体として量子生成拡散モデル(QGDM)を導入している。
非単体フォワードプロセスにより、任意の標的量子状態は、システムに関する最も高いエントロピーと最大の不確実性を持つ完全に混合状態に変換することができる。
トレーニング可能な後方プロセスを使用して、後者から前者を回復する。
後方プロセスの設計要件には、非ユニタリティと小さなパラメータカウントが含まれる。
パラメータ共有戦略を用い,時間情報を入力として後進プロセスに組み込むことにより,非単元演算を導入し,トレーニング可能なパラメータの数を減らし,部分トレース処理を導入する。
生成能力を保ちながら補助量子ビットを削減するため,QGDMの資源効率向上版を提案する。
QGDMは量子生成逆数ネットワーク(QGAN)よりも高速な収束を示す。
QGANと比較した結果、純量子状態と混合量子状態の両方を生成する効果が示された。
混合状態発生ではQGANよりも53.02%高い忠実性が得られる。
その結果は、量子生成タスクに挑戦する大きな可能性を浮き彫りにした。
Classical diffusion models have shown superior generative results. Exploring them in the quantum domain can advance the field of quantum generative learning. This work introduces Quantum Generative Diffusion Model (QGDM) as their simple and elegant quantum counterpart. Through a non-unitary forward process, any target quantum state can be transformed into a completely mixed state that has the highest entropy and maximum uncertainty about the system. A trainable backward process is used to recover the former from the latter. The design requirements for its backward process includes non-unitarity and small parameter count. We introduce partial trace operations to enforce non-unitary and reduce the number of trainable parameters by using a parameter-sharing strategy and incorporating temporal information as an input in the backward process. We present QGDM's resource-efficient version to reduce auxiliary qubits while preserving generative capabilities. QGDM exhibits faster convergence than Quantum Generative Adversarial Network (QGAN) because its adopted convex-based optimization can result in better convergence. The results of comparing it with QGAN demonstrate its effectiveness in generating both pure and mixed quantum states. It can achieve 53.02% higher fidelity in mixed-state generation than QGAN. The results highlight its great potential to tackle challenging quantum generation tasks. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-03 |
# AttackEval: 大規模言語モデルにおけるジェイルブレイク攻撃の有効性を評価する方法
AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models ( http://arxiv.org/abs/2401.09002v5 ) ライセンス: Link先を確認 | Dong shu, Mingyu Jin, Chong Zhang, Liangyao Li, Zihao Zhou, Yongfeng Zhang, | (参考訳) 大規模言語モデル(LLM)の攻撃に対するセキュリティの確保は、最も洗練された脅威の1つとして、ますます緊急になっている。
このようなリスクに対処するため,我々はLDMに対するジェイルブレイク攻撃の有効性を評価する革新的な枠組みを導入する。
LLMのロバスト性にのみ焦点をあてた従来のバイナリ評価とは異なり、本手法は攻撃プロンプト自体の有効性を評価する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
各フレームワークは0から1までのスコアリング範囲を使用しており、ユニークな視点を提供し、異なるシナリオにおける攻撃の有効性を評価することができる。
さらに,脱獄プロンプトに適した総合的真実データセットを開発した。
このデータセットは、我々の現在の研究にとって重要なベンチマークとなり、将来の研究の基盤となるリソースを提供する。
本研究は,従来の評価手法と比較して,より微妙できめ細かな評価を行いながら,現在の結果が基準値と一致していることを示す。
また、従来の評価では無害に見える可能性のある、潜在的に有害な攻撃プロンプトを特定するのにも役立ちます。
全体として、我々の研究は、即発注射領域における広範囲の攻撃プロンプトを評価するためのしっかりとした基盤を確立している。
Ensuring the security of large language models (LLMs) against attacks has become increasingly urgent, with jailbreak attacks representing one of the most sophisticated threats. To deal with such risks, we introduce an innovative framework that can help evaluate the effectiveness of jailbreak attacks on LLMs. Unlike traditional binary evaluations focusing solely on the robustness of LLMs, our method assesses the effectiveness of the attacking prompts themselves. We present two distinct evaluation frameworks: a coarse-grained evaluation and a fine-grained evaluation. Each framework uses a scoring range from 0 to 1, offering unique perspectives and allowing for the assessment of attack effectiveness in different scenarios. Additionally, we develop a comprehensive ground truth dataset specifically tailored for jailbreak prompts. This dataset serves as a crucial benchmark for our current study and provides a foundational resource for future research. By comparing with traditional evaluation methods, our study shows that the current results align with baseline metrics while offering a more nuanced and fine-grained assessment. It also helps identify potentially harmful attack prompts that might appear harmless in traditional evaluations. Overall, our work establishes a solid foundation for assessing a broader range of attack prompts in the area of prompt injection. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-03 |
# エッジコンピューティングとモバイルクラウドソーシングにおけるアイデンティティ,データ,位置情報のプライバシ技術に関するナラティブレビュー
A Narrative Review of Identity, Data, and Location Privacy Techniques in Edge Computing and Mobile Crowdsourcing ( http://arxiv.org/abs/2401.11305v2 ) ライセンス: Link先を確認 | Syed Raza Bashir, Shaina Raza, Vojislav Misic, | (参考訳) デジタル技術が進歩するにつれて、コネクテッドデバイスの普及はモバイルのクラウドソーシングやエッジコンピューティングにおいて大きな課題と機会をもたらす。
このナラティブレビューは、これらの分野におけるプライバシ保護の必要性に焦点を当て、データ駆動の世界におけるデータセキュリティの重要性の増大を強調している。
現代学術文献の分析を通じて、モバイルクラウドソーシングとエッジコンピューティングにおける現在のトレンドとプライバシの懸念について理解する。
我々は、プライバシ保護技術、アイデンティティ、データ、位置情報のプライバシーに関する洞察と強調を提示する。
この調査は、研究者、業界専門家、および政策立案者にとって有用なリソースであり、これらの相互接続ドメインにおけるプライバシー上の課題と潜在的な解決策の概要を提供する。
As digital technology advances, the proliferation of connected devices poses significant challenges and opportunities in mobile crowdsourcing and edge computing. This narrative review focuses on the need for privacy protection in these fields, emphasizing the increasing importance of data security in a data-driven world. Through an analysis of contemporary academic literature, this review provides an understanding of the current trends and privacy concerns in mobile crowdsourcing and edge computing. We present insights and highlight advancements in privacy-preserving techniques, addressing identity, data, and location privacy. This survey serves as a useful resource for researchers, industry professionals, and policymakers, offering an overview of privacy challenges and potential solutions in these interconnected domains. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-03 |
# 推論・計画課題における大規模言語モデルの自己検証限界について
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks ( http://arxiv.org/abs/2402.08115v2 ) ライセンス: Link先を確認 | Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati, | (参考訳) 大規模言語モデル(LLM)の推論能力には、かなりの意見の相違がある。
論法がスケールで自動的に現れるという最初の楽観主義は、乗法から単純な計画へと展開する反例の多さによって誘惑を受けてきたが、LLMが自己批判し、反復的な方法で独自のソリューションを改善できるという考えは広範に広まっている。
この信念は、その正しさの検証は、計算複雑性からのかなり古典的な議論である世代よりも容易であるべきだという仮定に基づいているように思われる。
本稿では,推論と計画の文脈において反復的プロンプトの有効性を体系的に検討する。
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。
本研究は,提案手法を検証した外部的正解推論器と,自己回答を基準としたモデルを用いて実験を行った。
いずれの場合も、批判の内容がボトムラインのパフォーマンスに実際に影響を与えているかどうか、そして、性能を損なうことなく、拡張システムの要素を吸収できるかどうかを分析する。
我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
また、サウンド検証器で再試行するだけで、より複雑なセットアップの利点のほとんどを維持できる点にも留意します。
There has been considerable divergence of opinion on the reasoning abilities of Large Language Models (LLMs). While the initial optimism that reasoning might emerge automatically with scale has been tempered thanks to a slew of counterexamples--ranging from multiplication to simple planning--there persists a wide spread belief that LLMs can self-critique and improve their own solutions in an iterative fashion. This belief seemingly rests on the assumption that verification of correctness should be easier than generation--a rather classical argument from computational complexity--which should be irrelevant to LLMs to the extent that what they are doing is approximate retrieval. In this paper, we set out to systematically investigate the effectiveness of iterative prompting in the context of reasoning and planning. We present a principled empirical study of the performance of GPT-4 in three domains: Game of 24, Graph Coloring, and STRIPS planning. We experiment both with the model critiquing its own answers and with an external correct reasoner verifying proposed solutions. In each case, we analyze whether the content of criticisms actually affects bottom line performance, and whether we can ablate elements of the augmented system without losing performance. We observe significant performance collapse with self-critique and significant performance gains with sound external verification. We also note that merely re-prompting with a sound verifier maintains most of the benefits of more involved setups. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-03 |
# eCeLLM: 大規模かつ高品質なインストラクションデータからEコマースのための大規模言語モデルを一般化する
eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale, High-quality Instruction Data ( http://arxiv.org/abs/2402.08831v2 ) ライセンス: Link先を確認 | Bo Peng, Xinyi Ling, Ziru Chen, Huan Sun, Xia Ning, | (参考訳) 効果的なeコマースモデルの開発に多大な努力を払って、従来のeコマースモデルは、ジェネラリストのeコマースモデリングにおいて限られた成功を示し、新規ユーザや新製品に対する不満足なパフォーマンスに悩まされている。
一方、大規模言語モデル(LLM)は、多くの分野において、ジェネラリストモデリングとドメイン外一般化性において優れた性能を示す。
本稿では,電子商取引における電子商取引のパワーを完全に解き放つために,電子商取引のための最初のオープンソースで大規模で高品質なベンチマーク・インストラクション・データセットであるECInstructを構築した。
我々はECInstructを活用し,命令チューニング汎用LLMによるeコマースLLMであるeCeLLMを開発した。
包括的実験と評価により,eCeLLMモデルは,最も先進的なGPT-4を含むベースラインモデルや,ドメイン内評価における最先端タスク固有モデルよりも大幅に優れていることが示された。
さらに、eCeLLMは、目に見えない製品や見えない指示を含むドメイン外の設定に対して優れた一般化性を示し、ジェネラリストeコマースモデルとしての優位性を強調している。
ECInstructデータセットとeCeLLMモデルの両方は、電子商取引において多目的かつ効果的なLLMを強化する大きな可能性を示している。
ECInstructとeCeLLMモデルはhttps://ninglab.github.io/eCeLLMを通じて公開されている。
With tremendous efforts on developing effective e-commerce models, conventional e-commerce models show limited success in generalist e-commerce modeling, and suffer from unsatisfactory performance on new users and new products - a typical out-of-domain generalization challenge. Meanwhile, large language models (LLMs) demonstrate outstanding performance in generalist modeling and out-of-domain generalizability in many fields. Toward fully unleashing their power for e-commerce, in this paper, we construct ECInstruct, the first open-sourced, large-scale, and high-quality benchmark instruction dataset for e-commerce. Leveraging ECInstruct, we develop eCeLLM, a series of e-commerce LLMs, by instruction-tuning general-purpose LLMs. Our comprehensive experiments and evaluation demonstrate that eCeLLM models substantially outperform baseline models, including the most advanced GPT-4, and the state-of-the-art task-specific models in in-domain evaluation. Moreover, eCeLLM exhibits excellent generalizability to out-of-domain settings, including unseen products and unseen instructions, highlighting its superiority as a generalist e-commerce model. Both the ECInstruct dataset and the eCeLLM models show great potential in empowering versatile and effective LLMs for e-commerce. ECInstruct and eCeLLM models are publicly accessible through https://ninglab.github.io/eCeLLM. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-03 |
# 時系列のクラスインクリメンタル学習:ベンチマークと評価
Class-incremental Learning for Time Series: Benchmark and Evaluation ( http://arxiv.org/abs/2402.12035v2 ) ライセンス: Link先を確認 | Zhongzheng Qiao, Quang Pham, Zhen Cao, Hoang H Le, P. N. Suganthan, Xudong Jiang, Ramasamy Savitha, | (参考訳) 現実の環境は本質的に非定常的であり、時間とともに新しいクラスを頻繁に導入する。
これは、医療における新しい疾患分類の出現や、人間の活動認識における新しい活動の追加など、時系列分類において特に一般的である。
このような場合、学習システムは、新しいクラスを効果的に同化しつつ、古いクラスを破滅的に忘れてしまうことを回避し、クラス増進学習(CIL)問題を引き起こすことを要求される。
しかし、画像や言語領域の進歩が活発であるにもかかわらず、時系列データに対するCILは比較的検討されていない。
既存の研究は一貫性のない実験設計に悩まされており、幅広いデータセットにわたる手法の包括的な評価とベンチマークが必要である。
この目的のために、まず、時系列クラス増分学習(TSCIL)問題の概要を述べ、その独特な課題を強調し、先進的な方法論を取り上げる。
さらに、標準化された設定に基づいて、新しいアルゴリズムの迅速な開発、新しいデータセットの容易な統合、評価プロセスの標準化をサポートする統一された実験フレームワークを開発する。
このフレームワークを用いて、標準およびプライバシに敏感なシナリオにおいて、様々な汎用および時系列固有のCIL手法を包括的に評価する。
我々の広範な実験は、将来の研究をサポートするための標準ベースラインを提供するだけでなく、正規化層やメモリ予算閾値といった様々な設計要因の影響にも光を当てています。
コードはhttps://github.com/zqiao11/TSCILで入手できる。
Real-world environments are inherently non-stationary, frequently introducing new classes over time. This is especially common in time series classification, such as the emergence of new disease classification in healthcare or the addition of new activities in human activity recognition. In such cases, a learning system is required to assimilate novel classes effectively while avoiding catastrophic forgetting of the old ones, which gives rise to the Class-incremental Learning (CIL) problem. However, despite the encouraging progress in the image and language domains, CIL for time series data remains relatively understudied. Existing studies suffer from inconsistent experimental designs, necessitating a comprehensive evaluation and benchmarking of methods across a wide range of datasets. To this end, we first present an overview of the Time Series Class-incremental Learning (TSCIL) problem, highlight its unique challenges, and cover the advanced methodologies. Further, based on standardized settings, we develop a unified experimental framework that supports the rapid development of new algorithms, easy integration of new datasets, and standardization of the evaluation process. Using this framework, we conduct a comprehensive evaluation of various generic and time-series-specific CIL methods in both standard and privacy-sensitive scenarios. Our extensive experiments not only provide a standard baseline to support future research but also shed light on the impact of various design factors such as normalization layers or memory budget thresholds. Codes are available at https://github.com/zqiao11/TSCIL. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-03 |
# 補助的敵防衛ネットワークによる追跡ロバスト性向上
Enhancing Tracking Robustness with Auxiliary Adversarial Defense Networks ( http://arxiv.org/abs/2402.17976v3 ) ライセンス: Link先を確認 | Zhewei Wu, Ruilong Yu, Qihe Liu, Shuying Cheng, Shilin Qiu, Shijie Zhou, | (参考訳) 視覚的物体追跡における敵対的攻撃は、画像に知覚不能な摂動を導入することにより、高度なトラッカーの性能を著しく低下させた。
しかし, 物体追跡のための対向防御手法の設計には, まだまだ研究の欠如がある。
これらの問題に対処するため,提案するAADNは,トラッカーに入力される前に,入力画像に対する防御的変換を行う。
さらに、パラメータ調整なしに他のビジュアルトラッカーとプラグイン・アンド・プレイモジュールとしてシームレスに統合することができる。
我々は、AADNを、特にDua-Lossを用いて、トラッカーの分類と回帰の分岐を同時に攻撃する対向サンプルを生成するために、対向訓練を用いて訓練する。
OTB100、LaSOT、VOT2018ベンチマークで実施された大規模な実験により、AADNは適応的および非適応的な攻撃シナリオの両方において、敵攻撃手法に対する優れた防御堅牢性を維持していることが示された。
さらに、防衛ネットワークを異種トラッカーに転送する際には、信頼性の高い転送性を示す。
最後に、AADNは最大5ms/frameの処理時間を実現し、計算オーバーヘッドを伴わずに既存の高速トラッカーとシームレスに統合できる。
Adversarial attacks in visual object tracking have significantly degraded the performance of advanced trackers by introducing imperceptible perturbations into images. However, there is still a lack of research on designing adversarial defense methods for object tracking. To address these issues, we propose an effective auxiliary pre-processing defense network, AADN, which performs defensive transformations on the input images before feeding them into the tracker. Moreover, it can be seamlessly integrated with other visual trackers as a plug-and-play module without parameter adjustments. We train AADN using adversarial training, specifically employing Dua-Loss to generate adversarial samples that simultaneously attack the classification and regression branches of the tracker. Extensive experiments conducted on the OTB100, LaSOT, and VOT2018 benchmarks demonstrate that AADN maintains excellent defense robustness against adversarial attack methods in both adaptive and non-adaptive attack scenarios. Moreover, when transferring the defense network to heterogeneous trackers, it exhibits reliable transferability. Finally, AADN achieves a processing time of up to 5ms/frame, allowing seamless integration with existing high-speed trackers without introducing significant computational overhead. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-03 |
# NiNformer: ゲーティング関数ジェネレータとしてトケミキシングを併用したネットワークトランスのネットワーク
NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator ( http://arxiv.org/abs/2403.02411v5 ) ライセンス: Link先を確認 | Abdullah Nazhat Abdullah, Tarkan Aydin, | (参考訳) 注意機構はトランスフォーマーアーキテクチャの主要なコンポーネントであり、導入以来、多くのドメインと複数のタスクにまたがるディープラーニングの大幅な進歩につながっている。
注意機構はコンピュータビジョンにおいてビジョントランスフォーマー ViT として利用され、その用途は、分類、セグメンテーション、オブジェクト検出、画像生成など、視覚領域の多くのタスクに拡張されている。
このメカニズムは非常に表現力があり能力があるが、計算コストが高く、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
これらの欠点に対処するために、計算負担を減らし、データサイズ要件を緩和する多くの設計が文献で提案されている。
視覚領域におけるこのような試みの例としては、MLP-Mixer、Conv-Mixer、Perciver-IOなどがある。
本稿では,MLP-Mixerの静的アプローチを強化するネットワーク・イン・ネットワーク構造を,トークン・ミキシング・プロセスによって要素ワイド・ゲーティング関数を学習する動的システムに置き換えることで,通常のViTブロックに代わる新しい計算ブロックを提案する。
広汎な実験により,視覚領域の画像分類タスクに適用された複数のデータセットのベースラインアーキテクチャよりも優れた性能が得られた。
The attention mechanism is the main component of the transformer architecture, and since its introduction, it has led to significant advancements in deep learning that span many domains and multiple tasks. The attention mechanism was utilized in computer vision as the Vision Transformer ViT, and its usage has expanded into many tasks in the vision domain, such as classification, segmentation, object detection, and image generation. While this mechanism is very expressive and capable, it comes with the drawback of being computationally expensive and requiring datasets of considerable size for effective optimization. To address these shortcomings, many designs have been proposed in the literature to reduce the computational burden and alleviate the data size requirements. Examples of such attempts in the vision domain are the MLP-Mixer, the Conv-Mixer, the Perciver-IO, and many more. This paper introduces a new computational block as an alternative to the standard ViT block that reduces the compute burdens by replacing the normal attention layers with a Network in Network structure that enhances the static approach of the MLP-Mixer with a dynamic system of learning an element-wise gating function by a token mixing process. Extensive experimentation shows that the proposed design provides better performance than the baseline architectures on multiple datasets applied in the image classification task of the vision domain. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-03 |
# PrimeComposer: アテンションステアリングによる画像合成のための高速な段階的拡散
PrimeComposer: Faster Progressively Combined Diffusion for Image Composition with Attention Steering ( http://arxiv.org/abs/2403.05053v2 ) ライセンス: Link先を確認 | Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, | (参考訳) 画像合成は、与えられたオブジェクトを特定の視覚的コンテキストにシームレスに統合する。
現在の訓練なしの方法は、ジェネレータを誘導するために複数のサンプルから注意重みを合成することに依存している。
しかし、これらの重みは異なる文脈から導かれるため、それらの組み合わせはコヒーレンス混乱と外観情報の喪失につながる。
これらの問題は、このタスクで不要であったとしても、バックグラウンド生成に過度に焦点を合わせることで悪化した。
これは、迅速な実装を阻害するだけでなく、前景の世代品質を損なう。
さらに、これらの手法は遷移領域に不要なアーティファクトを導入する。
本稿では,画像合成を主観的局所編集タスクとして定式化し,前景生成のみに着目した。
各ステップで、編集されたフォアグラウンドとノイズの多いバックグラウンドを組み合わせることで、シーンの一貫性を維持する。
残りの問題に対処するため,さまざまなノイズレベルに対して注意制御を適切に設計することで,画像を合成する高速なトレーニングフリーディフューザであるPrimeComposerを提案する。
このステアリングは主に相関ディフューザによって実現され、各ステップで自己注意層を利用しています。
これらの層の中では、合成対象は参照対象と背景の両方と相互作用し、複雑な詳細とコヒーレントな関係をキャプチャする。
この前の情報はアテンション重みに符号化され、ジェネレータの自己アテンション層に統合され、合成プロセスが導かれる。
さらに、所望の領域に対する特定の主題関連単語の影響を抑えるために、領域制約付きクロスアテンションを導入し、先行手法で示される不要なアーティファクトに対処することにより、遷移領域におけるコヒーレンスをさらに改善する。
提案手法は,最も高速な推論効率を示し,定性的かつ定量的に,我々の優位性を実証する広範囲な実験を行った。
Image composition involves seamlessly integrating given objects into a specific visual context. Current training-free methods rely on composing attention weights from several samplers to guide the generator. However, since these weights are derived from disparate contexts, their combination leads to coherence confusion and loss of appearance information. These issues worsen with their excessive focus on background generation, even when unnecessary in this task. This not only impedes their swift implementation but also compromises foreground generation quality. Moreover, these methods introduce unwanted artifacts in the transition area. In this paper, we formulate image composition as a subject-based local editing task, solely focusing on foreground generation. At each step, the edited foreground is combined with the noisy background to maintain scene consistency. To address the remaining issues, we propose PrimeComposer, a faster training-free diffuser that composites the images by well-designed attention steering across different noise levels. This steering is predominantly achieved by our Correlation Diffuser, utilizing its self-attention layers at each step. Within these layers, the synthesized subject interacts with both the referenced object and background, capturing intricate details and coherent relationships. This prior information is encoded into the attention weights, which are then integrated into the self-attention layers of the generator to guide the synthesis process. Besides, we introduce a Region-constrained Cross-Attention to confine the impact of specific subject-related words to desired regions, addressing the unwanted artifacts shown in the prior method thereby further improving the coherence in the transition area. Our method exhibits the fastest inference efficiency and extensive experiments demonstrate our superiority both qualitatively and quantitatively. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-03 |
# Motion Mamba: 効率的で長時間の動作生成
Motion Mamba: Efficient and Long Sequence Motion Generation ( http://arxiv.org/abs/2403.07487v4 ) ライセンス: Link先を確認 | Zeyu Zhang, Akide Liu, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang, | (参考訳) 人間の動き生成は、生成的コンピュータビジョンにおいて重要な追求であり、長いシーケンスと効率的な動き生成を実現することは依然として困難である。
状態空間モデル(SSM)の最近の進歩、特にMambaは、効率的なハードウェア・アウェア・デザインによる長いシーケンス・モデリングにおいてかなりの可能性を秘めている。
それでも、モーション生成へのSSMの適用は、モーションシーケンスをモデル化するための特別な設計アーキテクチャが欠如しているため、ハードルに直面している。
これらの課題に対処するために、我々はSSMを用いた先駆的な動き生成モデルを示すシンプルで効率的なアプローチであるMotion Mambaを提案する。
具体的には,階層型テンポラルマンバ(HTM)ブロックを設計し,フレーム間の動きの整合性を保つことを目的とした対称U-Netアーキテクチャを用いて,孤立SSMモジュールの様々な数をアンサンブルすることで時間データを処理する。
また,2方向空間マンバ(BSM)ブロックを2方向処理し,時間フレーム内での高精度な動作生成を実現する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
https://steve-zeyu-zhang.github.io/MotionMamba/
Human motion generation stands as a significant pursuit in generative computer vision, while achieving long-sequence and efficient motion generation remains challenging. Recent advancements in state space models (SSMs), notably Mamba, have showcased considerable promise in long sequence modeling with an efficient hardware-aware design, which appears to be a promising direction to build motion generation model upon it. Nevertheless, adapting SSMs to motion generation faces hurdles since the lack of a specialized design architecture to model motion sequence. To address these challenges, we propose Motion Mamba, a simple and efficient approach that presents the pioneering motion generation model utilized SSMs. Specifically, we design a Hierarchical Temporal Mamba (HTM) block to process temporal data by ensemble varying numbers of isolated SSM modules across a symmetric U-Net architecture aimed at preserving motion consistency between frames. We also design a Bidirectional Spatial Mamba (BSM) block to bidirectionally process latent poses, to enhance accurate motion generation within a temporal frame. Our proposed method achieves up to 50% FID improvement and up to 4 times faster on the HumanML3D and KIT-ML datasets compared to the previous best diffusion-based method, which demonstrates strong capabilities of high-quality long sequence motion modeling and real-time human motion generation. See project website https://steve-zeyu-zhang.github.io/MotionMamba/ | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-03 |
# 多くの世界の夢:ゼロショットの一般化を支援する文脈的世界モデルを学ぶ
Dreaming of Many Worlds: Learning Contextual World Models Aids Zero-Shot Generalization ( http://arxiv.org/abs/2403.10967v2 ) ライセンス: Link先を確認 | Sai Prasanna, Karim Farid, Raghu Rajan, André Biedenkapp, | (参考訳) ゼロショット一般化(ZSG)は、一般に有能なエンボディエージェントを作成する上で大きな課題である。
より広い課題に対処するために、我々は、マルコフ状態の観測可能性に関する仮定をさらに単純化することなく、ロボットの質量や寸法などのシステムの力学の変動をパラメータ化する文脈値の可観測性を仮定する、文脈強化学習(cRL)の簡易な設定から始める。
本稿では,ZSGがコンテキストの変動を未確認にするという目標に向けて,Dreamer (v3) (Hafner et al , 2023) の世界モデルに変化をもたらす文脈的リカレント状態空間モデル (cRSSM) を提案する。
これにより、世界モデルは、潜在力学の観測とモデリングから潜在マルコフ状態を推論するための文脈を組み込むことができる。
提案手法は,文脈RLの研究に適したCARLベンチマークスイートの2つのタスクに対して評価される。
実験により,このような文脈の体系的な組み入れにより,世界モデルの「夢」に基づいて訓練された政策のZSGが向上することが示された。
さらに、我々のアプローチは、ドリーマーが潜在状態をコンテキストから切り離すことを可能にし、夢を目に見えないコンテキストの多くの世界への外挿を可能にすることを定性的に見出す。
実験のコードはhttps://github.com/sai-prasanna/dreaming_of_many_worlds.comで公開されている。
Zero-shot generalization (ZSG) to unseen dynamics is a major challenge for creating generally capable embodied agents. To address the broader challenge, we start with the simpler setting of contextual reinforcement learning (cRL), assuming observability of the context values that parameterize the variation in the system's dynamics, such as the mass or dimensions of a robot, without making further simplifying assumptions about the observability of the Markovian state. Toward the goal of ZSG to unseen variation in context, we propose the contextual recurrent state-space model (cRSSM), which introduces changes to the world model of Dreamer (v3) (Hafner et al., 2023). This allows the world model to incorporate context for inferring latent Markovian states from the observations and modeling the latent dynamics. Our approach is evaluated on two tasks from the CARL benchmark suite, which is tailored to study contextual RL. Our experiments show that such systematic incorporation of the context improves the ZSG of the policies trained on the "dreams" of the world model. We further find qualitatively that our approach allows Dreamer to disentangle the latent state from context, allowing it to extrapolate its dreams to the many worlds of unseen contexts. The code for all our experiments is available at https://github.com/sai-prasanna/dreaming_of_many_worlds. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-03 |
# 経験的文脈とブラウン運動によるバドミントン選手の行動のオフライン模倣
Offline Imitation of Badminton Player Behavior via Experiential Contexts and Brownian Motion ( http://arxiv.org/abs/2403.12406v2 ) ライセンス: Link先を確認 | Kuang-Da Wang, Wei-Yao Wang, Ping-Chun Hsieh, Wen-Chih Peng, | (参考訳) ターンベーススポーツの動的かつ迅速な戦術的関与において、バドミントンはプレイヤーの交代依存的な意思決定を必要とする本質的なパラダイムとして際立っている。
連続的な意思決定におけるオフラインの専門家データからの学習の進歩は、様々な領域で見られてきたが、オフラインバドミントンの試合から人間のプレイヤーの行動を適切に模倣する方法は、まだ探索されていない。
相手の行動の再現は、試合前に戦略的な開発を行うことでプレイヤーに利益をもたらす。
しかし、既存の手法を直接適用することは、代わりにアクションを取るプレイヤーのターンベースの性質によって、マッチの固有の階層と複合効果に悩まされる。
本稿では,バドミントン奏者行動のための新しい階層型オフライン模倣学習モデルであるRallyNetを提案する。
(i)RallyNetは、意思決定プロセスを文脈的マルコフ決定プロセスとしてモデル化することにより、プレイヤーの意思決定依存性をキャプチャする。
(ii) RallyNetは、エージェントのアライメントにおける意図としてコンテキストを生成するために、経験を活用します。
3)より現実的な行動を生成するため,RallyNetは幾何学的ブラウン運動(GBM)を活用してプレイヤー間の相互作用をモデル化する。
このように、RallyNetはプレイヤーの意図をGBMとのインタラクションモデルと結びつけ、スポーツ分析のためのインタラクションの理解を提供する。
我々はRallyNetを、男性と女性のシングルで構成された世界最大規模のバドミントンデータセットで広く検証し、プレイヤーの振る舞いを模倣する能力を実証した。
その結果、RallyNetはオフラインの模倣学習法や最先端のターンベースアプローチよりも優れており、ルールベースのエージェント正規化スコアの平均で少なくとも16%上回っていることが明らかとなった。
さらに、RallyNetの適用性を強調するために、さまざまなユースケースについて論じる。
In the dynamic and rapid tactic involvements of turn-based sports, badminton stands out as an intrinsic paradigm that requires alter-dependent decision-making of players. While the advancement of learning from offline expert data in sequential decision-making has been witnessed in various domains, how to rally-wise imitate the behaviors of human players from offline badminton matches has remained underexplored. Replicating opponents' behavior benefits players by allowing them to undergo strategic development with direction before matches. However, directly applying existing methods suffers from the inherent hierarchy of the match and the compounding effect due to the turn-based nature of players alternatively taking actions. In this paper, we propose RallyNet, a novel hierarchical offline imitation learning model for badminton player behaviors: (i) RallyNet captures players' decision dependencies by modeling decision-making processes as a contextual Markov decision process. (ii) RallyNet leverages the experience to generate context as the agent's intent in the rally. (iii) To generate more realistic behavior, RallyNet leverages Geometric Brownian Motion (GBM) to model the interactions between players by introducing a valuable inductive bias for learning player behaviors. In this manner, RallyNet links player intents with interaction models with GBM, providing an understanding of interactions for sports analytics. We extensively validate RallyNet with the largest available real-world badminton dataset consisting of men's and women's singles, demonstrating its ability to imitate player behaviors. Results reveal RallyNet's superiority over offline imitation learning methods and state-of-the-art turn-based approaches, outperforming them by at least 16% in mean rule-based agent normalization score. Furthermore, we discuss various practical use cases to highlight RallyNet's applicability. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-03 |
# VRSO:静的オブジェクトアノテーションのための視覚中心再構成
VRSO: Visual-Centric Reconstruction for Static Object Annotation ( http://arxiv.org/abs/2403.15026v2 ) ライセンス: Link先を確認 | Chenyao Yu, Yingfeng Cai, Jiaxin Zhang, Hui Kong, Wei Sui, Cong Yang, | (参考訳) 知的運転システムの認識結果の一部として、3次元空間における静的物体検出(SOD)は、環境理解を駆動するための重要な手がかりとなる。
SODタスクのためのディープニューラルネットワークの迅速なデプロイにより、高品質なトレーニングサンプルの需要が急増した。
従来の信頼性の高い方法では、高密度のLiDAR点雲と参照イメージを手動でラベル付けする。
ほとんどの公共運転データセットは、SODの真実(GT)を提供するためにこの戦略を採用しているが、実際には高価で時間がかかる。
本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。
Waymo Open Datasetの実験では、VRSOアノテーションからの平均再射誤差は2.6ピクセルであり、Waymo Open Datasetラベル(10.6ピクセル)の約4倍低い。
VRSOは,(1)カメラ画像のみを入力として3次元空間の静的物体を復元し,(2)手動アノテーションは,自動再構成とアノテーションパイプラインに基づいてSODタスクのGTを生成するため,ほとんど関与しない。
As a part of the perception results of intelligent driving systems, static object detection (SOD) in 3D space provides crucial cues for driving environment understanding. With the rapid deployment of deep neural networks for SOD tasks, the demand for high-quality training samples soars. The traditional, also reliable, way is manual labelling over the dense LiDAR point clouds and reference images. Though most public driving datasets adopt this strategy to provide SOD ground truth (GT), it is still expensive and time-consuming in practice. This paper introduces VRSO, a visual-centric approach for static object annotation. Experiments on the Waymo Open Dataset show that the mean reprojection error from VRSO annotation is only 2.6 pixels, around four times lower than the Waymo Open Dataset labels (10.6 pixels). VRSO is distinguished in low cost, high efficiency, and high quality: (1) It recovers static objects in 3D space with only camera images as input, and (2) manual annotation is barely involved since GT for SOD tasks is generated based on an automatic reconstruction and annotation pipeline. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-03 |
# 分布ロバスト政策とリャプノフ認証学習
Distributionally Robust Policy and Lyapunov-Certificate Learning ( http://arxiv.org/abs/2404.03017v2 ) ライセンス: Link先を確認 | Kehan Long, Jorge Cortes, Nikolay Atanasov, | (参考訳) 本稿では, モデル不確実性下での制御系における制御系に対する制御器と制御器の安定化を, 分散的に頑健に行うための新しい手法を提案する。
不確実なシステムの安定性を保証するコントローラを設計する上で重要な課題は、オンライン展開中のモデルパラメトリック不確実性の正確な決定と適応である。
我々は、リアプノフ証明書の単調な減少を保証するために、リアプノフ微分チャンス制約を分布的に頑健に定式化することで、この問題に取り組む。
確率測度の空間を扱う際の計算複雑性を避けるため、リアプノフ微分制約を満たす決定論的凸制約の形で十分条件を同定する。
この条件をニューラルネットワークベースのコントローラをトレーニングする損失関数に統合し,結果のクローズループシステムでは,アウト・オブ・ディストリビューション(OoD)モデルの不確実性であっても,その平衡のグローバルな漸近安定性が高い信頼性で証明可能であることを示す。
提案手法の有効性と有効性を示すため,シミュレーションにおける2つの制御問題における不確実性に依存しないベースラインアプローチと強化学習アプローチとの比較を行った。
This article presents novel methods for synthesizing distributionally robust stabilizing neural controllers and certificates for control systems under model uncertainty. A key challenge in designing controllers with stability guarantees for uncertain systems is the accurate determination of and adaptation to shifts in model parametric uncertainty during online deployment. We tackle this with a novel distributionally robust formulation of the Lyapunov derivative chance constraint ensuring a monotonic decrease of the Lyapunov certificate. To avoid the computational complexity involved in dealing with the space of probability measures, we identify a sufficient condition in the form of deterministic convex constraints that ensures the Lyapunov derivative constraint is satisfied. We integrate this condition into a loss function for training a neural network-based controller and show that, for the resulting closed-loop system, the global asymptotic stability of its equilibrium can be certified with high confidence, even with Out-of-Distribution (OoD) model uncertainties. To demonstrate the efficacy and efficiency of the proposed methodology, we compare it with an uncertainty-agnostic baseline approach and several reinforcement learning approaches in two control problems in simulation. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-03 |
# 思考の論理的問合せ:知識グラフを用いた複雑な論理的クエリに対する大規模言語モデルの適用
Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs ( http://arxiv.org/abs/2404.04264v3 ) ライセンス: Link先を確認 | Lihui Liu, Zihao Wang, Ruizhong Qiu, Yikun Ban, Eunice Chan, Yangqiu Song, Jingrui He, Hanghang Tong, | (参考訳) 多くのタスクにおける最高のパフォーマンスにもかかわらず、大きな言語モデル(LLM)は、知識の正確さを要求するタスクに直面したときに、幻覚や誤った回答を引き起こすリスクを負う。
問題は、複数の論理推論ステップを必要とするロジッククエリに対処するときにさらに顕著になる。
一方、知識グラフに基づく質問応答法では、知識グラフの助けを借りて正しい回答を正確に識別することができるが、知識グラフ自体が疎結合で不完全である場合には、その精度は急速に低下する可能性がある。
LLMの幻覚問題と知識グラフの不完全性問題を緩和するために、LLMの知識グラフ推論を相互に有益な方法で統合する方法は、依然として重要な課題である。
本稿では,LSMと知識グラフに基づく論理クエリ推論を組み合わせた最初の手法として,LGOT(Logic-Query-of-Thoughts)を提案する。
LGOTは知識グラフ推論とLLMをシームレスに組み合わせ、複雑な論理クエリを効果的に分割して、要求に答えやすくする。
知識グラフ推論とLLMの両方を利用して、各サブクエストに対する回答を導出する。
これらの結果を集約し、各ステップごとの最高品質候補回答を選択することで、LGOTは複雑な質問に対して正確な結果を得る。
実験の結果,ChatGPTよりも20%向上した。
Despite the superb performance in many tasks, large language models (LLMs) bear the risk of generating hallucination or even wrong answers when confronted with tasks that demand the accuracy of knowledge. The issue becomes even more noticeable when addressing logic queries that require multiple logic reasoning steps. On the other hand, knowledge graph (KG) based question answering methods are capable of accurately identifying the correct answers with the help of knowledge graph, yet its accuracy could quickly deteriorate when the knowledge graph itself is sparse and incomplete. It remains a critical challenge on how to integrate knowledge graph reasoning with LLMs in a mutually beneficial way so as to mitigate both the hallucination problem of LLMs as well as the incompleteness issue of knowledge graphs. In this paper, we propose 'Logic-Query-of-Thoughts' (LGOT) which is the first of its kind to combine LLMs with knowledge graph based logic query reasoning. LGOT seamlessly combines knowledge graph reasoning and LLMs, effectively breaking down complex logic queries into easy to answer subquestions. Through the utilization of both knowledge graph reasoning and LLMs, it successfully derives answers for each subquestion. By aggregating these results and selecting the highest quality candidate answers for each step, LGOT achieves accurate results to complex questions. Our experimental findings demonstrate substantial performance enhancements, with up to 20% improvement over ChatGPT. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-03 |
# マルチチャネルイメージングのためのマルチブランチ生成モデルとPET/CT相乗的再構成への応用
Multi-Branch Generative Models for Multichannel Imaging with an Application to PET/CT Synergistic Reconstruction ( http://arxiv.org/abs/2404.08748v2 ) ライセンス: Link先を確認 | Noel Jeffrey Pinton, Alexandre Bousse, Catherine Cheze-Le-Rest, Dimitris Visvikis, | (参考訳) 本稿では,マルチブランチ生成モデルを用いた医用画像の相乗的再構築のための新しい手法を提案する。
可変オートエンコーダ(VAE)を活用することで,画像のペアから同時に学習し,効果的な復調と復調を可能にする。
画像とモデル間の距離を評価する正則化器にトレーニングされたモデルを組み込むことで、相乗的画像再構成を実現する。
我々は,MNIST (Modified National Institute of Standards and Technology) とPET (positron emission tomography) (PET)/CT (Computed tomography) データセットの両方に対するアプローチの有効性を実証し,低線量撮像における画像品質の向上を示す。
本研究は, パッチ分解やモデル制限などの課題にもかかわらず, 医用画像再構成のための生成モデルの可能性を強調した。
This paper presents a novel approach for learned synergistic reconstruction of medical images using multi-branch generative models. Leveraging variational autoencoders (VAEs), our model learns from pairs of images simultaneously, enabling effective denoising and reconstruction. Synergistic image reconstruction is achieved by incorporating the trained models in a regularizer that evaluates the distance between the images and the model. We demonstrate the efficacy of our approach on both Modified National Institute of Standards and Technology (MNIST) and positron emission tomography (PET)/computed tomography (CT) datasets, showcasing improved image quality for low-dose imaging. Despite challenges such as patch decomposition and model limitations, our results underscore the potential of generative models for enhancing medical imaging reconstruction. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-03 |
# 光子統計による量子乱数発生器の量子性・効率・コスト評価
Evaluating Quantumness, Efficiency and Cost of Quantum Random Number Generators via Photon Statistics ( http://arxiv.org/abs/2405.14085v3 ) ライセンス: Link先を確認 | Goutam Paul, Nirupam Basak, Soumya Das, | (参考訳) 商用QRNGデバイスが利用可能であるにもかかわらず、PRNGとQRNGの出力の区別は依然として困難である。
本稿ではQRNGメーカーとユーザの視点から,2つの重要な貢献について述べる。
製造業者にとって、単一光子に基づくQRNGの量子度を平均および分散比較によって評価する従来の方法は、有限標本サイズのため統計的に信頼性が低い。
単光子のサブポアソン統計を考えると、基礎となる分布はQRNGの量子性の検証に不可欠である。
本稿では,光源の量子性を確保するために,より効率的な2次元統計手法を提案する。
さらに,指数分布および均一分布からのQRNGの出力はデバイスノイズの下で類似性を示し,対応する光子統計と$\epsilon$-randomnessの条件を導出することを示した。
QRNGの基本的なパラメータは、量子性(セキュリティ)、効率性(ランダム性と乱数生成率)、コストである。
分析の結果,これらのパラメータは,単位時間当たりの光子数,外部参照サイクル時間,検出効率の3因子に依存することがわかった。
期待の低いフォトンカウントはセキュリティを高めるが、コストを増大させ、生成率を低下させる。
より短い外部参照サイクルはセキュリティを高めるが、時間エラーを最小限に抑えるために最小限の閾値を超えなければならない。
検出効率の低下によりセキュリティが向上し、コストが低下するが、生成速度が低下する。
最後に,NIST,Dieharder,AIS-31,ENTなどの統計検査を,上記のパラメータの異なる値でシミュレートしたデータに対して行った。
われわれの発見は、メーカーにQRNGをカスタマイズして、ユーザのニーズを効果的に満たせるようにする。
Despite the availability of commercial QRNG devices, distinguishing between PRNG and QRNG outputs computationally remains challenging. This paper presents two significant contributions from the perspectives of QRNG manufacturers and users. For manufacturers, the conventional method of assessing the quantumness of single-photon-based QRNGs through mean and variance comparisons of photon counts is statistically unreliable due to finite sample sizes. Given the sub-Poissonian statistics of single photons, confirming the underlying distribution is crucial for validating a QRNG's quantumness. We propose a more efficient two-fold statistical approach to ensure the quantumness of optical sources with the desired confidence level. Additionally, we demonstrate that the output of QRNGs from exponential and uniform distributions exhibit similarity under device noise, deriving corresponding photon statistics and conditions for $\epsilon$-randomness. From the user's perspective, the fundamental parameters of a QRNG are quantumness (security), efficiency (randomness and random number generation rate), and cost. Our analysis reveals that these parameters depend on three factors, expected photon count per unit time, external reference cycle duration, and detection efficiency. A lower expected photon count enhances security but increases cost and decreases the generation rate. A shorter external reference cycle boosts security but must exceed a minimum threshold to minimize timing errors, with minor impacts on cost and rate. Lower detection efficiency enhances security and lowers cost but reduces the generation rate. Finally, to validate our results, we perform statistical tests like NIST, Dieharder, AIS-31, ENT etc. over the data simulated with different values of the above parameters. Our findings can empower manufacturers to customize QRNGs to meet user needs effectively. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-03 |
# 低時間エンタングルメントを有する多体量子環境のスケーラブルトモグラフィー
Scalable tomography of many-body quantum environments with low temporal entanglement ( http://arxiv.org/abs/2406.18458v2 ) ライセンス: Link先を確認 | Ilia A. Luchnikov, Michael Sonner, Dmitry A. Abanin, | (参考訳) 複雑な多体環境に結合した量子系の力学を記述することは、量子科学においてユビキタスな問題である。
一般的な非マルコフ環境は、システムと環境の間の繰り返し相互作用から生じるマルチタイムテンソルである影響行列~(IM)によって特徴づけられる。
最も一般的なIMの複雑さは進化の時間とともに指数関数的に増加するが、最近の研究は、多くの物理的多体環境の場合、IMは著しく複雑ではないと主張した。
これは、システムの過去と将来の状態の相関を定量化する時間的絡み合いの領域法則スケーリングによるものである。
しかし、IMの効率的な古典的アルゴリズムは、非相互作用環境や特定の相互作用する1D環境でしか利用できない。
本稿では,量子プロセッサ上でシミュレーションされた多体環境のIMを再構築するための学習アルゴリズムについて検討する。
このハイブリッドアルゴリズムは、多体環境に繰り返し結合する補助量子ビットの量子測定結果を実験的に収集し、続いてIMの行列積(MPS)表現を古典的な機械学習で構築する。
1次元スピンチェーン環境の例を用いて、古典的に生成されたトレーニングデータセットを用いて、このアルゴリズムが長い進化期間にわたってIMのスケーラブルな再構築を可能にすることを実証する。
再構成されたIMは、複数のリードと時間依存制御を持つケースを含む不純物を通して量子輸送を効率的にモデル化するために使用することができる。
これらの結果は,中程度の時間的絡み合いを前提として,限られた測定値を用いて複雑な環境の長時間動態を特徴付けることが可能であることを示す。
Describing dynamics of a quantum system coupled to a complex many-body environment is a ubiquitous problem in quantum science. General non-Markovian environments are characterized by their influence matrix~(IM) -- a multi-time tensor arising from repeated interactions between the system and environment. While complexity of the most generic IM grows exponentially with the evolution time, recent works argued that for many instances of physical many-body environments, the IM is significantly less complex. This is thanks to area-law scaling of temporal entanglement, which quantifies the correlations between the past and the future states of the system. However, efficient classical algorithms for computing IM are only available for non-interacting environments or certain interacting 1D environments. Here, we study a learning algorithm for reconstructing IMs of large many-body environments simulated on a quantum processor. This hybrid algorithm involves experimentally collecting quantum measurement results of auxiliary qubits which are repeatedly coupled to the many-body environment, followed by a classical machine-learning construction of a matrix-product (MPS) representation of the IM. Using the example of 1D spin-chain environments, with a classically generated training dataset, we demonstrate that the algorithm allows scalable reconstruction of IMs for long evolution times. The reconstructed IM can be used to efficiently model quantum transport through an impurity, including cases with multiple leads and time-dependent controls. These results indicate the feasibility of characterizing long-time dynamics of complex environments using a limited number of measurements, under the assumption of a moderate temporal entanglement. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-03 |
# 次世代電力システムにおける多目的最適潮流の高度知能最適化アルゴリズム
Advanced Intelligent Optimization Algorithms for Multi-Objective Optimal Power Flow in Future Power Systems: A Review ( http://arxiv.org/abs/2404.09203v2 ) ライセンス: Link先を確認 | Yuyan Li, | (参考訳) 本稿では,多目的最適潮流(MOPF)へのインテリジェント最適化アルゴリズムの適用について検討する。
再生可能エネルギーの統合、スマートグリッド、エネルギー需要の増加による課題を掘り下げ、進化的アルゴリズム、群知性、深層強化学習に重点を置いている。
これらのアルゴリズムの有効性,拡張性,適用性について分析し,アルゴリズム選択が目前にある特定のMOPF問題に即していることを示すとともに,ハイブリッドアプローチが有望であることを示す。
ソリューションを検証するための標準的なテストシステムの重要性と、分析を容易にするためのソフトウェアツールの役割が強調される。
将来の研究は、動的最適化に機械学習を活用すること、分散型エネルギーシステムを採用すること、そして電力システムの効率性と持続可能性を改善するために進化する政策フレームワークに適応することを目的としている。
本論は、最先端の方法論を強調し、将来のエネルギー課題に対する革新的なソリューション開発を促進することで、MOPF研究を進めることを目的としている。
This review explores the application of intelligent optimization algorithms to Multi-Objective Optimal Power Flow (MOPF) in enhancing modern power systems. It delves into the challenges posed by the integration of renewables, smart grids, and increasing energy demands, focusing on evolutionary algorithms, swarm intelligence, and deep reinforcement learning. The effectiveness, scalability, and application of these algorithms are analyzed, with findings suggesting that algorithm selection is contingent on the specific MOPF problem at hand, and hybrid approaches offer significant promise. The importance of standard test systems for verifying solutions and the role of software tools in facilitating analysis are emphasized. Future research is directed towards exploiting machine learning for dynamic optimization, embracing decentralized energy systems, and adapting to evolving policy frameworks to improve power system efficiency and sustainability. This review aims to advance MOPF research by highlighting state-of-the-art methodologies and encouraging the development of innovative solutions for future energy challenges. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# MK-SGN:スケルトンに基づく行動認識のためのマルチモーダル融合と知識蒸留を用いたスパイキンググラフ畳み込みネットワーク
MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition ( http://arxiv.org/abs/2404.10210v2 ) ライセンス: Link先を確認 | Naichuan Zheng, Hailun Xia, Zeyu Liang, Yuanyuan Chai, | (参考訳) 近年,マルチモーダルグラフ畳み込みネットワーク(GCN)を利用した骨格に基づく行動認識が,目覚ましい成果を上げている。
しかし、その深い構造と連続的な浮動小数点演算に依存するため、GCNベースの手法はエネルギー集約的である。
本稿では,MK-SGN(Multimodal Fusion and Knowledge Distillation)を用いたスポーキンググラフ畳み込みネットワークを提案する。
提案手法は、スパイキングニューラルネットワーク(SNN)のエネルギー効率とGCNのグラフ表現能力とを融合することにより、認識精度を維持しながらエネルギー消費量を削減する。
まず、グラフ畳み込みネットワーク(GCN)をスパイキンググラフ畳み込みネットワーク(SGN)に変換し、新しいベンチマークを確立し、将来の研究への道を開く。
本研究では,空間的グローバルスパイキング・アテンション機構 (SA-SGC) を備えたスパイキング・スポーティシャグラフ・コンボリューション・モジュールの設計を行い,特徴学習能力の向上を図る。
第2に,マルチモーダルデータの処理をより効率的に行うために相互情報を活用するスパイキング・マルチモーダル・フュージョン・モジュール(SMF)を提案する。
最後に, マルチモーダルGCNからSGNへの知識蒸留手法を探求し, 中間層蒸留と軟質ラベル蒸留の両方に同時に焦点を合わせ, SGNの性能を向上させる新しい統合手法を提案する。
MK-SGNは、エネルギー消費を減らすために骨格に基づく行動認識のための3つの挑戦的なデータセットにおいて、最先端のGCNライクなフレームワークよりも優れている。
また、最先端のSNNフレームワークよりも精度が高い。
具体的には,NTU-RGB+D60クロスオブジェクトスプリットの競争精度を維持しつつ,通常のGCN法と比較してエネルギー消費量を98%以上削減する。
In recent years, skeleton-based action recognition, leveraging multimodal Graph Convolutional Networks (GCN), has achieved remarkable results. However, due to their deep structure and reliance on continuous floating-point operations, GCN-based methods are energy-intensive. We propose an innovative Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation (MK-SGN) to address this issue. By merging the energy efficiency of Spiking Neural Network (SNN) with the graph representation capability of GCN, the proposed MK-SGN reduces energy consumption while maintaining recognition accuracy. Firstly, we convert Graph Convolutional Networks (GCN) into Spiking Graph Convolutional Networks (SGN) establishing a new benchmark and paving the way for future research exploration. During this process, we introduce a spiking attention mechanism and design a Spiking-Spatio Graph Convolution module with a Spatial Global Spiking Attention mechanism (SA-SGC), enhancing feature learning capability. Secondly, we propose a Spiking Multimodal Fusion module (SMF), leveraging mutual information to process multimodal data more efficiently. Lastly, we delve into knowledge distillation methods from multimodal GCN to SGN and propose a novel, integrated method that simultaneously focuses on both intermediate layer distillation and soft label distillation to improve the performance of SGN. MK-SGN outperforms the state-of-the-art GCN-like frameworks on three challenging datasets for skeleton-based action recognition in reducing energy consumption. It also outperforms the state-of-the-art SNN frameworks in accuracy. Specifically, our method reduces energy consumption by more than 98% compared to typical GCN-based methods, while maintaining competitive accuracy on the NTU-RGB+D 60 cross-subject split using 4-time steps. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# N-Agent Ad Hocチームワーク
N-Agent Ad Hoc Teamwork ( http://arxiv.org/abs/2404.10740v2 ) ライセンス: Link先を確認 | Caroline Wang, Arrasy Rahman, Ishan Durugkar, Elad Liebman, Peter Stone, | (参考訳) 協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。
標準的な完全協調型マルチエージェント強化学習では、学習アルゴリズムはシナリオ内のエージェントを$\textit{all}$で制御するが、アドホックなチームワークでは、学習アルゴリズムはシナリオ内のエージェントを$\textit{single}$で制御する。
しかし、現実の世界における多くの協調的な設定は、はるかに制限的ではない。
例えば、自動運転車のシナリオでは、企業は同じ学習アルゴリズムで車を訓練するかもしれません。
協調学習手法が最適に対処できるシナリオのクラスを拡大するために、自律エージェントの集合が動的に変化する数とタイプのチームメイトと対話し、協力する必要があるNAHT(N$-agent ad hoc teamwork)を導入する。
本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。
POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、チームメイト行動の表現を学習することで、多様なチームメイト行動への適応を可能にする。
多エージェント粒子環境とStarCraft IIによるタスクの実証評価では、POAMはベースラインアプローチよりも協調的タスクリターンを改善し、見知らぬチームメイトへのアウト・オブ・ディストリビューションの一般化を可能にしている。
Current approaches to learning cooperative multi-agent behaviors assume relatively restrictive settings. In standard fully cooperative multi-agent reinforcement learning, the learning algorithm controls $\textit{all}$ agents in the scenario, while in ad hoc teamwork, the learning algorithm usually assumes control over only a $\textit{single}$ agent in the scenario. However, many cooperative settings in the real world are much less restrictive. For example, in an autonomous driving scenario, a company might train its cars with the same learning algorithm, yet once on the road, these cars must cooperate with cars from another company. Towards expanding the class of scenarios that cooperative learning methods may optimally address, we introduce $N$-agent ad hoc teamwork (NAHT), where a set of autonomous agents must interact and cooperate with dynamically varying numbers and types of teammates. This paper formalizes the problem, and proposes the Policy Optimization with Agent Modelling (POAM) algorithm. POAM is a policy gradient, multi-agent reinforcement learning approach to the NAHT problem, that enables adaptation to diverse teammate behaviors by learning representations of teammate behaviors. Empirical evaluation on tasks from the multi-agent particle environment and StarCraft II shows that POAM improves cooperative task returns compared to baseline approaches, and enables out-of-distribution generalization to unseen teammates. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# 時間ステップ予測による逆拡散による分子緩和
Molecular relaxation by reverse diffusion with time step prediction ( http://arxiv.org/abs/2404.10935v2 ) ライセンス: Link先を確認 | Khaled Kahouli, Stefaan Simon Pierre Hessmann, Klaus-Robert Müller, Shinichi Nakajima, Stefan Gugler, Niklas Wolf Andreas Gebauer, | (参考訳) 非平衡構造の平衡状態を見つける分子緩和は、反応性を理解するための計算化学の重要な構成要素である。
古典的な力場(FF)法はしばしば局所エネルギーの最小化に頼っているが、ニューラルネットワークのFFモデルは平衡構造と非平衡構造の両方を含む大きなラベル付きデータセットを必要とする。
そこで本研究では, 逆拡散による分子緩和であるMoreRedを提案する。これは, 非平衡構造を対応する平衡状態のノイズインスタンスとして扱う, 概念的, 純粋に統計的アプローチである。
生成拡散モデルを用いて任意のノイズの入力をデノナイズできるようにするため、新しい拡散時間ステップ予測器を導入する。
特に、モレレッドは複雑な物理PSSの代わりに単純な擬ポテンシャルエネルギー曲面(PES)を学ぶ。
非平衡構造の計算を完全に回避し、ラベル付けされていない平衡構造からなるデータセットを、はるかに小さく、計算的に安価に訓練する。
我々は、MoreRedを古典的なFFと比較し、平衡データと非平衡データの大規模なデータセットに基づいて訓練された同変ニューラルネットワークFFと、半経験的強結合モデルを比較した。
これを定量的に評価するために、見いだされた平衡構造と基準平衡構造とそれらのエネルギーとのルート平均二乗偏差を評価した。
Molecular relaxation, finding the equilibrium state of a non-equilibrium structure, is an essential component of computational chemistry to understand reactivity. Classical force field (FF) methods often rely on insufficient local energy minimization, while neural network FF models require large labeled datasets encompassing both equilibrium and non-equilibrium structures. As a remedy, we propose MoreRed, molecular relaxation by reverse diffusion, a conceptually novel and purely statistical approach where non-equilibrium structures are treated as noisy instances of their corresponding equilibrium states. To enable the denoising of arbitrarily noisy inputs via a generative diffusion model, we further introduce a novel diffusion time step predictor. Notably, MoreRed learns a simpler pseudo potential energy surface (PES) instead of the complex physical PES. It is trained on a significantly smaller, and thus computationally cheaper, dataset consisting of solely unlabeled equilibrium structures, avoiding the computation of non-equilibrium structures altogether. We compare MoreRed to classical FFs, equivariant neural network FFs trained on a large dataset of equilibrium and non-equilibrium data, as well as a semi-empirical tight-binding model. To assess this quantitatively, we evaluate the root-mean-square deviation between the found equilibrium structures and the reference equilibrium structures as well as their energies. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# リソース制限ネットワークのマルチモーダル類似性推定を用いた画像生成セマンティック通信
Image Generative Semantic Communication with Multi-Modal Similarity Estimation for Resource-Limited Networks ( http://arxiv.org/abs/2404.11280v2 ) ライセンス: Link先を確認 | Eri Hosonuma, Taku Yamazaki, Takumi Miyoshi, Akihito Taya, Yuuki Nishiyama, Kaoru Sezaki, | (参考訳) 限られたリソースでネットワークトラフィックを削減し、サポート環境を構築するためには、最小限の送信データで画像を送信する方法が必要である。
特徴を維持しながら画像のサイズを圧縮する機械学習に基づく画像圧縮法が提案されている。
しかし、ある状況下では、受信側の画像の意味情報のみを再構成することは十分である。
この概念を実現するために,セマンティックコミュニケーションと呼ばれるセマンティック情報に基づくコミュニケーションと,セマンティックコミュニケーションを用いた画像伝達手法が提案されている。
この方法は画像の意味情報のみを送信し、受信者は画像生成モデルを用いて再構成する。
本手法は,画像再構成に単一種類の意味情報を利用するが,この情報のみを用いた原画像に似た画像の再構成は困難である。
本研究では,多様な意味情報を利用したマルチモーダル画像伝送方式を提案する。
提案手法は,原画像からマルチモーダルな意味情報を抽出し,それを受信機に送信する。
その後、受信機は画像生成モデルを用いて複数の画像を生成し、意味的類似性に基づいて出力画像を選択する。
受信者は受信した特徴のみに基づいて結果を選択する必要があるが、従来の測定値を用いた類似性の評価は困難である。
そこで本研究では,画像の意味的特徴間の類似性を評価するための新しい指標について検討し,複数の意味的特徴に基づいて画像間の意味的類似性を評価するための2つのスコアリング手順を提案する。
その結果,提案手法は,原画像と生成画像のセマンティック特徴との位置や構成などのセマンティックな類似性を比較することができることがわかった。
To reduce network traffic and support environments with limited resources, a method for transmitting images with minimal transmission data is required. Several machine learning-based image compression methods, which compress the data size of images while maintaining their features, have been proposed. However, in certain situations, reconstructing only the semantic information of images at the receiver end may be sufficient. To realize this concept, semantic-information-based communication, called semantic communication, has been proposed, along with an image transmission method using semantic communication. This method transmits only the semantic information of an image, and the receiver reconstructs it using an image-generation model. This method utilizes a single type of semantic information for image reconstruction, but reconstructing images similar to the original image using only this information is challenging. This study proposes a multi-modal image transmission method that leverages various types of semantic information for efficient semantic communication. The proposed method extracts multi-modal semantic information from an original image and transmits only that to a receiver. Subsequently, the receiver generates multiple images using an image-generation model and selects an output image based on semantic similarity. The receiver must select the result based only on the received features; however, evaluating the similarity using conventional metrics is challenging. Therefore, this study explores new metrics to evaluate the similarity between semantic features of images and proposes two scoring procedures for evaluating semantic similarity between images based on multiple semantic features. The results indicate that the proposed procedures can compare semantic similarities, such as position and composition, between the semantic features of the original and generated images. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# 変圧器を用いたマルチモーダルストローク処理の分類結果予測
Transformer-Based Classification Outcome Prediction for Multimodal Stroke Treatment ( http://arxiv.org/abs/2404.12634v2 ) ライセンス: Link先を確認 | Danqing Ma, Meng Wang, Ao Xiang, Zongqing Qi, Qin Yang, | (参考訳) 本研究では,Transformerアーキテクチャと自己保持機構に基づくマルチモーダル融合フレームワークであるMultitransを提案する。
このアーキテクチャは、脳卒中治療中の患者の非コントラストCT画像と放電診断レポートを、Transformerアーキテクチャーに基づく様々な手法を用いて組み合わせて、脳卒中治療の機能的結果を予測する。
その結果, 単モーダルテキスト分類の性能は単モーダル画像分類よりも有意に優れているが, 多モーダル組み合わせの効果は任意の単モーダル画像分類よりも優れていることがわかった。
Transformerモデルは画像データにのみ悪影響を及ぼすが、臨床メタ診断情報と組み合わせると、両者はより良い相補的な情報を学び、脳卒中の治療効果を正確に予測するのに良い貢献をする。
と。
This study proposes a multi-modal fusion framework Multitrans based on the Transformer architecture and self-attention mechanism. This architecture combines the study of non-contrast computed tomography (NCCT) images and discharge diagnosis reports of patients undergoing stroke treatment, using a variety of methods based on Transformer architecture approach to predicting functional outcomes of stroke treatment. The results show that the performance of single-modal text classification is significantly better than single-modal image classification, but the effect of multi-modal combination is better than any single modality. Although the Transformer model only performs worse on imaging data, when combined with clinical meta-diagnostic information, both can learn better complementary information and make good contributions to accurately predicting stroke treatment effects.. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# スペクトル畳み込み条件ニューラルプロセス
Spectral Convolutional Conditional Neural Processes ( http://arxiv.org/abs/2404.13182v2 ) ライセンス: Link先を確認 | Peiman Mohseni, Nick Duffield, | (参考訳) 条件付きニューラルプロセス(CNP)は、確率的プロセスのパラメータ化にニューラルネットワークの柔軟性を利用する確率論的モデルのファミリーを構成する。
よく校正された予測機能と、単純な最大様習熟訓練を組み合わせることで、様々な学習問題に対処するための魅力的なソリューションとして、メタ学習に特に重点を置いている。
このファミリーの著名なメンバーであるConvolutional Conditional Neural Processes (ConvCNPs)は、畳み込みを利用して、帰納的バイアスとして翻訳等価性を明示的に導入する。
しかし、ConvCNPのコンボリューション層におけるローカルな離散カーネルへの依存は、特に新しいタスクから限定的で不規則にサンプリングされた観察を扱う場合、データ内の長距離依存関係や複雑なパターンをキャプチャする上で問題を引き起こす可能性がある。
パラメトリック偏微分方程式(PDE)の解演算子を近似するフーリエニューラル演算子(FNO)の成功に基づいて、周波数領域における関数のより効率的な表現を可能にするNPs族への新たな追加であるスペクトル畳み込み条件ニューラルネットワーク(SConvCNPs)を提案する。
Conditional Neural Processes (CNPs) constitute a family of probabilistic models that harness the flexibility of neural networks to parameterize stochastic processes. Their capability to furnish well-calibrated predictions, combined with simple maximum-likelihood training, has established them as appealing solutions for addressing various learning problems, with a particular emphasis on meta-learning. A prominent member of this family, Convolutional Conditional Neural Processes (ConvCNPs), utilizes convolution to explicitly introduce translation equivariance as an inductive bias. However, ConvCNP's reliance on local discrete kernels in its convolution layers can pose challenges in capturing long-range dependencies and complex patterns within the data, especially when dealing with limited and irregularly sampled observations from a new task. Building on the successes of Fourier neural operators (FNOs) for approximating the solution operators of parametric partial differential equations (PDEs), we propose Spectral Convolutional Conditional Neural Processes (SConvCNPs), a new addition to the NPs family that allows for more efficient representation of functions in the frequency domain. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-03 |
# 大規模マルチモダリティモデルによるAI生成画像品質評価
Large Multi-modality Model Assisted AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2404.17762v2 ) ライセンス: Link先を確認 | Puyi Wang, Wei Sun, Zicheng Zhang, Jun Jia, Yanwei Jiang, Zhichao Zhang, Xiongkuo Min, Guangtao Zhai, | (参考訳) 従来のディープニューラルネットワーク(DNN)ベースの画像品質評価(IQA)モデルでは、畳み込みニューラルネットワーク(CNN)やTransformerを使用して、品質を意識した特徴表現を学習し、自然なシーンイメージ上で満足できるパフォーマンスを達成する。
しかし、AI生成画像(AGI)に適用すると、これらのDNNベースのIQAモデルはサブパー性能を示す。
この状況は、生成過程の制御不能な性質によって引き起こされる特定のAGIに固有の意味的不正確さが原因である。
したがって、AGIの品質を評価する上で、意味的コンテンツを識別する能力が重要となる。
従来のDNNベースのIQAモデルは、パラメータの複雑さとトレーニングデータに制約され、複雑な粒度のセマンティックな特徴を捉えるのに苦労しており、画像全体のセマンティックな内容の存在とコヒーレンスを理解することは困難である。
既存のIQAモデルのセマンティックコンテンツ知覚の欠点に対処するために, セマンティックインシデント情報を検出し, セマンティックベクターを抽出するために, セマンティックインフォメーションを利用したAI-Generated Image Quality Assessment (MA-AGIQA) モデルを提案する。
さらに、従来のDNNベースのIQAモデルによって抽出された品質認識機能と、意味情報を動的に統合するために、専門家(MoE)構造が混在している。
AI生成コンテンツデータセットであるAIGCQA-20kとAGIQA-3kの総合的な実験により、MA-AGIQAは最先端のパフォーマンスを達成し、AGIの品質を評価する上で優れた一般化能力を示す。
コードはhttps://github.com/wangpuyi/MA-AGIQA.comで入手できる。
Traditional deep neural network (DNN)-based image quality assessment (IQA) models leverage convolutional neural networks (CNN) or Transformer to learn the quality-aware feature representation, achieving commendable performance on natural scene images. However, when applied to AI-Generated images (AGIs), these DNN-based IQA models exhibit subpar performance. This situation is largely due to the semantic inaccuracies inherent in certain AGIs caused by uncontrollable nature of the generation process. Thus, the capability to discern semantic content becomes crucial for assessing the quality of AGIs. Traditional DNN-based IQA models, constrained by limited parameter complexity and training data, struggle to capture complex fine-grained semantic features, making it challenging to grasp the existence and coherence of semantic content of the entire image. To address the shortfall in semantic content perception of current IQA models, we introduce a large Multi-modality model Assisted AI-Generated Image Quality Assessment (MA-AGIQA) model, which utilizes semantically informed guidance to sense semantic information and extract semantic vectors through carefully designed text prompts. Moreover, it employs a mixture of experts (MoE) structure to dynamically integrate the semantic information with the quality-aware features extracted by traditional DNN-based IQA models. Comprehensive experiments conducted on two AI-generated content datasets, AIGCQA-20k and AGIQA-3k show that MA-AGIQA achieves state-of-the-art performance, and demonstrate its superior generalization capabilities on assessing the quality of AGIs. Code is available at https://github.com/wangpuyi/MA-AGIQA. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-03 |
# WorkBench: 現実的な職場環境におけるエージェントのベンチマークデータセット
WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting ( http://arxiv.org/abs/2405.00823v2 ) ライセンス: Link先を確認 | Olly Styles, Sam Miller, Patricio Cerda-Mardini, Tanaya Guha, Victor Sanchez, Bertie Vidgen, | (参考訳) 職場環境でタスクを実行するエージェントの能力を評価するベンチマークデータセットであるWorkBenchを紹介した。
WorkBenchにはサンドボックス環境があり、5つのデータベース、26のツール、690のタスクがある。
これらのタスクは、メールの送信や会議のスケジューリングなど、一般的なビジネス活動を表す。
WorkBenchのタスクは、計画、ツールの選択、そしてしばしば複数のアクションを必要とするため、難しい。
あるタスクがうまく実行された場合、データベースの値の1つ(またはそれ以上)が変更される可能性がある。
各タスクの正しい結果はユニークで曖昧で、堅牢で自動化された評価を可能にします。
私たちはこの重要な貢献を成果中心の評価と呼びます。
既存の5つのReActエージェントをWorkBench上で評価したところ、タスクの3%(Llama2-70B)が完了し、最高のパフォーマンス(GPT-4)は43%に過ぎなかった。
さらに、エージェントのエラーは、間違った人にメールが送られるなど、間違ったアクションをとられる可能性があることに気付きました。
WorkBenchは、エージェントが共通のビジネス活動を行う能力の弱点を明らかにする。
WorkBenchはhttps://github.com/olly-styles/WorkBench.comで無料リソースとして公開されている。
We introduce WorkBench: a benchmark dataset for evaluating agents' ability to execute tasks in a workplace setting. WorkBench contains a sandbox environment with five databases, 26 tools, and 690 tasks. These tasks represent common business activities, such as sending emails and scheduling meetings. The tasks in WorkBench are challenging as they require planning, tool selection, and often multiple actions. If a task has been successfully executed, one (or more) of the database values may change. The correct outcome for each task is unique and unambiguous, which allows for robust, automated evaluation. We call this key contribution outcome-centric evaluation. We evaluate five existing ReAct agents on WorkBench, finding they successfully complete as few as 3% of tasks (Llama2-70B), and just 43% for the best-performing (GPT-4). We further find that agents' errors can result in the wrong action being taken, such as an email being sent to the wrong person. WorkBench reveals weaknesses in agents' ability to undertake common business activities, raising questions about their use in high-stakes workplace settings. WorkBench is publicly available as a free resource at https://github.com/olly-styles/WorkBench. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-03 |
# SSUMamba:ハイパースペクトル画像復調のための空間スペクトル選択状態空間モデル
SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising ( http://arxiv.org/abs/2405.01726v7 ) ライセンス: Link先を確認 | Guanyiman Fu, Fengchao Xiong, Jianfeng Lu, Jun Zhou, | (参考訳) デノナイジングは、画像内メカニズムや環境要因から生じるノイズにより、ハイパースペクトル画像(HSI)にとって重要な前処理ステップである。
長距離空間-スペクトル相関モデリングは、HSIの分解に有用であるが、しばしば高い計算複雑性を伴う。
状態空間モデル(SSM)に基づいて、Mambaはその顕著な長距離依存性モデリング機能と計算効率で知られている。
そこで本研究では,HSI復調のためのメモリ効率の高い空間スペクトルUMamba(SSUMamba)を導入し,空間スペクトル連続走査(SSCS)Mambaをコアコンポーネントとした。
SSCS Mambaは行、列、バンドを6つの異なる順序で交換してシーケンスを生成し、双方向SSMを使用して長距離空間スペクトル依存性を利用する。
各順序で、画像は隣接したスキャン間で再配置され、空間スペクトルの連続性を保証する。
さらに、3D畳み込みは局所空間スペクトルモデリングを強化するためにSSCS Mambaに埋め込まれる。
実験により、SSUMambaは、トランスフォーマーベースの手法に比べて、バッチ当たりのメモリ消費が低い優れたデノナイジング結果が得られることが示された。
ソースコードはhttps://github.com/lronkitty/SSUMamba.comで入手できる。
Denoising is a crucial preprocessing step for hyperspectral images (HSIs) due to noise arising from intra-imaging mechanisms and environmental factors. Long-range spatial-spectral correlation modeling is beneficial for HSI denoising but often comes with high computational complexity. Based on the state space model (SSM), Mamba is known for its remarkable long-range dependency modeling capabilities and computational efficiency. Building on this, we introduce a memory-efficient spatial-spectral UMamba (SSUMamba) for HSI denoising, with the spatial-spectral continuous scan (SSCS) Mamba being the core component. SSCS Mamba alternates the row, column, and band in six different orders to generate the sequence and uses the bidirectional SSM to exploit long-range spatial-spectral dependencies. In each order, the images are rearranged between adjacent scans to ensure spatial-spectral continuity. Additionally, 3D convolutions are embedded into the SSCS Mamba to enhance local spatial-spectral modeling. Experiments demonstrate that SSUMamba achieves superior denoising results with lower memory consumption per batch compared to transformer-based methods. The source code is available at https://github.com/lronkitty/SSUMamba. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-03 |
# JOSENet:サーベイランスビデオにおけるバイオレンス検出のためのジョイントストリーム埋め込みネットワーク
JOSENet: A Joint Stream Embedding Network for Violence Detection in Surveillance Videos ( http://arxiv.org/abs/2405.02961v2 ) ライセンス: Link先を確認 | Pietro Nardelli, Danilo Comminiello, | (参考訳) ビデオ監視カメラの普及と防犯需要の増大により、研究コミュニティ内での暴力検出業務への関心が高まっている。
他の行動認識タスクと比較して、監視ビデオにおける暴力検出は、様々な実戦シーンのような、追加の問題を提示する。
残念ながら、暴力検出のための既存のデータセットは、他のアクション認識タスクと比較して比較的小さい。
さらに、監視映像は、各ビデオに異なる個人と、各カメラのさまざまな背景を特徴付けることが多い。
さらに、実生活監視ビデオにおける暴力行為の迅速な検出は、有害な結果を防ぐために不可欠であり、メモリ使用量と計算コストの削減に最適化されたモデルが必要である。
これらの課題は、従来の行動認識手法の適用を複雑にしている。
これらの課題に対処するために、監視ビデオにおける暴力検出に優れたパフォーマンスを提供する、新しい自己監視フレームワークJOSENetを紹介した。
提案モデルは,RGBフレームと光フローという2つの時空間ビデオストリームを処理する。
JOSENetは、ビデオセグメントあたりのフレームの4分の1しか利用せず、フレームレートの低減を図りながら、最先端の手法と比較してパフォーマンスを向上する。
ソースコードはhttps://github.com/ispamm/JOSENetで入手できる。
The increasing proliferation of video surveillance cameras and the escalating demand for crime prevention have intensified interest in the task of violence detection within the research community. Compared to other action recognition tasks, violence detection in surveillance videos presents additional issues, such as the wide variety of real fight scenes. Unfortunately, existing datasets for violence detection are relatively small in comparison to those for other action recognition tasks. Moreover, surveillance footage often features different individuals in each video and varying backgrounds for each camera. In addition, fast detection of violent actions in real-life surveillance videos is crucial to prevent adverse outcomes, thus necessitating models that are optimized for reduced memory usage and computational costs. These challenges complicate the application of traditional action recognition methods. To tackle all these issues, we introduce JOSENet, a novel self-supervised framework that provides outstanding performance for violence detection in surveillance videos. The proposed model processes two spatiotemporal video streams, namely RGB frames and optical flows, and incorporates a new regularized self-supervised learning approach for videos. JOSENet demonstrates improved performance compared to state-of-the-art methods, while utilizing only one-fourth of the frames per video segment and operating at a reduced frame rate. The source code is available at https://github.com/ispamm/JOSENet. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-03 |
# MarkLLM: LLMウォーターマーキングのためのオープンソースツールキット
MarkLLM: An Open-Source Toolkit for LLM Watermarking ( http://arxiv.org/abs/2405.10051v4 ) ライセンス: Link先を確認 | Leyi Pan, Aiwei Liu, Zhiwei He, Zitian Gao, Xuandong Zhao, Yijian Lu, Binglin Zhou, Shuliang Liu, Xuming Hu, Lijie Wen, Irwin King, Philip S. Yu, | (参考訳) LLMの透かしは、LLM生成したテキストを識別するために、モデル出力に認識できないがアルゴリズムで検出可能な信号を埋め込んでおり、大きな言語モデルの潜在的な誤用を緩和するのに重要である。
しかし、LLM透かしアルゴリズムの豊富さ、複雑なメカニズム、複雑な評価手順や視点は、研究者やコミュニティにとって、最新の進歩を容易に実験し、理解し、評価するための課題となる。
これらの問題に対処するため,LLMウォーターマーキングのためのオープンソースのツールキットであるMarkLLMを紹介した。
MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するための統一的で拡張可能なフレームワークを提供し、アクセスの容易さを保証するユーザフレンドリーなインターフェースを提供する。
さらに、これらのアルゴリズムの基盤となるメカニズムを自動視覚化することで理解を深める。
評価のために、MarkLLMは3つの視点にまたがる12のツールと、2種類の自動評価パイプラインを提供する。
我々はMarkLLMを通じて、LLM透かし技術における一般大衆の理解と関与を改善し、コンセンサスを育み、研究と応用のさらなる進歩を推進しつつ、研究者を支援することを目指している。
私たちのコードはhttps://github.com/THU-BPM/MarkLLM.orgで公開されています。
LLM watermarking, which embeds imperceptible yet algorithmically detectable signals in model outputs to identify LLM-generated text, has become crucial in mitigating the potential misuse of large language models. However, the abundance of LLM watermarking algorithms, their intricate mechanisms, and the complex evaluation procedures and perspectives pose challenges for researchers and the community to easily experiment with, understand, and assess the latest advancements. To address these issues, we introduce MarkLLM, an open-source toolkit for LLM watermarking. MarkLLM offers a unified and extensible framework for implementing LLM watermarking algorithms, while providing user-friendly interfaces to ensure ease of access. Furthermore, it enhances understanding by supporting automatic visualization of the underlying mechanisms of these algorithms. For evaluation, MarkLLM offers a comprehensive suite of 12 tools spanning three perspectives, along with two types of automated evaluation pipelines. Through MarkLLM, we aim to support researchers while improving the comprehension and involvement of the general public in LLM watermarking technology, fostering consensus and driving further advancements in research and application. Our code is available at https://github.com/THU-BPM/MarkLLM. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-03 |
# 難解なAIは計算処理を必要とする
Contestable AI needs Computational Argumentation ( http://arxiv.org/abs/2405.10729v2 ) ライセンス: Link先を確認 | Francesco Leofante, Hamed Ayoobi, Adam Dejl, Gabriel Freedman, Deniz Gorur, Junqi Jiang, Guilherme Paulino-Passos, Antonio Rago, Anna Rapberger, Fabrizio Russo, Xiang Yin, Dekai Zhang, Francesca Toni, | (参考訳) 近年、AIは広く普及しているが、最先端のアプローチはAIシステムが競合する必要性をほとんど無視している。
代わりに、競争性はAIガイドライン(OECDなど)と自動意思決定の規制(GDPRなど)によって主張される。
本稿では,AIにおいて,競争性をどのように計算的に達成できるかを考察する。
我々は、競争可能なAIには動的(人間機械および/または機械機械)の説明可能性と意思決定のプロセスが必要であり、機械が可能であると論じている。
一 人その他の機械と相互作用して、その出力及び/又は推論を段階的に説明し、また、これらの人間又は/又は他の機械が提供する競争の根拠を評価すること。
(二)争議中に提起された問題に対処するため、意思決定のプロセスを見直しる。
現在のAIのランドスケープが静的AIに合わせたものであることを考えると、競争性に適合する必要性には、急進的な再考が必要であり、計算の議論はサポートするのに理想的だ、と私たちは主張する。
AI has become pervasive in recent years, but state-of-the-art approaches predominantly neglect the need for AI systems to be contestable. Instead, contestability is advocated by AI guidelines (e.g. by the OECD) and regulation of automated decision-making (e.g. GDPR). In this position paper we explore how contestability can be achieved computationally in and for AI. We argue that contestable AI requires dynamic (human-machine and/or machine-machine) explainability and decision-making processes, whereby machines can (i) interact with humans and/or other machines to progressively explain their outputs and/or their reasoning as well as assess grounds for contestation provided by these humans and/or other machines, and (ii) revise their decision-making processes to redress any issues successfully raised during contestation. Given that much of the current AI landscape is tailored to static AIs, the need to accommodate contestability will require a radical rethinking, that, we argue, computational argumentation is ideally suited to support. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-03 |
# 疑似因果発見
Argumentative Causal Discovery ( http://arxiv.org/abs/2405.11250v3 ) ライセンス: Link先を確認 | Fabrizio Russo, Anna Rapberger, Francesca Toni, | (参考訳) 因果発見は、データの特徴間の因果関係を発掘することにつながる。
因果推論に欠かせないものであり、高価または不可能なランダム化制御試験に頼らずに科学的知識を構築するために必要なものである。
本稿では,記号表現を用いた推論が因果発見にどのように役立つかを検討する。
具体的には、因果関係を反映したグラフを学習するために、因果関係理論と組み合わせて、十分に確立された強力な知識表現形式である仮定に基づく議論(ABA)を展開する。
我々は,本手法が望ましい特性を示すことを証明し,特に自然条件下では,地底因果グラフを検索できることを示す。
また、因果探索における標準ベンチマークから得られた4つのデータセットに対して、応答セットプログラミング(ASP)による手法の実装実験を行い、本手法が確立された基準値と良好に比較したことを示す。
Causal discovery amounts to unearthing causal relationships amongst features in data. It is a crucial companion to causal inference, necessary to build scientific knowledge without resorting to expensive or impossible randomised control trials. In this paper, we explore how reasoning with symbolic representations can support causal discovery. Specifically, we deploy assumption-based argumentation (ABA), a well-established and powerful knowledge representation formalism, in combination with causality theories, to learn graphs which reflect causal dependencies in the data. We prove that our method exhibits desirable properties, notably that, under natural conditions, it can retrieve ground-truth causal graphs. We also conduct experiments with an implementation of our method in answer set programming (ASP) on four datasets from standard benchmarks in causal discovery, showing that our method compares well against established baselines. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-03 |
# VR-GPT:インテリジェント仮想現実アプリケーションのためのビジュアル言語モデル
VR-GPT: Visual Language Model for Intelligent Virtual Reality Applications ( http://arxiv.org/abs/2405.11537v3 ) ライセンス: Link先を確認 | Mikhail Konenkov, Artem Lykov, Daria Trinitatova, Dzmitry Tsetserukou, | (参考訳) 没入型バーチャルリアリティアプリケーションの出現は、さまざまな領域を変えてきたが、Visual Language Modelsのような先進的な人工知能技術との統合はまだ検討されていない。
本研究は,VR環境におけるVLMを活用したユーザインタラクションとタスク効率向上のための先駆的アプローチを提案する。
本システムは,Unityエンジンとカスタム開発VLMを活用することで,視覚的テキスト命令に頼ることなく,自然言語処理によるリアルタイム,直感的なユーザインタラクションを実現する。
音声・テキスト・テキスト・音声技術の導入により、ユーザとVLM間のシームレスなコミュニケーションが可能となり、複雑なタスクを効果的に導くことができる。
予備実験の結果, VLMの使用は, 作業完了時間を短縮するだけでなく, 従来のVRインタラクション手法と比較して, ユーザの快適さやタスクエンゲージメントを向上させることが示唆された。
The advent of immersive Virtual Reality applications has transformed various domains, yet their integration with advanced artificial intelligence technologies like Visual Language Models remains underexplored. This study introduces a pioneering approach utilizing VLMs within VR environments to enhance user interaction and task efficiency. Leveraging the Unity engine and a custom-developed VLM, our system facilitates real-time, intuitive user interactions through natural language processing, without relying on visual text instructions. The incorporation of speech-to-text and text-to-speech technologies allows for seamless communication between the user and the VLM, enabling the system to guide users through complex tasks effectively. Preliminary experimental results indicate that utilizing VLMs not only reduces task completion times but also improves user comfort and task engagement compared to traditional VR interaction methods. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-03 |
# アルゴリズム・リコースにおける評価機能の再評価--人間中心の視点からの実証的研究
Reassessing Evaluation Functions in Algorithmic Recourse: An Empirical Study from a Human-Centered Perspective ( http://arxiv.org/abs/2405.14264v2 ) ライセンス: Link先を確認 | Tomu Tominaga, Naomi Yamashita, Takeshi Kurashima, | (参考訳) 本研究では,AIシステムによる不適切な判断を個人が覆すのを支援する,対実的行動計画(recourses)の生成プロセスであるアルゴリズム・リコースの基礎的前提を批判的に検討する。
アルゴリズム的会話の根底にある前提は、個人が現在の状態と望ましい状態の間のギャップを最小限に抑えるリコースを受け入れ、行動することである。
しかし、この仮定は実証的に証明されていない。
この問題に対処するため,362人の参加者を対象にユーザスタディを実施し,現在と希望状態のギャップの指標である距離関数の最小化が,提案された言説を受理し,行動するよう促すかを検討した。
参加者のリコース受け入れは,リコース距離と相関しなかった。
さらに、参加者の言論行動への意欲は、最小の言論距離でピークに達したが、それ以外は一定であった。
これらの結果から,アルゴリズム・リコース研究の仮定に疑問を呈し,人間中心のリコース生成の道を開くための評価関数の再考の必要性が示唆された。
In this study, we critically examine the foundational premise of algorithmic recourse - a process of generating counterfactual action plans (i.e., recourses) assisting individuals to reverse adverse decisions made by AI systems. The assumption underlying algorithmic recourse is that individuals accept and act on recourses that minimize the gap between their current and desired states. This assumption, however, remains empirically unverified. To address this issue, we conducted a user study with 362 participants and assessed whether minimizing the distance function, a metric of the gap between the current and desired states, indeed prompts them to accept and act upon suggested recourses. Our findings reveal a nuanced landscape: participants' acceptance of recourses did not correlate with the recourse distance. Moreover, participants' willingness to act upon recourses peaked at the minimal recourse distance but was otherwise constant. These findings cast doubt on the prevailing assumption of algorithmic recourse research and signal the need to rethink the evaluation functions to pave the way for human-centered recourse generation. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-03 |
# HCIにおけるCitation Practicesの過去・現在・未来
Past, Present, and Future of Citation Practices in HCI ( http://arxiv.org/abs/2405.16526v3 ) ライセンス: Link先を確認 | Jonas Oppenlaender, | (参考訳) 科学は、学術システムのサイズと性質により、システム全体にはほとんど影響を与えない、個別に集団決定を行う多くの科学者からなる複雑なシステムである。
しかし、HCI(Human-Computer Interaction)コミュニティのようなメソレベルの研究コミュニティにおける決定は、科学者の深い、長期にわたる行動変化をもたらす可能性がある。
本稿では,2016 年の ACM CHI 会議で導入された編集方針の変更が,CHI 記事に含まれる参照件数の平均が年々増加して,CHI コミュニティが拡大する過程でどのように展開されたかを示す。
もしこのほぼ直線的な傾向が相変わらず続くなら、CHI 2030の記事には平均130の参照が含まれている。
より多くの引用の傾向は、品質よりも量の方が優先される引用文化を反映しており、著者と査読者の双方の疲労に寄与している。
本稿では、研究コミュニティにおけるメタリサーチの価値と、メソレベルの政策調整が科学的分野や規律の進化にもたらす大きな影響を、ステークホルダーに慎重に検討するよう促す。
Science is a complex system comprised of many scientists who individually make collective decisions that, due to the size and nature of the academic system, largely do not affect the system as a whole. However, certain decisions at the meso-level of research communities, such as the Human-Computer Interaction (HCI) community, may result in deep and long-lasting behavioral changes in scientists. In this article, we provide evidence on how a change in editorial policies introduced at the ACM CHI Conference in 2016 launched the CHI community on an expansive path, denoted by a year-by-year increase in the mean number of references included in CHI articles. If this near-linear trend continues undisrupted, an article in CHI 2030 will include on average almost 130 references. The trend towards more citations reflects a citation culture where quantity is prioritized over quality, contributing to both author and peer reviewer fatigue. This article underscores the value of meta-research for research communities and the profound impact that meso-level policy adjustments have on the evolution of scientific fields and disciplines, urging stakeholders to carefully consider the broader implications of such changes. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-03 |
# オピニオンガイドによる強化学習
Opinion-Guided Reinforcement Learning ( http://arxiv.org/abs/2405.17287v2 ) ライセンス: Link先を確認 | Kyanna Dagenais, Istvan David, | (参考訳) 人的指導は、学習エージェントの性能を向上させるために強化学習においてしばしば望まれる。
しかし、人間の洞察は、よく定式化された議論よりも単なる意見や教育的な推測であることが多い。
意見は、例えば、問題に関する部分的な情報や無知のために不確実性にさらされるが、ハードエビデンスが発生するよりも早く現れる。
このように、意見による強化学習エージェントの指導は、より優れた学習プロセスの可能性を提供するが、形式的な方法で意見のモデリングと管理の課題が伴う。
本稿では,強化学習エージェントを意見を通じて指導する手法を提案する。
この目的のために、アドバイザーの意見をモデル化し、管理するためのエンドツーエンドの手法を提供する。
提案手法の有用性を評価するため,複数のアドバイス戦略の下で,人工的(オークル)と人的アドバイザーを用いて,さまざまな不確実性レベルにおいて評価を行った。
結果から, たとえ不確実であっても, 強化学習エージェントの性能は向上し, より高い報奨率, より効率的な探索, より優れた強化政策が得られたことが示唆された。
2次元トポロジカルランニングの例を通して、我々のアプローチを実証するが、我々のアプローチはより高次元の複雑な問題にも適用できる。
Human guidance is often desired in reinforcement learning to improve the performance of the learning agent. However, human insights are often mere opinions and educated guesses rather than well-formulated arguments. While opinions are subject to uncertainty, e.g., due to partial informedness or ignorance about a problem, they also emerge earlier than hard evidence can be produced. Thus, guiding reinforcement learning agents by way of opinions offers the potential for more performant learning processes, but comes with the challenge of modeling and managing opinions in a formal way. In this article, we present a method to guide reinforcement learning agents through opinions. To this end, we provide an end-to-end method to model and manage advisors' opinions. To assess the utility of the approach, we evaluate it with synthetic (oracle) and human advisors, at different levels of uncertainty, and under multiple advice strategies. Our results indicate that opinions, even if uncertain, improve the performance of reinforcement learning agents, resulting in higher rewards, more efficient exploration, and a better reinforced policy. Although we demonstrate our approach through a two-dimensional topological running example, our approach is applicable to complex problems with higher dimensions as well. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-03 |
# VIP:マルチモーダル大言語モデルによる画像出力
VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model ( http://arxiv.org/abs/2406.01059v2 ) ライセンス: Link先を確認 | Jinze Yang, Haoran Wang, Zining Zhu, Chenglong Liu, Meng Wymond Wu, Zeke Xie, Zhong Ji, Jungong Han, Mingming Sun, | (参考訳) 本稿では,画像の中心的内容から周囲の部分を外挿することを目的とした,画像の露光に関する問題の解決に焦点をあてる。
最近の研究は有望なパフォーマンスを達成したが、汎用性とカスタマイズの欠如は、より広範なシナリオにおける実践的な応用を妨げる。
そこで本研究では,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
まず,画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大規模言語モデル(MLLM)を利用する。
そこで、得られたテキストプロンプトを導入して、出力結果のカスタマイズを可能にする。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
既存のほとんどの手法とは異なり、本手法はスクラッチから訓練されるのではなく、オフザシェルフ安定拡散(SD)モデルでわずかに微調整されているため、非常に資源効率が高い。
最後に、Scenery、Building、WikiArtの3つの一般的なデータセットの実験結果から、私たちのモデルはSoTAの手法を大幅に上回ることを示した。
さらに、そのカスタマイズ能力を示すために、多彩なアウトペイント結果がリストアップされる。
In this paper, we focus on resolving the problem of image outpainting, which aims to extrapolate the surrounding parts given the center contents of an image. Although recent works have achieved promising performance, the lack of versatility and customization hinders their practical applications in broader scenarios. Therefore, this work presents a novel image outpainting framework that is capable of customizing the results according to the requirement of users. First of all, we take advantage of a Multimodal Large Language Model (MLLM) that automatically extracts and organizes the corresponding textual descriptions of the masked and unmasked part of a given image. Accordingly, the obtained text prompts are introduced to endow our model with the capacity to customize the outpainting results. In addition, a special Cross-Attention module, namely Center-Total-Surrounding (CTS), is elaborately designed to enhance further the the interaction between specific space regions of the image and corresponding parts of the text prompts. Note that unlike most existing methods, our approach is very resource-efficient since it is just slightly fine-tuned on the off-the-shelf stable diffusion (SD) model rather than being trained from scratch. Finally, the experimental results on three commonly used datasets, i.e. Scenery, Building, and WikiArt, demonstrate our model significantly surpasses the SoTA methods. Moreover, versatile outpainting results are listed to show its customized ability. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-03 |
# 微調整かRAGか? : 対話にLLMを適応させる異なる手法の評価
Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue ( http://arxiv.org/abs/2406.06399v3 ) ライセンス: Link先を確認 | Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi, | (参考訳) 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。
異なる対話型(例えば、Open-Domain)の文献では、いくつかの技術が提案されている。
しかし, これらの手法の評価は, 基本LLM, 対話型, 評価指標の点で制限されている。
本研究では,異なる対話型に適用した場合のLLM適応手法を広範囲に解析する。
Llama-2とMistralの2つの基本LLMと、Open-Domain, Knowledge-Grounded, Task-Oriented, Question Answeringの4つの対話タイプを選択した。
対話型毎に選択されたデータセット間での文脈内学習と微調整技術の性能を評価する。
我々は、検索・拡張世代(RAG)と金知識の両方のシナリオにおいて、外部知識を取り入れて生成を基盤とする影響を評価する。
我々は,自動測定と人的評価プロトコルに対して,一貫した評価基準と説明可能性基準を採用する。
解析の結果,各手法の有効性は基本LPMと特定の対話形式に依存するため,大規模言語モデルに適用するための普遍的なベストプラクティスは存在しないことがわかった。
最後に、最も優れた適応手法の評価には、自動メトリクスから得られる誤った期待と結果を避けるために、人間の評価を含めるべきである。
We study the limitations of Large Language Models (LLMs) for the task of response generation in human-machine dialogue. Several techniques have been proposed in the literature for different dialogue types (e.g., Open-Domain). However, the evaluations of these techniques have been limited in terms of base LLMs, dialogue types and evaluation metrics. In this work, we extensively analyze different LLM adaptation techniques when applied to different dialogue types. We have selected two base LLMs, Llama-2 and Mistral, and four dialogue types Open-Domain, Knowledge-Grounded, Task-Oriented, and Question Answering. We evaluate the performance of in-context learning and fine-tuning techniques across datasets selected for each dialogue type. We assess the impact of incorporating external knowledge to ground the generation in both scenarios of Retrieval-Augmented Generation (RAG) and gold knowledge. We adopt consistent evaluation and explainability criteria for automatic metrics and human evaluation protocols. Our analysis shows that there is no universal best-technique for adapting large language models as the efficacy of each technique depends on both the base LLM and the specific type of dialogue. Last but not least, the assessment of the best adaptation technique should include human evaluation to avoid false expectations and outcomes derived from automatic metrics. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-03 |
# ALPS:大規模言語モデルのための高度にスパースなワンショットプルーニングの最適化
ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models ( http://arxiv.org/abs/2406.07831v2 ) ライセンス: Link先を確認 | Xiang Meng, Kayhan Behdin, Haoyue Wang, Rahul Mazumder, | (参考訳) 様々な自然言語処理タスクにおけるLLM(Large Language Models)の印象的なパフォーマンスは、膨大な計算リソースとストレージ要件の犠牲になる。
ワンショットプルーニング技術は、再訓練を必要とせず、余剰重量を除去することで、これらの負担を軽減する手段を提供する。
しかし、LLMの大規模化は、最適化に基づく手法の代わりにヒューリスティックに頼らざるを得ず、潜在的に準最適圧縮をもたらす。
本稿では,演算子分割手法と条件付き共役勾配に基づく後処理ステップを用いて,プルーニング問題に対処する最適化ベースのフレームワークであるALPSを紹介する。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
ALPSは、特にスパースモデルにおいて、プルーニング目的とパープレキシティ低減の観点から、最先端の手法を大幅に上回っている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
The impressive performance of Large Language Models (LLMs) across various natural language processing tasks comes at the cost of vast computational resources and storage requirements. One-shot pruning techniques offer a way to alleviate these burdens by removing redundant weights without the need for retraining. Yet, the massive scale of LLMs often forces current pruning approaches to rely on heuristics instead of optimization-based techniques, potentially resulting in suboptimal compression. In this paper, we introduce ALPS, an optimization-based framework that tackles the pruning problem using the operator splitting technique and a preconditioned conjugate gradient-based post-processing step. Our approach incorporates novel techniques to accelerate and theoretically guarantee convergence while leveraging vectorization and GPU parallelism for efficiency. ALPS substantially outperforms state-of-the-art methods in terms of the pruning objective and perplexity reduction, particularly for highly sparse models. On the OPT-30B model with 70% sparsity, ALPS achieves a 13% reduction in test perplexity on the WikiText dataset and a 19% improvement in zero-shot benchmark performance compared to existing methods. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-03 |
# CM2-Net:ドライバ動作認識のための連続型クロスモーダルマッピングネットワーク
CM2-Net: Continual Cross-Modal Mapping Network for Driver Action Recognition ( http://arxiv.org/abs/2406.11340v3 ) ライセンス: Link先を確認 | Ruoyu Wang, Chen Cai, Wenqian Wang, Jianjun Gao, Dan Lin, Wenyang Liu, Kim-Hui Yap, | (参考訳) ドライバーの行動認識は、赤外線や深度などの複数のモードを統合することにより、ドライバーと車両の相互作用を強化し、運転安全性を確保するために著しく進歩している。
それにもかかわらず、RGBのモダリティのみと比較して、車室内環境におけるRGB以外のあらゆる種類のモダリティの広範なデータ収集には、常に努力と費用がかかる。
そのため、従来の研究では、RGBビデオ上で事前訓練されたモデルを微調整することで、各非RGBモダリティを個別に学習することが提案されているが、これらの手法は、大きなドメインギャップによる新たなモダリティに直面した際の情報的特徴の抽出にはあまり効果がない。
これとは対照的に,新たに導入される各モダリティを,事前に学習したモダリティからインストラクティブプロンプトで継続的に学習する連続的クロスモーダルマッピングネットワーク(CM2-Net)を提案する。
具体的には,従来のモダリティから得られた識別的特徴と情報的特徴を,新たに登場するモダリティの特徴空間にマッピングする,累積的クロスモーダルマッピング・プロンプト(ACMP)を開発した。
そして、新しく登場するモダリティに直面すると、これらのマッピングされた機能は、どの機能を抽出して優先順位付けすべきかの効果的なプロンプトを提供することができる。
これらのプロンプトは継続学習プロセスを通じて蓄積され、さらなる認識性能が向上する。
Drive&Actデータセット上で行った大規模な実験は、一乗および多乗の両方のドライバ動作認識におけるCM2-Netの性能上の優位性を実証している。
Driver action recognition has significantly advanced in enhancing driver-vehicle interactions and ensuring driving safety by integrating multiple modalities, such as infrared and depth. Nevertheless, compared to RGB modality only, it is always laborious and costly to collect extensive data for all types of non-RGB modalities in car cabin environments. Therefore, previous works have suggested independently learning each non-RGB modality by fine-tuning a model pre-trained on RGB videos, but these methods are less effective in extracting informative features when faced with newly-incoming modalities due to large domain gaps. In contrast, we propose a Continual Cross-Modal Mapping Network (CM2-Net) to continually learn each newly-incoming modality with instructive prompts from the previously-learned modalities. Specifically, we have developed Accumulative Cross-modal Mapping Prompting (ACMP), to map the discriminative and informative features learned from previous modalities into the feature space of newly-incoming modalities. Then, when faced with newly-incoming modalities, these mapped features are able to provide effective prompts for which features should be extracted and prioritized. These prompts are accumulating throughout the continual learning process, thereby boosting further recognition performances. Extensive experiments conducted on the Drive&Act dataset demonstrate the performance superiority of CM2-Net on both uni- and multi-modal driver action recognition. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-03 |
# 不完全な情報カードゲームにおける解説戦略の強化--広東語解説における大規模言語モデルの検討
Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary ( http://arxiv.org/abs/2406.17807v3 ) ライセンス: Link先を確認 | Meiling Tao, Xuechen Liang, Ziyi Wang, Yiling Tao, Tianyu Shi, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、高品質なゲーム解説を生成する可能性を解き放っている。
しかし、不完全な情報を持つ複雑なゲームに対して、洞察に富み、活発なコメントを生み出すことは、依然として大きな課題である。
本稿では,中国のカードゲームである『textit{Guandan}』に特化して,強化学習(RL)とLLMを組み合わせた新たな解説手法を提案する。
本システムでは,RLを利用して複雑なカード再生シナリオを生成し,LDMを用いて対応する注釈文を生成し,プロの解説者の戦略的分析と物語の技を効果的にエミュレートする。
このフレームワークは、ステートコメンタリーガイド、心の理論(ToM)ベースのストラテジーアナライザ、および中国語環境における詳細で文脈に関連のあるゲームコメンタリーをシームレスにコラボレーションするスタイル検索モジュールを含む。
ToM 能力で LLM を強化し,検索機構と情報フィルタリング機構を改良する。
これにより、パーソナライズされたコメントコンテンツの生成が容易になる。
提案手法をオープンソース LLM に適用することにより,複数の評価指標にまたがって GPT-4 の性能を上回る性能向上を実現した。
Recent advancements in large language models (LLMs) have unlocked the potential for generating high-quality game commentary. However, producing insightful and engaging commentary for complex games with incomplete information remains a significant challenge. In this paper, we introduce a novel commentary method that combine Reinforcement Learning (RL) and LLMs, tailored specifically for the Chinese card game \textit{Guandan}. Our system leverages RL to generate intricate card-playing scenarios and employs LLMs to generate corresponding commentary text, effectively emulating the strategic analysis and narrative prowess of professional commentators. The framework comprises a state commentary guide, a Theory of Mind (ToM)-based strategy analyzer, and a style retrieval module, which seamlessly collaborate to deliver detailed and context-relevant game commentary in the Chinese language environment. We empower LLMs with ToM capabilities and refine both retrieval and information filtering mechanisms. This facilitates the generation of personalized commentary content. Our experimental results showcase the substantial enhancement in performance achieved by the proposed commentary framework when applied to open-source LLMs, surpassing the performance of GPT-4 across multiple evaluation metrics. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-03 |
# GitHub上のコード生成のための大規模言語モデルはどこにあるのか?
Where Are Large Language Models for Code Generation on GitHub? ( http://arxiv.org/abs/2406.19544v2 ) ライセンス: Link先を確認 | Xiao Yu, Lei Liu, Xing Hu, Jacky Wai Keung, Jin Liu, Xin Xia, | (参考訳) ソフトウェア開発におけるLarge Language Models(LLM)の利用の増加は、彼らが生成するコードの品質を評価する研究者から大きな注目を集めている。
しかし、研究の多くはHumanEvalのような制御されたデータセットに焦点を当てており、開発者はLLMのコード生成機能をどのように活用するかを適切に表現したり、実際の開発シナリオにおいてLLMの生成するコードの特徴を明らかにすることができない。
このギャップを埋めるために,本研究では,LLM生成コードの特徴と,GitHubにホストされている対応するプロジェクトについて検討した。
1) ChatGPTとCopilotは、GitHub上でコードを生成するのに最も頻繁に使用される。
対照的に、GitHub上の他のLLMによって生成されるコードはほとんどない。
2) ChatGPT/Copilot生成コードを含むプロジェクトは、個人または小規模チームが主導する、小さく、あまり知られていないことが多い。
それにもかかわらず、ほとんどのプロジェクトは継続的に進化し、改善しています。
(3) ChatGPT/Copilotは主に、データ処理と変換のためにPython、Java、TypeScriptスクリプトを生成するために使用される。
C/C++とJavaScriptのコード生成は、アルゴリズムとデータ構造の実装とユーザーインターフェイスのコードに焦点を当てている。
ほとんどのChatGPT/Copilot生成コードスニペットは比較的短く、複雑さが低い。
(4) 人書きコードと比べ、ChatGPT/Copilot生成コードは少数のプロジェクトで存在し、一般的には変更が少ない。
さらに、バグによる修正は、さまざまな言語でわずか3%から8%まで、さらに少ない。
(5) ChatGPT/Copilot生成コードに関するほとんどのコメントは詳細な情報がなく、しばしばプロンプトや人間の修正、テストステータスに言及せずにコードの起源を記述しているだけである。
これらの知見に基づき、研究者や実践者への影響について論じる。
The increasing use of Large Language Models (LLMs) in software development has garnered significant attention from researchers assessing the quality of the code they generate. However, much of the research focuses on controlled datasets such as HumanEval, which fail to adequately represent how developers actually utilize LLMs' code generation capabilities or clarify the characteristics of LLM-generated code in real-world development scenarios. To bridge this gap, our study investigates the characteristics of LLM-generated code and its corresponding projects hosted on GitHub. Our findings reveal several key insights: (1) ChatGPT and Copilot are the most frequently utilized for generating code on GitHub. In contrast, there is very little code generated by other LLMs on GitHub. (2) Projects containing ChatGPT/Copilot-generated code are often small and less known, led by individuals or small teams. Despite this, most projects are continuously evolving and improving. (3) ChatGPT/Copilot is mainly utilized for generating Python, Java, and TypeScript scripts for data processing and transformation. C/C++ and JavaScript code generation focuses on algorithm and data structure implementation and user interface code. Most ChatGPT/Copilot-generated code snippets are relatively short and exhibit low complexity. (4) Compared to human-written code, ChatGPT/Copilot-generated code exists in a small proportion of projects and generally undergoes fewer modifications. Additionally, modifications due to bugs are even fewer, ranging from just 3% to 8% across different languages. (5) Most comments on ChatGPT/Copilot-generated code lack detailed information, often only stating the code's origin without mentioning prompts, human modifications, or testing status. Based on these findings, we discuss the implications for researchers and practitioners. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-03 |
# 視覚・言語モデルにおけるマルチモーダルハロシン化雪玉の探索と緩和
Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models ( http://arxiv.org/abs/2407.00569v4 ) ライセンス: Link先を確認 | Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin, | (参考訳) 視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
自然な懸念は、マルチモーダル相互作用の間、生成された幻覚がLVLMの次の世代に影響を与える可能性があることである。
先述した幻覚に関する質問を提示した場合、LVLMは、地上の視覚情報が存在するとしても、誤解され、誤った反応をするのか?
そこで我々はMMHalSnowball (MMHalSnowball) というフレームワークを提案し,LVLMが学習した幻覚的会話の中で,特定の視覚的質問に答えることが求められている。
我々の実験は、オープンソースのLVLMの性能が少なくとも311\%低下していることを示し、LVLMは生成した幻覚を受け入れる傾向があり、邪魔なしにはサポートできないという誤った主張をすることを示している。
この現象をマルチモーダル・ハロシン化スノーボールと呼ぶ。
これを軽減するために,残差視覚入力からの出力分布を補正し,視覚情報に直接アクセス可能なモデルを提供するResidual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
実験により,雪玉型多モード幻覚の2,4 %以上を低減できることを確認した。
Though advanced in understanding visual information with human languages, Large Vision-Language Models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs' subsequent generation. Thus, we raise a question: When presented with a query relevant to the previously generated hallucination, will LVLMs be misled and respond incorrectly, even though the ground visual information exists? To answer this, we propose a framework called MMHalSnowball to evaluate LVLMs' behaviors when encountering generated hallucinations, where LVLMs are required to answer specific visual questions within a curated hallucinatory conversation. Crucially, our experiment shows that the performance of open-source LVLMs drops by at least $31\%$, indicating that LVLMs are prone to accept the generated hallucinations and make false claims that they would not have supported without distractions. We term this phenomenon Multimodal Hallucination Snowballing. To mitigate this, we further propose a training-free method called Residual Visual Decoding, where we revise the output distribution of LVLMs with the one derived from the residual visual input, providing models with direct access to the visual information. Experiments show that our method can mitigate more than $24\%$ of the snowballed multimodal hallucination while maintaining capabilities. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-03 |
# 赤外線可視画像融合のためのセマンティック・アウェア・マルチガイドネットワーク
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion ( http://arxiv.org/abs/2407.06159v2 ) ライセンス: Link先を確認 | Xiaoli Zhang, Liying Wang, Libo Zhao, Xiongfei Li, Siwei Ma, | (参考訳) マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
複雑な場面における特徴抽出の不十分さと意味認識の欠如に対処するために, 相関型分解特徴をモデル化し, 補足的特徴と多誘導的特徴集合を効率的に抽出することで高レベルのグラフ表現をモデル化する方法に焦点を当てる。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
深部畳み込み後の浅部特徴抽出にマルチDconv Transposed Attention と Local-enhanced Feed Forward Network を用いた変圧器を用いる。
3つの並列ブランチエンコーダでは、CAI(Cross Attention and Invertible Block)が局所的な特徴を抽出し、高周波テクスチャの詳細を保存することができる。
残った接続を持つベース機能抽出モジュール(BFE)は、長距離依存性をキャプチャし、共有モダリティ表現能力を向上することができる。
グラフ推論モジュール(GR)は、高レベルなクロスモダリティ関係を推論し、CAIの特定のモダリティ補完情報として低レベルな詳細特徴を同時に抽出するために導入された。
可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して,本手法が競争力のある結果を得たことを示す実験結果を得た。
さらに,その後のタスクでは,オブジェクト検出では平均8.27% mAP@0.5,セマンティックセグメンテーションでは5.85% mIoUと,他の融合手法を上回っている。
Multi-modality image fusion aims at fusing specific-modality and shared-modality information from two source images. To tackle the problem of insufficient feature extraction and lack of semantic awareness for complex scenes, this paper focuses on how to model correlation-driven decomposing features and reason high-level graph representation by efficiently extracting complementary features and multi-guided feature aggregation. We propose a three-branch encoder-decoder architecture along with corresponding fusion layers as the fusion strategy. The transformer with Multi-Dconv Transposed Attention and Local-enhanced Feed Forward network is used to extract shallow features after the depthwise convolution. In the three parallel branches encoder, Cross Attention and Invertible Block (CAI) enables to extract local features and preserve high-frequency texture details. Base feature extraction module (BFE) with residual connections can capture long-range dependency and enhance shared-modality expression capabilities. Graph Reasoning Module (GR) is introduced to reason high-level cross-modality relations and extract low-level details features as CAI's specific-modality complementary information simultaneously. Experiments demonstrate that our method has obtained competitive results compared with state-of-the-art methods in visible/infrared image fusion and medical image fusion tasks. Moreover, we surpass other fusion methods in terms of subsequent tasks, averagely scoring 8.27% mAP@0.5 higher in object detection and 5.85% mIoU higher in semantic segmentation. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-03 |
# HPC: ボリュームビデオのための階層的プログレッシブコーディングフレームワーク
HPC: Hierarchical Progressive Coding Framework for Volumetric Video ( http://arxiv.org/abs/2407.09026v2 ) ライセンス: Link先を確認 | Zihan Zheng, Houqiang Zhong, Qiang Hu, Xiaoyun Zhang, Li Song, Ya Zhang, Yanfeng Wang, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)に基づくボリュームビデオは、様々な3Dアプリケーションにとって大きな可能性を秘めている。
現在のNeRF圧縮は、様々なネットワークとデバイス容量のための単一のモデル内でビデオ品質とビットレートを調整する柔軟性に欠ける。
これらの問題に対処するために,HPCを提案する。HPCは,単一のモデルを用いて可変ビットレートを実現する新しい階層的なプログレッシブボリュームビデオ符号化フレームワークである。
具体的には、HPCは、多分解能残留放射場を持つ階層表現を導入し、様々な詳細レベルを同時に生成しながら、長期化シーケンスにおける時間的冗長性を減少させる。
そこで本稿では,階層的表現と圧縮の両面を協調的に最適化するマルチレート歪み損失関数を用いたエンドツーエンドのプログレッシブ・ラーニング手法を提案する。
我々のHPCは一度だけ複数の圧縮レベルを実現することができるが、現在の手法では異なるレート歪み(RD)トレードオフのために複数の固定ビットレートモデルをトレーニングする必要がある。
大規模な実験により、HPCは可変ビットレートの柔軟な品質レベルを単一モデルで達成し、競争力のあるRD性能を示し、また様々なデータセットで固定ビットレートモデルよりも優れていた。
Volumetric video based on Neural Radiance Field (NeRF) holds vast potential for various 3D applications, but its substantial data volume poses significant challenges for compression and transmission. Current NeRF compression lacks the flexibility to adjust video quality and bitrate within a single model for various network and device capacities. To address these issues, we propose HPC, a novel hierarchical progressive volumetric video coding framework achieving variable bitrate using a single model. Specifically, HPC introduces a hierarchical representation with a multi-resolution residual radiance field to reduce temporal redundancy in long-duration sequences while simultaneously generating various levels of detail. Then, we propose an end-to-end progressive learning approach with a multi-rate-distortion loss function to jointly optimize both hierarchical representation and compression. Our HPC trained only once can realize multiple compression levels, while the current methods need to train multiple fixed-bitrate models for different rate-distortion (RD) tradeoffs. Extensive experiments demonstrate that HPC achieves flexible quality levels with variable bitrate by a single model and exhibits competitive RD performance, even outperforming fixed-bitrate models across various datasets. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-03 |
# 表面符号の信念伝搬復号アルゴリズムの改良
Improved Belief Propagation Decoding Algorithms for Surface Codes ( http://arxiv.org/abs/2407.11523v3 ) ライセンス: Link先を確認 | Jiahan Chen, Zhengzhong Yi, Zhipeng Liang, Xuan Wang, | (参考訳) 量子誤り訂正は、普遍的なフォールトトレラント量子コンピューティングにとって不可欠である。
高精度で低時間複雑度復号アルゴリズムは、量子誤り訂正が動作するようにするためには不可欠である。
既存の復号アルゴリズムの中で、信念の伝播(BP)は、ほぼ線形時間的複雑さと安定化符号への一般的な適用性で有名である。
しかし、BPの復号精度は後処理なしでは殆どの状況では不十分である。
本稿では,表面符号のGF(4)よりもBPの復号精度を向上させることに焦点を当てる。
まず,機械学習最適化技術にヒントを得たMomentum-BPとAdaGrad-BPを提案する。
さらに、初期確率を適応的に更新し、平面曲面符号、トーリック符号、XZZX曲面符号に対する従来のBPよりも1~3桁の精度向上を提供するEWAInit-BPを提案し、並列スケジューリングにおいても高い復号精度を示す。
並列スケジューリングとEWAInit-BPの高精度による$O(1)$時間複雑性は、高精度リアルタイムデコーダの候補となる。
一方、Momentum-BP、AdaGrad-BP、EWAInit-BPのアイデアは、BPの復号精度を改善するための有望なアプローチを提供し、後処理への依存を取り除く。
Quantum error correction is crucial for universal fault-tolerant quantum computing. Highly accurate and low-time-complexity decoding algorithms play an indispensable role in making sure quantum error correction works. Among existing decoding algorithms, belief propagation (BP) is notable for its nearly linear time complexity and general applicability to stabilizer codes. However, BP's decoding accuracy without post-processing is unsatisfactory in most situations. This article focuses on improving the decoding accuracy of BP over GF(4) for surface codes. We first propose Momentum-BP and AdaGrad-BP, inspired by machine learning optimization techniques, to reduce oscillation in message updating and break the symmetric trapping sets. We further propose EWAInit-BP, which adaptively updates initial probabilities and provides a 1 to 3 orders of magnitude improvement over traditional BP for planar surface code, toric code, and XZZX surface code without any post-processing method, showing high decoding accuracy even under parallel scheduling. The theoretical $O(1)$ time complexity under parallel scheduling and high accuracy of EWAInit-BP make it a promising candidate for high-precision real-time decoders. Meanwhile, the ideas of the Momentum-BP, AdaGrad-BP and EWAInit-BP provide promising approaches to improve the decoding accuracy of BP to get rid of its reliance on post-processing. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-03 |
# 合理化を用いたデータ中心の人間選好最適化
Data-Centric Human Preference Optimization with Rationales ( http://arxiv.org/abs/2407.14477v3 ) ライセンス: Link先を確認 | Hoang Anh Just, Ming Jin, Anit Sahu, Huy Phan, Ruoxi Jia, | (参考訳) 人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担います。
多くの研究は、そのようなデータからの学習を最適化するアルゴリズム技術を強化してきたが、この研究は、データ中心のアプローチによる嗜好学習の改善に焦点を移している。
具体的には、選択の背景にある理由を説明する機械生成論理を用いた既存の嗜好データセットの強化を提案する。
我々は、合理的な情報で現在の嗜好学習方法を強化するための、シンプルで原則化されたフレームワークを開発する。
我々の総合的な分析は、合理性が学習効率を高める方法を強調している。
データ効率を改善し、より高いパフォーマンスのモデルへの収束を加速し、冗長性バイアスと幻覚を減らす。
さらに、このフレームワークは様々な選好最適化アルゴリズムを統合するのに十分な汎用性がある。
全体としては、選好学習のためのデータ設計を再定義する可能性を強調し、自由に利用できる機械生成の合理性でさえ、複数の次元にわたる性能を著しく向上させることができることを示した。
コードリポジトリはhttps: //github.com/reds-lab/preference-learning-with-rationalesで入手できる。
Reinforcement learning from human feedback plays a crucial role in aligning language models towards human preferences, traditionally represented through comparisons between pairs or sets of responses within a given context. While many studies have enhanced algorithmic techniques to optimize learning from such data, this work shifts focus to improving preference learning through a data-centric approach. Specifically, we propose enriching existing preference datasets with machine-generated rationales that explain the reasons behind choices. We develop a simple and principled framework to augment current preference learning methods with rationale information. Our comprehensive analysis highlights how rationales enhance learning efficiency. Extensive experiments reveal that rationale-enriched preference learning offers multiple advantages: it improves data efficiency, accelerates convergence to higher-performing models, and reduces verbosity bias and hallucination. Furthermore, this framework is versatile enough to integrate with various preference optimization algorithms. Overall, our findings highlight the potential of re-imagining data design for preference learning, demonstrating that even freely available machine-generated rationales can significantly boost performance across multiple dimensions. The code repository is available at https: //github.com/reds-lab/preference-learning-with-rationales | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-03 |
# 非西洋文化を表現しながらAIモデルを出力する:コミュニティ中心のアプローチによるエビデンス
Do Generative AI Models Output Harm while Representing Non-Western Cultures: Evidence from A Community-Centered Approach ( http://arxiv.org/abs/2407.14779v3 ) ライセンス: Link先を確認 | Sourojit Ghosh, Pranav Narayanan Venkit, Sanjana Gautam, Shomir Wilson, Aylin Caliskan, | (参考訳) 本研究では,生成人工知能(GAI)モデル,特にテキスト・ツー・イメージ・ジェネレータ(T2Is)が非西洋文化の表現に与える影響を,インドの文脈に焦点をあてて検討した。
コンテンツ生成におけるT2Isのトランスフォーメーションの可能性にもかかわらず、誤った表現や限界化につながる可能性のあるバイアスに関する懸念が持ち上がっている。
コミュニティ中心のアプローチと、多様なインドのサブカルチャーからの5つの焦点グループの理論分析を通じて、インド文化とそのサブカルチャーをT2Iアウトプットがどう表現するかを探求し、エキゾチックや文化的不適切な文化といった新しい表現的害を明らかにする。
これらの知見は、包括的で文化的に敏感なT2Iシステムに対する緊急の必要性を浮き彫りにしている。
我々は,これらの課題に対処し,より公平で代表的なGAI技術の発展に寄与することを目指して,社会工学的な観点から情報提供されたデザインガイドラインを提案する。
我々の研究は、これらのモデルの社会技術的ダイナミクスを理解するために、コミュニティ中心のアプローチを採用することの必要性を強調し、この領域における既存の作業を補完するとともに、これらのモデルがグローバルな規模に展開されたときに生じる潜在的な負の反感と害を特定し、対処する。
Our research investigates the impact of Generative Artificial Intelligence (GAI) models, specifically text-to-image generators (T2Is), on the representation of non-Western cultures, with a focus on Indian contexts. Despite the transformative potential of T2Is in content creation, concerns have arisen regarding biases that may lead to misrepresentations and marginalizations. Through a community-centered approach and grounded theory analysis of 5 focus groups from diverse Indian subcultures, we explore how T2I outputs to English prompts depict Indian culture and its subcultures, uncovering novel representational harms such as exoticism and cultural misappropriation. These findings highlight the urgent need for inclusive and culturally sensitive T2I systems. We propose design guidelines informed by a sociotechnical perspective, aiming to address these issues and contribute to the development of more equitable and representative GAI technologies globally. Our work also underscores the necessity of adopting a community-centered approach to comprehend the sociotechnical dynamics of these models, complementing existing work in this space while identifying and addressing the potential negative repercussions and harms that may arise when these models are deployed on a global scale. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-03 |
# Dressed to Gamble: ポーカーはいかにしてウェアラブルのダイナミクスを駆動し、Decentralandのソーシャルバーチャルワールドを訪れるか
Dressed to Gamble: How Poker Drives the Dynamics of Wearables and Visits on Decentraland's Social Virtual World ( http://arxiv.org/abs/2407.15625v2 ) ライセンス: Link先を確認 | Amaury Trujillo, Clara Bacciu, Matteo Abrate, | (参考訳) Decentralandはブロックチェーンベースのソーシャルバーチャルワールドで、コミュニティが所有するクリエイティブなスペースだと言われている。
ユーザーはアバターをカスタマイズするために使用するウェアラブルをパブリッシュできる。
Decentral Games(DG)は、世界で有名なカジノを所有する単一のプロジェクトであり、同社の旗艦ゲームICE Pokerで暗号通貨を稼ぐために必要な、最も優れたウェアラブルを開発した。
本稿では,DG と ICE ポーカーがウェアラブルのダイナミクスや世界訪問にどのように影響するかを概観する。
この目的のために、Polygonブロックチェーン(および関連する販売)上での590万のウェアラブル転送を2年間にわたって分析し、オーバーラップした10ヶ月間に677万のユーザ位置のログイベントを分析した。
その結果,2つのICEポーカーカジノ(世界地図の0.1%未満)は,毎日のユニークビジター数(33%)と仮想世界での時間(20%)の非常に大きなシェアを占めていた。
Decentralandでは、いくつかの代替的な経済・芸術活動があり、その中には一般大衆から注目を集めているものもあるが、分析されたダイナミックスの主役は、サードパーティのオンラインポーカーゲームであるようだ。
我々の研究は、ソーシャルバーチャル世界でのユーザー行動の現在の理解に寄与し、バーチャルリアリティー空間におけるブロックチェーンベースのオンラインギャンブルの出現する現象を初めて研究している。
Decentraland is a blockchain-based social virtual world touted to be a creative space owned by its community. In it, users can publish wearables used to customize avatars, which can be then sold or given away via blockchain transfers. Decentral Games (DG), a single project owning prominent in-world casinos, has by far created the most wearables, necessary to earn cryptocurrency in its flagship game ICE Poker. Herein, we present a comprehensive study on how DG and ICE Poker influence the dynamics of wearables and in-world visits in Decentraland. To this end, we analyzed 5.9 million wearable transfers made on the Polygon blockchain (and related sales) over a two-year period, and 677 million log events of in-world user positions in an overlapping 10-month period. We found that the platform-wise number of transfers and sales monetary value of wearables were disproportionally related to DG, and that its two ICE Poker casinos (less than 0.1% of the world map) represented a very large average share of daily unique visitors (33%) and time spent in the virtual world (20%). Despite several alternative in-world economic and artistic initiatives in Decentraland, some of which have attracted much attention from the general public, a single third-party online poker game appears to be the main driver of the analyzed dynamics. Our work thus contributes to the current understanding of user behavior in social virtual worlds, and it is among the first to study the emerging phenomenon of blockchain-based online gambling in virtual reality spaces. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-03 |
# PyBench: さまざまな実世界のコーディングタスクにおけるLLMエージェントの評価
PyBench: Evaluating LLM Agent on various real-world coding tasks ( http://arxiv.org/abs/2407.16732v2 ) ライセンス: Link先を確認 | Yaolun Zhang, Yinxu Pan, Yudong Wang, Jie Cai, | (参考訳) LLMエージェントはコードインタプリタを備えており、データ解析や画像編集といった現実世界のコーディングタスクを自動的に解くことができる。
しかし、既存のベンチマークは主に、数行のコードを完成させたり、リポジトリレベルで非常に複雑で特定のタスクにフォーカスする。
このギャップに対処するために,10種類以上のファイルをカバーする,現実世界タスクの5つの主要なカテゴリを含むベンチマークである \textbf{PyBench} を紹介した。
高いレベルのユーザクエリと関連するファイルが与えられているため、LLM Agentは、ユーザの要求を満たすために正式な応答を行う前に、コードインタプリタを介してPythonコードを数回、推論し実行する必要がある。
PyBenchのタスクにうまく対処するには、さまざまなPythonパッケージの堅牢な理解、優れた推論機能、実行済みコードからのフィードバックを組み込む機能が必要である。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
したがって、PyBenchには包括的能力が必要であることを示す4種類のデータセットの分析と実験を行う。
我々の微調整された8Bサイズモデル: \textbf{PyLlama3} は、多くの33Bおよび70Bサイズモデルを超えるPyBench上でエキサイティングなパフォーマンスを達成する。
ベンチマーク、トレーニングデータセット、モデルは以下の通りである。
The LLM Agent, equipped with a code interpreter, is capable of automatically solving real-world coding tasks, such as data analysis and image editing. However, existing benchmarks primarily focus on either simplistic tasks, such as completing a few lines of code, or on extremely complex and specific tasks at the repository level, neither of which are representative of various daily coding tasks. To address this gap, we introduce \textbf{PyBench}, a benchmark encompassing five main categories of real-world tasks, covering more than 10 types of files. Given a high-level user query and related files, the LLM Agent needs to reason and execute Python code via a code interpreter for a few turns before making a formal response to fulfill the user's requirements. Successfully addressing tasks in PyBench demands a robust understanding of various Python packages, superior reasoning capabilities, and the ability to incorporate feedback from executed code. Our evaluations indicate that current open-source LLMs are struggling with these tasks. Hence, we conduct analysis and experiments on four kinds of datasets proving that comprehensive abilities are needed for PyBench. Our fine-tuned 8B size model: \textbf{PyLlama3} achieves an exciting performance on PyBench which surpasses many 33B and 70B size models. Our Benchmark, Training Dataset, and Model are available at: {https://github.com/Mercury7353/PyBench} | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-03 |
# コード中心のソフトウェア脆弱性の自動評価: どれくらいの距離にあるか? C/C++における実証的研究
Automated Code-centric Software Vulnerability Assessment: How Far Are We? An Empirical Study in C/C++ ( http://arxiv.org/abs/2407.17053v4 ) ライセンス: Link先を確認 | Anh The Nguyen, Triet Huynh Minh Le, M. Ali Babar, | (参考訳) 背景: C言語とC++言語は、実際に広く使われているため、ソフトウェア工学の研究において重要な役割を担っている。
機械学習(ML)とディープラーニング(DL)技術を使って、これらの言語で書かれたソースコードのソフトウェア脆弱性(SV)を検出する。
しかし,これらの手法を機能レベルのSV評価に適用することは,ほとんど研究されていない。
SVアセスメントは、セキュリティ欠陥の悪用性、影響、深刻さに関する詳細な情報を提供するため、ますます重要になっている。
Aims: C/C++における関数レベルのSV評価において,MLモデルとDLモデルの性能を調査・比較するための最初の実証的研究を行い,その多くをSV検出に用いた。
方法:9,993個の脆弱なC/C++関数を用いて,CVSS(Common Vulnerability Scoring System)に基づいて,SV評価のための6つの多クラスMLモデルと5つの多クラスDLモデルの性能評価を行った。
さらに、共通の脆弱なコードを利用して、単一のモデルで全てのSV評価出力を同時に予測できるマルチタスク学習について検討し、このモデルの有効性と効率を元のマルチクラスモデルと比較する。
結果: ML は,関数レベルの SV 評価のためのマルチクラス DL モデルと比較して,学習時間を大幅に短縮した,整合性や性能が向上していることが示唆された。
マルチタスク学習を利用することで、DLモデルは大幅に改善され、平均してマシューズ相関係数(MCC)は8-22%増加した。
結論: C/C++における関数レベルのSV評価にデータ駆動技術を用いるプラクティスを精査する。
これにより、この領域における将来の仕事の強力な基盤が確立できる。
Background: The C and C++ languages hold significant importance in Software Engineering research because of their widespread use in practice. Numerous studies have utilized Machine Learning (ML) and Deep Learning (DL) techniques to detect software vulnerabilities (SVs) in the source code written in these languages. However, the application of these techniques in function-level SV assessment has been largely unexplored. SV assessment is increasingly crucial as it provides detailed information on the exploitability, impacts, and severity of security defects, thereby aiding in their prioritization and remediation. Aims: We conduct the first empirical study to investigate and compare the performance of ML and DL models, many of which have been used for SV detection, for function-level SV assessment in C/C++. Method: Using 9,993 vulnerable C/C++ functions, we evaluated the performance of six multi-class ML models and five multi-class DL models for the SV assessment at the function level based on the Common Vulnerability Scoring System (CVSS). We further explore multi-task learning, which can leverage common vulnerable code to predict all SV assessment outputs simultaneously in a single model, and compare the effectiveness and efficiency of this model type with those of the original multi-class models. Results: We show that ML has matching or even better performance compared to the multi-class DL models for function-level SV assessment with significantly less training time. Employing multi-task learning allows the DL models to perform significantly better, with an average of 8-22% increase in Matthews Correlation Coefficient (MCC). Conclusions: We distill the practices of using data-driven techniques for function-level SV assessment in C/C++, including the use of multi-task DL to balance efficiency and effectiveness. This can establish a strong foundation for future work in this area. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-03 |
# 統一的知識蒸留による一般化可能な病理基盤モデルの構築に向けて
Towards A Generalizable Pathology Foundation Model via Unified Knowledge Distillation ( http://arxiv.org/abs/2407.18449v2 ) ライセンス: Link先を確認 | Jiabo Ma, Zhengrui Guo, Fengtao Zhou, Yihui Wang, Yingxue Xu, Yu Cai, Zhengjie Zhu, Cheng Jin, Yi Lin, Xinrui Jiang, Anjia Han, Li Liang, Ronald Cheong Kin Chan, Jiguang Wang, Kwang-Ting Cheng, Hao Chen, | (参考訳) 大規模データセットで事前訓練された基礎モデルは、計算病理学(CPath)の分野に革命をもたらしている。
ファンデーションモデルの一般化能力は、様々な下流臨床タスクの成功に不可欠である。
しかし、現在の基礎モデルは限定型とタスク数でのみ評価されており、その一般化能力と全体的な性能は明らかになっていない。
このギャップに対処するために、我々は6つの異なる臨床タスクタイプにまたがる既成基礎モデルの性能を評価するために、39の特定のタスクを含む最も包括的なベンチマークを構築した。
以上の結果から,既存の基礎モデルは特定のタスクタイプに優れるが,臨床の幅広いタスクを効果的に扱うのに苦慮していることが明らかとなった。
病理基盤モデルの一般化を改善するため, 専門知識蒸留と自己知識蒸留の両方からなる統合知識蒸留フレームワークを提案し, 後者では, 複数の専門家モデルの知識からモデルを学習し, 後者では自己蒸留を活用して局所的グローバルアライメントによる画像表現学習を実現する。
このフレームワークに基づいて、GPFM(Generalizable Pathology Foundation Model)は、34の組織タイプにわたる約86,000の公開H&Eスライドから1億9000万の画像からなる大規模なデータセットで事前訓練される。
GPFMは、確立されたベンチマークに基づいて、29のタスクが1位、29のタスクが1位、平均2.96のモデルが4つのタスクのみが1位となっている。
GPFMのより優れた一般化は、CPathにおける特徴表現のための新しい基盤として位置づけられ、その異常なモデリング能力を幅広い臨床タスクにわたって示している。
Foundation models pretrained on large-scale datasets are revolutionizing the field of computational pathology (CPath). The generalization ability of foundation models is crucial for the success in various downstream clinical tasks. However, current foundation models have only been evaluated on a limited type and number of tasks, leaving their generalization ability and overall performance unclear. To address this gap, we established a most comprehensive benchmark to evaluate the performance of off-the-shelf foundation models across six distinct clinical task types, encompassing a total of 39 specific tasks. Our findings reveal that existing foundation models excel at certain task types but struggle to effectively handle the full breadth of clinical tasks. To improve the generalization of pathology foundation models, we propose a unified knowledge distillation framework consisting of both expert and self knowledge distillation, where the former allows the model to learn from the knowledge of multiple expert models, while the latter leverages self-distillation to enable image representation learning via local-global alignment. Based on this framework, a Generalizable Pathology Foundation Model (GPFM) is pretrained on a large-scale dataset consisting of 190 million images from around 86,000 public H&E whole slides across 34 major tissue types. Evaluated on the established benchmark, GPFM achieves an impressive average rank of 1.36, with 29 tasks ranked 1st, while the the second-best model, UNI, attains an average rank of 2.96, with only 4 tasks ranked 1st. The superior generalization of GPFM demonstrates its exceptional modeling capabilities across a wide range of clinical tasks, positioning it as a new cornerstone for feature representation in CPath. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-03 |
# 三元認証方式による複数要素認証の代替
An Alternative to Multi-Factor Authentication with a Triple-Identity Authentication Scheme ( http://arxiv.org/abs/2407.19459v2 ) ライセンス: Link先を確認 | Suyun Borjigin, | (参考訳) 全てのユーザ認証方式は、ユーザ名、パスワード、ハッシュ値の3つのログイン認証を含むが、そのうちの1つだけがユーザーIDに関連付けられている。
しかし、この単一IDはシステム全体を保護するのに十分な堅牢性を持っておらず、ログインエントリ(ユーザ名とパスワードフォーム)は効果的に認証されていない。
そのため、ユーザに対して第2のファクタを送信することで、アカウントのセキュリティを保証するために、多要素認証サービスを利用する。
2つのログインフォームにより多くのIDを使用すれば、すべてのログインクレデンシャルを関連付けることができ、それに対応する識別子がネットワークを介して送信されず、ユーザによって操作されない場合、そのようなシステムはサードパーティのサービスに頼ることなく、より堅牢になる。
この目的のために、ユーザ名とログインパスワードのIDをそれぞれ定義したデュアルパスワードログイン認証システム内に、トリプルID認証方式を設計する。
そのため、従来のサーバ検証に加えて、ユーザ名とパスワードフォームの識別子を順次検証することができる。
トリプルID認証では、識別子はユーザーやサードパーティのサービスに一切関与せずにシステムによって完全に管理され、隠蔽され、通信不能で、アクセス不能で、個人情報から独立している。
そのため、オンライン攻撃では役に立たない。
Every user authentication scheme involves three login credentials, i.e. a username, a password and a hash value, but only one of them is associated with a user identity. However, this single identity is not robust enough to protect the whole system and the login entries (i.e., the username and password forms) have not been effectively authenticated. Therefore, a multi-factor authentication service is utilized to help guarantee the account security by transmitting a second factor to the user to use. If more identities can be employed for the two login forms to associate with all login credentials, and if the corresponding identifiers are not transmitted via the network and operated by users, such a system can be more robust even without relying on a third-party service. To this end, a triple-identity authentication scheme is designed within a dual-password login-authentication system, which defines identities for the username and the login password, respectively. Therefore, in addition to the traditional server verification, the system can verify the identifiers at the username and password forms in succession. In the triple-identity authentication, the identifiers are entirely managed by the system without involvement of users or any third-party service, and they are concealed, incommunicable, inaccessible and independent of personal information. Thus, they are useless in online attacks. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-03 |
# VersusDebias: SLMベースのプロンプトエンジニアリングとジェネレーティブ・アドバイザリーによるテキスト・ツー・イメージモデルのためのユニバーサルゼロショットデバイアス
VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary ( http://arxiv.org/abs/2407.19524v2 ) ライセンス: Link先を確認 | Hanjun Luo, Ziye Deng, Haoyu Huang, Xuecheng Liu, Ruizhe Chen, Zuozhu Liu, | (参考訳) テキスト・ツー・イメージ・モデルの急速な発展に伴い、人口集団に対する人間の画像生成のバイアスがますます関心を惹きつける。
既存の手法は、一定のプロンプトを持つ特定のモデルに基づいて設計されており、実用シーンにおけるテキスト・ツー・イメージ(T2I)モデルの高速更新や可変プロンプトの傾向に適応できない。
さらに、幻覚の可能性を考慮することができず、期待された結果と実際の結果の間に偏りが生じる。
この問題に対処するために、我々は、T2Iモデルにおけるバイアスの新しい普遍的脱バイアスフレームワークであるVersusDebiasを紹介した。
自己適応型GAMは、T2Iモデルから幻覚の影響を減少させるプロンプト毎に特別な属性アレイを生成する。
SLMはプロンプトエンジニアリングを使用してT2Iモデルのデバイアスドプロンプトを生成し、異なるモデルのゼロショットデバイアス機能とカスタム最適化を提供する。
大規模な実験は、VersusDebiasの性、人種、年齢など、複数の保護された属性にわたる任意のモデルのバイアスを同時に修正する能力を実証している。
さらにVersusDebiasは、ゼロショットと少数ショットの両方の状況において既存の手法よりも優れており、その異常な実用性を示している。
私たちの仕事は、再現性を確保するために、オープンに研究コミュニティにアクセスできます。
With the rapid development of Text-to-Image models, biases in human image generation against demographic groups social attract more and more concerns. Existing methods are designed based on certain models with fixed prompts, unable to accommodate the trend of high-speed updating of Text-to-Image (T2I) models and variable prompts in practical scenes. Additionally, they fail to consider the possibility of hallucinations, leading to deviations between expected and actual results. To address this issue, we introduce VersusDebias, a novel and universal debiasing framework for biases in T2I models, consisting of one generative adversarial mechanism (GAM) and one debiasing generation mechanism using a small language model (SLM). The self-adaptive GAM generates specialized attribute arrays for each prompts for diminishing the influence of hallucinations from T2I models. The SLM uses prompt engineering to generate debiased prompts for the T2I model, providing zero-shot debiasing ability and custom optimization for different models. Extensive experiments demonstrate VersusDebias's capability to rectify biases on arbitrary models across multiple protected attributes simultaneously, including gender, race, and age. Furthermore, VersusDebias outperforms existing methods in both zero-shot and few-shot situations, illustrating its extraordinary utility. Our work is openly accessible to the research community to ensure the reproducibility. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-03 |
# AOTree: Aspect Order Tree-based Model for Explainable Recommendation
AOTree: Aspect Order Tree-based Model for Explainable Recommendation ( http://arxiv.org/abs/2407.19937v2 ) ライセンス: Link先を確認 | Wenxin Zhao, Peng Zhang, Hansu Gu, Dongsheng Li, Tun Lu, Ning Gu, | (参考訳) 近年のレコメンデーションシステムは、正確なレコメンデーションだけでなく、ユーザがより理解しやすい説明を提供することを目指している。
しかし、既存の説明可能なレコメンデーションのほとんどは、言葉やアスペクトなどのレビューにおけるコンテンツの重要性を考慮し、それら間の順序付け関係を無視するのみである。
この監視は、人間の意思決定プロセスにおいて重要な順序付けの次元を無視し、最適以下のパフォーマンスをもたらす。
そこで本稿では,認知・決定心理学のオーダーエフェクト理論にインスパイアされたAOTree(Aspect Order Tree-based, AOTree)の推奨手法を提案する。
まず,ユーザのレビューを分析し,推薦シナリオにおける理論の検証を行う。
そして,提案したAOTreeは,ユーザの意思決定プロセスにおけるアスペクトの順序を捉えるために決定木の構築を拡張し,アスペクトの順序に基づいてアテンションメカニズムを用いて予測を行う。
本手法は, 評価予測における評価の有効性を実証し, 特定の順序で説明を表示することによって, ユーザの意思決定プロセスと一貫した整合性を示し, 解釈可能性を高める。
Recent recommender systems aim to provide not only accurate recommendations but also explanations that help users understand them better. However, most existing explainable recommendations only consider the importance of content in reviews, such as words or aspects, and ignore the ordering relationship among them. This oversight neglects crucial ordering dimensions in the human decision-making process, leading to suboptimal performance. Therefore, in this paper, we propose Aspect Order Tree-based (AOTree) explainable recommendation method, inspired by the Order Effects Theory from cognitive and decision psychology, in order to capture the dependency relationships among decisive factors. We first validate the theory in the recommendation scenario by analyzing the reviews of the users. Then, according to the theory, the proposed AOTree expands the construction of the decision tree to capture aspect orders in users' decision-making processes, and use attention mechanisms to make predictions based on the aspect orders. Extensive experiments demonstrate our method's effectiveness on rating predictions, and our approach aligns more consistently with the user' s decision-making process by displaying explanations in a particular order, thereby enhancing interpretability. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-03 |
# 局在系における熱化伝播前線と雪崩に対するロバスト性
Thermalization propagation front and robustness against avalanches in localized systems ( http://arxiv.org/abs/2407.20985v2 ) ライセンス: Link先を確認 | Annarita Scocco, Gianluca Passarelli, Mario Collura, Procolo Lucignano, Angelo Russomanno, | (参考訳) 本研究は,多体局在化(MBL)相の量子-アバランシェ不安定性に対するロバスト性について,その最左端でT=\infty$熱浴に結合した局在化スピン鎖のダイナミクスを調べた。
局所磁化を解析することにより、鎖の熱化セクターのサイズを推定し、時間とともに対数的に増加することが分かる。
この対数的に遅い熱化面の伝播により、最も遅い熱化時間の境界を低くすることができ、MBLが雪崩によって誘導される熱化に対して堅牢であるようなシステムサイズと十分に高速にスケールする広いパラメータ範囲を求めることができる。
局所性を測定するグローバルな量である不均衡が、障害強度とシステムサイズの両方において指数関数的に時間スケールで熱化されることは、これらの結果と一致している。
We investigate the robustness of the many-body localized (MBL) phase to the quantum-avalanche instability by studying the dynamics of a localized spin chain coupled to a $T=\infty$ thermal bath through its leftmost site. By analyzing local magnetizations, we estimate the size of the thermalized sector of the chain and find that it increases logarithmically slowly in time. This logarithmically slow propagation of the thermalization front allows us to lower bound the slowest thermalization time, and find a broad parameter range where it scales fast enough with the system size that MBL is robust against thermalization induced by avalanches. The further finding that the imbalance -- a global quantity measuring localization -- thermalizes over a time scale exponential both in disorder strength and system size is in agreement with these results. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-03 |
# MSA$^2$Net:医療画像セグメンテーションのためのマルチスケール適応注意誘導ネットワーク
MSA$^2$Net: Multi-scale Adaptive Attention-guided Network for Medical Image Segmentation ( http://arxiv.org/abs/2407.21640v2 ) ライセンス: Link先を確認 | Sina Ghorbani Kolahi, Seyed Kamal Chaharsooghi, Toktam Khatibi, Afshin Bozorgpour, Reza Azad, Moein Heidari, Ilker Hacihaliloglu, Dorit Merhof, | (参考訳) 医用画像のセグメンテーションは、様々な組織や構造を規定するために、医療画像中のオブジェクトのインスタンスを特定し、分離することを含む。
畳み込みニューラルネットワーク(CNN)は伝統的にこのタスクに用いられてきたが、長距離依存関係のキャプチャには制限がある。
自己注意機構を備えた変圧器は,この問題に対処することを目的としている。
しかし、医用画像のセグメンテーションにおいて、局所的特徴とグローバル的特徴を融合して、様々なスケールにわたる特徴マップを効果的に統合し、構造の変化を扱うための詳細な特徴とより広い意味要素の両方を捉えることは有益である。
本稿では,スキップ接続の迅速設計を特徴とする新しいディープセグメンテーションフレームワークであるMSA$^2$Netを紹介する。
これらの接続は、粗いエンコーダ特徴ときめ細かいデコーダ特徴写像を動的に重み付けし結合することによって特徴融合を促進する。
具体的には,マルチスケール適応型空間注意ゲート (MASAG) を提案し,背景の乱れを最小限に抑えつつ,空間的特徴が選択的に強調されるように受容場(局所的・グローバル的文脈情報)を動的に調整する。
皮膚科学および放射線学的データセットを含む広範囲な評価は、我々のMSA$^2$Netが、最先端(SOTA)の動作またはその性能に匹敵することを示した。
ソースコードはhttps://github.com/xmindflow/MSA-2Netで公開されている。
Medical image segmentation involves identifying and separating object instances in a medical image to delineate various tissues and structures, a task complicated by the significant variations in size, shape, and density of these features. Convolutional neural networks (CNNs) have traditionally been used for this task but have limitations in capturing long-range dependencies. Transformers, equipped with self-attention mechanisms, aim to address this problem. However, in medical image segmentation it is beneficial to merge both local and global features to effectively integrate feature maps across various scales, capturing both detailed features and broader semantic elements for dealing with variations in structures. In this paper, we introduce MSA$^2$Net, a new deep segmentation framework featuring an expedient design of skip-connections. These connections facilitate feature fusion by dynamically weighting and combining coarse-grained encoder features with fine-grained decoder feature maps. Specifically, we propose a Multi-Scale Adaptive Spatial Attention Gate (MASAG), which dynamically adjusts the receptive field (Local and Global contextual information) to ensure that spatially relevant features are selectively highlighted while minimizing background distractions. Extensive evaluations involving dermatology, and radiological datasets demonstrate that our MSA$^2$Net outperforms state-of-the-art (SOTA) works or matches their performance. The source code is publicly available at https://github.com/xmindflow/MSA-2Net. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-03 |
# データ駆動型機械学習による病院内セプシスの死亡予測
Data-Driven Machine Learning Approaches for Predicting In-Hospital Sepsis Mortality ( http://arxiv.org/abs/2408.01612v1 ) ライセンス: Link先を確認 | Arseniy Shumilov, Yueting Zhu, Negin Ashrafi, Gaojie Lian, Shilong Ren, Maryam Pishgar, | (参考訳) 背景: セプシスは世界中で多くの死者を負う重篤な状態である。
敗血症の正確な予測は、タイムリーかつ効果的な治療に不可欠である。
過去の研究ではMLを用いて結果を予測するが、特徴選択とモデル理解の制限に直面しており、その結果、より効果的な予測が得られなかった。
そこで本研究では,臨床専門家が院内死亡を予測できるように,解釈可能かつ正確なMLモデルを開発することを目的とする。
方法: 特定基準に基づいてMIMIC-IIIデータベースからICU患者の記録を分析し, 関連データを抽出した。
特徴選択プロセスには文献レビュー,臨床入力改善,ランダムフォレストを用いたトップ35機能の選択などが含まれていた。
クリーニング,インキュベーション,標準化などのデータ前処理を行い,SMOTEをオーバーサンプリングして不均衡に対処した患者は4,683人,入院回数17,429人であった。
我々はランダムフォレスト、グラディエントブースティング、ロジスティック回帰、SVM、KNNモデルの性能を比較した。
結果: ランダムフォレストモデルは, 敗血症関連院内死亡率の予測に最も有効であった。
他のモデルよりも優れており、精度は0.90、AUROCは0.97と、既存の文献よりも大幅に向上した。
我々の細かな特徴選択はモデルの精度に寄与し、敗血症の致命的な決定要因を同定した。
これらの結果は、特に敗血症による院内死亡の予測において、医療におけるデータ駆動型MLの重要な役割を浮き彫りにした。
結論: 本研究は, 院内敗血症死亡率の予測において著しい進歩を示し, 医療におけるMLの可能性を強調した。
この意味は深く、患者のケアにおける意思決定を高め、病院での死亡率を下げるデータ駆動型アプローチを提供する。
Background: Sepsis is a severe condition responsible for many deaths worldwide. Accurate prediction of sepsis outcomes is crucial for timely and effective treatment. Although previous studies have used ML to forecast outcomes, they faced limitations in feature selection and model comprehensibility, resulting in less effective predictions. Thus, this research aims to develop an interpretable and accurate ML model to help clinical professionals predict in-hospital mortality. Methods: We analyzed ICU patient records from the MIMIC-III database based on specific criteria and extracted relevant data. Our feature selection process included a literature review, clinical input refinement, and using Random Forest to select the top 35 features. We performed data preprocessing, including cleaning, imputation, standardization, and applied SMOTE for oversampling to address imbalance, resulting in 4,683 patients, with admission counts of 17,429. We compared the performance of Random Forest, Gradient Boosting, Logistic Regression, SVM, and KNN models. Results: The Random Forest model was the most effective in predicting sepsis-related in-hospital mortality. It outperformed other models, achieving an accuracy of 0.90 and an AUROC of 0.97, significantly better than the existing literature. Our meticulous feature selection contributed to the model's precision and identified critical determinants of sepsis mortality. These results underscore the pivotal role of data-driven ML in healthcare, especially for predicting in-hospital mortality due to sepsis. Conclusion: This study represents a significant advancement in predicting in-hospital sepsis mortality, highlighting the potential of ML in healthcare. The implications are profound, offering a data-driven approach that enhances decision-making in patient care and reduces in-hospital mortality. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# メンタルヘルス・プレスクリニングの促進 : 心理的距離評価のための新しいカスタムGPT
Advancing Mental Health Pre-Screening: A New Custom GPT for Psychological Distress Assessment ( http://arxiv.org/abs/2408.01614v1 ) ライセンス: Link先を確認 | Jinwen Tang, Yi Shang, | (参考訳) 本研究は,OpenAIのGPT-4をベースとしたカスタムGPTモデルである「サイコアナリティスト」について紹介する。
DSM-5、PHQ-8、詳細なデータ記述、広範囲なトレーニングデータで強化されたモデルは、精神疾患のニュアンス言語指標を正しくデコードする。
バイナリ分類と3段階のPHQ-8スコア計算を含むデュアルタスクフレームワークを使用し、初期評価、詳細な分析、独立評価、洗練された分析能力を示す。
DAIC-WOZデータセットによる検証では、PHQ-8ではF1とMacro-F1のスコアが0.929、RMSEのスコアが2.89、RMSEのスコアが3.69である。
これらの結果は、一般のメンタルヘルスサポートの強化、アクセシビリティの向上、費用対効果の向上、そしてプロフェッショナルにとっての第2の意見として、モデルの精度と変革の可能性を強調している。
This study introduces 'Psycho Analyst', a custom GPT model based on OpenAI's GPT-4, optimized for pre-screening mental health disorders. Enhanced with DSM-5, PHQ-8, detailed data descriptions, and extensive training data, the model adeptly decodes nuanced linguistic indicators of mental health disorders. It utilizes a dual-task framework that includes binary classification and a three-stage PHQ-8 score computation involving initial assessment, detailed breakdown, and independent assessment, showcasing refined analytic capabilities. Validation with the DAIC-WOZ dataset reveals F1 and Macro-F1 scores of 0.929 and 0.949, respectively, along with the lowest MAE and RMSE of 2.89 and 3.69 in PHQ-8 scoring. These results highlight the model's precision and transformative potential in enhancing public mental health support, improving accessibility, cost-effectiveness, and serving as a second opinion for professionals. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# MedUHIP: 医療セグメントの人間化に向けて
MedUHIP: Towards Human-In-the-Loop Medical Segmentation ( http://arxiv.org/abs/2408.01620v1 ) ライセンス: Link先を確認 | Jiayuan Zhu, Junde Wu, | (参考訳) 自然画像のセグメンテーションは目覚ましい性能を示したが、これらの技術は医用画像セグメンテーションに直接適用することはできない。
医用画像のセグメンテーションは、固有の不確実性によって特に複雑である。
例えば、組織の曖昧な境界は、異なる臨床医の多様だがもっともらしいアノテーションにつながる可能性がある。
これらの不確実性は臨床解釈に重大な違いをもたらし、その後の医療介入に影響を及ぼす。
したがって,不確実な医用画像から定量的なセグメンテーションを実現することは臨床実践において重要である。
この問題に対処するため,新しいアプローチを提案し,そのアプローチは \textbf{uncertainty-aware model} と \textbf{ Human-in-the-loop interaction} を統合する。
不確実性認識モデルは、医療画像に固有の不確実性に対処するために、いくつかの妥当なセグメンテーションを提案し、一方、ヒトとループ間の相互作用は、臨床監督下でのセグメンテーションを反復的に修正する。
この協調モデルは、セグメンテーションが自動化技術にのみ依存するのではなく、臨床の専門知識によって洗練されることを保証する。
その結果,医用画像のセグメンテーションの安全性が向上する分野において,本手法は大きな進歩を示している。
それは、固有の不確実な医療画像から定量的セグメンテーションを生成するための包括的なソリューションを提供するだけでなく、アルゴリズムの精度とクリニア知識の相乗的バランスを確立する。
提案手法は,REFUGE2,LIDC-IDRI,QUBIQなど,公開されている多言語アノテートデータセットを用いて評価した。
提案手法は,決定論的および不確実性を考慮したモデルよりも優れたセグメンテーション能力を示す。
また,従来の対話型モデルと比較して,インタラクションの少ないモデルの方が有意に優れた結果が得られることを示した。
この分野のさらなる研究を促進するために、コードを公開します。
Although segmenting natural images has shown impressive performance, these techniques cannot be directly applied to medical image segmentation. Medical image segmentation is particularly complicated by inherent uncertainties. For instance, the ambiguous boundaries of tissues can lead to diverse but plausible annotations from different clinicians. These uncertainties cause significant discrepancies in clinical interpretations and impact subsequent medical interventions. Therefore, achieving quantitative segmentations from uncertain medical images becomes crucial in clinical practice. To address this, we propose a novel approach that integrates an \textbf{uncertainty-aware model} with \textbf{human-in-the-loop interaction}. The uncertainty-aware model proposes several plausible segmentations to address the uncertainties inherent in medical images, while the human-in-the-loop interaction iteratively modifies the segmentation under clinician supervision. This collaborative model ensures that segmentation is not solely dependent on automated techniques but is also refined through clinician expertise. As a result, our approach represents a significant advancement in the field which enhances the safety of medical image segmentation. It not only offers a comprehensive solution to produce quantitative segmentation from inherent uncertain medical images, but also establishes a synergistic balance between algorithmic precision and clincian knowledge. We evaluated our method on various publicly available multi-clinician annotated datasets: REFUGE2, LIDC-IDRI and QUBIQ. Our method showcases superior segmentation capabilities, outperforming a wide range of deterministic and uncertainty-aware models. We also demonstrated that our model produced significantly better results with fewer interactions compared to previous interactive models. We will release the code to foster further research in this area. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# 人中心のソフトウェア欠陥の管理:GitHubからの洞察と実践者の視点
Managing Human-Centric Software Defects: Insights from GitHub and Practitioners' Perspectives ( http://arxiv.org/abs/2408.01621v1 ) ライセンス: Link先を確認 | Vedant Chauhan, Chetan Arora, Hourieh Khalajzadeh, John Grundy, | (参考訳) コンテキスト:HCD(Human-centric defects)は、性別、年齢、文化、言語、障害、社会経済的地位、教育的背景など、エンドユーザの認識や違いによってしばしば生じるニュアンスで主観的な欠陥である。
開発チームはこれらの問題に対する理解が限られており、これらの欠陥を無視することになります。
欠陥報告ツールは、HCDのキャプチャと修正を適切に処理しない。
目的:本研究は、現在の欠陥報告プロセスと欠陥管理ツールを理解することを目的としている。
本研究の目的は,プロセスの欠陥を把握し,ソフトウェア工学におけるHCDの報告と修正を改善する欠陥報告ツールの予備的な欠陥分類とプラクティスを作成することである。
方法: 私たちはまず、GitHubの欠陥報告ツールから1100のオープンソース問題を手作業で分類し、人中心の欠陥を特定し、報告された欠陥のカテゴリを理解するようにしました。
その後、ソフトウェアエンジニアリングの実践者たちに、GitHubの欠陥分析から得られた結果に対するフィードバックを求め、欠陥報告プロセスの知識と経験と、人中心の欠陥を管理するツールを評価させた。
結果:ITヘルス、IT-Web、IT-Spatial、IT-Manufacturing、IT-Finance、IT-Gamingの6つの領域で1,100のオープンソースイシューから176のHCDを特定しました。
さらに、ソフトウェア実践者15人にインタビューして、現在の欠陥報告プロセスの欠点を特定し、これらの弱点に対処するためのプラクティスを決定しました。
結論: オープンソースリポジトリに存在するHCDはかなり技術的であり、認識の欠如と欠陥報告の不適切なため、ソフトウェア実践者には大きな課題があります。
しかし,本研究の一環として開発された理想的な欠陥報告ツールを実践することで,HCDの管理を向上することができる。
Context: Human-centric defects (HCDs) are nuanced and subjective defects that often occur due to end-user perceptions or differences, such as their genders, ages, cultures, languages, disabilities, socioeconomic status, and educational backgrounds. Development teams have a limited understanding of these issues, which leads to the neglect of these defects. Defect reporting tools do not adequately handle the capture and fixing of HCDs. Objective: This research aims to understand the current defect reporting process and tools for managing defects. Our study aims to capture process flaws and create a preliminary defect categorisation and practices of a defect-reporting tool that can improve the reporting and fixing of HCDs in software engineering. Method: We first manually classified 1,100 open-source issues from the GitHub defect reporting tool to identify human-centric defects and to understand the categories of such reported defects. We then interviewed software engineering practitioners to elicit feedback on our findings from the GitHub defects analysis and gauge their knowledge and experience of the defect-reporting process and tools for managing human-centric defects. Results: We identified 176 HCDs from 1,100 open-source issues across six domains: IT-Healthcare, IT-Web, IT-Spatial, IT-Manufacturing, IT-Finance, and IT-Gaming. Additionally, we interviewed 15 software practitioners to identify shortcomings in the current defect reporting process and determine practices for addressing these weaknesses. Conclusion: HCDs present in open-source repositories are fairly technical, and due to the lack of awareness and improper defect reports, they present a major challenge to software practitioners. However, the management of HCDs can be enhanced by implementing the practices for an ideal defect reporting tool developed as part of this study. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# 専門家による非線形連続制約関数推定のためのPUCL(Positive-Unlabeled Constraint Learning)
Positive-Unlabeled Constraint Learning (PUCL) for Inferring Nonlinear Continuous Constraints Functions from Expert Demonstrations ( http://arxiv.org/abs/2408.01622v1 ) ライセンス: Link先を確認 | Baiyu Peng, Aude Billard, | (参考訳) 幅広い現実世界のロボットタスクの計画には、すべての制約を知って記述する必要がある。
しかし、これらの制約が未知であるか、正確に指定することが難しいインスタンスが存在する。
可能な解決策は、専門家のデモンストレーションから未知の制約を推測することである。
本稿では,従来の制約パラメータ化や環境モデルの事前知識を必要とせず,実証から連続的な任意の制約関数を推論する,ポジティブ・アンラベル制約学習(PUCL)アルゴリズムを提案する。
フレームワーク内では、すべてのデータをポジティブな(実現可能な)データとして扱うとともに、ラベルなしのデータとして機能する潜在的に不可能なトラジェクトリを生成するための制御ポリシーを学ぶ。
各イテレーションにおいて、まずポリシーを更新し、次に2段階の正の非ラベル学習手順を適用し、まず距離メトリックを用いて信頼できないデータを識別し、次に、実現不可能な実演と信頼できないデータから二元的可能性分類器(すなわち制約関数)を学習する。
提案するフレームワークは,複雑な制約境界の学習に柔軟であり,実証を従来の方法と誤って区別するものではない。
提案手法の有効性は,ネットワーク化ポリシや動的システムポリシを用いて,3つのロボットタスクで検証される。
連続的な非線形制約を推論し、転送し、制約精度とポリシー安全性の点で他のベースライン法より優れている。
Planning for a wide range of real-world robotic tasks necessitates to know and write all constraints. However, instances exist where these constraints are either unknown or challenging to specify accurately. A possible solution is to infer the unknown constraints from expert demonstration. This paper presents a novel Positive-Unlabeled Constraint Learning (PUCL) algorithm to infer a continuous arbitrary constraint function from demonstration, without requiring prior knowledge of the true constraint parameterization or environmental model as existing works. Within our framework, we treat all data in demonstrations as positive (feasible) data, and learn a control policy to generate potentially infeasible trajectories, which serve as unlabeled data. In each iteration, we first update the policy and then a two-step positive-unlabeled learning procedure is applied, where it first identifies reliable infeasible data using a distance metric, and secondly learns a binary feasibility classifier (i.e., constraint function) from the feasible demonstrations and reliable infeasible data. The proposed framework is flexible to learn complex-shaped constraint boundary and will not mistakenly classify demonstrations as infeasible as previous methods. The effectiveness of the proposed method is verified in three robotic tasks, using a networked policy or a dynamical system policy. It successfully infers and transfers the continuous nonlinear constraints and outperforms other baseline methods in terms of constraint accuracy and policy safety. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# 拘束性LLM型チャットボットのためのダイアログフロー誘導
Dialog Flow Induction for Constrainable LLM-Based Chatbots ( http://arxiv.org/abs/2408.01623v1 ) ライセンス: Link先を確認 | Stuti Agrawal, Nishi Uppuluri, Pranav Pillai, Revanth Gangi Reddy, Zoey Li, Gokhan Tur, Dilek Hakkani-Tur, Heng Ji, | (参考訳) LLM駆動ダイアログシステムは、医療からカスタマーサービスまで、さまざまなアプリケーションで使用されている。
しかし、それらの一般化能力を考えると、これらのチャットボットが特定のドメインの境界内に留まっていることを保証することは困難であり、不正確な情報や無関係な応答をもたらす可能性がある。
本稿では,LLMベースのチャットボットを制約するドメイン固有のダイアログフローを自動生成するための教師なしアプローチを提案する。
ドメイン内会話インスタンスの可用性に基づいた対話フローの2つのバリエーションを紹介する。
様々なダイアログドメインに対する人的および自動評価を通じて、高品質なデータ誘導ダイアログフローがドメインカバレッジの向上を実現し、そのようなフローを広範囲に手作業で作成する必要性を克服できることを実証する。
LLM-driven dialog systems are used in a diverse set of applications, ranging from healthcare to customer service. However, given their generalization capability, it is difficult to ensure that these chatbots stay within the boundaries of the specialized domains, potentially resulting in inaccurate information and irrelevant responses. This paper introduces an unsupervised approach for automatically inducing domain-specific dialog flows that can be used to constrain LLM-based chatbots. We introduce two variants of dialog flow based on the availability of in-domain conversation instances. Through human and automatic evaluation over various dialog domains, we demonstrate that our high-quality data-guided dialog flows achieve better domain coverage, thereby overcoming the need for extensive manual crafting of such flows. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# JambaTalk:ハイブリッドトランスフォーマー-マンバ言語モデルに基づく音声駆動型3次元トーキングヘッド生成
JambaTalk: Speech-Driven 3D Talking Head Generation Based on Hybrid Transformer-Mamba Language Model ( http://arxiv.org/abs/2408.01627v1 ) ライセンス: Link先を確認 | Farzaneh Jafari, Stefano Berretti, Anup Basu, | (参考訳) 近年,音声の音声生成が研究者の焦点となっている。
リップシンクの動きを洗練させ、表情をキャプチャし、自然な頭部のポーズを生成し、高い画質を実現するために、考慮すべき努力がなされている。
しかし、これらの指標全てに同値性を持つモデルはまだ存在しない。
本稿では,ハイブリッドトランスフォーマー・マンバモデルであるJambaを用いて3次元顔のアニメーションを作成することを目的とする。
構造化状態空間モデル(Structured State Space Model, SSM)アーキテクチャのパイオニアであるMambaは、従来のTransformerアーキテクチャの制約に対処するために設計された。
しかし、いくつかの欠点がある。
JambaはTransformerとMambaの両アプローチの利点を融合し、全体的なソリューションを提供する。
基礎となるJambaブロックに基づいて、マルチモーダル統合による動きの多様性と速度を高めるためにJambaTalkを提案する。
実験の結果,本手法は最先端モデルに匹敵する性能,あるいは優れた性能を達成できることがわかった。
In recent years, talking head generation has become a focal point for researchers. Considerable effort is being made to refine lip-sync motion, capture expressive facial expressions, generate natural head poses, and achieve high video quality. However, no single model has yet achieved equivalence across all these metrics. This paper aims to animate a 3D face using Jamba, a hybrid Transformers-Mamba model. Mamba, a pioneering Structured State Space Model (SSM) architecture, was designed to address the constraints of the conventional Transformer architecture. Nevertheless, it has several drawbacks. Jamba merges the advantages of both Transformer and Mamba approaches, providing a holistic solution. Based on the foundational Jamba block, we present JambaTalk to enhance motion variety and speed through multimodal integration. Extensive experiments reveal that our method achieves performance comparable or superior to state-of-the-art models. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# エッジ状態ポンプにおけるランダウ・ツェナー・シュテュッケルベルク干渉
Landau-Zener-Stückelberg interference in edge state pumping ( http://arxiv.org/abs/2408.01629v1 ) ライセンス: Link先を確認 | Y. Liu, Xiaoshui Lin, Ming Gong, | (参考訳) 1次元モデルにおける断熱エッジ状態ポンプ (ESP) は、トポロジカル相転移と量子シミュレーションにおけるエッジ状態の関連実装において重要な応用を持つものであり、理論と実験の両方で広く行われている。
この現象はいくつかの小さな物理モデルで検証されているが、この過程に関するいくつかの根本的な問題は明らかにされていない。
本稿では、ESPのこの問題を再考し、断熱条件が低下する帯域レベルにおいて、一対の非断熱点をピンポイントする。
非断熱性の基準を用いて2つの点を決定する。
その結果、進化時間の変化によるESPの発振はランダウ・ツェナー=シュトックルベルク干渉(LZS)によって解決できる。
さらに, 障害の存在下では, ESPは, 非アディバチティーが分岐するエッジとバルクレベルでの抗交差のために崩壊する可能性が示唆された。
このように、障害が弱い比較的長い鎖では、ESPの故障が示される。
この研究で明らかになった新しいタイプのESPは、実験で容易にアクセスでき、従って、興味深いLZSダイナミクスのための下から下へのプラットフォームに繋がる。
The adiabatic edge state pumping (ESP) in one dimensional model, which has important applications in topological phase transition and the associated implementation of edge states in quantum simulation, has been widely performed in both theories and experiments. This phenomenon has been verified in some small physical models, yet some fundamental issues about this process have not been clarified. In this paper, we revisit this problem of ESP and pinpoint a pair of non-adiabatic points in the band levels, at which the adiabatic condition breaks down. We determine the two points using the criteria of non-adiabaticity. As a result, the oscillation of ESP as evolution time varies can be resolved in terms of Landau-Zener-St\"{u}ckelberg (LZS) interference. Furthermore, in the presence of disorder, we show that the ESP may break down for the anticrossing between the edge and the bulk levels, where the non-adiabaticity diverges. Thus in a relatively long chain with weak disorder, we demonstrate the failure of the ESP. This new type of ESP unveiled in this work is readily accessible in experiment, and shall therefore lead to a down-to-earth platform for the intriguing LZS dynamics. | 翻訳日:2024-08-06 19:20:31 公開日:2024-08-03 |
# 因果経路特異的効果制約下における公正リスク最小化
Fair Risk Minimization under Causal Path-Specific Effect Constraints ( http://arxiv.org/abs/2408.01630v1 ) ライセンス: Link先を確認 | Razieh Nabi, David Benkeser, | (参考訳) 本稿では、経路固有の因果効果を用いて、公平性の概念を定量化できる機械学習を用いて、公正な予測を推定するためのフレームワークを提案する。
最近開発されたラグランジュ乗算器に基づく無限次元関数推定手法を用いて、平均二乗誤差とクロスエントロピーリスク基準に基づく制約付き最適化のための閉形式解を導出する。
解の理論的形式は詳細に解析され、制約のない最小値に対するニュアンス調整として記述される。
この分析は、リスク最小化とフェアネス達成の間の重要なトレードオフを強調します。
理論解はまた、これらのニュアンス成分に対するフレキシブルな半パラメトリック推定戦略の構築の基盤としても用いられる。
最適制約リスクの達成と制約値の制御の両面から推定器のロバスト性について述べる。
本研究では,経路特異的効果のロバストな推定器による影響をシミュレーションにより検証し,その妥当性を検証した。
この研究は、複雑な因果的考察をモデルトレーニングに統合し、現実のアプリケーションで公正なモデルを実装するための戦略を提供することにより、アルゴリズムフェアネスに関する議論を前進させる。
This paper introduces a framework for estimating fair optimal predictions using machine learning where the notion of fairness can be quantified using path-specific causal effects. We use a recently developed approach based on Lagrange multipliers for infinite-dimensional functional estimation to derive closed-form solutions for constrained optimization based on mean squared error and cross-entropy risk criteria. The theoretical forms of the solutions are analyzed in detail and described as nuanced adjustments to the unconstrained minimizer. This analysis highlights important trade-offs between risk minimization and achieving fairnes. The theoretical solutions are also used as the basis for construction of flexible semiparametric estimation strategies for these nuisance components. We describe the robustness properties of our estimators in terms of achieving the optimal constrained risk, as well as in terms of controlling the value of the constraint. We study via simulation the impact of using robust estimators of pathway-specific effects to validate our theory. This work advances the discourse on algorithmic fairness by integrating complex causal considerations into model training, thus providing strategies for implementing fair models in real-world applications. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# 3つのマルチソース推論モデルによるアフリカにおけるウェルス指数予測の比較分析
A Comparative Analysis of Wealth Index Predictions in Africa between three Multi-Source Inference Models ( http://arxiv.org/abs/2408.01631v1 ) ライセンス: Link先を確認 | Márton Karsai, János Kertész, Lisette Espín-Noboa, | (参考訳) 貧困マップ推論は、回帰モデルから、表のデータ、画像、ネットワークに適用される畳み込みニューラルネットワークまで、伝統的な技術と現代的な技術の両方に関心を抱く研究領域である。
トレーニングフェーズの検証に重点を置いているにもかかわらず、最終的な予測の精査は依然として限られている。
ここでは,Chi et al (2021) が推定するRelative Wealth Index (RWI) とLee and Braithwaite (2022) とEsp\in-Noboa et al (2023) が推定するInternational Wealth Index (IWI) を比較した。
我々の分析は、時間とともに富の予測の傾向と相違点を特定することに焦点を当てている。
以上の結果から,Chi et al と Esp\in-Noboa et al の予測は,トレーニングセットの異なる時間枠による差が期待される一般GDPの傾向と一致していることがわかった。
しかし、Lee と Braithwaite の予測は大きく分岐し、モデルの妥当性に潜在的な問題が示唆された。
アフリカの政策立案者や利害関係者が、富、特に地上での意思決定に使用されるモデルを厳格に監査する必要性を浮き彫りにしている。
これらの技術は、信頼性を高め、貧困緩和戦略が十分に確立されていることを保証するために、継続的な検証と改善を必要とします。
Poverty map inference is a critical area of research, with growing interest in both traditional and modern techniques, ranging from regression models to convolutional neural networks applied to tabular data, images, and networks. Despite extensive focus on the validation of training phases, the scrutiny of final predictions remains limited. Here, we compare the Relative Wealth Index (RWI) inferred by Chi et al. (2021) with the International Wealth Index (IWI) inferred by Lee and Braithwaite (2022) and Esp\'in-Noboa et al. (2023) across six Sub-Saharan African countries. Our analysis focuses on identifying trends and discrepancies in wealth predictions over time. Our results show that the predictions by Chi et al. and Esp\'in-Noboa et al. align with general GDP trends, with differences expected due to the distinct time-frames of the training sets. However, predictions by Lee and Braithwaite diverge significantly, indicating potential issues with the validity of the model. These discrepancies highlight the need for policymakers and stakeholders in Africa to rigorously audit models that predict wealth, especially those used for decision-making on the ground. These and other techniques require continuous verification and refinement to enhance their reliability and ensure that poverty alleviation strategies are well-founded. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# 社会シミュレーションエージェントにおける自己感情ブレンド対話生成
Self-Emotion Blended Dialogue Generation in Social Simulation Agents ( http://arxiv.org/abs/2408.01633v1 ) ライセンス: Link先を確認 | Qiang Zhang, Jason Naradowsky, Yusuke Miyao, | (参考訳) 会話を行う場合、仮想シミュレーション環境での対話エージェントは、即時会話の文脈とは無関係な感情状態(自己感情と呼ばれる現象)を示すことがある。
本研究では,このような自己感情が対話戦略におけるエージェントの行動や意思決定にどう影響するかを,大規模言語モデル(LLM)によるシミュレーションフレームワークを用いて検討する。
対話戦略予測実験では、エージェントが自己感情と無感情の両方で使用する対話戦略の選択を、人間のものと比べて分析する。
その結果、自己感情を取り入れることで、エージェントはより人間的な対話戦略を提示できることがわかった。
GPT-4生成した対話データセットを微調整したモデルの性能を比較する独立実験において,自己感情が自然性や人間性の向上につながることを示した。
最後に,エージェントが複数の話題について議論する仮想シミュレーション環境では,エージェントの自己感情がエージェントの意思決定プロセスに大きく影響し,約50%の意思決定に影響を及ぼすことを示す。
When engaging in conversations, dialogue agents in a virtual simulation environment may exhibit their own emotional states that are unrelated to the immediate conversational context, a phenomenon known as self-emotion. This study explores how such self-emotion affects the agents' behaviors in dialogue strategies and decision-making within a large language model (LLM)-driven simulation framework. In a dialogue strategy prediction experiment, we analyze the dialogue strategy choices employed by agents both with and without self-emotion, comparing them to those of humans. The results show that incorporating self-emotion helps agents exhibit more human-like dialogue strategies. In an independent experiment comparing the performance of models fine-tuned on GPT-4 generated dialogue datasets, we demonstrate that self-emotion can lead to better overall naturalness and humanness. Finally, in a virtual simulation environment where agents have discussions on multiple topics, we show that self-emotion of agents can significantly influence the decision-making process of the agents, leading to approximately a 50% change in decisions. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# 生成的対話状態推論によるスロットスキーマの変換
Transforming Slot Schema Induction with Generative Dialogue State Inference ( http://arxiv.org/abs/2408.01638v1 ) ライセンス: Link先を確認 | James D. Finch, Boxin Zhao, Jinho D. Choi, | (参考訳) タスク指向対話システムの状態を表すスロットスキーマを定義する際の課題は、ラベルなし対話データからスロットを自動的に誘導することを目的としたスロットスキーマインジェクション(SSI)によって解決される。
従来の手法では,対話テキストから直接抽出されたクラスタリング値によってスロットを誘導するが,生成的手法を用いてスロットを発見する能力を示す。
従来のタスク知識を持たないキー対話情報を要約したスロット名と値を生成するモデルを訓練することにより,SSI法は対話状態を表すための高品質な候補情報を検出する。
これらの発見されたスロット値候補は、容易に統合されたスロットスキーマにクラスタ化され、人間が承認したスキーマと整合する。
MultiWOZデータセットとSGDデータセットの実験的比較により、生成対話状態推論(Generative Dialogue State Inference, GenDSI)は、SSIタスクの複数の側面において、以前の最先端よりも優れていることが示された。
The challenge of defining a slot schema to represent the state of a task-oriented dialogue system is addressed by Slot Schema Induction (SSI), which aims to automatically induce slots from unlabeled dialogue data. Whereas previous approaches induce slots by clustering value spans extracted directly from the dialogue text, we demonstrate the power of discovering slots using a generative approach. By training a model to generate slot names and values that summarize key dialogue information with no prior task knowledge, our SSI method discovers high-quality candidate information for representing dialogue state. These discovered slot-value candidates can be easily clustered into unified slot schemas that align well with human-authored schemas. Experimental comparisons on the MultiWOZ and SGD datasets demonstrate that Generative Dialogue State Inference (GenDSI) outperforms the previous state-of-the-art on multiple aspects of the SSI task. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# アクタ・クリティカル・ラーニングによる階層制御ポリシの計画と追跡の調整
Coordinating Planning and Tracking in Layered Control Policies via Actor-Critic Learning ( http://arxiv.org/abs/2408.01639v1 ) ライセンス: Link先を確認 | Fengjun Yang, Nikolai Matni, | (参考訳) 本稿では,(1)軌道プランナと(2)階層型制御アーキテクチャにおけるトラッキングコントローラを協調訓練するための強化学習(RL)に基づくアルゴリズムを提案する。
本アルゴリズムは,アクター・クリティカルな学習手法を取り入れた最適制御問題の書き直しから自然に生じる。
計画層と追跡層の間の相互作用を協調するために, 明示的に‘textit{dual} ネットワークを学習することにより, 2つのコンポーネント間の効果的なコンセンサスを実現する能力を示し, 解釈可能なポリシーを導出する。
理論的には,LQR(Linear Quadratic Regulator)設定における最適双対ネットワークに収束し,一サイクルモデルを用いたシミュレーション実験により非線形システムへの適用性を実証的に検証する。
We propose a reinforcement learning (RL)-based algorithm to jointly train (1) a trajectory planner and (2) a tracking controller in a layered control architecture. Our algorithm arises naturally from a rewrite of the underlying optimal control problem that lends itself to an actor-critic learning approach. By explicitly learning a \textit{dual} network to coordinate the interaction between the planning and tracking layers, we demonstrate the ability to achieve an effective consensus between the two components, leading to an interpretable policy. We theoretically prove that our algorithm converges to the optimal dual network in the Linear Quadratic Regulator (LQR) setting and empirically validate its applicability to nonlinear systems through simulation experiments on a unicycle model. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# ロバスト道路網推定のための消費者車からGNSSと車載ビジュアルデータを活用する
Leveraging GNSS and Onboard Visual Data from Consumer Vehicles for Robust Road Network Estimation ( http://arxiv.org/abs/2408.01640v1 ) ライセンス: Link先を確認 | Balázs Opra, Betty Le Dem, Jeffrey M. Walls, Dimitar Lukarski, Cyrill Stachniss, | (参考訳) 地図は、車両ナビゲーションや自律ロボット工学など、多様な用途に欠かせない。
どちらも効果的なルート計画とローカライゼーションのための空間モデルを必要とする。
本稿では,自動運転車における道路グラフ構築の課題について述べる。
最近の進歩にもかかわらず、道路グラフの作成は労働集約的であり、まだ完全な自動化を達成できていない。
本論文の目的は,そのようなグラフを自動的かつ正確に生成することである。
現代の車は車線維持のような先進的な運転支援システムに使用されるセンサーを搭載している。
我々は,これらの標準センサから得られたグローバルナビゲーション衛星システム(GNSS)のトレースと基本画像データを用いて,道路レベルの地図を最小限の努力で推定することを提案する。
我々は、畳み込みニューラルネットワークを用いて、道路中心のセマンティックセグメンテーションタスクとして問題をフレーミングすることで、データの空間情報を利用する。
また、データの時系列特性を利用して、マップマッチングを用いてニューラルネットワークの出力を洗練する。
本手法を実車群で実装し,実車載センサーのみを用いて評価した。
提案手法は, 道路構成の簡易化だけでなく, より複雑な道路測地やトポロジにも優れることを示す。
この作品は2023年にToyota Invention AwardからWovenを受賞した。
Maps are essential for diverse applications, such as vehicle navigation and autonomous robotics. Both require spatial models for effective route planning and localization. This paper addresses the challenge of road graph construction for autonomous vehicles. Despite recent advances, creating a road graph remains labor-intensive and has yet to achieve full automation. The goal of this paper is to generate such graphs automatically and accurately. Modern cars are equipped with onboard sensors used for today's advanced driver assistance systems like lane keeping. We propose using global navigation satellite system (GNSS) traces and basic image data acquired from these standard sensors in consumer vehicles to estimate road-level maps with minimal effort. We exploit the spatial information in the data by framing the problem as a road centerline semantic segmentation task using a convolutional neural network. We also utilize the data's time series nature to refine the neural network's output by using map matching. We implemented and evaluated our method using a fleet of real consumer vehicles, only using the deployed onboard sensors. Our evaluation demonstrates that our approach not only matches existing methods on simpler road configurations but also significantly outperforms them on more complex road geometries and topologies. This work received the 2023 Woven by Toyota Invention Award. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# 生産スケジューリングにおける量子古典最適化の現実的応用
Real World Application of Quantum-Classical Optimization for Production Scheduling ( http://arxiv.org/abs/2408.01641v1 ) ライセンス: Link先を確認 | Abhishek Awasthi, Nico Kraus, Florian Krellner, David Zambrano, | (参考訳) この研究は、産業からの現実の最適化問題を伴う量子古典計算手法のベンチマーク研究である。
問題は、異なるマシン上のジョブのスケジューリングとバランシングであり、非線形な目的関数である。
まず、古典的および量子コンピューティングの様々なモデリング手法とともに、モチベーションと問題記述について述べる。
古典解法のモデリングは混合整数凸プログラムとして行われてきたが、量子古典解法では、D-Wave LeapのHybrid Solverに最も適した2次二次プログラムとしてこの問題をモデル化する。
これにより、私たちが使用するすべてのソルバが、専用かつ最も適切なモデルでフェッチされることが保証されます。
その後、約150000変数までの問題サイズにおいて、古典的手法と量子古典的手法のベンチマークと比較を行う。
D-Wave LeapのHybrid Solverと比較した。
D-Waveから得られる結果は、古典的な解法と比較して非常に競争力が高く、時にはスピードアップを提供する。
This work is a benchmark study for quantum-classical computing method with a real-world optimization problem from industry. The problem involves scheduling and balancing jobs on different machines, with a non-linear objective function. We first present the motivation and the problem description, along with different modeling techniques for classical and quantum computing. The modeling for classical solvers has been done as a mixed-integer convex program, while for the quantum-classical solver we model the problem as a binary quadratic program, which is best suited to the D-Wave Leap's Hybrid Solver. This ensures that all the solvers we use are fetched with dedicated and most suitable model(s). Henceforth, we carry out benchmarking and comparisons between classical and quantum-classical methods, on problem sizes ranging till approximately 150000 variables. We utilize an industry grade classical solver and compare its results with D-Wave Leap's Hybrid Solver. The results we obtain from D-Wave are highly competitive and sometimes offer speedups, compared to the classical solver. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# オプション価格付加プロセスのニューラルネットワーク構造
Neural Term Structure of Additive Process for Option Pricing ( http://arxiv.org/abs/2408.01642v1 ) ライセンス: Link先を確認 | Jimin Lin, Guixin Liu, | (参考訳) 加法過程は、L''evy過程を時間的均質な増分という仮定を緩和することによって一般化し、従ってより大きな確率過程の族をカバーする。
オプション価格に関する最近の研究は、付加的なプロセスによるログ価格のモデル化は、リスク・ニューラル測度の構築が容易で、明確なオプション価格公式と特徴関数が得られ、インプリートされたボラティリティ面に適合する柔軟性が向上していることを示している。
それでも、加法モデルの校正の課題は、時間依存のパラメータ化から生じ、この場合、項構造に対してパラメトリック関数を定めなければならない。
そこで本稿では,パラメータ関数の設計の難しさを軽減し,不特定リスクを軽減するために,フィードフォワードニューラルネットワークを利用するニューラルネットワークモデルを提案する。
S\&P 500 オプションデータを用いた数値実験を行い,ニューラルターム構造の性能評価を行った。
The additive process generalizes the L\'evy process by relaxing its assumption of time-homogeneous increments and hence covers a larger family of stochastic processes. Recent research in option pricing shows that modeling the underlying log price with an additive process has advantages in easier construction of the risk-neural measure, an explicit option pricing formula and characteristic function, and more flexibility to fit the implied volatility surface. Still, the challenge of calibrating an additive model arises from its time-dependent parameterization, for which one has to prescribe parametric functions for the term structure. For this, we propose the neural term structure model to utilize feedforward neural networks to represent the term structure, which alleviates the difficulty of designing parametric functions and thus attenuates the misspecification risk. Numerical studies with S\&P 500 option data are conducted to evaluate the performance of the neural term structure. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# Segment Anything Model 2 を用いた単眼ビデオにおけるゼロショット手術ツールセグメンテーション
Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2 ( http://arxiv.org/abs/2408.01648v1 ) ライセンス: Link先を確認 | Ange Lou, Yamin Li, Yike Zhang, Robert F. Labadie, Jack Noble, | (参考訳) Segment Anything Model 2 (SAM)
2)は画像とビデオのセグメンテーションのための最新の基礎モデルである。
50.9Kビデオにわたる3550万のマスクからなるSA-VデータセットでトレーニングされたSAM 2は、さまざまなプロンプト(例えば、ポイント、ボックス、マスク)を通じてゼロショットセグメンテーションをサポートすることで、前任者の能力を向上させる。
その堅牢なゼロショット性能と効率的なメモリ使用により、SAM 2は特に、ラベル付きデータの不足と手術手順の多様性を考えると、ビデオにおける外科ツールのセグメンテーションに魅力を感じている。
本研究では,内視鏡検査や顕微鏡検査など,異なるタイプの手術におけるSAM2モデルのゼロショット映像分割性能について検討した。
また,手術領域におけるSAM2の適用性と有効性を示すために,長さの異なる単一ツール,複数ツールを特徴とするビデオ上での性能評価を行った。
私たちはこう発見しました。
1)SAM2は,各種手術ビデオのセグメンテーション能力を示す。
2 新しい道具が現場に入るときは、セグメンテーションの精度を維持するために追加のプロンプトが必要である。
3) 手術ビデオ固有の課題はSAM2の堅牢性に影響を及ぼす可能性がある。
The Segment Anything Model 2 (SAM 2) is the latest generation foundation model for image and video segmentation. Trained on the expansive Segment Anything Video (SA-V) dataset, which comprises 35.5 million masks across 50.9K videos, SAM 2 advances its predecessor's capabilities by supporting zero-shot segmentation through various prompts (e.g., points, boxes, and masks). Its robust zero-shot performance and efficient memory usage make SAM 2 particularly appealing for surgical tool segmentation in videos, especially given the scarcity of labeled data and the diversity of surgical procedures. In this study, we evaluate the zero-shot video segmentation performance of the SAM 2 model across different types of surgeries, including endoscopy and microscopy. We also assess its performance on videos featuring single and multiple tools of varying lengths to demonstrate SAM 2's applicability and effectiveness in the surgical domain. We found that: 1) SAM 2 demonstrates a strong capability for segmenting various surgical videos; 2) When new tools enter the scene, additional prompts are necessary to maintain segmentation accuracy; and 3) Specific challenges inherent to surgical videos can impact the robustness of SAM 2. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# Music2P:アルバムカバーデザインを簡単にするためのマルチモーダルAI駆動ツール
Music2P: A Multi-Modal AI-Driven Tool for Simplifying Album Cover Design ( http://arxiv.org/abs/2408.01651v1 ) ライセンス: Link先を確認 | Joong Ho Choi, Geonyeong Choi, Ji-Eun Han, Wonjin Yang, Zhi-Qi Cheng, | (参考訳) 今日の音楽業界では、アルバムのカバーデザインは音楽そのものと同じくらい重要であり、アーティストのビジョンとブランドを反映している。
しかし、多くのAI駆動のアルバムカバーサービスはサブスクリプションや技術的専門知識を必要とし、アクセシビリティを制限している。
これらの課題に対処するため、私たちは、アルバムのカバー作成を効率化し、Ngrokを通じて効率よく、アクセス可能で、費用対効果の高い、オープンソースのマルチモーダルなAI駆動ツールであるMusic2Pを開発しました。
Music2Pは、Bootstrapping Language Image Pre-training (BLIP)、Music-to-text conversion (LP-music-caps)、 Image segmentation (LoRA)、アルバムカバーとQRコード生成(ControlNet)といった技術を用いて設計プロセスを自動化する。
本稿では,Music2P インターフェースを実演し,これらの技術の応用を詳述するとともに,今後の改良点について概説する。
私たちの究極のゴールは、ミュージシャンやプロデューサー、特に限られたリソースや専門知識を持つ人たちに、魅力的なアルバムカバーを作るためのツールを提供することです。
In today's music industry, album cover design is as crucial as the music itself, reflecting the artist's vision and brand. However, many AI-driven album cover services require subscriptions or technical expertise, limiting accessibility. To address these challenges, we developed Music2P, an open-source, multi-modal AI-driven tool that streamlines album cover creation, making it efficient, accessible, and cost-effective through Ngrok. Music2P automates the design process using techniques such as Bootstrapping Language Image Pre-training (BLIP), music-to-text conversion (LP-music-caps), image segmentation (LoRA), and album cover and QR code generation (ControlNet). This paper demonstrates the Music2P interface, details our application of these technologies, and outlines future improvements. Our ultimate goal is to provide a tool that empowers musicians and producers, especially those with limited resources or expertise, to create compelling album covers. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# MCPDepth:多円柱パノラマからのステレオマッチングによる全方位深さ推定
MCPDepth: Omnidirectional Depth Estimation via Stereo Matching from Multi-Cylindrical Panoramas ( http://arxiv.org/abs/2408.01653v1 ) ライセンス: Link先を確認 | Feng Qiao, Zhexiao Xiong, Xinge Zhu, Yuexin Ma, Qiumeng He, Nathan Jacobs, | (参考訳) 複数の円筒パノラマのステレオマッチングによる全方位深度推定のための2段階フレームワークであるMCPDepth(Multi-Cylindrical Panoramic Depth Estimation)を導入する。
MCPDepthは、初期のステレオマッチングに円筒状のパノラマを使用し、ビューをまたいだ深度マップを融合させる。
垂直軸に沿った歪みを克服するために円形の注意モジュールを用いる。
MCPDepthは、標準のネットワークコンポーネントを独占的に使用し、組み込みデバイスへのデプロイを単純化し、カスタムカーネルを必要とする従来のメソッドよりも優れている。
立体マッチングのための球面および筒状突起を理論的,実験的に比較し,円筒状突起の利点を強調した。
MCPDepthは、屋外の合成データセットDeep360の深さに対する平均絶対誤差(MAE)を18.8%減らし、屋内のリアルシーンデータセット3D60の19.9%減らして最先端のパフォーマンスを達成した。
We introduce Multi-Cylindrical Panoramic Depth Estimation (MCPDepth), a two-stage framework for omnidirectional depth estimation via stereo matching between multiple cylindrical panoramas. MCPDepth uses cylindrical panoramas for initial stereo matching and then fuses the resulting depth maps across views. A circular attention module is employed to overcome the distortion along the vertical axis. MCPDepth exclusively utilizes standard network components, simplifying deployment to embedded devices and outperforming previous methods that require custom kernels. We theoretically and experimentally compare spherical and cylindrical projections for stereo matching, highlighting the advantages of the cylindrical projection. MCPDepth achieves state-of-the-art performance with an 18.8% reduction in mean absolute error (MAE) for depth on the outdoor synthetic dataset Deep360 and a 19.9% reduction on the indoor real-scene dataset 3D60. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# Deep Patch Visual SLAM
Deep Patch Visual SLAM ( http://arxiv.org/abs/2408.01654v1 ) ライセンス: Link先を確認 | Lahav Lipson, Zachary Teed, Jia Deng, | (参考訳) 視覚SLAMにおける最近の研究は、ディープネットワークバックボーンの使用の有効性を示している。
しかし、精度が優れているにもかかわらず、このような手法は実行するのにコストがかかるか、ゼロショットをうまく一般化しない場合が多い。
フロントエンドとバックエンドがGPUリソースにアクセスするために戦っている間、ランタイムも大きく変動する。
これらの問題に対処するために,1つのGPU上でのモノクロ視覚SLAM法であるDeep Patch Visual (DPV) SLAMを導入する。
DPV-SLAMは、既存の深いSLAMシステムと比較して、最小限のフレームレートとメモリオーバーヘッド(5-7G)を維持している。
実世界のデータセットでは、DPV-SLAMは1x-4xのリアルタイムフレームレートで動作する。
EuRoC と TartanAir の DROID-SLAM に匹敵する精度を実現し,メモリ の 2.5 倍高速動作を実現した。
DPV-SLAMはDPVOビジュアルオドメトリーシステムの拡張である。
Recent work in visual SLAM has shown the effectiveness of using deep network backbones. Despite excellent accuracy, however, such approaches are often expensive to run or do not generalize well zero-shot. Their runtime can also fluctuate wildly while their frontend and backend fight for access to GPU resources. To address these problems, we introduce Deep Patch Visual (DPV) SLAM, a method for monocular visual SLAM on a single GPU. DPV-SLAM maintains a high minimum framerate and small memory overhead (5-7G) compared to existing deep SLAM systems. On real-world datasets, DPV-SLAM runs at 1x-4x real-time framerates. We achieve comparable accuracy to DROID-SLAM on EuRoC and TartanAir while running 2.5x faster using a fraction of the memory. DPV-SLAM is an extension to the DPVO visual odometry system; its code can be found in the same repository: https://github.com/princeton-vl/DPVO | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# イマジネーションを刺激する:汎用オブジェクト再構成を目指して
Stimulating Imagination: Towards General-purpose Object Rearrangement ( http://arxiv.org/abs/2408.01655v1 ) ライセンス: Link先を確認 | Jianyang Wu, Jie Gu, Xiaokang Ma, Chu Tang, Jingmin Chen, | (参考訳) 汎用オブジェクト配置は、インテリジェントなジェネラリストロボットの基本的な能力、すなわち、新しい環境においても、人間の指示に従ってオブジェクトを並べ替える能力である。
これを実現するために,オブジェクトのローカライゼーション,ゴールのイマジネーション,ロボット制御の3つの部分に分割し,Sportというフレームワークを提案する。
SPORTは、事前訓練された大きな視覚モデルを利用して、オブジェクトに関する広い意味推論を行い、拡散に基づく3Dポーズ推定器を学習し、物理的に現実的な結果を保証する。
オブジェクトタイプ(移動や参照)のみがこの2つの部分の間で通信されるため、2つのメリットがあります。
ひとつは、ロボットシナリオに特定の微調整が不要であるため、オープンセットオブジェクトのローカライゼーションと認識の強力な能力を完全に活用できるということです。
さらに、拡散に基づく推定器は、配置後の移動および参照オブジェクトのポーズを「想像」するだけでよいが、それらの意味情報は不要である。
これにより、訓練負担が大幅に軽減され、大規模な訓練は不要となる。
目標ポーズ推定のためのトレーニングデータをシミュレーションで収集し、GPT-4でアノテートする。
シミュレーションと実世界の実験のセットは、汎用オブジェクト再構成を実現するためのアプローチの可能性を示し、様々なオブジェクトを精密な指示に従って配置する。
General-purpose object placement is a fundamental capability of an intelligent generalist robot, i.e., being capable of rearranging objects following human instructions even in novel environments. To achieve this, we break the rearrangement down into three parts, including object localization, goal imagination and robot control, and propose a framework named SPORT. SPORT leverages pre-trained large vision models for broad semantic reasoning about objects, and learns a diffusion-based 3D pose estimator to ensure physically-realistic results. Only object types (to be moved or reference) are communicated between these two parts, which brings two benefits. One is that we can fully leverage the powerful ability of open-set object localization and recognition since no specific fine-tuning is needed for robotic scenarios. Furthermore, the diffusion-based estimator only need to "imagine" the poses of the moving and reference objects after the placement, while no necessity for their semantic information. Thus the training burden is greatly reduced and no massive training is required. The training data for goal pose estimation is collected in simulation and annotated with GPT-4. A set of simulation and real-world experiments demonstrate the potential of our approach to accomplish general-purpose object rearrangement, placing various objects following precise instructions. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# 倉庫作業における動的順序付けのための深部強化学習
Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations ( http://arxiv.org/abs/2408.01656v1 ) ライセンス: Link先を確認 | Sasan Mahmoudinazlou, Abhay Sobhanan, Hadi Charkhgard, Ali Eshragh, George Dunn, | (参考訳) 注文の取り出しは倉庫における重要な作業であり、全体の効率と収益性に大きな影響を及ぼす。
本研究は、変動する注文の到着と効率的なピッカールーティングへのリアルタイム適応が不可欠である、現代の倉庫管理において重要な関心事である動的オーダーピッカー問題に対処する。
固定順序集合を仮定する伝統的な手法は、この動的環境において不足する。
顧客の要求に固有の不確実性を扱うためのソリューション手法として,Deep Reinforcement Learning (DRL) を利用する。
我々は、自律的なピックアップ装置を備えた単一ブロック倉庫に焦点を合わせ、人間の行動要因を排除した。
我々のDRLフレームワークは、ピッカー経路の動的最適化を可能にし、特に高次到着率において、注文スループットの時間を大幅に短縮する。
実験では、ベンチマークアルゴリズムと比較して、注文スループット時間と未充足順序が大幅に減少することを示した。
さらに,超パラメータを報酬関数に統合することにより,移動距離と注文完了時間との柔軟なバランスをとることができる。
最後に、サンプル外テストインスタンスに対するDRLモデルの堅牢性を示す。
Order picking is a crucial operation in warehouses that significantly impacts overall efficiency and profitability. This study addresses the dynamic order picking problem, a significant concern in modern warehouse management where real-time adaptation to fluctuating order arrivals and efficient picker routing are crucial. Traditional methods, often assuming fixed order sets, fall short in this dynamic environment. We utilize Deep Reinforcement Learning (DRL) as a solution methodology to handle the inherent uncertainties in customer demands. We focus on a single-block warehouse with an autonomous picking device, eliminating human behavioral factors. Our DRL framework enables the dynamic optimization of picker routes, significantly reducing order throughput times, especially under high order arrival rates. Experiments demonstrate a substantial decrease in order throughput time and unfulfilled orders compared to benchmark algorithms. We further investigate integrating a hyperparameter in the reward function that allows for flexible balancing between distance traveled and order completion time. Finally, we demonstrate the robustness of our DRL model for out-of-sample test instances. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# APIシーケンスベースのWindowsマルウェア検出器におけるマルウェア進化の影響について
Mitigating the Impact of Malware Evolution on API Sequence-based Windows Malware Detector ( http://arxiv.org/abs/2408.01661v1 ) ライセンス: Link先を確認 | Xingyuan Wei, Ce Li, Qiujian Lv, Ning Li, Degang Sun, Yan Wang, | (参考訳) 動的Windowsマルウェア検出では、ディープラーニングモデルはAPIシーケンスを分析するために広範囲にデプロイされる。
APIシーケンスに基づく手法は、マルウェア予防において重要な役割を果たす。
しかし、APIの継続的な更新とAPIシークエンスコールの変更により、マルウェアの変種が絶え間なく進化していくため、APIシークエンスベースのマルウェア検出モデルの検出能力は時間とともに大幅に低下する。
進化前後のマルウェアサンプルのAPIシーケンスは、通常、同様の悪意のあるセマンティクスを持つ。
具体的には、元のサンプルと比較して、進化したマルウェアサンプルは、しばしば、進化前のサンプルのAPIシーケンスを使用して、同様の悪意のある振る舞いを達成する。
例えば、同様の機密システムリソースにアクセスし、元の機能に基づいた新しい悪意のある機能を拡張する。
本稿では,既存のAPIシーケンスベースのマルウェア検出機能を強化し,マルウェア進化の悪影響を軽減するフレームワークであるフレーム(MME)を提案する。
このフレームワークは,API知識グラフとシステムリソースエンコーディングを用いて,これらの進化後のAPIシーケンスの類似したセマンティクスを抽出し,モデルエンコーダを強化するためにコントラスト学習を適用する。
その結果、通常のテキストCNNと比較して、我々のフレームワークは偽陽性率を13.10%、F1スコアを8.47%改善し、最良の実験結果が得られることがわかった。
さらに,モデル保守に必要な人的コストを削減できることを示す。
偽陽性率を11.16%削減し、F1スコアを6.44%改善するために、月に1%の予算しか必要としない。
In dynamic Windows malware detection, deep learning models are extensively deployed to analyze API sequences. Methods based on API sequences play a crucial role in malware prevention. However, due to the continuous updates of APIs and the changes in API sequence calls leading to the constant evolution of malware variants, the detection capability of API sequence-based malware detection models significantly diminishes over time. We observe that the API sequences of malware samples before and after evolution usually have similar malicious semantics. Specifically, compared to the original samples, evolved malware samples often use the API sequences of the pre-evolution samples to achieve similar malicious behaviors. For instance, they access similar sensitive system resources and extend new malicious functions based on the original functionalities. In this paper, we propose a frame(MME), a framework that can enhance existing API sequence-based malware detectors and mitigate the adverse effects of malware evolution. To help detection models capture the similar semantics of these post-evolution API sequences, our framework represents API sequences using API knowledge graphs and system resource encodings and applies contrastive learning to enhance the model's encoder. Results indicate that, compared to Regular Text-CNN, our framework can significantly reduce the false positive rate by 13.10% and improve the F1-Score by 8.47% on five years of data, achieving the best experimental results. Additionally, evaluations show that our framework can save on the human costs required for model maintenance. We only need 1% of the budget per month to reduce the false positive rate by 11.16% and improve the F1-Score by 6.44%. | 翻訳日:2024-08-06 19:10:37 公開日:2024-08-03 |
# 空間データに対する主成分分析による予測と近似精度のバランス
Principal component analysis balancing prediction and approximation accuracy for spatial data ( http://arxiv.org/abs/2408.01662v1 ) ライセンス: Link先を確認 | Si Cheng, Magali N. Blanco, Timothy V. Larson, Lianne Sheppard, Adam Szpiro, Ali Shojaie, | (参考訳) 次元減少は、しばしば多変量空間データの統計的モデリングや予測の第一歩である。
しかし,既存の次元低減技術の多くは,観測の空間的相関を考慮せず,下流モデリングタスクを低次元表現を見つける際に考慮しない。
我々は、下流モデルにおける元のデータに対する近似の近接性と低次元スコアの有用性を、2つの相補的、時には矛盾する、次元減少の指標として定式化する。
本稿では,既存の手法がこの枠組みにどのような影響を及ぼすかを説明し,最適なトレードオフを実現するフレキシブルな次元削減アルゴリズムを提案する。
本アルゴリズムは, 大気汚染モデルと空間転写学の2つの応用と同様に, シミュレーション研究を通じて, 計算学的に単純な形状を導出し, その性能を示す。
Dimension reduction is often the first step in statistical modeling or prediction of multivariate spatial data. However, most existing dimension reduction techniques do not account for the spatial correlation between observations and do not take the downstream modeling task into consideration when finding the lower-dimensional representation. We formalize the closeness of approximation to the original data and the utility of lower-dimensional scores for downstream modeling as two complementary, sometimes conflicting, metrics for dimension reduction. We illustrate how existing methodologies fall into this framework and propose a flexible dimension reduction algorithm that achieves the optimal trade-off. We derive a computationally simple form for our algorithm and illustrate its performance through simulation studies, as well as two applications in air pollution modeling and spatial transcriptomics. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# マジック測定の難しさについて
On the Hardness of Measuring Magic ( http://arxiv.org/abs/2408.01663v1 ) ライセンス: Link先を確認 | Roy J. Garcia, Gaurav Bhole, Kaifeng Bu, Liyuan Chen, Haribabu Arthanari, Arthur Jaffe, | (参考訳) 量子コンピュータは計算問題を従来のコンピュータよりはるかに高速に解くことを約束する。
これらの「スピードアップ」はマジックと呼ばれる資源を利用することで達成される。
デバイスが使用する魔法の量を測定することで、その潜在的な計算能力の定量化が可能になります。
この性質がなければ、量子コンピュータは古典的なコンピュータほど高速ではない。
大規模量子コンピュータでマジックを正確に測定できるかどうかは未解決のままである。
この問題に対処するために、魔法の尺度としてパウリ不安定を導入し、IBM Eagle量子プロセッサ上で実験的に測定する。
我々は、大量の(つまり広範囲の)魔法を計測することは難しかったことを証明した。
我々の結果は、量子コンピュータがスピードアップを提供していない場合にのみマジックを測定することができることを示唆している。
我々は理論的な証拠と実験的な証拠の両方で結論を支持している。
我々の研究は、量子計算における最も重要なリソースの1つを測定することにおける量子技術の能力と限界について説明している。
Quantum computers promise to solve computational problems significantly faster than classical computers. These 'speed-ups' are achieved by utilizing a resource known as magic. Measuring the amount of magic used by a device allows us to quantify its potential computational power. Without this property, quantum computers are no faster than classical computers. Whether magic can be accurately measured on large-scale quantum computers has remained an open problem. To address this question, we introduce Pauli instability as a measure of magic and experimentally measure it on the IBM Eagle quantum processor. We prove that measuring large (i.e., extensive) quantities of magic is intractable. Our results suggest that one may only measure magic when a quantum computer does not provide a speed-up. We support our conclusions with both theoretical and experimental evidence. Our work illustrates the capabilities and limitations of quantum technology in measuring one of the most important resources in quantum computation. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# SAT3D:3Dにおける画像駆動セマンティック属性伝達
SAT3D: Image-driven Semantic Attribute Transfer in 3D ( http://arxiv.org/abs/2408.01664v1 ) ライセンス: Link先を確認 | Zhijun Zhai, Zengmao Wang, Xiaoxiao Long, Kaixuan Zhou, Bo Du, | (参考訳) GANに基づく画像編集タスクは、生成モデルの潜在空間における画像属性を操作することを目的としている。
以前の2Dおよび3D認識アプローチのほとんどは、主に、男性の写真からのひげのような写真上の意味的属性の移動を達成できない参照画像から、あいまいな意味論や領域を持つ画像の属性を編集することに焦点を当てている。
本稿では、参照画像からのセマンティック属性を編集し、3D(SAT3D)における画像駆動のセマンティック属性変換法を提案する。
提案手法では,事前学習した3D対応スタイルGANベースジェネレータのスタイル空間において,セマンティック属性とスタイルコードチャネルの相関関係を学習して探索を行う。
指導のために,各属性を句ベースの記述子群に関連付けるとともに,CLIPの画像テキスト理解能力を活用した記述子群に基づく画像の属性特性を定量的に記述する定量的計測モジュール(QMM)を開発する。
トレーニングプロセス中、QMMは属性損失に組み込まれ、画像間の属性類似性、ターゲットセマンティックトランスファーの誘導、無関係セマンティックス保存の導出を行う。
本稿では,複数の領域にまたがる属性伝達結果と従来の2次元画像編集手法との比較を行い,SAT3Dの有効性とカスタマイズ性を示す。
GAN-based image editing task aims at manipulating image attributes in the latent space of generative models. Most of the previous 2D and 3D-aware approaches mainly focus on editing attributes in images with ambiguous semantics or regions from a reference image, which fail to achieve photographic semantic attribute transfer, such as the beard from a photo of a man. In this paper, we propose an image-driven Semantic Attribute Transfer method in 3D (SAT3D) by editing semantic attributes from a reference image. For the proposed method, the exploration is conducted in the style space of a pre-trained 3D-aware StyleGAN-based generator by learning the correlations between semantic attributes and style code channels. For guidance, we associate each attribute with a set of phrase-based descriptor groups, and develop a Quantitative Measurement Module (QMM) to quantitatively describe the attribute characteristics in images based on descriptor groups, which leverages the image-text comprehension capability of CLIP. During the training process, the QMM is incorporated into attribute losses to calculate attribute similarity between images, guiding target semantic transferring and irrelevant semantics preserving. We present our 3D-aware attribute transfer results across multiple domains and also conduct comparisons with classical 2D image editing methods, demonstrating the effectiveness and customizability of our SAT3D. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# URLとWebページを用いた自動フィッシング検出
Automated Phishing Detection Using URLs and Webpages ( http://arxiv.org/abs/2408.01667v1 ) ライセンス: Link先を確認 | Huilin Wang, Bryan Hooi, | (参考訳) フィッシング検出(英: Phishing detection)は、機密情報を取得する不正な試みの識別と中立化を伴い、個人や組織をデータ漏洩や財務損失から保護する重要なサイバーセキュリティタスクである。
本稿では,LLMエージェントフレームワークの開発により,従来の参照型フィッシング検出の制約に対処する。
このエージェントはLarge Language Modelsを利用してオンライン情報を積極的に取得し利用し、より正確なフィッシング検出のための動的参照システムを提供する。
このイノベーションは静的な知識ベースの必要性を回避し、自動セキュリティ対策の適応性と効率を大幅に向上させる。
プロジェクトレポートには、既存のソリューションに関する最初の研究と問題分析が含まれており、新しいフレームワークを開発する動機となった。
我々は,LLMをエージェントとしてシミュレートしたフレームワークを実演し,構築に必要なテクニックを詳述し,続いて概念実証による完全な実装と,他の類似ソリューションに対するソリューションの性能評価実験を行った。
その結果,本手法は0.945の精度で達成され,既存の解(DynaPhish)の0.445よりも大幅に優れていた。
さらに、我々のアプローチの限界について議論し、それをより効果的にするための改善を提案する。
全体として、提案フレームワークは、現在の参照ベースのフィッシング検出手法の有効性を高め、現実世界のアプリケーションに適用できる可能性を持っている。
Phishing detection is a critical cybersecurity task that involves the identification and neutralization of fraudulent attempts to obtain sensitive information, thereby safeguarding individuals and organizations from data breaches and financial loss. In this project, we address the constraints of traditional reference-based phishing detection by developing an LLM agent framework. This agent harnesses Large Language Models to actively fetch and utilize online information, thus providing a dynamic reference system for more accurate phishing detection. This innovation circumvents the need for a static knowledge base, offering a significant enhancement in adaptability and efficiency for automated security measures. The project report includes an initial study and problem analysis of existing solutions, which motivated us to develop a new framework. We demonstrate the framework with LLMs simulated as agents and detail the techniques required for construction, followed by a complete implementation with a proof-of-concept as well as experiments to evaluate our solution's performance against other similar solutions. The results show that our approach has achieved with accuracy of 0.945, significantly outperforms the existing solution(DynaPhish) by 0.445. Furthermore, we discuss the limitations of our approach and suggest improvements that could make it more effective. Overall, the proposed framework has the potential to enhance the effectiveness of current reference-based phishing detection approaches and could be adapted for real-world applications. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# ディープフェイク検出のための複数コンテキストと周波数集約ネットワーク
Multiple Contexts and Frequencies Aggregation Network forDeepfake Detection ( http://arxiv.org/abs/2408.01668v1 ) ライセンス: Link先を確認 | Zifeng Li, Wenzhong Tang, Shijun Gao, Shuai Wang, Yanxiang Wang, | (参考訳) ディープフェイク検出は、大量で多様なディープフェイク技術の開発において、生成モデルの急速な成長以来、課題に直面している。
近年の進歩は、バックボーン内の一般的な偽造の特徴をモデル化するのではなく、空間領域や周波数領域からヒューリスティックな特徴を導入することに依存している。
この問題に対処するため、我々は空間および周波数検出器から直感的な2つの先行要素を持つバックボーン設計、すなわち、実と偽のサンプルを識別する頑健な空間特性と周波数分布を学習する。
そこで本研究では,MkfaNetという2つのコアモジュールからなる顔偽造検出ネットワークを提案する。
空間的文脈において,複数の畳み込みによって抽出される臓器の特徴を適応的に選択し,実顔と偽顔の微妙な顔差をモデル化するマルチカーネルアグリゲータを設計する。
周波数成分について,高周波・低周波特性を適応的に補正することにより,周波数成分の異なる帯域を処理する多周波アグリゲータを提案する。
提案したMkfaNet変異体はドメイン内およびドメイン間の両方で優れた性能を示し,パラメータの使用効率は著しく向上した。
Deepfake detection faces increasing challenges since the fast growth of generative models in developing massive and diverse Deepfake technologies. Recent advances rely on introducing heuristic features from spatial or frequency domains rather than modeling general forgery features within backbones. To address this issue, we turn to the backbone design with two intuitive priors from spatial and frequency detectors, \textit{i.e.,} learning robust spatial attributes and frequency distributions that are discriminative for real and fake samples. To this end, we propose an efficient network for face forgery detection named MkfaNet, which consists of two core modules. For spatial contexts, we design a Multi-Kernel Aggregator that adaptively selects organ features extracted by multiple convolutions for modeling subtle facial differences between real and fake faces. For the frequency components, we propose a Multi-Frequency Aggregator to process different bands of frequency components by adaptively reweighing high-frequency and low-frequency features. Comprehensive experiments on seven popular deepfake detection benchmarks demonstrate that our proposed MkfaNet variants achieve superior performances in both within-domain and across-domain evaluations with impressive efficiency of parameter usage. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# SynopGround:テレビドラマとSynopsのマルチパラグラフビデオグラウンドのための大規模データセット
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses ( http://arxiv.org/abs/2408.01669v1 ) ライセンス: Link先を確認 | Chaolei Tan, Zihang Lin, Junfu Pu, Zhongang Qi, Wei-Yi Pei, Zhi Qu, Yexin Wang, Ying Shan, Wei-Shi Zheng, Jian-Fang Hu, | (参考訳) ビデオグラウンディングはマルチモーダルなコンテンツ理解における基本的な問題であり、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
しかし、現在のビデオグラウンドデータセットは単に単純なイベントのみに焦点を当てており、短いビデオや短い文に制限されているため、モデルがより強力なマルチモーダル理解能力へと進化するのを妨げている。
この制限に対処するために、SynopGroundという大規模なビデオグラウンドデータセットを紹介します。
シナプスの各段落は言語クエリとして機能し、長いビデオの正確な時間境界で手動で注釈付けされる。
これらの段落クエリは相互に密接な相関関係があり、ビデオストーリーラインを要約する豊富な抽象表現と、イベントの詳細を描写する特定の記述が含まれており、より長いコンテキスト依存よりも複雑な概念についてマルチモーダルな認識を学習することができる。
このデータセットに基づいて,MPVG(Multi-Paragraph Video Grounding)と呼ばれる,より複雑なビデオグラウンドの設定を導入する。
さらに,MPVGの長期マルチモーダル入力の局所的グローバル構造を明示的にモデル化するための,LGMR(Local-Global Multimodal Reasoner)を提案する。
提案手法は,マルチパラグラフビデオグラウンド問題に対する効果的なベースラインソリューションを提供する。
先行技術に対する長期マルチパラグラフビデオグラウンドにおけるモデルの有効性と,その優位性を検証する。
データセットとコードは公開されています。
プロジェクトページ: https://synopground.github.io/.com
Video grounding is a fundamental problem in multimodal content understanding, aiming to localize specific natural language queries in an untrimmed video. However, current video grounding datasets merely focus on simple events and are either limited to shorter videos or brief sentences, which hinders the model from evolving toward stronger multimodal understanding capabilities. To address these limitations, we present a large-scale video grounding dataset named SynopGround, in which more than 2800 hours of videos are sourced from popular TV dramas and are paired with accurately localized human-written synopses. Each paragraph in the synopsis serves as a language query and is manually annotated with precise temporal boundaries in the long video. These paragraph queries are tightly correlated to each other and contain a wealth of abstract expressions summarizing video storylines and specific descriptions portraying event details, which enables the model to learn multimodal perception on more intricate concepts over longer context dependencies. Based on the dataset, we further introduce a more complex setting of video grounding dubbed Multi-Paragraph Video Grounding (MPVG), which takes as input multiple paragraphs and a long video for grounding each paragraph query to its temporal interval. In addition, we propose a novel Local-Global Multimodal Reasoner (LGMR) to explicitly model the local-global structures of long-term multimodal inputs for MPVG. Our method provides an effective baseline solution to the multi-paragraph video grounding problem. Extensive experiments verify the proposed model's effectiveness as well as its superiority in long-term multi-paragraph video grounding over prior state-of-the-arts. Dataset and code are publicly available. Project page: https://synopground.github.io/. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# レーダモード:ミリ波レーダからの非接触ECG再構成のためのODE埋め込み深層学習モデル
radarODE: An ODE-Embedded Deep Learning Model for Contactless ECG Reconstruction from Millimeter-Wave Radar ( http://arxiv.org/abs/2408.01672v1 ) ライセンス: Link先を確認 | Yuanyuan Zhang, Runwei Guan, Lingxiao Li, Rui Yang, Yutao Yue, Eng Gee Lim, | (参考訳) 近年, レーダーを用いた非接触型心臓モニタリングが研究の方向として注目されているが, 微細心電図(ECG)信号はミリ波レーダ信号からの再構成が困難である。
鍵となる障害は、電気ドメイン(心電図)の心臓活動と機械ドメイン(心電図)の心臓活動を分離することであり、既存のほとんどの研究は、ブラックボックスのようなドメイン変換をマッピングするために純粋なデータ駆動の方法のみを使用する。
そこで本研究ではまずドメイン変換のための信号モデルを提案し,レーダノードと呼ばれる新しいディープラーニングフレームワークを設計し,レーダ信号から抽出した時間的・形態的特徴を融合させてECGを生成する。
さらに、通常の微分方程式をデコーダとしてレーダーデコーダに埋め込んで、モデルトレーニングの収束を助け、身体運動下での堅牢性を向上させる。
提案したレーダノードは,データセット上で検証した結果,検出率の落差,ルート平均二乗誤差,ピアソン相関係数,9%,16%,19%と,それぞれ比較して優れた性能を示した。
その結果,レーダノードはレーダ信号からECG信号を高い忠実度で回収することができ,現実のシナリオで実装できる可能性が示唆された。
Radar-based contactless cardiac monitoring has become a popular research direction recently, but the fine-grained electrocardiogram (ECG) signal is still hard to reconstruct from millimeter-wave radar signal. The key obstacle is to decouple the cardiac activities in the electrical domain (i.e., ECG) from that in the mechanical domain (i.e., heartbeat), and most existing research only uses pure data-driven methods to map such domain transformation as a black box. Therefore, this work first proposes a signal model for domain transformation, and then a novel deep learning framework called radarODE is designed to fuse the temporal and morphological features extracted from radar signals and generate ECG. In addition, ordinary differential equations are embedded in radarODE as a decoder to provide morphological prior, helping the convergence of the model training and improving the robustness under body movements. After being validated on the dataset, the proposed radarODE achieves better performance compared with the benchmark in terms of missed detection rate, root mean square error, Pearson correlation coefficient with the improvement of 9%, 16% and 19%, respectively. The validation results imply that radarODE is capable of recovering ECG signals from radar signals with high fidelity and can be potentially implemented in real-life scenarios. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# HIVE: 階層型ボリュームエンコーディングによるニューラルインシシデント表面再構成
HIVE: HIerarchical Volume Encoding for Neural Implicit Surface Reconstruction ( http://arxiv.org/abs/2408.01677v1 ) ライセンス: Link先を確認 | Xiaodong Gu, Weihao Yuan, Heng Li, Zilong Dong, Ping Tan, | (参考訳) ニューラルな暗黙の表面再構成は、画像から詳細な3次元形状を再構築する新たなトレンドとなっている。
しかし、従来の方法では、3Dシーンは明示的な3D構造を持たないMPPによってのみ符号化される。
3次元形状をよりよく表現するために,空間情報を明示的に符号化するボリュームエンコーディングを導入する。
我々はさらに階層的なボリュームを設計し、複数のスケールでシーン構造を符号化する。
高分解能ボリュームは、空間的に異なる特徴が異なる3Dポイントから学習できるのに対し、低分解能ボリュームは、隣接する場所が同じ低分解能特徴を持つため、その形状を滑らかに保つために空間一貫性を強制する。
さらに,高分解能ボリュームでのメモリ消費を低減するためのスパース構造と,結果の滑らかさを高めるための2つの正規化項を採用する。
この階層的なボリュームエンコーディングは、プラグイン・アンド・プレイモジュールとして任意の暗黙的な表面再構成法に付加することができ、より詳細な情報で滑らかでクリーンな再構成を生成することができる。
DTU、EPFL、およびBlendedMVSデータセットで上位のパフォーマンスが実証され、標準メトリクスが大幅に改善された。
Neural implicit surface reconstruction has become a new trend in reconstructing a detailed 3D shape from images. In previous methods, however, the 3D scene is only encoded by the MLPs which do not have an explicit 3D structure. To better represent 3D shapes, we introduce a volume encoding to explicitly encode the spatial information. We further design hierarchical volumes to encode the scene structures in multiple scales. The high-resolution volumes capture the high-frequency geometry details since spatially varying features could be learned from different 3D points, while the low-resolution volumes enforce the spatial consistency to keep the shape smooth since adjacent locations possess the same low-resolution feature. In addition, we adopt a sparse structure to reduce the memory consumption at high-resolution volumes, and two regularization terms to enhance results smoothness. This hierarchical volume encoding could be appended to any implicit surface reconstruction method as a plug-and-play module, and can generate a smooth and clean reconstruction with more details. Superior performance is demonstrated in DTU, EPFL, and BlendedMVS datasets with significant improvement on the standard metrics. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# iControl3D:制御可能な3Dシーン生成のためのインタラクティブシステム
iControl3D: An Interactive System for Controllable 3D Scene Generation ( http://arxiv.org/abs/2408.01678v1 ) ライセンス: Link先を確認 | Xingyi Li, Yizheng Wu, Jun Cen, Juewen Peng, Kewei Wang, Ke Xian, Zhe Wang, Zhiguo Cao, Guosheng Lin, | (参考訳) 3Dコンテンツ作成は長い間複雑で時間を要するプロセスであり、しばしば専門的なスキルとリソースを必要としています。
近年の進歩により、テキスト誘導された3Dオブジェクトとシーン生成が可能になったが、生成プロセスに対する十分な制御が得られず、ユーザの創造的ビジョンと生成された結果とのギャップが生じた。
本稿では,ユーザがカスタマイズ可能な3Dシーンを正確な制御で生成・レンダリングできるようにする,新しいインタラクティブシステムiControl3Dを提案する。
この目的のために、3Dクリエーターインタフェースが開発され、作成プロセスのきめ細かい制御がユーザに提供する。
技術的には、3Dメッシュを仲介プロキシとして利用し、個々の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
3Dメッシュのシームレスな統合を保証するため,新たに生成されたメッシュと既存のメッシュを3D空間に融合する前に境界認識深度アライメントを行うことを提案する。
さらに, リモートコンテンツと前景の深度差を効果的に管理するために, 3次元メッシュの代わりに環境マップを用いて, リモートコンテンツを別々にモデル化することを提案する。
最後に、私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンの放射場をオンラインで構築し、シーン全体をナビゲートすることを可能にする。
本システムの有効性を実証するために大規模な実験を行った。
コードはhttps://github.com/xingyi-li/iControl3Dで公開される。
3D content creation has long been a complex and time-consuming process, often requiring specialized skills and resources. While recent advancements have allowed for text-guided 3D object and scene generation, they still fall short of providing sufficient control over the generation process, leading to a gap between the user's creative vision and the generated results. In this paper, we present iControl3D, a novel interactive system that empowers users to generate and render customizable 3D scenes with precise control. To this end, a 3D creator interface has been developed to provide users with fine-grained control over the creation process. Technically, we leverage 3D meshes as an intermediary proxy to iteratively merge individual 2D diffusion-generated images into a cohesive and unified 3D scene representation. To ensure seamless integration of 3D meshes, we propose to perform boundary-aware depth alignment before fusing the newly generated mesh with the existing one in 3D space. Additionally, to effectively manage depth discrepancies between remote content and foreground, we propose to model remote content separately with an environment map instead of 3D meshes. Finally, our neural rendering interface enables users to build a radiance field of their scene online and navigate the entire scene. Extensive experiments have been conducted to demonstrate the effectiveness of our system. The code will be made available at https://github.com/xingyi-li/iControl3D. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# MMPKUBase: 総合的で高品質な中国のマルチモーダル知識グラフ
MMPKUBase: A Comprehensive and High-quality Chinese Multi-modal Knowledge Graph ( http://arxiv.org/abs/2408.01679v1 ) ライセンス: Link先を確認 | Xuan Yi, Yanzeng Li, Lei Zou, | (参考訳) マルチモーダルな知識グラフは、テキスト、画像、ビデオなどの様々なモダリティからのデータを組み合わせた、情報表現のための強力なアプローチとして登場した。
このようなグラフがいくつか構築され、視覚的質問応答やレコメンデーションシステムといったアプリケーションで重要な役割を果たしてきたが、その開発には課題が続いている。
これには、高品質な中国の知識グラフの不足や、既存のマルチモーダルな知識グラフのドメインカバレッジの制限が含まれる。
本稿では,5万以上のエンティティと100万以上のフィルタリング画像からなる,鳥,哺乳類,シダなど多種多様なドメインをカバーする,堅牢で広範な中国のマルチモーダル知識グラフであるMMPKUBaseを紹介する。
データ品質を確保するために,原型コントラスト学習と分離フォレストアルゴリズムを用いて画像データを改良する。
さらに,画像属性探索を容易にするユーザフレンドリーなプラットフォームを開発した。
Multi-modal knowledge graphs have emerged as a powerful approach for information representation, combining data from different modalities such as text, images, and videos. While several such graphs have been constructed and have played important roles in applications like visual question answering and recommendation systems, challenges persist in their development. These include the scarcity of high-quality Chinese knowledge graphs and limited domain coverage in existing multi-modal knowledge graphs. This paper introduces MMPKUBase, a robust and extensive Chinese multi-modal knowledge graph that covers diverse domains, including birds, mammals, ferns, and more, comprising over 50,000 entities and over 1 million filtered images. To ensure data quality, we employ Prototypical Contrastive Learning and the Isolation Forest algorithm to refine the image data. Additionally, we have developed a user-friendly platform to facilitate image attribute exploration. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# 運転行動解析における長周期推論のための多フレーム視覚言語モデル
Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis ( http://arxiv.org/abs/2408.01682v1 ) ライセンス: Link先を確認 | Hiroshi Takato, Hiroshi Tsutsui, Komei Soda, Hidetaka Kamigaito, | (参考訳) 現実の状況下での危険運転行動の特定は、ドライバーと歩行者の両方の安全に不可欠である。
しかし、この分野における自然言語モデルの統合は、いまだに未解決のままである。
そこで我々は,新しいマルチモーダル・インストラクション・チューニング・データセットとドライバ・コーチング・推論システムを構築した。
私たちの主なユースケースは、商用ドライバのためのダッシュカムベースのコーチングです。
北米のダッシュカム市場は、2022年から2027年までのCAGRを15.4%登録する予定である。
我々のデータセットは、言語モデルで様々な危険な運転シナリオの視覚的指示を学習し、効果的な運転指導と管理の理解に不可欠な詳細な推論を強調します。
本モデルは,ダッシュカム搭載車両における運転行動の包括的範囲を把握し,路面カメラおよび運転者向けRGBカメラ映像の訓練を行う。
Identifying risky driving behavior in real-world situations is essential for the safety of both drivers and pedestrians. However, integrating natural language models in this field remains relatively untapped. To address this, we created a novel multi-modal instruction tuning dataset and driver coaching inference system. Our primary use case is dashcam-based coaching for commercial drivers. The North American Dashcam Market is expected to register a CAGR of 15.4 percent from 2022 to 2027. Our dataset enables language models to learn visual instructions across various risky driving scenarios, emphasizing detailed reasoning crucial for effective driver coaching and managerial comprehension. Our model is trained on road-facing and driver-facing RGB camera footage, capturing the comprehensive scope of driving behavior in vehicles equipped with dashcams. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# Frontierの声: OpenAI Developer Forumの総合的分析
Voices from the Frontier: A Comprehensive Analysis of the OpenAI Developer Forum ( http://arxiv.org/abs/2408.01687v1 ) ライセンス: Link先を確認 | Xinyi Hou, Yanjie Zhao, Haoyu Wang, | (参考訳) OpenAIの先進的な大規模言語モデル(LLM)は自然言語処理に革命をもたらし、開発者は革新的なアプリケーションを作成できるようになった。
採用が進むにつれて、これらのテクノロジを扱う開発者の経験や課題を理解することが重要です。
本稿では,(1)人気傾向とユーザエンゲージメントパターンに着目したOpenAI Developer Forumの包括的分析を行い,(2)開発者が直面する課題と懸念の分類について述べる。
まず,29,576のフォーラムトピックのメタデータを定量的に分析し,トピック作成の時間的傾向,カテゴリごとのトピックの人気,さまざまな信頼レベルでのユーザコントリビューションを調査した。
次に、開発者に関する9,301件のアクティブトピックのコンテンツを質的に分析します。
886のトピックのサンプルから、OpenAI Developer Forumで関心事の分類を構築します。
私たちの発見は、AIを使ったアプリケーションの開発において開発者が起こした重大な懸念を明らかにし、それに対応するための推奨事項を提供します。
この作業は、AI支援ソフトウェアエンジニアリングを前進させるだけでなく、開発者コミュニティにも、社会におけるAIテクノロジの責任ある進化と統合を形作る権限を与えます。
OpenAI's advanced large language models (LLMs) have revolutionized natural language processing and enabled developers to create innovative applications. As adoption grows, understanding the experiences and challenges of developers working with these technologies is crucial. This paper presents a comprehensive analysis of the OpenAI Developer Forum, focusing on (1) popularity trends and user engagement patterns, and (2) a taxonomy of challenges and concerns faced by developers. We first employ a quantitative analysis of the metadata from 29,576 forum topics, investigating temporal trends in topic creation, the popularity of topics across different categories, and user contributions at various trust levels. We then qualitatively analyze content from 9,301 recently active topics on developer concerns. From a sample of 886 topics, we construct a taxonomy of concerns in the OpenAI Developer Forum. Our findings uncover critical concerns raised by developers in creating AI-powered applications and offer targeted recommendations to address them. This work not only advances AI-assisted software engineering but also empowers developer communities to shape the responsible evolution and integration of AI technology in society. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# SiamMo: シームズモーション中心の3Dオブジェクト追跡
SiamMo: Siamese Motion-Centric 3D Object Tracking ( http://arxiv.org/abs/2408.01688v1 ) ライセンス: Link先を確認 | Yuxiang Yang, Yingqi Deng, Jing Zhang, Hongjie Gu, Zhekang Don, | (参考訳) 現在の3Dオブジェクト追跡手法は主に、テクスチャレスで不完全なLiDAR点雲に苦しむシームズマッチングベースのパラダイムに依存している。
逆に、動き中心のパラダイムは外観マッチングを回避し、これらの問題を克服する。
しかし、複雑なマルチステージパイプラインと、単一ストリームアーキテクチャの時間的モデリング能力は、その可能性を制限する。
本稿では,シームズ運動中心追跡手法であるSiamMoを紹介する。
従来のシングルストリームアーキテクチャとは異なり、動作中心のトラッキングにSiamese機能抽出を用いる。
これにより、時間融合からの特徴抽出が切り離され、トラッキング性能が著しく向上する。
さらに,複数のスケールでSamese機能を統合するための時空間特徴集約モジュールを設計し,動作情報を効果的に取得する。
また、オブジェクトサイズを動作推定にエンコードするBox-aware Feature Encodingモジュールも導入した。
SiamMoは純粋にモーション中心のトラッカーで、セグメンテーションやボックスリファインメントといった追加のプロセスを必要としない。
ホイッスルやベルがなければ、SiamMoは複数のベンチマークで最先端のメソッドを超越するだけでなく、挑戦的なシナリオにおいて例外的な堅牢性を示す。
SiamMoは、KITTIトラッキングベンチマークで90.1\%の精度で新しい記録を樹立し、高い推論速度は108 FPSを維持した。
コードはhttps://github.com/HDU-VRLab/SiamMo.comで公開される。
Current 3D single object tracking methods primarily rely on the Siamese matching-based paradigm, which struggles with textureless and incomplete LiDAR point clouds. Conversely, the motion-centric paradigm avoids appearance matching, thus overcoming these issues. However, its complex multi-stage pipeline and the limited temporal modeling capability of a single-stream architecture constrain its potential. In this paper, we introduce SiamMo, a novel and simple Siamese motion-centric tracking approach. Unlike the traditional single-stream architecture, we employ Siamese feature extraction for motion-centric tracking. This decouples feature extraction from temporal fusion, significantly enhancing tracking performance. Additionally, we design a Spatio-Temporal Feature Aggregation module to integrate Siamese features at multiple scales, capturing motion information effectively. We also introduce a Box-aware Feature Encoding module to encode object size priors into motion estimation. SiamMo is a purely motion-centric tracker that eliminates the need for additional processes like segmentation and box refinement. Without whistles and bells, SiamMo not only surpasses state-of-the-art methods across multiple benchmarks but also demonstrates exceptional robustness in challenging scenarios. SiamMo sets a new record on the KITTI tracking benchmark with 90.1\% precision while maintaining a high inference speed of 108 FPS. The code will be released at https://github.com/HDU-VRLab/SiamMo. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# $\varepsilon$-Constrained Optimization を用いた画像間生成モデルの制御可能なアンラーニング
Controllable Unlearning for Image-to-Image Generative Models via $\varepsilon$-Constrained Optimization ( http://arxiv.org/abs/2408.01689v1 ) ライセンス: Link先を確認 | Xiaohua Feng, Chaochao Chen, Yuyuan Li, Li Zhang, | (参考訳) 近年、生成モデルは大きな進歩を遂げているが、プライバシー侵害や偏見といった懸念も持ち上がっている。
機械学習は、特定のトレーニングデータ、例えばプライベート情報とバイアスを含むデータをモデルから削除することを目的とした、実行可能なソリューションとして登場した。
本稿では,イメージ・ツー・イメージ(I2I)生成モデルにおける機械学習問題について検討する。
従来の研究は主に、単独の目的最適化問題として扱い、孤独なソリューションを提供することで、完全な未学習とモデルユーティリティのトレードオフに対する様々なユーザの期待を無視していた。
この問題に対処するために、制御係数$\varepsilon$を用いてトレードオフを制御する制御可能なアンラーニングフレームワークを提案する。
我々は、I2I生成モデルの未学習問題を$\varepsilon$-constrained optimization問題に再構成し、非学習境界に対する最適解を求める勾配法を用いて解決する。
これらの境界は、制御係数の有効な範囲を定義する。
この範囲内では、すべての帰納解は理論上パレート最適性によって保証される。
また,フレームワークの収束速度を様々な制御関数で解析する。
主要な3つのI2Iモデルにまたがる2つのベンチマークデータセットに対する大規模な実験は、制御不能なアンラーニングフレームワークの有効性を実証している。
While generative models have made significant advancements in recent years, they also raise concerns such as privacy breaches and biases. Machine unlearning has emerged as a viable solution, aiming to remove specific training data, e.g., containing private information and bias, from models. In this paper, we study the machine unlearning problem in Image-to-Image (I2I) generative models. Previous studies mainly treat it as a single objective optimization problem, offering a solitary solution, thereby neglecting the varied user expectations towards the trade-off between complete unlearning and model utility. To address this issue, we propose a controllable unlearning framework that uses a control coefficient $\varepsilon$ to control the trade-off. We reformulate the I2I generative model unlearning problem into a $\varepsilon$-constrained optimization problem and solve it with a gradient-based method to find optimal solutions for unlearning boundaries. These boundaries define the valid range for the control coefficient. Within this range, every yielded solution is theoretically guaranteed with Pareto optimality. We also analyze the convergence rate of our framework under various control functions. Extensive experiments on two benchmark datasets across three mainstream I2I models demonstrate the effectiveness of our controllable unlearning framework. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# IDNet:ID文書分析と不正検出のための新しいデータセット
IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection ( http://arxiv.org/abs/2408.01690v1 ) ライセンス: Link先を確認 | Hong Guan, Yancheng Wang, Lulu Xie, Soham Nag, Rajeev Goel, Niranjan Erappa Narayana Swamy, Yingzhen Yang, Chaowei Xiao, Jonathan Prisby, Ross Maciejewski, Jia Zou, | (参考訳) パスポート、運転免許証、IDカードなどの政府発行のID文書の効果的な不正検出と分析は、オンラインプラットフォームにおけるID盗難の防止とセキュリティ強化に不可欠である。
正確な不正検出と分析ツールのトレーニングは、広範囲のIDドキュメントデータセットの可用性に依存する。
しかし、MIDV-500、MIDV-2020、FMIDVなどの現在の公開ベンチマークデータセットは、限られた数のサンプルを提供し、不正パターンの不十分なバリエーションをカバーし、ポートレートイメージのような重要な個人識別領域の変更をほとんど含んでおらず、プライバシーを保護しながら現実的な詐欺を検知する訓練モデルにおける彼らの有用性を制限している。
これらの欠点に対応するために,本研究では,プライバシ保護不正検出を推進すべく,新たなベンチマークデータセットであるIDNetを導入する。
IDNetデータセットは、合成生成されたID文書の837,060枚の画像で構成され、合計で490ギガバイトであり、米国10ドルと欧州10カ国から20種類に分類されている。
本稿では,プライバシ保護による不正検出方法のトレーニング,カメラの生成,アイデンティティドキュメントのキャプチャ,スキーマ統一やその他のIDドキュメント管理機能のテストなど,データセットの有用性と利用事例を評価した。
Effective fraud detection and analysis of government-issued identity documents, such as passports, driver's licenses, and identity cards, are essential in thwarting identity theft and bolstering security on online platforms. The training of accurate fraud detection and analysis tools depends on the availability of extensive identity document datasets. However, current publicly available benchmark datasets for identity document analysis, including MIDV-500, MIDV-2020, and FMIDV, fall short in several respects: they offer a limited number of samples, cover insufficient varieties of fraud patterns, and seldom include alterations in critical personal identifying fields like portrait images, limiting their utility in training models capable of detecting realistic frauds while preserving privacy. In response to these shortcomings, our research introduces a new benchmark dataset, IDNet, designed to advance privacy-preserving fraud detection efforts. The IDNet dataset comprises 837,060 images of synthetically generated identity documents, totaling approximately 490 gigabytes, categorized into 20 types from $10$ U.S. states and 10 European countries. We evaluate the utility and present use cases of the dataset, illustrating how it can aid in training privacy-preserving fraud detection methods, facilitating the generation of camera and video capturing of identity documents, and testing schema unification and other identity document management functionalities. | 翻訳日:2024-08-06 19:00:53 公開日:2024-08-03 |
# TreeCSS: 垂直的フェデレーション学習のための効率的なフレームワーク
TreeCSS: An Efficient Framework for Vertical Federated Learning ( http://arxiv.org/abs/2408.01691v1 ) ライセンス: Link先を確認 | Qinbo Zhang, Xiao Yan, Yukai Ding, Quanqing Xu, Chuang Hu, Xiaokai Zhou, Jiawei Jiang, | (参考訳) 垂直連合学習(VFL)は、データサンプルの特徴が異なる参加者間で分割されている場合を考える。
VFLは2つの主要なステップ、すなわち、すべての参加者(アライメント)の共通データサンプルと、アライメントされたデータサンプル(トレーニング)を使用したトレインモデルからなる。
しかし、多くの参加者とデータサンプルが存在すると、アライメントとトレーニングの両方が遅くなります。
そこで我々は2つの主要なステップを加速する効率的なVFLフレームワークとしてTreeCSSを提案する。
特に、サンプルアライメントのために、ツリーベース構造とデータボリューム対応スケジューリング戦略を採用し、参加者間のアライメントを並列化するための、効率的なマルチパーティ・プライベート・セット・アグリゲーション(MPSI)プロトコルであるTree-MPSIを設計する。
モデルトレーニング時間はデータサンプルの数とともにスケールするので、コアセット選択(CSS)を行い、トレーニング用の代表的なデータサンプルを選択します。
CCS法では,まず各参加者に局所的に特徴をクラスタリングし,次に局所的なクラスタリング結果をマージして代表サンプルを選択する,セキュリティと汎用性のためのクラスタリング方式を採用している。
さらに、モデルトレーニングの重要性を反映して、遠心体との距離に応じてサンプルを重み付けする。
さまざまなデータセットやモデルに対して,TreeCSSフレームワークの有効性と有効性を評価する。
結果は、バニラVFLと比較して、TreeCSSはトレーニングを最大2.93倍加速し、同等のモデルの精度を達成することを示している。
Vertical federated learning (VFL) considers the case that the features of data samples are partitioned over different participants. VFL consists of two main steps, i.e., identify the common data samples for all participants (alignment) and train model using the aligned data samples (training). However, when there are many participants and data samples, both alignment and training become slow. As such, we propose TreeCSS as an efficient VFL framework that accelerates the two main steps. In particular, for sample alignment, we design an efficient multi-party private set intersection (MPSI) protocol called Tree-MPSI, which adopts a tree-based structure and a data-volume-aware scheduling strategy to parallelize alignment among the participants. As model training time scales with the number of data samples, we conduct coreset selection (CSS) to choose some representative data samples for training. Our CCS method adopts a clustering-based scheme for security and generality, which first clusters the features locally on each participant and then merges the local clustering results to select representative samples. In addition, we weight the samples according to their distances to the centroids to reflect their importance to model training. We evaluate the effectiveness and efficiency of our TreeCSS framework on various datasets and models. The results show that compared with vanilla VFL, TreeCSS accelerates training by up to 2.93x and achieves comparable model accuracy. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 地すべり検出のためのCNNに基づくディープラーニングモデルの比較解析
A Comparative Analysis of CNN-based Deep Learning Models for Landslide Detection ( http://arxiv.org/abs/2408.01692v1 ) ライセンス: Link先を確認 | Omkar Oak, Rukmini Nazre, Soham Naigaonkar, Suraj Sawant, Himadri Vaidya, | (参考訳) 地すべりは社会と経済に大きな損害を与え、その世界的重要性を再発・破壊的な自然災害として示している。
近年のインド北部とネパールの地すべりは、大きな破壊を招き、インフラを損傷し、地域社会に脅威を与えている。
ディープラーニング技術の一種である畳み込みニューラルネットワーク(CNN)は、画像処理において顕著な成功を収めている。
高度なアーキテクチャのため、先進的なCNNベースのモデルは従来のアルゴリズムよりも地すべり検出に優れる。
本研究の目的は,地すべり検出のためのCNNモデルの比較に重点を置いて,CNNのポテンシャルをより詳細に調査することである。
従来の4つのセマンティックセグメンテーションモデル(U-Net, LinkNet, PSPNet, FPN)を比較し,ResNet50のバックボーンエンコーダを用いて実装した。
さらに,学習率やバッチサイズ,正規化手法などのハイパーパラメータを実験して,モデルを微調整した。
我々は、各モデルの混乱行列を計算し、精度、リコール、f1スコアなどのパフォーマンス指標を用いて、ディープラーニングモデルの評価と比較を行った。
実験結果によると、LinkNetは97.49%の精度と85.7%のF1スコア(84.49%の精度、87.07%のリコール)の4つのモデルの中で最高の結果を得た。
また,全画素混合行列の結果と,各モデルの学習に要する時間とを総合的に比較した。
Landslides inflict substantial societal and economic damage, underscoring their global significance as recurrent and destructive natural disasters. Recent landslides in northern parts of India and Nepal have caused significant disruption, damaging infrastructure and posing threats to local communities. Convolutional Neural Networks (CNNs), a type of deep learning technique, have shown remarkable success in image processing. Because of their sophisticated architectures, advanced CNN-based models perform better in landslide detection than conventional algorithms. The purpose of this work is to investigate CNNs' potential in more detail, with an emphasis on comparison of CNN based models for better landslide detection. We compared four traditional semantic segmentation models (U-Net, LinkNet, PSPNet, and FPN) and utilized the ResNet50 backbone encoder to implement them. Moreover, we have experimented with the hyperparameters such as learning rates, batch sizes, and regularization techniques to fine-tune the models. We have computed the confusion matrix for each model and used performance metrics including precision, recall and f1-score to evaluate and compare the deep learning models. According to the experimental results, LinkNet gave the best results among the four models having an Accuracy of 97.49% and a F1-score of 85.7% (with 84.49% precision, 87.07% recall). We have also presented a comprehensive comparison of all pixel-wise confusion matrix results and the time taken to train each model. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# セマンティックセグメンテーションのためのベイズアクティブラーニング
Bayesian Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2408.01694v1 ) ライセンス: Link先を確認 | Sima Didari, Wenjun Hu, Jae Oh Woo, Heng Hao, Hankyu Moon, Seungjai Min, | (参考訳) 画像内の各ピクセルにラベルを付ける必要があるため、セマンティックセグメンテーションモデルの完全な教師付きトレーニングは費用がかかる。
そのため、各画像内に画素のサブセットを持つモデルを訓練するために、スパースピクセルレベルのアノテーション手法が導入されている。
平衡エントロピー(BalEnt) [84] に基づく画素レベルのベイズ不確実性尺度を用いた,スパースピクセルレベルのアノテーションに基づくベイズ能動学習フレームワークを提案する。
BalEntは、予測された限界化確率分布とピクセルラベルの間の情報をキャプチャする。
BalEntは、解析形式が閉じた線形スケーラビリティを持ち、他のピクセルとのリレーショナルな計算をすることなく、ピクセル毎に独立に計算することができる。
提案したアクティブラーニングフレームワークを,Cityscapes,Camvid,ADE20K,VOC2012ベンチマークデータセット向けにトレーニングし,ラベル付きピクセルのごく一部を使用してmIoUの教師付きレベルに達するとともに,従来の最先端のアクティブラーニングモデルよりも大きなマージンを持つことを示す。
Fully supervised training of semantic segmentation models is costly and challenging because each pixel within an image needs to be labeled. Therefore, the sparse pixel-level annotation methods have been introduced to train models with a subset of pixels within each image. We introduce a Bayesian active learning framework based on sparse pixel-level annotation that utilizes a pixel-level Bayesian uncertainty measure based on Balanced Entropy (BalEnt) [84]. BalEnt captures the information between the models' predicted marginalized probability distribution and the pixel labels. BalEnt has linear scalability with a closed analytical form and can be calculated independently per pixel without relational computations with other pixels. We train our proposed active learning framework for Cityscapes, Camvid, ADE20K and VOC2012 benchmark datasets and show that it reaches supervised levels of mIoU using only a fraction of labeled pixels while outperforming the previous state-of-the-art active learning models with a large margin. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 微細ディスクリミネータを用いた高品質シンボリック音楽の生成
Generating High-quality Symbolic Music Using Fine-grained Discriminators ( http://arxiv.org/abs/2408.01696v1 ) ライセンス: Link先を確認 | Zhedong Zhang, Liang Li, Jiehua Zhang, Zhenghui Hu, Hongkui Wang, Chenggang Yan, Jian Yang, Yuankai Qi, | (参考訳) 既存のシンボリック・ミュージック・ジェネレーション・メソッドは、通常、識別器を使用して、音楽のグローバルな認識を通じて生成された音楽の品質を向上させる。
しかし、リズムやメロディのような音楽の情報の複雑さを考えると、この2つの音楽の主次元の差を完全には反映できない。
本研究では,メロディとリズムを音楽から分離し,上記の課題に対処するための細粒度識別器の設計を提案する。
具体的には、ピッチ増強戦略を備えるメロディ判別器は、生成されたサンプルによって提示されるメロディ変動を識別する。
対照的に、バーレベルの相対的な位置符号化によって強化されたリズム判別器は、生成された音符の速度に焦点を当てている。
このような設計により、ジェネレータは生成した音楽においてどの側面を調整すべきかをより明確に認識し、人間の構成した音楽を模倣しやすくすることができる。
POP909ベンチマークによる実験結果から,提案手法の客観的,主観的両指標の両面において,いくつかの最先端手法と比較して好適な性能を示した。
Existing symbolic music generation methods usually utilize discriminator to improve the quality of generated music via global perception of music. However, considering the complexity of information in music, such as rhythm and melody, a single discriminator cannot fully reflect the differences in these two primary dimensions of music. In this work, we propose to decouple the melody and rhythm from music, and design corresponding fine-grained discriminators to tackle the aforementioned issues. Specifically, equipped with a pitch augmentation strategy, the melody discriminator discerns the melody variations presented by the generated samples. By contrast, the rhythm discriminator, enhanced with bar-level relative positional encoding, focuses on the velocity of generated notes. Such a design allows the generator to be more explicitly aware of which aspects should be adjusted in the generated music, making it easier to mimic human-composed music. Experimental results on the POP909 benchmark demonstrate the favorable performance of the proposed method compared to several state-of-the-art methods in terms of both objective and subjective metrics. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# アウト・オブ・ディストリビューションの一般化のための不変グラフ学習
Invariant Graph Learning Meets Information Bottleneck for Out-of-Distribution Generalization ( http://arxiv.org/abs/2408.01697v1 ) ライセンス: Link先を確認 | Wenyu Mao, Jiancan Wu, Haoyang Liu, Yongduo Sui, Xiang Wang, | (参考訳) グラフアウト・オブ・ディストリビューション(OOD)の一般化は、グラフニューラルネットワーク(GNN)が分散シフト時に深刻なパフォーマンス劣化に悩まされるため、グラフ学習において依然として大きな課題である。
多様な分布にまたがる不変特徴を抽出することを目的とした不変学習が最近,OOD生成の有望なアプローチとして登場した。
ユークリッドデータ(すなわち画像)のOOD問題における不変学習の大きな成功にもかかわらず、グラフデータの探索はグラフの複雑な性質に制約されるままである。
データ拡張や因果介入といった既存の研究は、グラフ操作の過程で不均一化に苦しむか、因果部分の教師付き信号が欠如しているために信頼性の問題に直面している。
本研究では,情報ボトルネック理論に基づく不変グラフ学習(Invariant Graph Learning)と呼ばれる新しいフレームワークを提案する。
具体的には,環境要因に関連するタスク関連情報を圧縮する冗長フィルタを提案する。
設計したマルチレベルコントラスト学習と協調して、下流の分類タスクにおいて、同一クラスのグラフ間の相互情報を最大化し、予測のための不変性を保存する。
InfoIGLの魅力的な特徴は、教師付き不変信号に依存しない強力な一般化能力である。
合成と実世界の両方のデータセットを用いた実験により,OODの一般化によるグラフ分類タスクの最先端性能が得られた。
ソースコードはhttps://github.com/maowenyu-11/InfoIGLで入手できる。
Graph out-of-distribution (OOD) generalization remains a major challenge in graph learning since graph neural networks (GNNs) often suffer from severe performance degradation under distribution shifts. Invariant learning, aiming to extract invariant features across varied distributions, has recently emerged as a promising approach for OOD generation. Despite the great success of invariant learning in OOD problems for Euclidean data (i.e., images), the exploration within graph data remains constrained by the complex nature of graphs. Existing studies, such as data augmentation or causal intervention, either suffer from disruptions to invariance during the graph manipulation process or face reliability issues due to a lack of supervised signals for causal parts. In this work, we propose a novel framework, called Invariant Graph Learning based on Information bottleneck theory (InfoIGL), to extract the invariant features of graphs and enhance models' generalization ability to unseen distributions. Specifically, InfoIGL introduces a redundancy filter to compress task-irrelevant information related to environmental factors. Cooperating with our designed multi-level contrastive learning, we maximize the mutual information among graphs of the same class in the downstream classification tasks, preserving invariant features for prediction to a great extent. An appealing feature of InfoIGL is its strong generalization ability without depending on supervised signal of invariance. Experiments on both synthetic and real-world datasets demonstrate that our method achieves state-of-the-art performance under OOD generalization for graph classification tasks. The source code is available at https://github.com/maowenyu-11/InfoIGL. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 圧縮光によって駆動される2レベル系の定常状態放出におけるウィグナー負状態
Wigner-negative states in the steady-state emission of a two-level system driven by squeezed light ( http://arxiv.org/abs/2408.01698v1 ) ライセンス: Link先を確認 | Miriam. J. Leonhardt, Scott Parkins, | (参考訳) 負値のウィグナー分布を持つ光の伝播モードは、量子光学の基本的関心であり、光学に基づく量子情報技術の追求において重要な資源である。
このようなモードの生成のために提案または実装されたほとんどのスキームは、本質的に確率的であり、光子の検出やビームスプリッターによって光子を元のフィールドモードから分離する条件付き手法によるシーディングに依存している。
このレターでは、理論上、カスケード量子系モデルを用いて、有限帯域四重項光によって駆動される2レベル系の定常放出の時間モードにおけるウィグナー負性率の決定論的生成の可能性を示す。
2レベルシステムの遷移の直線幅に類似した帯域幅に対して最適負性が得られる。
入射された励起光に関連するウィグナー分布はガウス的であり、至るところで正であるのに対し、外向きの時間モードのウィグナー関数は異なる類似性を示し、転位した励起状態の重畳と重なる。
Propagating modes of light with negative-valued Wigner distributions are of fundamental interest in quantum optics and represent a key resource in the pursuit of optics-based quantum information technologies. Most schemes proposed or implemented for the generation of such modes are probabilistic in nature and rely on heralding by detection of a photon or on conditional methods where photons are separated from the original field mode by a beam splitter. In this Letter we demonstrate theoretically, using a cascaded-quantum-systems model, the possibility of deterministic generation of Wigner-negativity in temporal modes of the steady-state emission of a two-level system driven by finite-bandwidth quadrature-squeezed light. Optimal negativity is obtained for a squeezing bandwidth similar to the linewidth of the transition of the two-level system. While the Wigner distribution associated with the incident squeezed light is Gaussian and everywhere positive, the Wigner functions of the outgoing temporal modes show distinct similarities and overlap with a superposition of displaced squeezed states. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# テキストテストデータの抽出と検証のための大規模言語モデルと知識グラフの統合
Integrating Large Language Models and Knowledge Graphs for Extraction and Validation of Textual Test Data ( http://arxiv.org/abs/2408.01700v1 ) ライセンス: Link先を確認 | Antonio De Santis, Marco Balduini, Federico De Santis, Andrea Proia, Arsenio Leo, Marco Brambilla, Emanuele Della Valle, | (参考訳) タレス・アレニア・スペース (Thales Alenia Space) のような航空宇宙製造会社は、高い複雑さと低い体積で特徴付けられる製品の設計、開発、統合、検証を行っている。
それぞれの製品に関するすべてのフェーズを慎重に文書化していますが、データの異質性や非構造性のため、製品全体の分析は困難です。
本稿では,Large Language Models (LLMs) とともに知識グラフ(KGs)を活用するハイブリッド手法を提案する。
本稿では,衛星用電子基板に関するテストデータに着目したケーススタディについて考察する。
そこで我々は,セマンティック・センサ・ネットワーク・オントロジーを拡張した。
レポートのメタデータをKGに格納し、実際のテスト結果はVirtual Knowledge Graph経由でアクセス可能なパケットに格納します。
検証プロセスはLLMベースのアプローチで管理される。
我々はまた、このタスクの実行における最先端のLLMの性能を評価するためのベンチマーク研究も行っている。
最後に,既存の手動データ抽出プロセスの自動化と,その後のクロスレポート解析における検証のコストとメリットを分析した。
Aerospace manufacturing companies, such as Thales Alenia Space, design, develop, integrate, verify, and validate products characterized by high complexity and low volume. They carefully document all phases for each product but analyses across products are challenging due to the heterogeneity and unstructured nature of the data in documents. In this paper, we propose a hybrid methodology that leverages Knowledge Graphs (KGs) in conjunction with Large Language Models (LLMs) to extract and validate data contained in these documents. We consider a case study focused on test data related to electronic boards for satellites. To do so, we extend the Semantic Sensor Network ontology. We store the metadata of the reports in a KG, while the actual test results are stored in parquet accessible via a Virtual Knowledge Graph. The validation process is managed using an LLM-based approach. We also conduct a benchmarking study to evaluate the performance of state-of-the-art LLMs in executing this task. Finally, we analyze the costs and benefits of automating preexisting processes of manual data extraction and validation for subsequent cross-report analyses. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# Signal-SGN:時間周波数ダイナミクスの学習による骨格行動認識のためのスパイキンググラフ畳み込みネットワーク
Signal-SGN: A Spiking Graph Convolutional Network for Skeletal Action Recognition via Learning Temporal-Frequency Dynamics ( http://arxiv.org/abs/2408.01701v1 ) ライセンス: Link先を確認 | Naichuan Zheng, Hailun Xia, Dapeng Liu, | (参考訳) 骨格に基づく行動認識では、グラフ畳み込みネットワーク(GCN)ベースの手法は、その複雑さと高エネルギー消費のために制限に直面している。
スパイキングニューラルネットワーク(SNN)は近年、低エネルギー消費で注目を集めているが、GCNとSNNを組み合わせた既存の手法では骨格配列の時間的特性を完全に活用できず、ストレージと計算コストが増大している。
この問題に対処するために、骨格配列の時間次元をスパイキング時間ステップとして利用し、特徴を離散確率信号として扱うSignal-SGN(Spiking Graph Convolutional Network)を提案する。
ネットワークのコアは1Dスパイキンググラフ畳み込みネットワーク(1D-SGN)と周波数スパイキング畳み込みネットワーク(FSN)で構成されている。
SGNは単一フレーム上でグラフ畳み込みを行い、スパイクネットワーク特性を取り入れてフレーム間時間関係を捉え、FSNはFast Fourier Transform(FFT)と複雑な畳み込みを用いて時間周波数の特徴を抽出する。
また,マルチスケールウェーブレット変換機能融合モジュール(MWTF)を導入し,時間信号のスペクトル特性を捉え,モデルの分類能力を向上する。
本稿では,時間空間的特徴抽出モジュール(TFSM)を提案する。
NTU RGB+D、NTU RGB+D 120、およびNW-UCLAデータセットに関する多数の実験により、提案モデルは既存のSNNベースの手法を精度良く上回るだけでなく、トレーニング中の計算および記憶コストを低減できることを示した。
さらに、対応するGCNベースの手法と比較して競争精度が向上し、非常に顕著である。
In skeletal-based action recognition, Graph Convolutional Networks (GCNs) based methods face limitations due to their complexity and high energy consumption. Spiking Neural Networks (SNNs) have gained attention in recent years for their low energy consumption, but existing methods combining GCNs and SNNs fail to fully utilize the temporal characteristics of skeletal sequences, leading to increased storage and computational costs. To address this issue, we propose a Signal-SGN(Spiking Graph Convolutional Network), which leverages the temporal dimension of skeletal sequences as the spiking timestep and treats features as discrete stochastic signals. The core of the network consists of a 1D Spiking Graph Convolutional Network (1D-SGN) and a Frequency Spiking Convolutional Network (FSN). The SGN performs graph convolution on single frames and incorporates spiking network characteristics to capture inter-frame temporal relationships, while the FSN uses Fast Fourier Transform (FFT) and complex convolution to extract temporal-frequency features. We also introduce a multi-scale wavelet transform feature fusion module(MWTF) to capture spectral features of temporal signals, enhancing the model's classification capability. We propose a pluggable temporal-frequency spatial semantic feature extraction module(TFSM) to enhance the model's ability to distinguish features without increasing inference-phase consumption. Our numerous experiments on the NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets demonstrate that the proposed models not only surpass existing SNN-based methods in accuracy but also reduce computational and storage costs during training. Furthermore, they achieve competitive accuracy compared to corresponding GCN-based methods, which is quite remarkable. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 下流移動攻撃:事前訓練された視覚変換器を用いた下流モデルにおける敵攻撃
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers ( http://arxiv.org/abs/2408.01705v1 ) ライセンス: Link先を確認 | Weijie Zheng, Xingjun Ma, Hanxun Huang, Zuxuan Wu, Yu-Gang Jiang, | (参考訳) ビジョントランスフォーマー(ViT)と自己教師付き学習(SSL)技術の進歩により、コンピュータビジョンアプリケーションのための新しい基礎モデルとなった。
しかし、研究では、畳み込みニューラルネットワーク(CNN)と同様に、ViTも敵の攻撃の影響を受けやすいことが示されている。
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
本稿では,emph{sample-wise}転送攻撃に着目し,新しい攻撃手法であるemph{Downstream Transfer Attack (DTA)を提案する。
与えられたテストイメージに対して、DTAはトレーニング済みのViTモデルを活用して、逆方向のサンプルを作成し、その後、逆方向のサンプルを適用して、ダウンストリームデータセット上でモデルの微調整バージョンを攻撃する。
攻撃中、DTAはコサイン類似性の喪失によって誘導される訓練済みモデルの最も脆弱な層を特定し、利用し、高度に転送可能な攻撃を行う。
3つの異なる事前学習手法、3つの微調整方式、および10種類の下流データセットによる事前学習型ViTによる広範囲な実験により、DTAは90倍を超える平均攻撃成功率(ASR)を達成し、既存の手法をはるかに上回ることを示す。
逆行訓練で使用する場合、DTAが生成した逆行例は、異なる下流移動攻撃に対してモデルの堅牢性を大幅に向上させることができる。
With the advancement of vision transformers (ViTs) and self-supervised learning (SSL) techniques, pre-trained large ViTs have become the new foundation models for computer vision applications. However, studies have shown that, like convolutional neural networks (CNNs), ViTs are also susceptible to adversarial attacks, where subtle perturbations in the input can fool the model into making false predictions. This paper studies the transferability of such an adversarial vulnerability from a pre-trained ViT model to downstream tasks. We focus on \emph{sample-wise} transfer attacks and propose a novel attack method termed \emph{Downstream Transfer Attack (DTA)}. For a given test image, DTA leverages a pre-trained ViT model to craft the adversarial example and then applies the adversarial example to attack a fine-tuned version of the model on a downstream dataset. During the attack, DTA identifies and exploits the most vulnerable layers of the pre-trained model guided by a cosine similarity loss to craft highly transferable attacks. Through extensive experiments with pre-trained ViTs by 3 distinct pre-training methods, 3 fine-tuning schemes, and across 10 diverse downstream datasets, we show that DTA achieves an average attack success rate (ASR) exceeding 90\%, surpassing existing methods by a huge margin. When used with adversarial training, the adversarial examples generated by our DTA can significantly improve the model's robustness to different downstream transfer attacks. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# AVESFormer:リアルタイム・オーディオ・ビジュアル・セグメンテーションのための効率的なトランスフォーマー設計
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation ( http://arxiv.org/abs/2408.01708v1 ) ライセンス: Link先を確認 | Zili Wang, Qi Yang, Linsu Shi, Jiazhong Yu, Qinghua Liang, Fei Li, Shiming Xiang, | (参考訳) 近年,トランスフォーマーをベースとしたモデルは,音声視覚分割(AVS)タスクにおいて顕著な性能を示した。
しかし、その高価な計算コストは、リアルタイムの推論を非現実的にする。
ネットワークの注意マップを特徴付けることにより、AVSモデルにおける2つの重要な障害を特定する。
1)制限枠内でのソフトマックスによる過度に集中した注意重みに対応する注意散逸
2) 初期焦点パターンの狭さによる非効率で重荷のかかる変圧器デコーダ。
本稿では,AVESFormerについて紹介する。AVESFormerは,高速,効率,軽量を同時に実現した,最初のリアルタイム・ビジュアル・効率的なセグメンテーション変換器である。
提案モデルでは,効率的なプロンプトクエリジェネレータを用いて,クロスアテンションの動作を補正する。
さらに,局所的な特徴に適合する畳み込みを容易にし,計算負担を軽減することで,より効率的なELFデコーダを提案する。
AVESFormerはS4で79.9%、MS3で57.9%、AVSSで31.2%を達成し、過去の最先端を上回り、性能と速度のトレードオフに優れていた。
コードはhttps://github.com/MarkXCloud/AVESFormer.gitにある。
Recently, transformer-based models have demonstrated remarkable performance on audio-visual segmentation (AVS) tasks. However, their expensive computational cost makes real-time inference impractical. By characterizing attention maps of the network, we identify two key obstacles in AVS models: 1) attention dissipation, corresponding to the over-concentrated attention weights by Softmax within restricted frames, and 2) inefficient, burdensome transformer decoder, caused by narrow focus patterns in early stages. In this paper, we introduce AVESFormer, the first real-time Audio-Visual Efficient Segmentation transformer that achieves fast, efficient and light-weight simultaneously. Our model leverages an efficient prompt query generator to correct the behaviour of cross-attention. Additionally, we propose ELF decoder to bring greater efficiency by facilitating convolutions suitable for local features to reduce computational burdens. Extensive experiments demonstrate that our AVESFormer significantly enhances model performance, achieving 79.9% on S4, 57.9% on MS3 and 31.2% on AVSS, outperforming previous state-of-the-art and achieving an excellent trade-off between performance and speed. Code can be found at https://github.com/MarkXCloud/AVESFormer.git. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 量子センサーのネットワークにおけるプライバシー
Privacy in networks of quantum sensors ( http://arxiv.org/abs/2408.01711v1 ) ライセンス: Link先を確認 | Majid Hassani, Santiago Scheiner, Matteo G. A. Paris, Damian Markham, | (参考訳) 我々は、アクセス可能な情報がネットワークパラメータの特定の機能に制限され、他のすべての情報が非公開である量子センサーのネットワークでプライバシを扱う。
我々は、量子フィッシャー情報行列の操作の観点から、プライバシの分析を開発し、量子センサネットワークにおける未知パラメータの線形結合の推定において、最大プライバシを達成する最適状態を求める。
また,ネットワークのプライバシーに対する非相関ノイズの影響についても論じる。
さらに,ネットワーク内の未知パラメータの平均値を推定する手法を提案する。
この例では、準プライバシー(「準プライバシー」)の概念を導入し、州がプライベートであることの近さを定量化します。
We treat privacy in a network of quantum sensors where accessible information is limited to specific functions of the network parameters, and all other information remains private. We develop an analysis of privacy in terms of a manipulation of the quantum Fisher information matrix, and find the optimal state achieving maximum privacy in the estimation of linear combination of the unknown parameters in a network of quantum sensors. We also discuss the effect of uncorrelated noise on the privacy of the network. Moreover, we illustrate our results with an example where the goal is to estimate the average value of the unknown parameters in the network. In this example, we also introduce the notion of quasi-privacy ($\epsilon$-privacy), quantifying how close the state is to being private. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# エッジトレース付きバイナリエッジ画像の一般曖昧性モデルとその実装
A General Ambiguity Model for Binary Edge Images with Edge Tracing and its Implementation ( http://arxiv.org/abs/2408.01712v1 ) ライセンス: Link先を確認 | Markus Hennig, Marc Leineke, Bärbel Mertsching, | (参考訳) 両端画像における交差点, 接合, その他の構造に対する汎用的, 直感的なあいまいさモデルを提案する。
モデルはエッジトレースと組み合わせられ、エッジは接続されたピクセルの順序列である。
目的は、図形のセグメンテーション、オブジェクト認識、トポロジ解析などのタスクのための汎用的な事前処理方法を提供することである。
単純な原則の小さなセットだけを使用することで、結果は直感的に説明できる。
これは、ジャンクションにおけるあいまいなエッジ接続の解決など、その後の処理ステップの実装に役立ちます。
拡張エッジマップを使用することで、近隣のエッジに直接、クイックローカル検索操作を使ってアクセスすることができる。
エッジトレースは再帰を使い、コンパクトなプログラミングコードに繋がる。
提案アルゴリズムは擬似コードを用いて記述し, 関連手法と比較し, 結果の最適化にモジュール後処理がいかに簡単なのかを示す。
すべてのデータ構造を含む完全なアルゴリズムは、50行未満の擬似コードを必要とする。
メソッドのC++実装も提供しています。
We present a general and intuitive ambiguity model for intersections, junctions and other structures in binary edge images. The model is combined with edge tracing, where edges are ordered sequences of connected pixels. The objective is to provide a versatile preprocessing method for tasks such as figure-ground segmentation, object recognition, topological analysis, etc. By using only a small set of straightforward principles, the results are intuitive to describe. This helps to implement subsequent processing steps, such as resolving ambiguous edge connections at junctions. By using an augmented edge map, neighboring edges can be directly accessed using quick local search operations. The edge tracing uses recursion, which leads to compact programming code. We explain our algorithm using pseudocode, compare it with related methods, and show how simple modular postprocessing steps can be used to optimize the results. The complete algorithm, including all data structures, requires less than 50 lines of pseudocode. We also provide a C++ implementation of our method. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 直観的ファジィ一般化固有値支援ベクトルマシン
Intuitionistic Fuzzy Generalized Eigenvalue Proximal Support Vector Machine ( http://arxiv.org/abs/2408.01713v1 ) ライセンス: Link先を確認 | A. Quadir, M. A. Ganaie, M. Tanveer, | (参考訳) 汎用固有値近位サポートベクトルマシン (GEPSVM) は、その単純なアーキテクチャ、高速実行、可読性性能により、広く注目を集めている。
GEPSVMはすべてのサンプルに等しく重要であり、ノイズや外れ値を含む実世界のデータセットと対面した場合、その堅牢性と有効性が低下する。
雑音や外乱の影響を低減するため,新しい直観的ファジィ一般化固有値支援ベクトルマシン (IF-GEPSVM) を提案する。
提案したIF-GEPSVMは、カーネル関数を用いて、その位置と高次元特徴空間の周囲に基づいて、各トレーニングサンプルに直観的ファジィスコアを割り当てる。
IF-GEPSVM最適化問題の解は一般化固有値問題を解くことによって得られる。
さらに,従来の固有値分解を解き,計算コストを低減し,効率的な直観的ファジィモデルを実現することにより,直観的ファジィ改善GEPSVM(IF-IGEPSVM)を提案する。
提案したIF-GEPSVM と IF-IGEPSVM モデルを UCI および KEEL データセット上で包括的に評価する。
さらに、提案したIF-GEPSVMとIF-IGEPSVMモデルの堅牢性を評価するために、いくつかのUCIおよびKEELデータセットにラベルノイズを導入している。
実験結果から,既存のベースラインモデルと比較した場合,ラベルノイズを伴わない場合と比較して,提案モデルの方が優れた一般化性能を示した。
厳密な統計解析によって得られた実験結果から,提案したIF-GEPSVMおよびIF-IGEPSVMモデルのベースラインモデルよりも優れた一般化能力が確認された。
さらに,提案したIF-GEPSVMおよびIF-IGEPSVMモデルをUSPS認識データセット上に実装し,実世界および実世界の応用におけるモデルの有効性を裏付ける有望な結果を得た。
Generalized eigenvalue proximal support vector machine (GEPSVM) has attracted widespread attention due to its simple architecture, rapid execution, and commendable performance. GEPSVM gives equal significance to all samples, thereby diminishing its robustness and efficacy when confronted with real-world datasets containing noise and outliers. In order to reduce the impact of noises and outliers, we propose a novel intuitionistic fuzzy generalized eigenvalue proximal support vector machine (IF-GEPSVM). The proposed IF-GEPSVM assigns the intuitionistic fuzzy score to each training sample based on its location and surroundings in the high-dimensional feature space by using a kernel function. The solution of the IF-GEPSVM optimization problem is obtained by solving a generalized eigenvalue problem. Further, we propose an intuitionistic fuzzy improved GEPSVM (IF-IGEPSVM) by solving the standard eigenvalue decomposition resulting in simpler optimization problems with less computation cost which leads to an efficient intuitionistic fuzzy-based model. We conduct a comprehensive evaluation of the proposed IF-GEPSVM and IF-IGEPSVM models on UCI and KEEL datasets. Moreover, to evaluate the robustness of the proposed IF-GEPSVM and IF-IGEPSVM models, label noise is introduced into some UCI and KEEL datasets. The experimental findings showcase the superior generalization performance of the proposed models when compared to the existing baseline models, both with and without label noise. Our experimental results, supported by rigorous statistical analyses, confirm the superior generalization abilities of the proposed IF-GEPSVM and IF-IGEPSVM models over the baseline models. Furthermore, we implement the proposed IF-GEPSVM and IF-IGEPSVM models on the USPS recognition dataset, yielding promising results that underscore the models' effectiveness in practical and real-world applications. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 解釈を伴う普遍的対向摂動
Joint Universal Adversarial Perturbations with Interpretations ( http://arxiv.org/abs/2408.01715v1 ) ライセンス: Link先を確認 | Liang-bo Ning, Zeyu Dai, Wenqi Fan, Jingran Su, Chao Pan, Luning Wang, Qing Li, | (参考訳) ディープニューラルネットワーク(DNN)は多くの困難なタスクのパフォーマンスを大幅に向上させた。
優れた開発にも関わらず、DNNもその脆弱性を暴露している。
近年の研究では、敵対者は、良性サンプルに普遍的対向摂動(UAP)を加えることで、DNNの予測を操作できることが示されている。
一方,DNNの内部動作の理解と説明を支援するため,利用者の予測に対して最も情報に富む部分(属性マップ)を強調することにより,利用者の理解と説明を支援する努力が増加している。
さらに, 良性例と敵性例の属性マップに有意差がみられ, 敵性攻撃を防御するための普遍的敵性摂動を検出する可能性が示唆された。
この発見は、DNNの分類と悪意のある欲求との解釈を共同で攻撃できる普遍的な敵対的摂動が存在するかどうかという、新たな研究課題をさらに調査する動機となる。
これらの2つの目標が矛盾しているように見えるので、明確な答えを出すのは難しいです。
本稿では,DNNモデルを騙し,同時にインタプリタからの検査を誤ることのできる,JUAP(Universal Reversarial Perturbation)を生成する新たな攻撃フレームワークを提案する。
各種データセットに対する総合的な実験により,JUAP法の有効性が示された。
我々の知る限りでは、これはDNNと解釈の両方を共同攻撃するUAPを研究する最初の試みである。
Deep neural networks (DNNs) have significantly boosted the performance of many challenging tasks. Despite the great development, DNNs have also exposed their vulnerability. Recent studies have shown that adversaries can manipulate the predictions of DNNs by adding a universal adversarial perturbation (UAP) to benign samples. On the other hand, increasing efforts have been made to help users understand and explain the inner working of DNNs by highlighting the most informative parts (i.e., attribution maps) of samples with respect to their predictions. Moreover, we first empirically find that such attribution maps between benign and adversarial examples have a significant discrepancy, which has the potential to detect universal adversarial perturbations for defending against adversarial attacks. This finding motivates us to further investigate a new research problem: whether there exist universal adversarial perturbations that are able to jointly attack DNNs classifier and its interpretation with malicious desires. It is challenging to give an explicit answer since these two objectives are seemingly conflicting. In this paper, we propose a novel attacking framework to generate joint universal adversarial perturbations (JUAP), which can fool the DNNs model and misguide the inspection from interpreters simultaneously. Comprehensive experiments on various datasets demonstrate the effectiveness of the proposed method JUAP for joint attacks. To the best of our knowledge, this is the first effort to study UAP for jointly attacking both DNNs and interpretations. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# 農業ロボットのための視覚慣性SLAM:ループ閉鎖の利点と計算コストのベンチマーク
Visual-Inertial SLAM for Agricultural Robotics: Benchmarking the Benefits and Computational Costs of Loop Closing ( http://arxiv.org/abs/2408.01716v1 ) ライセンス: Link先を確認 | Fabian Schmidt, Constantin Blessing, Markus Enzweiler, Abhinav Valada, | (参考訳) 動的で非構造的な屋外環境において、外部位置決めシステムに頼ることなく自律的なナビゲーションを可能にする。
農業分野では、様々な照明や気象条件のために環境条件が特に困難な場合があり、視覚慣性SLAMが潜在的な解決策として出現している。
本稿では,ORB-SLAM3,VINS-Fusion,OpenVINS,Kimera,SVO ProなどのオープンソースのVisual-Inertial SLAMシステムを用いて,農業環境における性能評価を行う。
実環境におけるこれらのシステムの有効性を包括的に分析し,特に農業ロボティクスにおける組込みシステムへの適用について検討する。
我々の貢献には、ローカライズ精度と計算負荷に対する様々なフレームレートの評価も含まれる。
この知見は,モバイルロボティクスにおける実用的な屋外応用のための視覚-慣性SLAMシステムの最適化に有用な洞察を提供するとともに,計算資源を効率的に管理しながら,ローカライズ精度を向上させるためのループクローズの重要性を強調した。
Simultaneous Localization and Mapping (SLAM) is essential for mobile robotics, enabling autonomous navigation in dynamic, unstructured outdoor environments without relying on external positioning systems. In agricultural applications, where environmental conditions can be particularly challenging due to variable lighting or weather conditions, Visual-Inertial SLAM has emerged as a potential solution. This paper benchmarks several open-source Visual-Inertial SLAM systems, including ORB-SLAM3, VINS-Fusion, OpenVINS, Kimera, and SVO Pro, to evaluate their performance in agricultural settings. We focus on the impact of loop closing on localization accuracy and computational demands, providing a comprehensive analysis of these systems' effectiveness in real-world environments and especially their application to embedded systems in agricultural robotics. Our contributions further include an assessment of varying frame rates on localization accuracy and computational load. The findings highlight the importance of loop closing in improving localization accuracy while managing computational resources efficiently, offering valuable insights for optimizing Visual-Inertial SLAM systems for practical outdoor applications in mobile robotics. | 翻訳日:2024-08-06 18:51:05 公開日:2024-08-03 |
# Image2Text生成のための新しい評価フレームワーク
A Novel Evaluation Framework for Image2Text Generation ( http://arxiv.org/abs/2408.01723v1 ) ライセンス: Link先を確認 | Jia-Hong Huang, Hongyi Zhu, Yixian Shen, Stevan Rudinac, Alessio M. Pacces, Evangelos Kanoulas, | (参考訳) 自動生成画像記述の品質を評価することは困難であり、文法性、カバレッジ、正確性、真実性といった様々な側面を捉えるメトリクスが必要である。
人間の評価は貴重な洞察を提供するが、そのコストと時間のかかる性質には限界がある。
BLEU、ROUGE、METEOR、CIDErといった既存の自動メトリクスは、このギャップを埋めようとしているが、人間の判断と弱い相関を示すことが多い。
GPT-4 や Gemini などの現代大規模言語モデル(LLM)に根ざした,画像生成が可能な新たな評価フレームワークを導入することで,この問題に対処する。
提案フレームワークでは,評価のために選択された画像キャプションモデルに入力画像を入力し,テキスト記述を生成する。
この記述を用いて、LLMは新しいイメージを生成する。
オリジナル画像とLLM画像の両方の特徴を抽出することにより,その類似度を指定した類似度測定値を用いて測定する。
高い類似度スコアは、画像キャプションモデルが正確にテキスト記述を生成し、低い類似度スコアは相違点を示し、モデルの性能の潜在的な欠点を明らかにすることを示唆している。
画像キャプションモデルの有効性を評価する貴重なツールとして,提案する評価フレームワークでは,人手による参照キャプションは不要である。
その効果は人的評価によって確認される。
Evaluating the quality of automatically generated image descriptions is challenging, requiring metrics that capture various aspects such as grammaticality, coverage, correctness, and truthfulness. While human evaluation offers valuable insights, its cost and time-consuming nature pose limitations. Existing automated metrics like BLEU, ROUGE, METEOR, and CIDEr aim to bridge this gap but often show weak correlations with human judgment. We address this challenge by introducing a novel evaluation framework rooted in a modern large language model (LLM), such as GPT-4 or Gemini, capable of image generation. In our proposed framework, we begin by feeding an input image into a designated image captioning model, chosen for evaluation, to generate a textual description. Using this description, an LLM then creates a new image. By extracting features from both the original and LLM-created images, we measure their similarity using a designated similarity metric. A high similarity score suggests that the image captioning model has accurately generated textual descriptions, while a low similarity score indicates discrepancies, revealing potential shortcomings in the model's performance. Human-annotated reference captions are not required in our proposed evaluation framework, which serves as a valuable tool for evaluating the effectiveness of image captioning models. Its efficacy is confirmed through human evaluation. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# ドラママシン: LLMエージェントによるキャラクタ開発シミュレーション
The Drama Machine: Simulating Character Development with LLM Agents ( http://arxiv.org/abs/2408.01725v1 ) ライセンス: Link先を確認 | Liam Magee, Vanicka Arora, Gus Gollings, Norma Lam-Saw, | (参考訳) 本稿では,多言語モデル (LLM) エージェントを用いたドラマティックシナリオにおける複雑な動的キャラクタのシミュレートについて検討する。
本稿では,「エゴ」と「スーパーエゴ」の異なる役割を演じるLLMエージェント間の相互作用を協調する「ドラママシン」フレームワークを提案する。
ロールプレイシミュレーションでは、この設計により、オブジェクト間対話とオブジェクト内モノローグを並列に開発することができる。
本稿では,この枠組みを2つの劇的なシナリオ – インタビューと探偵物語 – に適用し,キャラクター開発とスーパーエゴの影響の有無を比較した。
探索的ではあるが、このマルチエージェントアプローチは、対話的なターンの連続を通して進化する、よりニュアンスで適応的な物語を生み出すことを示唆している。
我々は、LLMに基づくロールプレイとキャラクタ開発の違いと、これがAI主観性の概念化に何を意味するかについて議論する。
本稿は,AIシミュレーションにおける内紛と社会的行動性の役割を考える上で,このアプローチがいかに可能性を開くかを考察して結論付ける。
This paper explores use of multiple large language model (LLM) agents to simulate complex, dynamic characters in dramatic scenarios. We introduce a `drama machine' framework that coordinates interactions between LLM agents playing different `Ego' and `Superego' psychological roles. In roleplay simulations, this design allows intersubjective dialogue and intra-subjective internal monologue to develop in parallel. We apply this framework to two dramatic scenarios - an interview and a detective story - and compare character development with and without the Superego's influence. Though exploratory, results suggest this multi-agent approach can produce more nuanced, adaptive narratives that evolve over a sequence of dialogical turns. We discuss different modalities of LLM-based roleplay and character development, along with what this might mean for conceptualization of AI subjectivity. The paper concludes by considering how this approach opens possibilities for thinking of the roles of internal conflict and social performativity in AI-based simulation. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# 量子ロトカ・ボルテラダイナミクス
Quantum Lotka-Volterra dynamics ( http://arxiv.org/abs/2408.01726v1 ) ライセンス: Link先を確認 | Yuechun Jiao, Yu Zhang, Jingxu Bai, Weilun Jiang, Yunhui He, Heng Shen, Suotang Jia, Jianming Zhao, C. Stuart Adams, | (参考訳) 競合する非線形力学を示す物理系は、自然の数学的モデルの開発において重要な役割を果たしてきた。
重要な例としては、生態学における捕食者・捕食者モデル、経済学における消費者・資源モデル、化学反応における反応拡散方程式がある。
しかし、現実世界のシステムは複雑な環境に埋め込まれており、外部パラメータを制御することは困難あるいは不可能であるため、測定値と単純なモデルとの定量的比較は依然として困難である。
このことは、厳密な制御によって、孤立した物理系における競合力学の探索を動機付けている。
理想的な候補は希薄な原子アンサンブルにおけるレーザー励起である。
例えば、高励起リドベルク状態の原子は、エルゴード性破壊、シンクロナイゼーション、時間結晶を含む豊富な多体ダイナミクスを示す。
ここでは,レーザー励起とライドバーグ原子のイオン化による捕食者・捕食者の動態を室温蒸気セルで示す。
励起原子のイオン化は、さらなる励起を抑制する電場を生成する。
これは資源の電離過程を飢えさせ、捕食者・捕食者のダイナミクスを引き起こす。
実験の結果をロトカ・ボルテラモデルと比較することにより、非線形力学の応用と同様に、メロロジーや局所プラズマのリモートセンシングにも応用できることを示した。
Physical systems that display competitive non-linear dynamics have played a key role in the development of mathematical models of Nature. Important examples include predator-prey models in ecology, biology, consumer-resource models in economics, and reaction-diffusion equations in chemical reactions. However, as real world systems are embedded in complex environments, where it is difficult or even impossible to control external parameters, quantitative comparison between measurements and simple models remains challenging. This motivates the search for competitive dynamics in isolated physical systems, with precise control. An ideal candidate is laser excitation in dilute atomic ensembles. For example, atoms in highly-excited Rydberg states display rich many-body dynamics including ergodicity breaking, synchronisation and time crystals. Here, we demonstrate predator-prey dynamics by laser excitation and ionisation of Rydberg atoms in a room temperature vapour cell. Ionisation of excited atoms produce electric fields that suppress further excitation. This starves the ionisation process of resource, giving rise to predator-prey dynamics. By comparing our results to the Lotka-Volterra model, we demonstrate that as well applications in non-linear dynamics, our experiment has applications in metrology, and remote sensing of localised plasmas. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# 姿勢検出による感情認識の実態調査とバーチャルリアリティへの応用の可能性
Survey on Emotion Recognition through Posture Detection and the possibility of its application in Virtual Reality ( http://arxiv.org/abs/2408.01728v1 ) ライセンス: Link先を確認 | Leina Elansary, Zaki Taha, Walaa Gad, | (参考訳) 様々な技術を用いた感情認識におけるポーズ推定手法と、リアルタイムの深度カメラ、ベクトル空間に記述された画像、ビデオ、三次元ポーズを含むVRおよびインプットの潜在的な利用に焦点を当てた調査を行った。
本研究では,その方法論,分類アルゴリズム,および感情認識とポーズ推定に関連する使用済みデータセットに着目し,選択した雑誌やデータベースから収集した19の研究論文について考察した。
ベンチマークは、最も一般的なパフォーマンス測定基準であるため、その正確性に応じて行われてきた。
我々は,マルチモーダルアプローチが全体として最高の精度を達成し,この研究トピックの開発を改善するための未来的な懸念について言及した。
A survey is presented focused on using pose estimation techniques in Emotional recognition using various technologies normal cameras, and depth cameras for real-time, and the potential use of VR and inputs including images, videos, and 3-dimensional poses described in vector space. We discussed 19 research papers collected from selected journals and databases highlighting their methodology, classification algorithm, and the used datasets that relate to emotion recognition and pose estimation. A benchmark has been made according to their accuracy as it was the most common performance measurement metric used. We concluded that the multimodal Approaches overall made the best accuracy and then we mentioned futuristic concerns that can improve the development of this research topic. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# オンライン決定論的アニーリングを用いたリアルタイムハイブリッドシステム同定
Real-time Hybrid System Identification with Online Deterministic Annealing ( http://arxiv.org/abs/2408.01730v1 ) ライセンス: Link先を確認 | Christos Mavridis, Karl Henrik Johansson, | (参考訳) 本稿では、入力出力領域と状態空間領域の両方において、離散時間状態依存切替システムに対するリアルタイム識別手法を提案する。
特に,2つの時間スケールで動作する適応アルゴリズムのシステムを設計する。確率近似アルゴリズムはオンライン決定論的アニーリング方式を遅い時間スケールで実装し,モードスイッチング信号を推定し,再帰的同定アルゴリズムはより高速な時間スケールで動作し,スイッチング信号の推定に基づいて局所モデルのパラメータを更新する。
まず,2時間スケール確率近似の理論に基づいて,一括アフィン系に着目し,識別可能性条件と収束特性について議論する。
スイッチングシステムにおける標準的な識別アルゴリズムとは対照的に,提案手法は徐々にモード数を推定し,逐次データ取得を用いたリアルタイムシステム識別に適している。
アルゴリズムのプログレッシブな性質は計算効率を改善し、性能・複雑さのトレードオフをリアルタイムに制御する。
最後に,より一般的なスイッチングシステムの同定における提案手法の適用において生じる,具体的な課題に対処する。
シミュレーションの結果,提案手法の有効性が検証された。
We introduce a real-time identification method for discrete-time state-dependent switching systems in both the input--output and state-space domains. In particular, we design a system of adaptive algorithms running in two timescales; a stochastic approximation algorithm implements an online deterministic annealing scheme at a slow timescale and estimates the mode-switching signal, and an recursive identification algorithm runs at a faster timescale and updates the parameters of the local models based on the estimate of the switching signal. We first focus on piece-wise affine systems and discuss identifiability conditions and convergence properties based on the theory of two-timescale stochastic approximation. In contrast to standard identification algorithms for switched systems, the proposed approach gradually estimates the number of modes and is appropriate for real-time system identification using sequential data acquisition. The progressive nature of the algorithm improves computational efficiency and provides real-time control over the performance-complexity trade-off. Finally, we address specific challenges that arise in the application of the proposed methodology in identification of more general switching systems. Simulation results validate the efficacy of the proposed methodology. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# ランドマーク誘導拡散モデルによる高忠実度・一時コヒーレントな発話ヘッド生成
Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation ( http://arxiv.org/abs/2408.01732v1 ) ライセンス: Link先を確認 | Jintao Tan, Xize Cheng, Lingyu Xiong, Lei Zhu, Xiandong Li, Xianjia Wu, Kai Gong, Minglei Li, Yi Cai, | (参考訳) 音声駆動音声ヘッド生成は、仮想アバター、映画制作、オンライン会議など、様々な分野に適用可能な重要かつ困難なタスクである。
しかし, 既存のGANモデルでは, 良質な唇形状の生成が重視されているが, フレームの視覚的品質は見落とされ, 拡散モデルでは高品質なフレームの生成が優先されるが, 唇形状のマッチングは無視されるため, ジッタイな口の動きが生じる。
上記の問題に対処するために,2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
大規模な実験は、我々のモデルが最高のパフォーマンスをもたらすことを示す。
Audio-driven talking head generation is a significant and challenging task applicable to various fields such as virtual avatars, film production, and online conferences. However, the existing GAN-based models emphasize generating well-synchronized lip shapes but overlook the visual quality of generated frames, while diffusion-based models prioritize generating high-quality frames but neglect lip shape matching, resulting in jittery mouth movements. To address the aforementioned problems, we introduce a two-stage diffusion-based model. The first stage involves generating synchronized facial landmarks based on the given speech. In the second stage, these generated landmarks serve as a condition in the denoising process, aiming to optimize mouth jitter issues and generate high-fidelity, well-synchronized, and temporally coherent talking head videos. Extensive experiments demonstrate that our model yields the best performance. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# CoEdPilot: 事前編集の関連性、プロジェクトワイドの意識、インタラクティブな性質を学習したコード編集を推奨する
CoEdPilot: Recommending Code Edits with Learned Prior Edit Relevance, Project-wise Awareness, and Interactive Nature ( http://arxiv.org/abs/2408.01733v1 ) ライセンス: Link先を確認 | Chenyan Liu, Yufan Cai, Yun Lin, Yuhuan Huang, Yunrui Pei, Bo Jiang, Ping Yang, Jin Song Dong, Hong Mei, | (参考訳) 近年、LLMベースのコード生成が開発されている。
ソフトウェアプロジェクトでコードを生成するのと比べて、インクリメンタルなコード編集は経験的により頻繁に行われることが観察される。
新たなコード編集アプローチは通常、既知の関連する事前編集とコンテキストに基づいて編集を生成するものとして問題を定式化する。
しかし、実際のコード編集はより複雑になる可能性がある。
まず、編集セッションは、編集中のコードに複数の(関連のある)編集を含むことができる。
第二に、後続の編集の推測は、その波及効果のスコープがプロジェクト全体である可能性があるため、非自明である。
本研究では,関連編集を識別し,そのインタラクティブな性質を探索し,プロジェクトにおけるリップル効果を推定することにより,コード編集を推奨するLLM駆動のソリューションであるCoEdPilotを提案する。
具体的には、CoEdPilotは複数のニューラルトランスフォーマーを編成して、ロケーションの編集とコンテントの編集の両方に関して、プロジェクトの中で何とどのように編集するかを特定する。
ユーザが任意の編集記述で編集を完了すると、Subsequent Edit Analysisは、まずプロジェクトの最も関連性の高いファイルを報告し、コードの行毎にどの種類の編集(例えば、保持、挿入、置換)を行うことができるかを示す。
次に、Edit-content Generatorは、Edit-dependency Analyzerによって報告された関連する事前変更に関して、コードの行に対して具体的な編集オプションを生成する。
最後に、Subsequent Edit AnalysisとEdit-Content Generatorの両方が、関連する事前編集をリコメンデーションの修正のためのフィードバックとしてキャプチャする。
5つのプログラミング言語で471のオープンソースプロジェクトから180万以上のコミットを集め、モデルをトレーニングします。
我々の広範な実験によると、CoEdPilotは編集位置を70.8%-85.3%の精度で予測でき、正確なマッチングレートは41.8%、BLEU4スコアは60.7である。
Recent years have seen the development of LLM-based code generation. Compared to generating code in a software project, incremental code edits are empirically observed to be more frequent. The emerging code editing approaches usually formulate the problem as generating an edit based on known relevant prior edits and context. However, practical code edits can be more complicated. First, an editing session can include multiple (ir)relevant edits to the code under edit. Second, the inference of the subsequent edits is non-trivial as the scope of its ripple effect can be the whole project. In this work, we propose CoEdPilot, an LLM-driven solution to recommend code edits by discriminating the relevant edits, exploring their interactive natures, and estimating its ripple effect in the project. Specifically, CoEdPilot orchestrates multiple neural transformers to identify what and how to edit in the project regarding both edit location and edit content. When a user accomplishes an edit with an optional editing description, a Subsequent Edit Analysis first reports the most relevant files in the project with what types of edits (e.g., keep, insert, and replace) can happen for each line of their code. Next, an Edit-content Generator generates concrete edit options for the lines of code, regarding its relevant prior changes reported by an Edit-dependency Analyzer. Lastly, both the Subsequent Edit Analysis and the Edit-content Generator capture relevant prior edits as feedback to readjust their recommendations. We train our models by collecting over 180K commits from 471 open-source projects in 5 programming languages. Our extensive experiments show that CoEdPilot can well predict the edits (i.e., predicting edit location with an accuracy of 70.8%-85.3%, and the edit content with an exact match rate of 41.8% and BLEU4 score of 60.7)... | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# ゼロ光子検出によるメカニカル共振器のレーザー冷却
Something from Nothing: Enhanced Laser Cooling of a Mechanical Resonator via Zero-Photon Detection ( http://arxiv.org/abs/2408.01734v1 ) ライセンス: Link先を確認 | Evan A. Cryer-Jenkins, Kyle D. Major, Jack Clarke, Georg Enzian, Magdalena Szczykulska, Jinglei Zhang, Arjun Gupta, Anthony C. Leung, Harsh Rathee, Andreas Ø. Svela, Anthony K. C. Tan, Almut Beige, Klaus Mølmer, Michael R. Vanner, | (参考訳) 量子科学と技術を通して、計測は非線形演算と量子状態工学のための強力な資源として使用される。
特に、単一光子検出は量子情報応用や基礎物理学のテストに一般的に用いられる。
対照的に、そしておそらく反故意に、光子の欠如の測定もまた有用な情報を提供し、また、幅広い新しい実験方向に対して有意義な可能性をもたらしている。
本稿では、ゼロ光子検出によるレーザー冷却された機械的占有下における機械的共振器の冷却を実験的に提案し、この冷却を反ストークス散乱光学界のヘテロダイン測定により検証する。
我々の測定は確率的マスター方程式によってよく捉えられ、ここで導入された技術は、冷却、量子熱力学、量子状態工学、量子計測と制御のための新しい道を開く。
Throughout quantum science and technology, measurement is used as a powerful resource for nonlinear operations and quantum state engineering. In particular, single-photon detection is commonly employed for quantum-information applications and tests of fundamental physics. By contrast, and perhaps counter-intuitively, measurement of the absence of photons also provides useful information, and offers significant potential for a wide range of new experimental directions. Here, we propose and experimentally demonstrate cooling of a mechanical resonator below its laser-cooled mechanical occupation via zero-photon detection and verify this cooling through heterodyne measurements of the anti-Stokes scattered optical field. Our measurements are well captured by a stochastic master equation and the techniques introduced here open new avenues for cooling, quantum thermodynamics, quantum state engineering, and quantum measurement and control. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# 機械式共振器の冷却促進・促進のための理論的枠組み : アンチストークス・ストークス相互作用とゼロ光子検出
Something from Nothing: A Theoretical Framework for Enhancing or Enabling Cooling of a Mechanical Resonator via the anti-Stokes or Stokes Interaction and Zero-Photon Detection ( http://arxiv.org/abs/2408.01735v1 ) ライセンス: Link先を確認 | Jack Clarke, Evan A. Cryer-Jenkins, Arjun Gupta, Kyle D. Major, Jinglei Zhang, Georg Enzian, Magdalena Szczykulska, Anthony C. Leung, Harsh Rathee, Andreas Ø. Svela, Anthony K. C. Tan, Almut Beige, Klaus Mølmer, Michael R. Vanner, | (参考訳) 我々は、ゼロ光子検出がどのようにして反ストークス相互作用によるレーザー冷却を強化し、ストークス相互作用による冷却を可能にするかを記述する理論的枠組みを開発する。
我々の記述にはパルス計測と連続計測の両方、光学的検出効率と開系力学が含まれる。
いずれの場合も, 冷却が検出効率やオプティメカルコオペラティティティといったシステムパラメータにどのように依存するかを考察し, 単光子検出イベントとは対照的な連続測定誘起ダイナミクスについて検討する。
ストークスの場合、光学パラメトリック増幅による一般的な加熱パラダイムとは対照的に、ゼロ光子検出による機械振動子冷却に必要な効率が分かる。
この研究は、最近の実験(E. A. Cryer-Jenkins, K. D. Major, et al , arXiv preprint arXiv:0000.00000 (2024)]の補助的な記事として機能し、反ストークス信号のゼロ光子検出による機械発振器のレーザー冷却の強化を実証した。
ここで開発されたフレームワークは、非古典的状態準備、量子熱力学、パラメトリック増幅の不要な加熱効果の回避など、幅広い分野に適用可能な、機械共振器の冷却のための新しいアプローチを提供する。
We develop a theoretical framework to describe how zero-photon detection may be utilized to enhance laser cooling via the anti-Stokes interaction and enable cooling via the Stokes interaction. Our description includes both pulsed and continuous measurements as well as optical detection efficiency and open-system dynamics. For both cases, we discuss how the cooling depends on the system parameters such as detection efficiency and optomechanical cooperativity, and we study the continuous measurement-induced dynamics contrasting to single-photon detection events. For the Stokes case, contrary to the common paradigm of heating via optomechanical parametric amplification, we find the efficiency required to cool a mechanical oscillator via zero-photon detection. This work serves as a companion article to the recent experiment [E. A. Cryer-Jenkins, K. D. Major, et al., arXiv preprint arXiv:0000.00000 (2024)], which demonstrated enhanced laser cooling of a mechanical oscillator via zero-photon detection on the anti-Stokes signal. The framework developed here provides new approaches for cooling mechanical resonators that can be applied to a wide range of areas including nonclassical state preparation, quantum thermodynamics, and avoiding the unwanted heating effects of parametric amplification. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# LLMは確率勾配の収束を予測できるか?
Can LLMs predict the convergence of Stochastic Gradient Descent? ( http://arxiv.org/abs/2408.01736v1 ) ライセンス: Link先を確認 | Oussama Zekri, Abdelhakim Benechehab, Ievgen Redko, | (参考訳) 大きな言語モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。
そのような驚くべき性能の1つの驚くべき例は、マルコフの性質を満たす力学系の統治原理を理解するために最近特定されたLLMの能力である。
本稿では,凸・非凸最適化における確率勾配勾配のダイナミクスを解明し,この方向をさらに探求する。
SGD とマルコフ連鎖の理論的関係を利用して、SGD が以前に見つからなかった出発点に対して収束する局所ミニマを予測する際に LLM の顕著なゼロショット性能を示す。
より一般的なレベルでは、実際に使用される大規模なディープラーニングモデルに対して、ゼロショットランダム化試行を行うためにLLMを使用する可能性について問い合わせる。
Large-language models are notoriously famous for their impressive performance across a wide range of tasks. One surprising example of such impressive performance is a recently identified capacity of LLMs to understand the governing principles of dynamical systems satisfying the Markovian property. In this paper, we seek to explore this direction further by studying the dynamics of stochastic gradient descent in convex and non-convex optimization. By leveraging the theoretical link between the SGD and Markov chains, we show a remarkable zero-shot performance of LLMs in predicting the local minima to which SGD converges for previously unseen starting points. On a more general level, we inquire about the possibility of using LLMs to perform zero-shot randomized trials for larger deep learning models used in practice. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# LAM3D:モノクロ3Dオブジェクト検出における注意の活用
LAM3D: Leveraging Attention for Monocular 3D Object Detection ( http://arxiv.org/abs/2408.01739v1 ) ライセンス: Link先を確認 | Diana-Alexandra Sas, Leandro Di Bella, Yangxintong Lyu, Florin Oniga, Adrian Munteanu, | (参考訳) 自己注意機構の導入とコンピュータビジョンタスクへのトランスフォーマーアーキテクチャの導入以降、ビジョントランスフォーマーベースのアーキテクチャは、画像分類、オブジェクト検出、イメージセグメンテーションといったタスクに利用され、この分野で多くの人気を博した。
しかし,モノクロ3次元物体検出タスクにおいて,視覚変換器の注意機構を効果的に活用することは未解決の問題である。
本稿では,モノクル3次元物体検出のための自己認識機構を取り入れたLAM3Dを提案する。
提案手法は、特徴抽出バックボーンと2D/3D検出装置として、ピラミド・ビジョン・トランスフォーマー v2 (PVTv2) 上に構築されている。
提案手法をKITTI 3D Object Detection Benchmarkで評価し,自律走行領域における提案手法の適用性と参照手法の性能を検証した。
さらに、自己アテンションの使用により、LAM3Dは自己アテンションを使用しない同等のアーキテクチャを体系的に上回ることができる。
Since the introduction of the self-attention mechanism and the adoption of the Transformer architecture for Computer Vision tasks, the Vision Transformer-based architectures gained a lot of popularity in the field, being used for tasks such as image classification, object detection and image segmentation. However, efficiently leveraging the attention mechanism in vision transformers for the Monocular 3D Object Detection task remains an open question. In this paper, we present LAM3D, a framework that Leverages self-Attention mechanism for Monocular 3D object Detection. To do so, the proposed method is built upon a Pyramid Vision Transformer v2 (PVTv2) as feature extraction backbone and 2D/3D detection machinery. We evaluate the proposed method on the KITTI 3D Object Detection Benchmark, proving the applicability of the proposed solution in the autonomous driving domain and outperforming reference methods. Moreover, due to the usage of self-attention, LAM3D is able to systematically outperform the equivalent architecture that does not employ self-attention. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# 事前学習モデルによる投資報告の要約
Summarization of Investment Reports Using Pre-trained Model ( http://arxiv.org/abs/2408.01744v1 ) ライセンス: Link先を確認 | Hiroki Sakaji, Ryotaro Kobayashi, Kiyoshi Izumi, Hiroyuki Mitsugi, Wataru Kuramoto, | (参考訳) 本稿では,月報を投資報告として要約する。
ファンドマネジャーには幅広いタスクがあり、そのうちの1つは投資報告の準備である。
ファンドマネージメントに関する月次報告書の作成に加えて、ファンドマネジャーは、これらの月次レポートを6ヶ月ないし1年に1回まとめるマネジメントレポートを準備している。
予算報告の準備は労働集約的で時間を要する作業である。
そこで本稿では,トランスフォーマーモデルを用いた月次レポートからの投資要約に取り組む。
抽出的要約法と抽象的要約法には2つの主要な種類があるが,本研究は,投資報告の要約に有用である手法と試験の両方を構築した。
In this paper, we attempt to summarize monthly reports as investment reports. Fund managers have a wide range of tasks, one of which is the preparation of investment reports. In addition to preparing monthly reports on fund management, fund managers prepare management reports that summarize these monthly reports every six months or once a year. The preparation of fund reports is a labor-intensive and time-consuming task. Therefore, in this paper, we tackle investment summarization from monthly reports using transformer-based models. There are two main types of summarization methods: extractive summarization and abstractive summarization, and this study constructs both methods and examines which is more useful in summarizing investment reports. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# BERTと因果抽出を用いた気候変動物語の索引化と可視化
Indexing and Visualization of Climate Change Narratives Using BERT and Causal Extraction ( http://arxiv.org/abs/2408.01745v1 ) ライセンス: Link先を確認 | Hiroki Sakaji, Noriyasu Kaneda, | (参考訳) 本研究では,「気候変動物語」を抽出,索引付け,可視化する手法を提案する。
本研究では,2つの自然言語処理手法であるBERT(Bidirectional Encoder Representations from Transformers)と因果抽出を用いて,気候変動に関する新聞記事のテキスト解析を行い,「気候変化物語」を抽出する。
「「新奇性」は新聞記者が想定する因果関係を抽出・定量化するものであった。
2018年以降、気候変動政策に関する議論や、気候変動に関する政策が企業行動、マクロ経済、価格変動に与える影響を示唆する物語が増えている。
また、気候変動関連政策と金融政策の結びつきに着目した最近の物語の出現も観察した。
さらに、気候変動に伴う自然災害(例:異常気象・大洪水)が経済活動に負の影響を与えることへの認識が高まり、企業や政府にとって新たな課題として認識される可能性がある。
本研究の方法論は、インフレ期待分析や金融政策のコミュニケーション戦略など、さまざまな経済分野の因果関係を分析できるため、幅広い分野に適用されることが期待される。
In this study, we propose a methodology to extract, index, and visualize ``climate change narratives'' (stories about the connection between causal and consequential events related to climate change). We use two natural language processing methods, BERT (Bidirectional Encoder Representations from Transformers) and causal extraction, to textually analyze newspaper articles on climate change to extract ``climate change narratives.'' The novelty of the methodology could extract and quantify the causal relationships assumed by the newspaper's writers. Looking at the extracted climate change narratives over time, we find that since 2018, an increasing number of narratives suggest the impact of the development of climate change policy discussion and the implementation of climate change-related policies on corporate behaviors, macroeconomics, and price dynamics. We also observed the recent emergence of narratives focusing on the linkages between climate change-related policies and monetary policy. Furthermore, there is a growing awareness of the negative impacts of natural disasters (e.g., abnormal weather and severe floods) related to climate change on economic activities, and this issue might be perceived as a new challenge for companies and governments. The methodology of this study is expected to be applied to a wide range of fields, as it can analyze causal relationships among various economic topics, including analysis of inflation expectation or monetary policy communication strategy. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# アウト・オブ・ディストリビューション・ジェネレーション改善のためのドメインの罰則化
Domain penalisation for improved Out-of-Distribution Generalisation ( http://arxiv.org/abs/2408.01746v1 ) ライセンス: Link先を確認 | Shuvam Jena, Sushmetha Sumathi Rajendran, Karthik Seemakurthy, Sasithradevi A, Vijayalakshmi M, Prakash Poornachari, | (参考訳) オブジェクト検出の分野では、ドメイン一般化(DG)は、複数のソースドメインにまたがる関心のあるオブジェクトに対応する堅牢なドメイン不変性を学ぶことによって、多種多様な未確認のターゲットドメインに対して堅牢なパフォーマンスを確保することを目的としている。
分類作業にはDGを実行するための多くのアプローチが確立されているが、オブジェクト検出にはほとんど焦点が当てられていない。
本稿では,オブジェクト検出のタスクに対して,複数のソースドメインからデータをサンプリングし,全く見つからないテストドメイン上でテストすることが想定される領域ペナルライゼーション(DP)フレームワークを提案する。
我々は各ドメインにペナルティ重みを割り当て、各ソースドメインにおける検出ネットワークの性能に基づいて値を更新する。
より多くの注意を必要とするドメインを優先することで、私たちのアプローチはトレーニングプロセスのバランスを効果的に保ちます。
We evaluate our solution on the GWHD 2021 dataset, a component of the WiLDS benchmark and we compare the ERM and GroupDRO are mainly loss function based。
実験の結果, 提案手法は, FasterRCNNに対して, 検証およびアウト・オブ・ディストリビューション(OOD)セットの精度を0.3%, 0.5%向上させることがわかった。
また,本手法によるFCOS検出器の性能比較を行い,提案手法が従来の手法に比べて1.3%,テストセットが1.4%向上したことを示す。
本研究は,多種多様な環境における物体検出モデルの一般化能力を高めるために,パフォーマンスベース領域のペナル化の可能性を明らかにするものである。
In the field of object detection, domain generalisation (DG) aims to ensure robust performance across diverse and unseen target domains by learning the robust domain-invariant features corresponding to the objects of interest across multiple source domains. While there are many approaches established for performing DG for the task of classification, there has been a very little focus on object detection. In this paper, we propose a domain penalisation (DP) framework for the task of object detection, where the data is assumed to be sampled from multiple source domains and tested on completely unseen test domains. We assign penalisation weights to each domain, with the values updated based on the detection networks performance on the respective source domains. By prioritising the domains that needs more attention, our approach effectively balances the training process. We evaluate our solution on the GWHD 2021 dataset, a component of the WiLDS benchmark and we compare against ERM and GroupDRO as these are primarily loss function based. Our extensive experimental results reveals that the proposed approach improves the accuracy by 0.3 percent and 0.5 percent on validation and test out-of-distribution (OOD) sets, respectively for FasterRCNN. We also compare the performance of our approach on FCOS detector and show that our approach improves the baseline OOD performance over the existing approaches by 1.3 percent and 1.4 percent on validation and test sets, respectively. This study underscores the potential of performance based domain penalisation in enhancing the generalisation ability of object detection models across diverse environments. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# 古典的機械学習: アルゴリズム学習の進化の70年
Classical Machine Learning: Seventy Years of Algorithmic Learning Evolution ( http://arxiv.org/abs/2408.01747v1 ) ライセンス: Link先を確認 | Absalom E. Ezugwu, Yuh-Shan Ho, Ojonukpe S. Egwuche, Olufisayo S. Ekundayo, Annette Van Der Merwe, Apu K. Saha, Jayanta Pal, | (参考訳) 機械学習(ML)は多くの分野を変えてきたが、その基礎研究を理解することは、その継続的な進歩に不可欠である。
本稿では,古典的MLアルゴリズムの概要を概説し,12年間にわたる最先端の出版物について,広範囲にわたる文献分析研究を通じて検討する。
我々は、著名なMLカンファレンスやジャーナルから引用された論文のデータセットを分析し、引用とキーワード分析を用いて批判的な洞察を明らかにした。
この研究は、最も影響力のある論文や著者を識別し、MLコミュニティ内で進化する協調ネットワークを明らかにし、研究テーマや新たな焦点分野の要点を明らかにしている。
さらに,高度に引用された出版物の地理的分布について検討し,ML研究の先進国を取り上げている。
本研究では,従来の学習アルゴリズムの進化とその影響について概観する。
グローバル・サウスに焦点をあて、今後の発展への挑戦と機会について論じている。
本稿では,MLの専門家と広い研究コミュニティに貴重な洞察を与え,この分野の軌跡の理解を深め,近年の学習アルゴリズムの進歩にその影響を及ぼした。
Machine learning (ML) has transformed numerous fields, but understanding its foundational research is crucial for its continued progress. This paper presents an overview of the significant classical ML algorithms and examines the state-of-the-art publications spanning twelve decades through an extensive bibliometric analysis study. We analyzed a dataset of highly cited papers from prominent ML conferences and journals, employing citation and keyword analyses to uncover critical insights. The study further identifies the most influential papers and authors, reveals the evolving collaborative networks within the ML community, and pinpoints prevailing research themes and emerging focus areas. Additionally, we examine the geographic distribution of highly cited publications, highlighting the leading countries in ML research. This study provides a comprehensive overview of the evolution of traditional learning algorithms and their impacts. It discusses challenges and opportunities for future development, focusing on the Global South. The findings from this paper offer valuable insights for both ML experts and the broader research community, enhancing understanding of the field's trajectory and its significant influence on recent advances in learning algorithms. | 翻訳日:2024-08-06 18:40:53 公開日:2024-08-03 |
# 財務諸表による希少な因果知識の発見
Discovery of Rare Causal Knowledge from Financial Statement Summaries ( http://arxiv.org/abs/2408.01748v1 ) ライセンス: Link先を確認 | Hiroki Sakaji, Jason Bennett, Risa Murono, Kiyoshi Izumi, Hiroyuki Sakai, | (参考訳) もし気温が抑えられ、涼しい夏になったらどうなるのか?
この結果、エアコン、アイスクリーム、ビールの販売が抑制されることが容易に想像できる。
農産品の出荷が遅れる可能性や、音質を実証する素材の販売が減少する可能性もさほど明らかではない。
このような因果的知識を抽出する能力は重要であるが、既知の因果関係と未知か稀かの可能性のある因果関係を区別することが重要である。
そこで本稿では,企業による財務諸表の要約から稀な因果知識を抽出する手法を提案する。
私たちの方法は3つのステップから成り立っている。
まず、拡張言語オントロジーに基づく機械学習手法を用いて、要約から因果知識を含む文を抽出する。
次に,構文パターンを用いて抽出した文から因果知識を得る。
最後に、得られた知識から最も稀な因果知識を抽出する。
What would happen if temperatures were subdued and result in a cool summer? One can easily imagine that air conditioner, ice cream or beer sales would be suppressed as a result of this. Less obvious is that agricultural shipments might be delayed, or that sound proofing material sales might decrease. The ability to extract such causal knowledge is important, but it is also important to distinguish between cause-effect pairs that are known and those that are likely to be unknown, or rare. Therefore, in this paper, we propose a method for extracting rare causal knowledge from Japanese financial statement summaries produced by companies. Our method consists of three steps. First, it extracts sentences that include causal knowledge from the summaries using a machine learning method based on an extended language ontology. Second, it obtains causal knowledge from the extracted sentences using syntactic patterns. Finally, it extracts the rarest causal knowledge from the knowledge it has obtained. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# テストコードにおけるアサーションメッセージの規則と使用について:ソフトウェア実践者からの考察
On the Rationale and Use of Assertion Messages in Test Code: Insights from Software Practitioners ( http://arxiv.org/abs/2408.01751v1 ) ライセンス: Link先を確認 | Anthony Peruma, Taryn Takebayashi, Rocky Huang, Joseph Carmelo Averion, Veronica Hodapp, Christian D. Newman, Mohamed Wiem Mkaouer, | (参考訳) 単体テストは、一連のテストケースを通じてその振る舞いを検証することによって、ソフトウェアシステムの品質を保証するための重要なプラクティスである。
これらのテストケースの中核となるのはアサーションステートメントであり、それによってソフトウェア実践者がシステムの振る舞いの正しさを検証することができる。
テストケース障害の理解とトラブルシューティングを支援するため、実践者はアサーションステートメントにメッセージ(すなわちアサーションメッセージ)を含めることができる。
ソフトウェアリポジトリのマイニングによるアサーションメッセージの頻度と構造についてはこれまで研究されてきたが、それらのタイプや目的や、実践者がさまざまなタイプのアサーションメッセージの必要性や使用法を判断するものではない。
本稿では,プロのソフトウェア実践者138名を対象に,アサーションメッセージに関する経験や見解を収集する。
私たちの調査によると、回答者の大多数は、アサーションメッセージが障害のシューティング、テストの可視性の向上、ドキュメントとしての役割を果たしていることに気付きました。
しかし、すべての回答者が一貫してアサーションメソッドにメッセージを含めているわけではない。
また、効果的なアサーションメッセージの構築、作成における課題、メンテナンス技術、デバッグプロセスへの統合に関する一般的な考察も確認した。
我々の結果は、現在のプラクティスの理解に寄与し、高品質なアサーションメッセージのオーサリングのためのガイドラインを提供し、ベストプラクティスやコーディング標準の基礎として役立ちます。
さらに、この洞察は、アサーションメッセージの存在と品質のチェックを取り入れ、実践者にリアルタイムフィードバックを提供することによって、自動ユニットテストツールの改善を導くことができる。
Unit testing is an important practice that helps ensure the quality of a software system by validating its behavior through a series of test cases. Core to these test cases are assertion statements, which enable software practitioners to validate the correctness of the system's behavior. To aid with understanding and troubleshooting test case failures, practitioners can include a message (i.e., assertion message) within the assertion statement. While prior studies have examined the frequency and structure of assertion messages by mining software repositories, they do not determine their types or purposes or how practitioners perceive the need for or the usage of various types of assertion messages. In this paper, we survey 138 professional software practitioners to gather insights into their experience and views regarding assertion messages. Our findings reveal that a majority of survey respondents find assertion messages valuable for troubleshooting failures, improving test understandability, and serving as documentation. However, not all respondents consistently include messages in their assertion methods. We also identified common considerations for constructing effective assertion messages, challenges in crafting them, maintenance techniques, and their integration into debugging processes. Our results contribute to the understanding of current practices and provide guidelines for authoring high-quality assertion messages, serving as a foundation for best practices and coding standards. Furthermore, the insights can guide the improvement of automated unit testing tools by incorporating checks for the presence and quality of assertion messages and providing real-time feedback to practitioners. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# グリーンAIの高度化:イネ葉病診断のための効率よく正確な軽量CNN
Advancing Green AI: Efficient and Accurate Lightweight CNNs for Rice Leaf Disease Identification ( http://arxiv.org/abs/2408.01752v1 ) ライセンス: Link先を確認 | Khairun Saddami, Yudha Nurdin, Mutia Zahramita, Muhammad Shahreeza Safiruz, | (参考訳) 米は世界の人口の半数以上にとって主要な食料源として重要な役割を担い、その生産は世界の食料安全保障にとって重要な役割を担っている。
それでも米の栽培は、収量や品質を著しく低下させる様々な病気の影響を受けやすい。
そのため、イネ病の早期かつ正確な検出は、その拡散を防ぎ、収穫の損失を最小限に抑えるために必要である。
本研究では,イネ葉病分類において,ShuffleNet,MobileNetV2,EfficientNet-B0の3つのモバイル対応CNNアーキテクチャについて検討する。
これらのモデルは、他のCNNモデルに比べて計算能力やメモリが低いため、モバイルデバイスとの互換性のために選択される。
3つのモデルの性能を高めるために、ドロップアウト層で分離された2つの完全に接続された層を加えました。
モデルの過度な適合を防ぐために、早期停止生成を使用しました。
研究の結果、最高の性能は効率の良いNet-B0モデルで99.8%の精度で達成された。
一方、MobileNetV2とShuffleNetはそれぞれ84.21%と66.51%のアキュラシーしか達成しなかった。
本研究は,提案したレイヤと早期停止を組み合わせれば,高精度なモデルが得られることを示す。
キーワード:イネの葉の検出、グリーンAI、スマート農業、効率ネット
Rice plays a vital role as a primary food source for over half of the world's population, and its production is critical for global food security. Nevertheless, rice cultivation is frequently affected by various diseases that can severely decrease yield and quality. Therefore, early and accurate detection of rice diseases is necessary to prevent their spread and minimize crop losses. In this research, we explore three mobile-compatible CNN architectures, namely ShuffleNet, MobileNetV2, and EfficientNet-B0, for rice leaf disease classification. These models are selected due to their compatibility with mobile devices, as they demand less computational power and memory compared to other CNN models. To enhance the performance of the three models, we added two fully connected layers separated by a dropout layer. We used early stop creation to prevent the model from being overfiting. The results of the study showed that the best performance was achieved by the EfficientNet-B0 model with an accuracy of 99.8%. Meanwhile, MobileNetV2 and ShuffleNet only achieved accuracies of 84.21% and 66.51%, respectively. This study shows that EfficientNet-B0 when combined with the proposed layer and early stop, can produce a high-accuracy model. Keywords: rice leaf detection; green AI; smart agriculture; EfficientNet; | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 交絡光子分布に及ぼす偏光モード分散の影響
Impact of polarization mode dispersion on entangled photon distribution ( http://arxiv.org/abs/2408.01754v1 ) ライセンス: Link先を確認 | Vadim Rodimin, Konstantin Kravtsov, Rui Ming Chua, Gianluca De Santis, Aleksei Ponasenko, Yury Kurochkin, Alexander Ling, James A. Grieve, | (参考訳) 光ファイバにおける偏光モード分散(PMD)は、量子通信における量子状態の忠実性を維持する上で大きな課題となる。
本研究では, 量子測定誤差(不忠実性)の確率をPMDにリンクする包括的モデルを開発し, 差分群遅延と量子ビット誤り率(QBER)を実験的に測定して検証した。
本研究は、広帯域光子に対するPMD効果を低減し、高次PMD効果の影響を評価するための効果的な方法を提案する。
このモデルは、デプロイされた光ファイバー線における商用量子鍵分布システムの最適化のための実験的に検証されたフレームワークを提供する。
Polarization mode dispersion (PMD) in optical fibers poses a major challenge for maintaining the fidelity of quantum states for quantum communications. In this work, a comprehensive model linking the probability of quantum measurement errors (infidelity) to PMD is developed and validated by experimental measurements of differential group delay and quantum bit error rate (QBER). Our research proposes effective methods to mitigate PMD effects for broadband entangled photons and evaluates the impact of higher-order PMD effects. The model provides an experimentally verified framework for the optimization of commercial quantum key distribution systems in deployed fiber optic lines. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 共振器と直列結合した共振器光学系における光パラメトリック増幅に基づく弱力センシング
Weak force sensing based on optical parametric amplification in a cavity optomechanical system coupled in series with two oscillators ( http://arxiv.org/abs/2408.01757v1 ) ライセンス: Link先を確認 | Zheng Liu, Yu-qiang Liu, Yi-jia Yang, Chang-shui Yu, | (参考訳) 弱い力センシングでは、力測定の精度を制限するため、基本雑音(量子ノイズと熱雑音)を抑制することが重要な問題である。
本稿では,分解型光パラメトリック増幅器(OPA)と補助機械振動器を共振器オプティメカルシステムに組み合わせ,量子ノイズを低減させる弱力センシング方式について検討する。
2つの結合型発振器の雑音低減は標準モード分割に依存することを示す。
古典的なアナロジーと量子的視点を より明確化するために提供します
また, OPAのノイズ低減機構は光子数の変動を低減し, キャビティ場のスキューズ化を促進させる。
我々は,OPA単独または2連結合発振器を用いて達成できる以上の,双方の関節効果を高めることを目的とした,特定の設計を提案する。
このスキームは、力覚における空洞場のスクイーズと補助振動子をより深く理解するための新しい視点を提供する。
In the realm weak force sensing, an important issue is to suppress fundamental noise (quantum noise and thermal noise), as they limit the accuracy of force measurement. In this paper, we investigate a weak force sensing scheme that combines a degenerate optical parametric amplifier (OPA) and an auxiliary mechanical oscillator into a cavity optomechanical system to reduce quantum noise. We demonstrate that the noise reduction of two coupled oscillators depends on their norm mode splitting. and provide a classic analogy and quantum perspective for further clarification. Besides, the noise reduction mechanism of OPA is to reduce the fluctuation of photon number and enhance the squeezing of the cavity field. We propose a specific design aimed at enhancing the joint effect of both, beyond what can be achieved using OPA alone or two series coupled oscillators. This scheme provides a new perspective for deeper understanding of cavity field squeezing and auxiliary oscillator in force sensing. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 等価変異検出のための大規模言語モデル:我々はどれくらい遠いのか?
Large Language Models for Equivalent Mutant Detection: How Far Are We? ( http://arxiv.org/abs/2408.01760v1 ) ライセンス: Link先を確認 | Zhao Tian, Honglin Shu, Dong Wang, Xuejie Cao, Yasutaka Kamei, Junjie Chen, | (参考訳) 変異テストは、ソフトウェアの品質を保証するために不可欠です。
しかし、等価変異体の存在は、冗長なコストとバイアスの問題を導入し、実際的な使用における突然変異検査の有効性を妨げることが知られている。
多くの等価ミュータント検出(EMD)技術が提案されているが、トレーニングデータの不足と、未確認ミュータントへの一般化の難しさにより制限されている。
近年,大規模言語モデル (LLM) は様々なコード関連タスクに広く採用されており,プログラムのセマンティクスをより正確に捉えることで,優れた性能を示している。
しかし、等価変異検出におけるLLMの性能はほとんど不明である。
本稿では,3,302個のメソッドレベルのJavaミュータントペアに対して,等価なミュータント検出のためのLLMの有効性と効率を包括的に検討する。
具体的には、既存のEMD技術と比較してLCMの性能を評価し、LCMの様々な戦略を調べ、EMD技術間の直交性を評価し、トレーニングと推論の時間オーバーヘッドを測定する。
以上の結果から,LLM技術は既存の技術(F1スコアの35.69%の平均改善)を著しく上回り,コード埋め込み戦略が最も効果的であることが示唆された。
さらに、LCMベースの技術は、コスト(比較的低いトレーニングと推論時間)と有効性の間の優れたバランスを提供する。
本研究は,モデルサイズと組込み品質の影響についてさらに議論し,今後の研究に期待できる方向をいくつか提示する。
この研究は、LLMを等価変異検出において初めて検討し、その有効性と効率を確認した。
Mutation testing is vital for ensuring software quality. However, the presence of equivalent mutants is known to introduce redundant cost and bias issues, hindering the effectiveness of mutation testing in practical use. Although numerous equivalent mutant detection (EMD) techniques have been proposed, they exhibit limitations due to the scarcity of training data and challenges in generalizing to unseen mutants. Recently, large language models (LLMs) have been extensively adopted in various code-related tasks and have shown superior performance by more accurately capturing program semantics. Yet the performance of LLMs in equivalent mutant detection remains largely unclear. In this paper, we conduct an empirical study on 3,302 method-level Java mutant pairs to comprehensively investigate the effectiveness and efficiency of LLMs for equivalent mutant detection. Specifically, we assess the performance of LLMs compared to existing EMD techniques, examine the various strategies of LLMs, evaluate the orthogonality between EMD techniques, and measure the time overhead of training and inference. Our findings demonstrate that LLM-based techniques significantly outperform existing techniques (i.e., the average improvement of 35.69% in terms of F1-score), with the fine-tuned code embedding strategy being the most effective. Moreover, LLM-based techniques offer an excellent balance between cost (relatively low training and inference time) and effectiveness. Based on our findings, we further discuss the impact of model size and embedding quality, and provide several promising directions for future research. This work is the first to examine LLMs in equivalent mutant detection, affirming their effectiveness and efficiency. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 線形微分方程式の量子アルゴリズムに関する研究
Investigation on a quantum algorithm for linear differential equations ( http://arxiv.org/abs/2408.01762v1 ) ライセンス: Link先を確認 | Xiaojing Dong, Yizhe Peng, Qili Tang, Yin Yang, Yue Yu, | (参考訳) Ref
BCOW17は、線形微分方程式を最適誤差耐性で解くための先駆的量子アプローチ(BCOWアルゴリズム)を導入した。
もともとは、対角微分可能線型微分方程式の特定のクラスのために設計されたが、このアルゴリズムは[Kro23]のクロヴィによって拡張され、非対角微分可能行列や特異行列を含むより広範なクラスを包含した。
一般的な誤解にもかかわらず、元のアルゴリズムは実際には非対角化行列に適用でき、対角化は主に条件数と解誤差の有界性を確立する理論解析に役立っている。
Kro23] からの基本推定値を活用することにより、Krovi アルゴリズムで概説した値に匹敵するバウンダリを導出し、BCOW アプローチの利点を復活させる。
さらに,非自律系を高次元自律系に変換することにより,BCOWアルゴリズムを時間依存線形微分方程式に拡張し,Kroviアルゴリズムにも適用する。
Ref.[BCOW17] introduced a pioneering quantum approach (coined BCOW algorithm) for solving linear differential equations with optimal error tolerance. Originally designed for a specific class of diagonalizable linear differential equations, the algorithm was extended by Krovi in [Kro23] to encompass broader classes, including non-diagonalizable and even singular matrices. Despite the common misconception, the original algorithm is indeed applicable to non-diagonalizable matrices, with diagonalisation primarily serving for theoretical analyses to establish bounds on condition number and solution error. By leveraging basic estimates from [Kro23], we derive bounds comparable to those outlined in the Krovi algorithm, thereby reinstating the advantages of the BCOW approach. Furthermore, we extend the BCOW algorithm to address time-dependent linear differential equations by transforming non-autonomous systems into higher-dimensional autonomous ones, a technique also applicable for the Krovi algorithm. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 無線時間トリガー・フェデレーションラーニングのための連成モデルプルーニングと資源配分
Joint Model Pruning and Resource Allocation for Wireless Time-triggered Federated Learning ( http://arxiv.org/abs/2408.01765v1 ) ライセンス: Link先を確認 | Xinlu Zhang, Yansha Deng, Toktam Mahmoodi, | (参考訳) 従来のイベントベースのフェデレーションラーニングとは対照的に、タイムトリガーによるフェデレーションラーニングは、一定時間間隔に基づいてユーザーを階層に編成する。
しかし、このネットワークはデバイス数の増加や無線帯域幅の制限、トラグラーや通信オーバーヘッドの増大など、依然として課題に直面している。
本稿では,無線タイムトリガシステムにモデルプルーニングを適用し,通信遅延制約下でのトレーニング損失を最小限に抑えるために,プルーニング率と帯域割り当てを最適化する問題を共同研究する。
この共同最適化問題を解決するために,適応モデルプルーニングを用いた非同期多層連合学習(FL)モデルの勾配$l_2$-normの収束解析を行う。
収束上限を導出し、所定の通信遅延制約下でのモデルトレーニング損失を最小限に抑えるために、プルーニング比と無線帯域幅の合同最適化問題を定義する。
そして、KKT条件を用いて、無線帯域幅とプルーニング比の閉形式解を定式化する。
シミュレーション実験で示されたように,提案するTT-Pruneは,モデルプルーニングを伴わない非同期多層FLと比較して,同じレベルでモデル収束を維持しつつ,通信コストを40%削減することを示した。
Time-triggered federated learning, in contrast to conventional event-based federated learning, organizes users into tiers based on fixed time intervals. However, this network still faces challenges due to a growing number of devices and limited wireless bandwidth, increasing issues like stragglers and communication overhead. In this paper, we apply model pruning to wireless Time-triggered systems and jointly study the problem of optimizing the pruning ratio and bandwidth allocation to minimize training loss under communication latency constraints. To solve this joint optimization problem, we perform a convergence analysis on the gradient $l_2$-norm of the asynchronous multi-tier federated learning (FL) model with adaptive model pruning. The convergence upper bound is derived and a joint optimization problem of pruning ratio and wireless bandwidth is defined to minimize the model training loss under a given communication latency constraint. The closed-form solutions for wireless bandwidth and pruning ratio by using KKT conditions are then formulated. As indicated in the simulation experiments, our proposed TT-Prune demonstrates a 40% reduction in communication cost, compared with the asynchronous multi-tier FL without model pruning, while maintaining the model convergence at the same level. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# MultiFuser: ドライバ動作認識のためのマルチモーダルフュージョン変換器
MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition ( http://arxiv.org/abs/2408.01766v1 ) ライセンス: Link先を確認 | Ruoyu Wang, Wenqian Wang, Jianjun Gao, Dan Lin, Kim-Hui Yap, Bingbing Li, | (参考訳) ドライバーの動作を正確に識別することを目的としたドライバー行動認識は、ドライバーとドライバーの相互作用を強化し、運転安全性を確保するために不可欠である。
一般的な行動認識とは異なり、ドライバーの環境は暗く、センサーの開発に伴い、ドライバーの行動を分析するために赤外線やディープカメラなどの様々なカメラが出現している。
そこで本稿では,マルチモーダルカーキャビンビデオ間の相互相互関係と相互作用を識別し,表現改善のために異なるモーダルを適応的に統合するマルチモーダルフュージョントランス (MultiFuser) を提案する。
特に、MultiFuserは、時空間特徴をモデル化するためのBi分解モジュールの層と、マルチモーダル特徴統合のためのモダリティシンセサイザーから構成される。
各Bi分解モジュールは、モダリティ固有の特徴を抽出するModal Expertise ViTブロックと、効率的なクロスモーダル融合のためのPatch-wise Adaptive Fusionブロックを含む。
Drive&Actデータセットを用いて大規模な実験を行い,提案手法の有効性を実証した。
Driver action recognition, aiming to accurately identify drivers' behaviours, is crucial for enhancing driver-vehicle interactions and ensuring driving safety. Unlike general action recognition, drivers' environments are often challenging, being gloomy and dark, and with the development of sensors, various cameras such as IR and depth cameras have emerged for analyzing drivers' behaviors. Therefore, in this paper, we propose a novel multimodal fusion transformer, named MultiFuser, which identifies cross-modal interrelations and interactions among multimodal car cabin videos and adaptively integrates different modalities for improved representations. Specifically, MultiFuser comprises layers of Bi-decomposed Modules to model spatiotemporal features, with a modality synthesizer for multimodal features integration. Each Bi-decomposed Module includes a Modal Expertise ViT block for extracting modality-specific features and a Patch-wise Adaptive Fusion block for efficient cross-modal fusion. Extensive experiments are conducted on Drive&Act dataset and the results demonstrate the efficacy of our proposed approach. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 深層学習分類のための埋め込み空間の比較
Comparison of Embedded Spaces for Deep Learning Classification ( http://arxiv.org/abs/2408.01767v1 ) ライセンス: Link先を確認 | Stefan Scholl, | (参考訳) 組み込みスペースはディープラーニングの鍵となる機能だ。
良い組込み空間は、オープンセット認識、少数短距離学習、説明可能性のような高度な技術と分類をサポートするために、データをうまく表現する。
本稿では,組込み空間を設計するための様々な手法のコンパクトな概要について述べる。
組込み空間の達成可能な幾何学的構造に関して、ネットワークパラメータの異なる損失関数と制約を比較する。
これらの技術は、MNIST、Fashion MNIST、CIFAR-10データセットのための2次元および3次元の埋め込みで実証され、埋め込み空間を視覚的に検査することができる。
Embedded spaces are a key feature in deep learning. Good embedded spaces represent the data well to support classification and advanced techniques such as open-set recognition, few-short learning and explainability. This paper presents a compact overview of different techniques to design embedded spaces for classification. It compares different loss functions and constraints on the network parameters with respect to the achievable geometric structure of the embedded space. The techniques are demonstrated with two and three-dimensional embeddings for the MNIST, Fashion MNIST and CIFAR-10 datasets, allowing visual inspection of the embedded spaces. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# ジェネレーティブ&エージェントAIによるリビングソフトウェアシステムの構築
Building Living Software Systems with Generative & Agentic AI ( http://arxiv.org/abs/2408.01768v1 ) ライセンス: Link先を確認 | Jules White, | (参考訳) 本稿では、ジェネレーティブ \&エージェントAIの時代におけるコンピューティングの未来を考察する意見論文である。
現在のソフトウェアシステムは静的で柔軟性がないため、人間の目標を計算行動に変換する上で大きな課題となる。
生成AIを利用した「ソフトウェアシステム開発」は、コンピューティングにおけるこの根本的な問題の解決策を提供する。
従来のソフトウェア開発には、ビジネス要件からコードまで、複数の不完全な翻訳レイヤが含まれています。
生成的AI、特に大きな言語モデルは、人間の意図とコンピュータ操作の間の普遍的なトランスレータとして機能する。
このアプローチにより、ユーザの目標を達成するために動的に進化可能な、より柔軟でコンテキスト対応のシステムの開発が可能になる。
生成AIを使用して従来のソフトウェア開発を加速し、エージェントAIを活用して真に適応的なシステムを構築する。
プロンプトエンジニアリングのような新しいスキルが必要です。
ソフトウェアを生き生きとした適応可能なエンティティとして再想像することで、より直感的で強力で、人間の要求に反応するコンピューティングインターフェースを作ることができます。
This paper is an opinion paper that looks at the future of computing in the age of Generative \& Agentic AI. Current software systems are static and inflexible, leading to significant challenges in translating human goals into computational actions. "Living software systems" powered by generative AI offer a solution to this fundamental problem in computing. Traditional software development involves multiple layers of imperfect translation, from business requirements to code, resulting in rigid systems that struggle to adapt to changing user needs and contexts. Generative AI, particularly large language models, can serve as a universal translator between human intent and computer operations. This approach enables the creation of more flexible, context-aware systems that can dynamically evolve to meet user goals. Two pathways for implementing living software systems are explored: using generative AI to accelerate traditional software development, and leveraging agentic AI to create truly adaptive systems. New skills like Prompt Engineering are necessary. By reimagining software as a living, adaptable entity, we can create computing interfaces that are more intuitive, powerful, and responsive to human needs. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 任意量子LDPC符号を任意の次元のよい幾何学的局所符号に変換する
Transform Arbitrary Good Quantum LDPC Codes into Good Geometrically Local Codes in Any Dimension ( http://arxiv.org/abs/2408.01769v1 ) ライセンス: Link先を確認 | Xingjian Li, Ting-Chun Lin, Min-Hsiu Hsieh, | (参考訳) 幾何的に局所的な量子符号は、局所的なチェック演算子を持つ$\mathbb{R}^D$に埋め込まれた量子ビットとチェックから構成されており、重要な関心の対象となっている。
重要な課題は、寸法と距離の両方を最大化する最適なコード構造を特定することです。
最近の進歩はいくつかの構成を生み出しているが、これらは特定の良い量子低密度パリティチェック(qLDPC)符号に依存しているか、3次元に限定されている。
本研究では,任意の優れたqLDPCコードを最適に局所的な量子コードに変換する構造を導入する。
我々のアプローチは、任意の3末端鎖複体から2次元構造を抽出する新しい手法に基づいている。
この方法では、重量減少や鎖状錯体の幾何学的実現など、より広範な応用が期待できる。
Geometrically local quantum codes, comprised of qubits and checks embedded in $\mathbb{R}^D$ with local check operators, have been a subject of significant interest. A key challenge is identifying the optimal code construction that maximizes both dimension and distance. Recent advancements have produced several constructions, but these either depend on specific good quantum low-density parity-check (qLDPC) codes or are limited to three dimensions. In this work, we introduce a construction that can transform any good qLDPC code into an optimal geometrically local quantum code. Our approach hinges on a novel procedure that extracts a two-dimensional structure from an arbitrary three-term chain complex. We expect that this procedure will find broader applications in areas such as weight reduction and the geometric realization of chain complexes. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# 相対論的 Foldy-Wouthuysen Hamiltonian への先行補正
Leading correction to the relativistic Foldy-Wouthuysen Hamiltonian ( http://arxiv.org/abs/2408.01770v1 ) ライセンス: Link先を確認 | Alexander J. Silenko, | (参考訳) 外部場と相互作用するディラック粒子に対しては、エリクセンによって得られたFoldy-Wouthuysen変換の正確な演算子を使用し、既知の相対論的Foldy-Wouthuysen Hamiltonianへの弱場近似のリード補正を厳格に導き出す。
この目的のために、Eriksen演算子の平方根の演算子抽出を行う。
導出補正は相対論的粒子の散乱に重要である。
2階の相対論的波動方程式によるこの散乱の記述はより便利であるため、第1階と第2階の相対論的波動方程式間の一般接続を決定する。
ディラック粒子の場合、2階の相対的波動方程式はFoldy-Wouthuysen Hamiltonian と同様の補正で得られる。
For Dirac particles interacting with external fields, we use the exact operator of the Foldy-Wouthuysen transformation obtained by Eriksen and rigorously derive a leading correction in the weak-field approximation to the known relativistic Foldy-Wouthuysen Hamiltonian. For this purpose, we carry out the operator extraction of a square root in the Eriksen operator. The derived correction is important for the scattering of relativistic particles. Since the description of this scattering by a relativistic wave equation of the second order is more convenient, we determine a general connection between relativisic wave equations of the first and second orders. For Dirac particles, the relativisic wave equation of the second order is obtained with the correction similar to that to the Foldy-Wouthuysen Hamiltonian. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# STDA: 安全批判シナリオ下での運転行動予測のためのドライバー注意を組み込んだ時空間デュアルエンコーダネットワーク
STDA: Spatio-Temporal Dual-Encoder Network Incorporating Driver Attention to Predict Driver Behaviors Under Safety-Critical Scenarios ( http://arxiv.org/abs/2408.01774v1 ) ライセンス: Link先を確認 | Dongyang Xu, Yiran Luo, Tianle Lu, Qingfan Wang, Qing Zhou, Bingbing Nie, | (参考訳) 自動運転車の正確な行動予測は不可欠だが、自動運転には難しい。
既存の研究の多くは、通常のシナリオではパフォーマンスが満足していることを示しているが、ほとんどの場合、安全クリティカルなシナリオは無視されている。
本研究では,安全クリティカルシナリオのための時空間二重エンコーダネットワークSTDAを開発した。
運転者の注意をSTDAに組み込むことにより,運転者の認識・理解能力の向上が期待できる重要領域の迅速同定が図られた。
STDAには、ドライバーの注意を予測するドライバーの注意予測モジュール、ドライバーの注意と生画像の特徴を融合するために設計された融合モジュール、ダイナミックなシーンを解釈する能力を高めるために使用される一時的なエンコーダモジュール、行動を予測する行動予測モジュールの4つの部分が含まれている。
実験データはモデルをトレーニングし、検証するために使用されます。
その結果、STDAはドライバーの注意を取り入れて時間エンコーダモジュールを採用すると、G平均を0.659から0.719に改善することがわかった。
さらに、提案モジュールが堅牢な一般化能力を示し、他の主流モデルにシームレスに統合できることを検証するために、広範な実験が行われた。
Accurate behavior prediction for vehicles is essential but challenging for autonomous driving. Most existing studies show satisfying performance under regular scenarios, but most neglected safety-critical scenarios. In this study, a spatio-temporal dual-encoder network named STDA for safety-critical scenarios was developed. Considering the exceptional capabilities of human drivers in terms of situational awareness and comprehending risks, driver attention was incorporated into STDA to facilitate swift identification of the critical regions, which is expected to improve both performance and interpretability. STDA contains four parts: the driver attention prediction module, which predicts driver attention; the fusion module designed to fuse the features between driver attention and raw images; the temporary encoder module used to enhance the capability to interpret dynamic scenes; and the behavior prediction module to predict the behavior. The experiment data are used to train and validate the model. The results show that STDA improves the G-mean from 0.659 to 0.719 when incorporating driver attention and adopting a temporal encoder module. In addition, extensive experimentation has been conducted to validate that the proposed module exhibits robust generalization capabilities and can be seamlessly integrated into other mainstream models. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# MathLearner: 数学的な問題を解決するための大規模言語モデルエージェントフレームワーク
MathLearner: A Large Language Model Agent Framework for Learning to Solve Mathematical Problems ( http://arxiv.org/abs/2408.01779v1 ) ライセンス: Link先を確認 | Wenbei Xie, Donglin Liu, Haoran Yan, Wenjie Wu, Zongyang Liu, | (参考訳) 人工知能(AI)の発展に伴い、多くの分野で大規模言語モデル(LLM)が広く使われている。
しかし、数学的推論に関しては、LLMの推論能力は依然として非常に限られている。
数学は人間の社会のあらゆる面において重要な役割を担い、医療、輸送、航空宇宙の分野で技術的に保証されている。
大規模言語モデルの数学的推論能力を向上させるために,帰納的推論に基づく数学的問題の解法を学習するためのエージェントフレームワークを提案した。
学習情報の一般化による人間の学習過程をエミュレートし、新しい推論タスクに先行知識を効果的に適用することにより、数学的推論プロセスにおいて優れた性能を発揮する。
ベースライン法(チェーン・オブ・シント)を20.96%改善し、ベースラインが解けない数学的問題の17.54%を解く。
効率的なRETRIEVAL法により,我々のモデルは,外部知識を効率的に活用する大規模言語モデルの能力を向上させる。
教育において、我々のモデルはパーソナライズされた学習支援として利用することができ、それによって教育資源の不平等が軽減される。
With the development of artificial intelligence (AI), large language models (LLM) are widely used in many fields. However, the reasoning ability of LLM is still very limited when it comes to mathematical reasoning. Mathematics plays an important role in all aspects of human society and is a technical guarantee in the fields of healthcare, transport and aerospace, for this reason, the development of AI big language models in the field of mathematics has great potential significance. To improve the mathematical reasoning ability of large language models, we proposed an agent framework for learning to solve mathematical problems based on inductive reasoning. By emulating the human learning process of generalization of learned information and effective application of previous knowledge in new reasoning tasks, this framework has great performance in the mathematical reasoning process. It improves global accuracy over the baseline method (chain-of-thought) by 20.96% and solves 17.54% of the mathematical problems that the baseline cannot solve. Benefiting from the efficient RETRIEVAL method, our model improves the ability of large language models to efficiently use external knowledge, i.e., the mathematical computation of the model can be based on written procedures. In education, our model can be used as a personalised learning aid, thus reducing the inequality of educational resources. | 翻訳日:2024-08-06 18:30:57 公開日:2024-08-03 |
# サイバー空間における国家アクターのオントロジーに向けて
Towards an ontology of state actors in cyberspace ( http://arxiv.org/abs/2408.01787v1 ) ライセンス: Link先を確認 | Giacomo De Colle, | (参考訳) サイバーセキュリティにおけるサイバー脅威分析の実践を改善するために,サイバースペースおよびサイバーオペレーションにおける国家アクターの形式的存在論的表現を構築する計画を提案する。
オントロジーによるこれらの現象のモデル化は、様々な情報源から得られたデータの一貫性のある統合、そのようなデータに対する自動推論、さらにはインテリジェンス抽出と再利用を可能にしている、と私は論じます。
既存のサイバーセキュリティのオンロジカルツールは、法律、規制、政府機関、文書などの近隣のドメインに接続することで改善することができる。
本稿では,サイバーセキュリティ領域における公式な表現を作成するために,現在存在する存在論的ツールを評価するためのメトリクスを提案し,それらが不足している場合にそれらを開発・拡張する計画を提案する。
To improve cyber threat analysis practices in cybersecurity, I present a plan to build a formal ontological representation of state actors in cyberspace and of cyber operations. I argue that modelling these phenomena via ontologies allows for coherent integration of data coming from diverse sources, automated reasoning over such data, as well as intelligence extraction and reuse from and of them. Existing ontological tools in cybersecurity can be ameliorated by connecting them to neighboring domains such as law, regulations, governmental institutions, and documents. In this paper, I propose metrics to evaluate currently existing ontological tools to create formal representations in the cybersecurity domain, and I provide a plan to develop and extend them when they are lacking. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# 相乗的ハイパーパラメータチューニングと高度なデータ処理による侵入検知システムの性能最適化
Optimizing Intrusion Detection System Performance Through Synergistic Hyperparameter Tuning and Advanced Data Processing ( http://arxiv.org/abs/2408.01792v1 ) ライセンス: Link先を確認 | Samia Saidane, Francesco Telch, Kussai Shahin, Fabrizio Granelli, | (参考訳) 侵入検知は、悪意のある活動に対するコンピュータネットワークの確保に不可欠である。
従来の手法は、ネットワークトラフィックの複雑なパターンや異常を効果的に検出するのに苦労する。
この問題に対処するために,ディープラーニング,データバランシング(K-means + SMOTE),高次元縮小(PCAとFCBF),ハイパーパラメータ最適化(Extra TreesとBO-TPE)を組み合わせたシステムを提案する。
CIC IDS 2018やCIC IDS 2017のような広範なデータセットをトレーニングすることで、当社のモデルは堅牢なパフォーマンスと一般化を示している。
特に、アンサンブルモデル「VGG19」は、CIC-IDS2017では99.26%、CSE-CIC-IDS2018では99.22%の精度で、他のモデルより優れている。
Intrusion detection is vital for securing computer networks against malicious activities. Traditional methods struggle to detect complex patterns and anomalies in network traffic effectively. To address this issue, we propose a system combining deep learning, data balancing (K-means + SMOTE), high-dimensional reduction (PCA and FCBF), and hyperparameter optimization (Extra Trees and BO-TPE) to enhance intrusion detection performance. By training on extensive datasets like CIC IDS 2018 and CIC IDS 2017, our models demonstrate robust performance and generalization. Notably, the ensemble model "VGG19" consistently achieves remarkable accuracy (99.26% on CIC-IDS2017 and 99.22% on CSE-CIC-IDS2018), outperforming other models. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# インテリジェントマニュファクチャリングのためのクラウドサービス構成のレビュー
Review of Cloud Service Composition for Intelligent Manufacturing ( http://arxiv.org/abs/2408.01795v1 ) ライセンス: Link先を確認 | Cuixia Li, Liqiang Liu, Li Shi, | (参考訳) インテリジェント製造は、モノのインターネット、ビッグデータ、人工知能といった高度な技術を使って製造の効率と品質を改善する新しいモデルである。
製造業の変革とアップグレードを促進するための重要な支援として、クラウドサービスの最適化は研究者の注目を集めている。
近年,この分野では顕著な研究成果が得られている。
本稿では、インテリジェントな製造プラットフォームの持続可能性について、インテリジェントな製造のためのクラウドサービス最適化のプロセスを要約する。
さらに、既存の研究における分散最適化指標と非一様/非標準化の定義の問題に対処するため、知的製造プラットフォームの持続可能な発展の緊急要件から、三者対象を考慮した11の最適化指標を定義した。
次に、サービス最適化アルゴリズムは、ヒューリスティックと強化学習の2つのカテゴリに分類される。
2つのカテゴリを比較した後、現在のサービス最適化のキーとなるテクニックがターゲットとなっている。
最後に,サービス最適化のホットスポットと今後の研究動向について概説する。
Intelligent manufacturing is a new model that uses advanced technologies such as the Internet of Things, big data, and artificial intelligence to improve the efficiency and quality of manufacturing production. As an important support to promote the transformation and upgrading of the manufacturing industry, cloud service optimization has received the attention of researchers. In recent years, remarkable research results have been achieved in this field. For the sustainability of intelligent manufacturing platforms, in this paper we summarize the process of cloud service optimization for intelligent manufacturing. Further, to address the problems of dispersed optimization indicators and nonuniform/unstandardized definitions in the existing research, 11 optimization indicators that take into account three-party participant subjects are defined from the urgent requirements of the sustainable development of intelligent manufacturing platforms. Next, service optimization algorithms are classified into two categories, heuristic and reinforcement learning. After comparing the two categories, the current key techniques of service optimization are targeted. Finally, research hotspots and future research trends of service optimization are summarized. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# NuLite -- Nucleiインスタンスのセグメンテーションと分類のための軽量かつ高速なモデル
NuLite -- Lightweight and Fast Model for Nuclei Instance Segmentation and Classification ( http://arxiv.org/abs/2408.01797v1 ) ライセンス: Link先を確認 | Cristian Tommasino, Cristiano Russo, Antonio Maria Rinaldi, | (参考訳) 病理学では、ヘマトキシリンおよびエオシンスライドの正確かつ効率的な解析は、タイムリーかつ効果的ながん診断に不可欠である。
核インスタンスのセグメンテーションと分類のための深層学習ソリューションは文献に多く存在するが、しばしば高い計算コストとリソース要求を伴い、医療応用における実用的利用を制限する。
この問題に対処するために,我々は,最先端(SOTA)軽量CNNであるFast-ViT上に明示的に設計されたU-Netライクなアーキテクチャである,新しい畳み込みニューラルネットワークであるNuLiteを導入する。
我々は、PanNukeデータセットに基づいてトレーニングされたNuLite-S、NuLite-M、NuLite-Hの3つのバージョンを得た。
実験結果から,本モデルとCellViT (SOTA) は, 光学的品質と検出の点で同等であることが確認された。
しかし、最も軽量なモデルであるNuLite-Sはパラメータの40倍、GFlopsの約8倍、パラメータの17倍、GFlopsの約7倍である。
さらに、私たちのモデルはCellViTの8倍高速です。
最後に、ソリューションの有効性を証明するために、外部データセット(CoNseP、MoNuSeg、GlySAC)を堅牢に比較する。
私たちのモデルはhttps://github.com/CosmoIknosLab/NuLiteで公開されています。
In pathology, accurate and efficient analysis of Hematoxylin and Eosin (H\&E) slides is crucial for timely and effective cancer diagnosis. Although many deep learning solutions for nuclei instance segmentation and classification exist in the literature, they often entail high computational costs and resource requirements, thus limiting their practical usage in medical applications. To address this issue, we introduce a novel convolutional neural network, NuLite, a U-Net-like architecture designed explicitly on Fast-ViT, a state-of-the-art (SOTA) lightweight CNN. We obtained three versions of our model, NuLite-S, NuLite-M, and NuLite-H, trained on the PanNuke dataset. The experimental results prove that our models equal CellViT (SOTA) in terms of panoptic quality and detection. However, our lightest model, NuLite-S, is 40 times smaller in terms of parameters and about 8 times smaller in terms of GFlops, while our heaviest model is 17 times smaller in terms of parameters and about 7 times smaller in terms of GFlops. Moreover, our model is up to about 8 times faster than CellViT. Lastly, to prove the effectiveness of our solution, we provide a robust comparison of external datasets, namely CoNseP, MoNuSeg, and GlySAC. Our model is publicly available at https://github.com/CosmoIknosLab/NuLite | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# 異なる私的ゴモリー・フの木
Differentially Private Gomory-Hu Trees ( http://arxiv.org/abs/2408.01798v1 ) ライセンス: Link先を確認 | Anders Aamand, Justin Y. Chen, Mina Dalirrooyfard, Slobodan Mitrović, Yuriy Nevmyvaka, Sandeep Silwal, Yinzhan Xu, | (参考訳) 無向で重み付けされた$n$-vertex graph $G = (V, E, w)$, a Gomory-Hu tree $T$は$V$上の重み付き木であり、任意の異なる頂点の対に対して$s, t \in V$, the Min-$s$-$t$-Cut on $T$は$G$上のMin-$s$-$t$-Cutもまた$G$上のMin-$s$-$t$-Cutである。
Gomory-Hu木を計算することはグラフアルゴリズムにおいてよく研究されている問題であり、かなりの注目を集めている。
特に、近年の長い研究は、ほぼ直線時間でゴモリー・フの木(Abboud, Li, Panigrahi and Saranurak, FOCS 2023)を構築する上で頂点に達した。
我々は,近似Gomory-Hu木を演算する差分プライベート(DP)アルゴリズムを設計する。
我々のアルゴリズムは$\varepsilon$-DPであり、多項式時間で実行され、$\tilde{O}(n/\varepsilon)$-additive approximations of the Min-$s$-$t$-Cuts in the $G$ for all different $s, t \in V$ with high probability。
我々の誤差境界は基本的に最適であり、[Dalirrooyfard, Mitrovi\'c and Nevmyvaka, NeurIPS 2023] は、単一のMin-$s$-$t$-Cutをプライベートに出力するには、$(1, 0.1)$-DPでも$\Omega(n)$加法誤差が必要であり、乗法誤差項が可能であることを示した。
Min-$s$-$t$-Cuts は $O(n^{3/2}/\varepsilon)$ for $\varepsilon$-DP [Gupta, Roth and Ullman, TCC 2012] と $O(\sqrt{mn} \cdot \text{polylog}(n/\delta) / \varepsilon)$ for $(\varepsilon, \delta)$-DP [Liu, Upadhyay and Zou, SODA 2024] である。
我々の主な成果の重要な技術的要素は、最小Isolating Cutsを$\tilde{O}(n / \varepsilon)$加法誤差で計算する$\varepsilon$-DPアルゴリズムである。
Given an undirected, weighted $n$-vertex graph $G = (V, E, w)$, a Gomory-Hu tree $T$ is a weighted tree on $V$ such that for any pair of distinct vertices $s, t \in V$, the Min-$s$-$t$-Cut on $T$ is also a Min-$s$-$t$-Cut on $G$. Computing a Gomory-Hu tree is a well-studied problem in graph algorithms and has received considerable attention. In particular, a long line of work recently culminated in constructing a Gomory-Hu tree in almost linear time [Abboud, Li, Panigrahi and Saranurak, FOCS 2023]. We design a differentially private (DP) algorithm that computes an approximate Gomory-Hu tree. Our algorithm is $\varepsilon$-DP, runs in polynomial time, and can be used to compute $s$-$t$ cuts that are $\tilde{O}(n/\varepsilon)$-additive approximations of the Min-$s$-$t$-Cuts in $G$ for all distinct $s, t \in V$ with high probability. Our error bound is essentially optimal, as [Dalirrooyfard, Mitrovi\'c and Nevmyvaka, NeurIPS 2023] showed that privately outputting a single Min-$s$-$t$-Cut requires $\Omega(n)$ additive error even with $(1, 0.1)$-DP and allowing for a multiplicative error term. Prior to our work, the best additive error bounds for approximate all-pairs Min-$s$-$t$-Cuts were $O(n^{3/2}/\varepsilon)$ for $\varepsilon$-DP [Gupta, Roth and Ullman, TCC 2012] and $O(\sqrt{mn} \cdot \text{polylog}(n/\delta) / \varepsilon)$ for $(\varepsilon, \delta)$-DP [Liu, Upadhyay and Zou, SODA 2024], both of which are implied by differential private algorithms that preserve all cuts in the graph. An important technical ingredient of our main result is an $\varepsilon$-DP algorithm for computing minimum Isolating Cuts with $\tilde{O}(n / \varepsilon)$ additive error, which may be of independent interest. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# 2つの結合した固体量子エミッタからの協調放出とその乱数生成への影響
Cooperative emission from two coupled solid-state quantum emitters and its effect on random number generation ( http://arxiv.org/abs/2408.01799v1 ) ライセンス: Link先を確認 | Madhura Ghosh Dastidar, Aprameyan Desikan, Gniewomir Sarbicki, Vidya Praveen Bhallamudi, | (参考訳) 励起ポンプの波長に近い寸法のナノピラーに閉じ込められた2つの窒素空孔(NV)中心系からの発光光の挙動協調効果について検討した。
我々は、結合エミッタ系に対して$g^{(2)}(0) > 0.5 \to 1$ を実験的に観察し、超放射能挙動を示す2エミッタ間の相互作用を示す $\approx 6$ の係数で一重項と三重項の寿命の劇的な減少を観察した。
我々は、リンドブラッド・マスター方程式の解法と2階相関関数の解析式を提供することにより、3つのケース(単一エミッタ、双極子結合のない2つのエミッタ)の有限温度におけるエミッタ系と励起光の相互作用の散逸ダイナミクスを理論的に研究する。
主方程式から、2つのエミッターの場合の集団とコヒーレンスが混在していることが観察される。
これにより、実験結果をサポートし、システムからの超輝度について論じる。
最後に、結合エミッタ系から、低ポンプパワーで、信頼性の高い量子乱数生成率$\sim 200$ kHzを発見した。
We discuss the behaviour cooperative effects in the emitted light from a system of two nitrogen-vacancy (NV) centers confined in a nanopillar having dimensions close to the wavelength of the excitation pump. We experimentally observe a $g^{(2)}(0) > 0.5 \to 1$ for the coupled emitter system and a drastic decrease in the singlet and triplet lifetimes by a factor of $\approx 6$, indicating an interaction between the two emitters, which indicates superradiant behaviour. We theoretically study the dissipative dynamics of the interaction of the emitter system with the excitation light at a finite temperature for three cases (single emitter, two emitters with and without dipole-dipole coupling) by solving the Lindblad master equation and providing an analytical expression for the second-order correlation function. We observe that from the master equation, the populations and coherences mix for the two emitters' cases. Through this, we support our experimental results and discuss superradiance from our system. Finally, we discover a reliable quantum random number generation rate of $\sim 200$ kHz from the coupled emitter system, at low pump powers. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# MiniCPM-V:携帯のGPT-4VレベルのMLLM
MiniCPM-V: A GPT-4V Level MLLM on Your Phone ( http://arxiv.org/abs/2408.01800v1 ) ライセンス: Link先を確認 | Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun, | (参考訳) 最近のMLLM(Multimodal Large Language Models)の急増は、AI研究と産業のランドスケープを根本的に変え、次のAIマイルストーンへの有望な道に光を当てた。
しかし、MLLMが現実世界のアプリケーションで実用化されるのを未然に防いでいる。
最も顕著な課題は、膨大なパラメータと広範な計算量を持つMLLMの実行コストである。
その結果、ほとんどのMLLMは高性能なクラウドサーバにデプロイする必要があるため、モバイル、オフライン、エネルギー感受性、プライバシ保護のシナリオなど、アプリケーションのスコープを大幅に制限する。
本稿では,エンドサイドデバイスにデプロイ可能な,効率的なMLLMのシリーズであるMiniCPM-Vを提案する。
アーキテクチャ、事前トレーニング、アライメントに最新のMLLM技術を統合することで、(1)パフォーマンスが良く、GPT-4V-1106、Gemini Pro、Claude 3をOpenCompassで上回り、11のベンチマークを総合的に評価し、(2)OCR能力と1.8Mピクセルの高解像度画像認識をアスペクト比で評価し、(3)幻覚率の低い信頼性の高い振る舞い、(4)30以上の言語を多言語でサポートし、(5)携帯電話に効率的な展開を行う。
さらに重要なことに、MiniCPM-Vは、有望なトレンドの代表的な例として見ることができる: 使用可能な(例えば、GPT-4V)レベルのパフォーマンスを達成するためのモデルサイズは、エンドサイドの計算能力の急速な成長とともに、急速に減少している。
これは、エンドデバイスにデプロイされるGPT-4VレベルのMLLMがますます可能になりつつあることを示し、近い将来、現実世界のAIアプリケーションの幅広い範囲をアンロックする。
The recent surge of Multimodal Large Language Models (MLLMs) has fundamentally reshaped the landscape of AI research and industry, shedding light on a promising path toward the next AI milestone. However, significant challenges remain preventing MLLMs from being practical in real-world applications. The most notable challenge comes from the huge cost of running an MLLM with a massive number of parameters and extensive computation. As a result, most MLLMs need to be deployed on high-performing cloud servers, which greatly limits their application scopes such as mobile, offline, energy-sensitive, and privacy-protective scenarios. In this work, we present MiniCPM-V, a series of efficient MLLMs deployable on end-side devices. By integrating the latest MLLM techniques in architecture, pretraining and alignment, the latest MiniCPM-Llama3-V 2.5 has several notable features: (1) Strong performance, outperforming GPT-4V-1106, Gemini Pro and Claude 3 on OpenCompass, a comprehensive evaluation over 11 popular benchmarks, (2) strong OCR capability and 1.8M pixel high-resolution image perception at any aspect ratio, (3) trustworthy behavior with low hallucination rates, (4) multilingual support for 30+ languages, and (5) efficient deployment on mobile phones. More importantly, MiniCPM-V can be viewed as a representative example of a promising trend: The model sizes for achieving usable (e.g., GPT-4V) level performance are rapidly decreasing, along with the fast growth of end-side computation capacity. This jointly shows that GPT-4V level MLLMs deployed on end devices are becoming increasingly possible, unlocking a wider spectrum of real-world AI applications in the near future. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# STBLLM: 構造付きバイナリLLMで1ビットバリアを壊す
STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs ( http://arxiv.org/abs/2408.01803v1 ) ライセンス: Link先を確認 | Peijie Dong, Lujun Li, Dayou Du, Yuhan Chen, Zhenheng Tang, Qiang Wang, Wei Xue, Wenhan Luo, Qifeng Liu, Yike Guo, Xiaowen Chu, | (参考訳) 本稿では,Large Language Models (LLM) を1ビット未満の精度で圧縮する最初の構造バイナライズフレームワークSTBLLMを提案する。
LLMは目覚ましい性能を達成しているが、その大量のメモリ要件は、特にリソース制約のあるデバイスにおいて、広く採用されることを妨げている。
重みをわずか1ビットに定量化するバイナリ化は、計算効率の向上においてマイルストーンを達成している。
しかし, 2項化LDMの重みは, 大幅な性能劣化を伴わずにランダムにフリップすることが可能であり, さらなる圧縮の可能性を示している。
これを利用するために、我々のSTBLLMはN:M間隔を用いて重みの構造的双対化を行う。
まず,重み度と入力特徴ノルムを考慮したSI(Standardized Importance)メトリクスを導入し,重み度をよりよく評価する。
そこで我々は,LLMの異なる層を異なるN:M比で分散し,圧縮と精度のバランスをとるレイヤワイズアプローチを提案する。
最後に,二項化を併用した残差近似を用いて,有意な重み情報を保存する。
さらに,より重要度の低い重み付けに,スパース領域,中間領域,および密度領域に異なる量子化スキームを適用するための,きめ細かいグループ化戦略を利用する。
我々は,STBLLMの有効性を評価するために,LLaMA-1/2/3,OPTファミリ,Mistralなど様々な言語モデルに関する広範な実験を行った。
その結果,本手法は他の圧縮バイナライズLLM法よりも優れた性能を示し,メモリ要求を著しく低減した。
In this paper, we present STBLLM, the first structural binarization framework for compressing Large Language Models (LLMs) to less than 1-bit precision. LLMs have achieved remarkable performance, but their heavy memory requirements have hindered widespread adoption, particularly on resource-constrained devices. Binarization, which quantifies weights to a mere 1-bit, achieves a milestone in increasing computational efficiency. However, we observe that some weights in binarized LLMs can be randomly flipped without significant performance degradation, indicating the potential for further compression. To exploit this, our STBLLM employs an N:M sparsity to perform structural binarization of the weights. First, we introduce a new Standardized Importance (SI) metric that considers weight magnitude and input feature norm to better evaluate weight significance. Then, we propose a layer-wise approach where different layers of the LLM can be sparsified with varying N:M ratios, balancing compression and accuracy. Finally, we use residual approximation with double binarization to preserve information for salient weights. In addition, we utilize a fine-grained grouping strategy for less important weights that applies different quantization schemes to sparse, intermediate, and dense regions. We conduct extensive experiments on various language models, including the LLaMA-1/2/3, OPT family, and Mistral, to evaluate the effectiveness of STBLLM. The results demonstrate that our approach performs better than other compressed binarization LLM methods while significantly reducing memory requirements. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# ALIF:言語的特徴を用いたブラックボックス音声プラットフォームにおける低コスト音声アタック
ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features ( http://arxiv.org/abs/2408.01808v1 ) ライセンス: Link先を確認 | Peng Cheng, Yuwei Wang, Peng Huang, Zhongjie Ba, Xiaodong Lin, Feng Lin, Li Lu, Kui Ren, | (参考訳) 大規模な研究により、音声制御可能なスマートデバイスに敵対的な例(AE)が重大な脅威をもたらすことが明らかになった。
近年の研究では、自動音声認識(ASR)システムからの最終的な転写のみを必要とするブラックボックス逆行攻撃が提案されている。
しかし、これらの攻撃は通常、多くのASRへの問い合わせを伴い、結果としてかなりのコストがかかる。
さらに、AEベースの敵対的オーディオサンプルは、ASR更新の影響を受けやすい。
本稿では,これらの制約の根本原因,すなわち深層学習(DL)モデルの意思決定境界付近で直接AE攻撃サンプルを構築することができないことを明らかにする。
この観測に基づいて,最初のブラックボックス言語的特徴に基づく攻撃パイプラインであるALIFを提案する。
我々は、テキスト音声(TTS)とASRモデルの相互プロセスを利用して、決定境界が存在する言語埋め込み空間における摂動を生成する。
ALIFパイプラインに基づくALIF-OTLおよびALIF-OTAスキームは,4つの商用ASRおよび音声アシスタント上で,デジタルドメインと物理再生環境の両方で攻撃を開始する。
ALIF-OTL と -OTA はクエリ効率を 97.7% と 73.3% で改善し、既存の手法と比較して競争性能は向上した。
特に、ALIF-OTLは1つのクエリだけで攻撃サンプルを生成することができる。
さらに、我々のテスト・オブ・タイム実験は、ASR更新に対する我々のアプローチの堅牢性を検証する。
Extensive research has revealed that adversarial examples (AE) pose a significant threat to voice-controllable smart devices. Recent studies have proposed black-box adversarial attacks that require only the final transcription from an automatic speech recognition (ASR) system. However, these attacks typically involve many queries to the ASR, resulting in substantial costs. Moreover, AE-based adversarial audio samples are susceptible to ASR updates. In this paper, we identify the root cause of these limitations, namely the inability to construct AE attack samples directly around the decision boundary of deep learning (DL) models. Building on this observation, we propose ALIF, the first black-box adversarial linguistic feature-based attack pipeline. We leverage the reciprocal process of text-to-speech (TTS) and ASR models to generate perturbations in the linguistic embedding space where the decision boundary resides. Based on the ALIF pipeline, we present the ALIF-OTL and ALIF-OTA schemes for launching attacks in both the digital domain and the physical playback environment on four commercial ASRs and voice assistants. Extensive evaluations demonstrate that ALIF-OTL and -OTA significantly improve query efficiency by 97.7% and 73.3%, respectively, while achieving competitive performance compared to existing methods. Notably, ALIF-OTL can generate an attack sample with only one query. Furthermore, our test-of-time experiment validates the robustness of our approach against ASR updates. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# Androidアプリにおけるデバイス固有の互換性の問題
Demystifying Device-specific Compatibility Issues in Android Apps ( http://arxiv.org/abs/2408.01810v1 ) ライセンス: Link先を確認 | Junfeng Chen, Kevin Li, Yifei Chen, Lili Wei, Yepang Liu, | (参考訳) Androidのエコシステムは、Androidシステムの頻繁なアップデートと、モバイルデバイスメーカーによる一般的なカスタマイズにより、大きく断片化している。
これまでの研究は主に、進化によって引き起こされるAPI互換性の問題の特定と修復に重点を置いており、デバイス固有の互換性問題(DSC問題)を限定的に検討していた。
このギャップを埋めるために、GitHubの94のオープンソースリポジトリから収集された197のDSC問題の実証的研究を行った。
本稿では,これらの問題を,機能的ブレークとOEM機能という2つの主要なグループに分類して理解する上での新たな視点を紹介する。
機能を壊すことで、標準のAndroidシステムの動作が破壊され、クラッシュや予期せぬ動作が特定のデバイスで発生し、開発者は元の機能を維持するために回避策を実装する必要がある。
OEMの機能問題には、デバイス固有の機能や、基本的なAndroidシステム以外の機能の導入が含まれる。
機能の性質の相違によって問題が発生し、OEMの機能は問題に対処する上でユニークな問題を引き起こします。
機能障害の一般的な解決策は、追加のAPIの呼び出し、問題のあるAPIの置換、あるいは特定のパラメータの使用である。
このような観察は、AndroidアプリのDSC問題に対処する上での独特な課題を強調し、これらの問題をターゲットにしたテストと分析ツールの将来の開発を促進する。
本研究は,機能障害とOEMの特徴が異なること,今後の研究が別々に検討する必要があることを実証する。
The Android ecosystem is profoundly fragmented due to the frequent updates of the Android system and the prevalent customizations by mobile device manufacturers. Previous research primarily focused on identifying and repairing evolution-induced API compatibility issues, with limited consideration of devices-specific compatibility issues (DSC issues). To fill this gap, we conduct an empirical study of 197 DSC issues collected from 94 open-source repositories on GitHub. We introduce a new perspective for comprehending these issues by categorizing them into two principal groups, Functionality Breaks, and OEM Features, based on their manifestations and root causes. The functionality break issues disrupt standard Android system behaviors, lead to crashes or unexpected behaviors on specific devices, and require developers to implement workarounds to preserve the original functionality. The OEM feature issues involve the introduction of device-specific functionalities or features beyond the basic Android system. The different nature of functionality break issues and OEM feature issues lead to unique challenges in addressing them. Common solutions for functionality break issues involve calling additional APIs, substituting problematic ones, or using specific parameters, while resolving OEM feature issues often relies on Android inter-component communication methods and reflection, with additional unconventional strategies. Such observations highlight the distinctive challenges in addressing DSC issues in Android apps and will facilitate the future development of testing and analysis tools targeting these issues. Our study demonstrates that Functionality break and OEM feature issues have different characteristics, and future research may need to investigate them separately. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# SkyDiffusion: 拡散モデルとBEVパラダイムを用いたStreet-to-Satellite画像合成
SkyDiffusion: Street-to-Satellite Image Synthesis with Diffusion Models and BEV Paradigm ( http://arxiv.org/abs/2408.01812v1 ) ライセンス: Link先を確認 | Junyan Ye, Jun He, Weijia Li, Zhutao Lv, Jinhua Yu, Haote Yang, Conghui He, | (参考訳) ストリート・トゥ・サテライト画像合成は、空から見下ろすような一貫したコンテンツレイアウトを維持しながら、対応する地上ストリートビュー画像から現実的な衛星画像を生成することに焦点を当てている。
視点の重大な違いは、ビュー間に大きなドメインギャップを生じさせ、このクロスビュー生成タスクを特に困難にします。
本稿では,道路画像から衛星画像を合成し,拡散モデルとBird's Eye View(BEV)パラダイムを活用する,新しいクロスビュー生成手法であるSkyDiffusionを紹介する。
まず,街路ビュー画像を衛星ビューに変換するCurved-BEV法を設計し,課題であるクロスドメイン画像合成タスクを条件付き生成問題に再構成する。
また、Curved-BEVは「Multi-to-One」マッピング戦略も備えており、複数のストリートビュー画像を同じ衛星範囲内で組み合わせることで、密集した都市景観における閉塞問題を効果的に解決している。
次に,BEV制御拡散モデルを用いてストリートビューの内容に整合した衛星画像を生成する。また,光操作モジュールを内蔵し,参照衛星を用いた合成画像の照明条件を最適化する。
実験の結果、SkyDiffusionは郊外(CVUSA & CVACT)と都市(VIGOR-Chicago)のクロスビューデータセットにおいて、平均SSIMが14.5%、FIDが29.6%向上し、現実的でコンテンツに一貫性のある衛星画像生成を実現している。
この作業のコードとモデルはhttps://opendatalab.github.io/skydiffusion/.comで公開される。
Street-to-satellite image synthesis focuses on generating realistic satellite images from corresponding ground street-view images while maintaining a consistent content layout, similar to looking down from the sky. The significant differences in perspectives create a substantial domain gap between the views, making this cross-view generation task particularly challenging. In this paper, we introduce SkyDiffusion, a novel cross-view generation method for synthesizing satellite images from street-view images, leveraging diffusion models and Bird's Eye View (BEV) paradigm. First, we design a Curved-BEV method to transform street-view images to the satellite view, reformulating the challenging cross-domain image synthesis task into a conditional generation problem. Curved-BEV also includes a "Multi-to-One" mapping strategy for combining multiple street-view images within the same satellite coverage area, effectively solving the occlusion issues in dense urban scenes. Next, we design a BEV-controlled diffusion model to generate satellite images consistent with the street-view content, which also incorporates a light manipulation module to optimize the lighting condition of the synthesized image using a reference satellite. Experimental results demonstrate that SkyDiffusion outperforms state-of-the-art methods on both suburban (CVUSA & CVACT) and urban (VIGOR-Chicago) cross-view datasets, with an average SSIM increase of 14.5% and a FID reduction of 29.6%, achieving realistic and content-consistent satellite image generation. The code and models of this work will be released at https://opendatalab.github.io/skydiffusion/. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# 光ルーティングを用いた高効率核スピン-光子絡み合い
Efficient nuclear spin - photon entanglement with optical routing ( http://arxiv.org/abs/2408.01824v1 ) ライセンス: Link先を確認 | Javid Javadzade, Majid Zahedian, Florian Kaiser, Vadim Vorobyov, Jörg Wrachtrup, | (参考訳) 量子ネットワークと分散量子コンピュータは、光子と長寿命量子メモリの間の絡み合い生成に依存している。
大規模アーキテクチャでは、最も重要なパラメータの1つは、絡み合いを発生・検出する効率である。
ここでは、ダイヤモンド中の原子スピン量子ビットとフォトニック時間ビン量子ビットとのハイブリッド絡みの検出効率を最大化する。
提案手法は光量子解析器の最適実装に依存し, 高速光偏向器を用いて光子を最適干渉計経路に沿って決定的に誘導する。
このようにして、間違った干渉計経路の伝搬により光子がランダムに失われる全てのケースを完全に排除する。
この最初の実験では、ダイヤモンドの窒素空洞中心を使い、すぐに絡み合いの存在を実証します。
他のスピン-光子エンタングルメント系への拡張は単純である。
さらに,本手法は,スペクトル多重化や時間多重化など,量子リピータネットワークの枠組みにも応用できる。
この結果から,将来の高性能量子ネットワークへの道が開けた。
Quantum networks and distributed quantum computers rely on entanglement generation between photons and long-lived quantum memories. For large-scale architectures, one of the most crucial parameters is the efficiency at which entanglement can be created and detected. Here, we maximize the efficiency for the detection of hybrid entanglement between a nuclear spin qubit in diamond with a photonic time-bin qubit. Our approach relies on an optimal implementation of the photonic qubit analyzer, for which we use a high-speed electro-optic deflector to direct photons deterministically along the optimal interferometer paths. This way, we completely eliminate all cases in which photons are randomly lost due to the propagation in the wrong interferometer path. In this first demonstration experiment, we use nitrogen-vacancy center in diamond, for which we immediately demonstrate the presence of the entanglement. An extension to other spin-photon entanglement systems is straightforward. Further, our scheme can be used in the framework of quantum repeater networks, including spectral and temporal multiplexing strategies. Our results thus pave the way for the future high-performance quantum networks. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# GLDiTalker:グラフ遅延拡散変換器を用いた音声駆動型3次元顔アニメーション
GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer ( http://arxiv.org/abs/2408.01826v1 ) ライセンス: Link先を確認 | Yihong Lin, Lingyu Xiong, Xiandong Li, Wenxiong Kang, Xianjia Wu, Liang Peng, Songju Lei, Huang Xu, Zhaoxin Fan, | (参考訳) 3D音声による顔アニメーション生成は、産業応用と学術研究の両方で注目されている。
顔全体に存在する非言語的な顔の手がかりは非決定論的であるため、生成された結果は多様である。
しかし、近年の手法は、多様な顔アニメーションを生成するために、音声と顔の動きの多対多マッピングを学習できない決定論的モデルである。
この問題に対処するため,顔全体に存在する非言語的顔手がかりの非決定性を高めつつ,モーダルマッピングの不確実性を低減するために,いくつかの確率性とともに動きを導入するGLDiTalkerを提案する。
特にGLDiTalkerは、VQ-VAEを使用して、第1段階で顔の動きメッシュシーケンスを潜伏空間にマッピングし、第2段階において潜伏した顔の動き特徴にノイズを反復的に加算し除去する。
空間情報の異なるレベルを統合するために、空間ピラミッドスパイラルコンブエンコーダもマルチスケールの特徴を抽出するために設計されている。
定性的かつ定量的な実験により,本手法が最先端の性能を実現することを示す。
3D speech-driven facial animation generation has received much attention in both industrial applications and academic research. Since the non-verbal facial cues that exist across the face in reality are non-deterministic, the generated results should be diverse. However, most recent methods are deterministic models that cannot learn a many-to-many mapping between audio and facial motion to generate diverse facial animations. To address this problem, we propose GLDiTalker, which introduces a motion prior along with some stochasticity to reduce the uncertainty of cross-modal mapping while increasing non-determinacy of the non-verbal facial cues that reside throughout the face. Particularly, GLDiTalker uses VQ-VAE to map facial motion mesh sequences into latent space in the first stage, and then iteratively adds and removes noise to the latent facial motion features in the second stage. In order to integrate different levels of spatial information, the Spatial Pyramidal SpiralConv Encoder is also designed to extract multi-scale features. Extensive qualitative and quantitative experiments demonstrate that our method achieves the state-of-the-art performance. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# ST-SACLF: Bias-Aware Painting 分類のためのスタイル伝達インフォームド自己認識分類器
ST-SACLF: Style Transfer Informed Self-Attention Classifier for Bias-Aware Painting Classification ( http://arxiv.org/abs/2408.01827v1 ) ライセンス: Link先を確認 | Mridula Vijendran, Frederick W. B. Li, Jingjing Deng, Hubert P. H. Shum, | (参考訳) 絵画分類は、デジタル美術館や古典美術館の美術品を整理し、発見し、提案する上で重要な役割を担っている。
既存の手法は、トレーニング中に実世界の知識を芸術的イメージに適応させることに苦労し、異なるデータセットを扱う際にはパフォーマンスが低下する。
私たちのイノベーションは、これらの課題に2段階のプロセスで対処することにあります。
まず、アダプティブインスタンス正規化(AdaIN)を用いたスタイル転送(Style Transfer)を使用して、さまざまなスタイル間のギャップを埋めるデータを生成します。
そして,特徴マップ適応型空間アテンションモジュールによって分類器が向上し,芸術的細部への理解が向上する。
さらに,拡張サンプルを動的に調整することで,不均衡なクラス表現の問題に取り組む。
注意深いハイパーパラメータ探索とモデル微調整を含む2段階のプロセスを通じて、40以上のトレーニングエポック上でResNet-50のバックボーンを使用して、87.24\%の精度を実現した。
本研究は,種々の事前学習したバックボーンを比較する定量的解析を行い,アブレーションによるモデル最適化について検討し,モデル性能に与える影響について検討した。
これを完成させた定性的な実験は、空間的注意を用いたモデルの意思決定プロセスと、信頼性ランキングに基づいて、容易かつ困難なサンプルを区別する能力に関する貴重な洞察を提供する。
Painting classification plays a vital role in organizing, finding, and suggesting artwork for digital and classic art galleries. Existing methods struggle with adapting knowledge from the real world to artistic images during training, leading to poor performance when dealing with different datasets. Our innovation lies in addressing these challenges through a two-step process. First, we generate more data using Style Transfer with Adaptive Instance Normalization (AdaIN), bridging the gap between diverse styles. Then, our classifier gains a boost with feature-map adaptive spatial attention modules, improving its understanding of artistic details. Moreover, we tackle the problem of imbalanced class representation by dynamically adjusting augmented samples. Through a dual-stage process involving careful hyperparameter search and model fine-tuning, we achieve an impressive 87.24\% accuracy using the ResNet-50 backbone over 40 training epochs. Our study explores quantitative analyses that compare different pretrained backbones, investigates model optimization through ablation studies, and examines how varying augmentation levels affect model performance. Complementing this, our qualitative experiments offer valuable insights into the model's decision-making process using spatial attention and its ability to differentiate between easy and challenging samples based on confidence ranking. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# 大気化学オード用ニューラルネットワーク列挙器
Neural Network Enumerator for Atmospheric Chemical ODE ( http://arxiv.org/abs/2408.01829v1 ) ライセンス: Link先を確認 | Zhi-Song Liu, Petri Clusius, Michael Boy, | (参考訳) 大気化学のモデリングは複雑で計算力に富んでいる。
近年,デジタル信号処理におけるディープニューラルネットワークの成功を踏まえ,高速な化学濃度モデリングのためのニューラルネットワーク列挙器を提案する。
大気化学を時間依存の常微分方程式とみなす。
初期状態と今後の時間進化の間の隠れた相関関係を抽出するために,大気化学をニューラルネットワークプロセスとしてモデル化可能な,注意に基づくニューラルネットワーク列挙器(NNE)ChemNNEを提案する。
化学変化を効率的にシミュレートするために, 正弦波の時間埋め込みを提案し, 時間とともに振動傾向を推定する。
さらに重要なことは、効率的な計算のために、フーリエニューラル演算子を使用してODEプロセスをモデル化することです。
また,トレーニング最適化を監督するために,身体的インフォームド損失を3つ提案する。
本モデルを評価するために,ニューラルネットワークのトレーニングと評価に使用できる大規模ケミカルデータセットを提案する。
実験により,本手法は精度と計算速度のモデル化において最先端の性能を実現することを示す。
Modeling atmospheric chemistry is complex and computationally intense. Given the recent success of Deep neural networks in digital signal processing, we propose a Neural Network Enumerator for fast chemical concentration modeling. We consider atmospheric chemistry as a time-dependent Ordinary Differential Equation. To extract the hidden correlations between initial states and future time evolution, we propose ChemNNE, an Attention based Neural Network Enumerator (NNE) that can model the atmospheric chemistry as a neural ODE process. To efficiently simulate the chemical changes, we propose the sinusoidal time embedding to estimate the oscillating tendency over time. More importantly, we use the Fourier neural operator to model the ODE process for efficient computation. We also propose three physical-informed losses to supervise the training optimization. To evaluate our model, we propose a large-scale chemical dataset that can be used for neural network training and evaluation. The extensive experiments show that our approach achieves state-of-the-art performance in modeling accuracy and computational speed. | 翻訳日:2024-08-06 18:21:07 公開日:2024-08-03 |
# ビブロサイスデータのリング効果減衰の深部CNNモデル
A Deep CNN Model for Ringing Effect Attenuation of Vibroseis Data ( http://arxiv.org/abs/2408.01831v1 ) ライセンス: Link先を確認 | Zhuang Jia, Wenkai Lu, | (参考訳) 探査物理の分野では、地震振動器は地震データを取得するために広く使われている地震源の1つであり、通常はビブロセイと呼ばれる。
リング効果」は、バイブレータの周波数帯域が限られているためビブロサイスデータ処理において一般的な問題であり、初回ピッキングの性能が低下する。
本稿では,深部畳み込みニューラルネットワーク(CNN)を用いたビブロサイスデータの導出モデルを提案する。
このモデルでは、エンドツーエンドのトレーニング戦略を用いて、導出データを直接取得し、接続をスキップしてモデルトレーニングプロセスを改善し、ビブロセイデータの詳細を保存する。
実ビブロセイデータから実ビブロセイデータと対応するラベルを合成し,それを深層CNNモデルのトレーニングに活用する。
合成データと実ビブロセイデータの両方を用いて実験を行った。
実験の結果,深部CNNモデルは有効にリング効果を減衰し,ビブロセイスデータの帯域幅を拡大できることがわかった。
また,STA/LTA比法は深部CNNモデルを用いた深部ビブロセイスデータの改善を示す。
In the field of exploration geophysics, seismic vibrator is one of the widely used seismic sources to acquire seismic data, which is usually named vibroseis. "Ringing effect" is a common problem in vibroseis data processing due to the limited frequency bandwidth of the vibrator, which degrades the performance of first-break picking. In this paper, we proposed a novel deringing model for vibroseis data using deep convolutional neural network (CNN). In this model we use end-to-end training strategy to obtain the deringed data directly, and skip connections to improve model training process and preserve the details of vibroseis data. For real vibroseis deringing task we synthesize training data and corresponding labels from real vibroseis data and utilize them to train the deep CNN model. Experiments are conducted both on synthetic data and real vibroseis data. The experiment results show that deep CNN model can attenuate the ringing effect effectively and expand the bandwidth of vibroseis data. The STA/LTA ratio method for first-break picking also shows improvement on deringed vibroseis data using deep CNN model. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 確率的再構成による相関電子状態の変分最適化のための量子アルゴリズムと線形法
Quantum algorithms for the variational optimization of correlated electronic states with stochastic reconfiguration and the linear method ( http://arxiv.org/abs/2408.01833v1 ) ライセンス: Link先を確認 | Mario Motta, Kevin J. Sung, James Shee, | (参考訳) 強相関基底状態に対する電子シュロディンガー方程式の解法は長年の課題である。
本稿では,局所ユニタリクラスタジャストロー (LUCJ) アンサーゼなどのユニタリ演算子の積と相関する波動関数の変動最適化のための量子アルゴリズムについて,確率的再構成と線形手法を用いて検討する。
古典的な計算ハードウェアの実装には指数関数的に計算コストが増加する必要があるが、我々の量子アルゴリズムのコスト(回路数とショット数)はシステムサイズの多項式である。
線形手法による最適化の古典的シミュレーションでは、N$2$とC$2$の解離曲線におけるL-BFGS-Bオプティマイザよりも低いエネルギー解を求めることができ、LUCJの基底エネルギーの予測は、ポテンシャルエネルギー曲線の全ての点において1 kcal/mol以下の正確な対角化から逸脱する。
我々は、LM最適化におけるショットノイズの影響を特徴づける一方で、これらのノイズのない結果は、平均場最適化が正式にNP困難である電子構造問題(古典的および量子的ハードウェアの両方において)を攻撃する際に最適化技術が果たすべき重要な役割を、しばしば見落としている。
また、これらの強い相関関係の中で滑らかな曲線を得るという課題についても論じ、対称性プロジェクションされたアンザッツ形式から対称性制約のある最適化アルゴリズムまで、多くの量子フレンドリーな解を提案する。
Solving the electronic Schrodinger equation for strongly correlated ground states is a long-standing challenge. We present quantum algorithms for the variational optimization of wavefunctions correlated by products of unitary operators, such as Local Unitary Cluster Jastrow (LUCJ) ansatzes, using stochastic reconfiguration and the linear method. While an implementation on classical computing hardware would require exponentially growing compute cost, the cost (number of circuits and shots) of our quantum algorithms is polynomial in system size. We find that classical simulations of optimization with the linear method consistently find lower energy solutions than with the L-BFGS-B optimizer across the dissociation curves of the notoriously difficult N$_2$ and C$_2$ dimers; LUCJ predictions of the ground-state energies deviate from exact diagonalization by 1 kcal/mol or less at all points on the potential energy curve. While we do characterize the effect of shot noise on the LM optimization, these noiseless results highlight the critical but often overlooked role that optimization techniques must play in attacking the electronic structure problem (on both classical and quantum hardware), for which even mean-field optimization is formally NP hard. We also discuss the challenge of obtaining smooth curves in these strongly correlated regimes, and propose a number of quantum-friendly solutions ranging from symmetry-projected ansatz forms to a symmetry-constrained optimization algorithm. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# TS-SAM:下流タスクのための微調整セグメント類似モデル
TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks ( http://arxiv.org/abs/2408.01835v1 ) ライセンス: Link先を確認 | Yang Yu, Chen Xu, Kai Wang, | (参考訳) アダプタに基づく微調整は、下流タスクにおけるSAMの性能を改善するために研究されている。
しかし、微調整されたSAMとドメイン固有のモデルの間には、依然として大きなパフォーマンスギャップがある。
ギャップを低減するために,2ストリームSAM(TS-SAM)を提案する。
一方,PEFT(パラメータ・エフェクト・ファインタニング)のサイドネットワークに触発されて,SAMの強力な機能をサイドネットワークトレーニングに統合し,包括的特徴融合を実現する軽量な畳み込みサイドアダプタ(CSA)を設計した。
一方,セグメンテーションタスクの特徴に則って,詳細機能と意味機能の両方を維持するために,MRM(Multi-scale Refinement Module)とFFD(Feature Fusion Decoder)を設計した。
3つのタスクから得られた10の公開データセットに対する大規模な実験により、TS-SAMは、最近提案されたSAM-AdapterとSSOMよりも大幅に優れているだけでなく、SOTAドメイン固有のモデルとの競合性能も達成している。
私たちのコードは、https://github.com/maoyangou147/TS-SAMで利用可能です。
Adapter based fine-tuning has been studied for improving the performance of SAM on downstream tasks. However, there is still a significant performance gap between fine-tuned SAMs and domain-specific models. To reduce the gap, we propose Two-Stream SAM (TS-SAM). On the one hand, inspired by the side network in Parameter-Efficient Fine-Tuning (PEFT), we designed a lightweight Convolutional Side Adapter (CSA), which integrates the powerful features from SAM into side network training for comprehensive feature fusion. On the other hand, in line with the characteristics of segmentation tasks, we designed Multi-scale Refinement Module (MRM) and Feature Fusion Decoder (FFD) to keep both the detailed and semantic features. Extensive experiments on ten public datasets from three tasks demonstrate that TS-SAM not only significantly outperforms the recently proposed SAM-Adapter and SSOM, but achieves competitive performance with the SOTA domain-specific models. Our code is available at: https://github.com/maoyangou147/TS-SAM. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# チャット会話における感情動態の追跡: DistilBERT と Emoji Sentiment を用いたハイブリッドアプローチ
Tracking Emotional Dynamics in Chat Conversations: A Hybrid Approach using DistilBERT and Emoji Sentiment Analysis ( http://arxiv.org/abs/2408.01838v1 ) ライセンス: Link先を確認 | Ayan Igali, Abdulkhak Abdrakhman, Yerdaut Torekhan, Pakizar Shamoi, | (参考訳) コンピュータによるコミュニケーションは多くの文脈において対面コミュニケーションよりも重要になっている。
チャット会話における感情的ダイナミクスの追跡は、コミュニケーションを強化し、サービスを改善し、さまざまなコンテキストで幸福をサポートする。
本稿では,DitilBERTを用いたテキスト感情検出と絵文字感情分析を組み合わせることで,チャット会話における感情のダイナミクスを追跡するためのハイブリッドアプローチについて検討する。
Twitterデータセットは、SVM、Random Forest、AdaBoostなど、さまざまな機械学習アルゴリズムを使用して分析された。
私たちは彼らのパフォーマンスを DistilBERT と比較した。
その結果、感情認識における DistilBERT の優れた性能が明らかとなった。
我々のアプローチは、チャット中の参加者の感情をよりよく理解するために、絵文字を通して伝達される感情表現を説明できる。
我々は、リアルタイム会話における感情の変化を効果的に捉え、分析する方法を実証する。
以上の結果から,テキストと絵文字分析の統合は,顧客サービス,ワークチャット,ソーシャルメディアのインタラクションに応用可能なチャット感情の追跡に有効な方法であることが示唆された。
Computer-mediated communication has become more important than face-to-face communication in many contexts. Tracking emotional dynamics in chat conversations can enhance communication, improve services, and support well-being in various contexts. This paper explores a hybrid approach to tracking emotional dynamics in chat conversations by combining DistilBERT-based text emotion detection and emoji sentiment analysis. A Twitter dataset was analyzed using various machine learning algorithms, including SVM, Random Forest, and AdaBoost. We contrasted their performance with DistilBERT. Results reveal DistilBERT's superior performance in emotion recognition. Our approach accounts for emotive expressions conveyed through emojis to better understand participants' emotions during chats. We demonstrate how this approach can effectively capture and analyze emotional shifts in real-time conversations. Our findings show that integrating text and emoji analysis is an effective way of tracking chat emotion, with possible applications in customer service, work chats, and social media interactions. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 確率的一階オラクルを用いた投影次数支配関数の最小化の複雑さ
Complexity of Minimizing Projected-Gradient-Dominated Functions with Stochastic First-order Oracles ( http://arxiv.org/abs/2408.01839v1 ) ライセンス: Link先を確認 | Saeed Masiha, Saber Salehkaleybar, Niao He, Negar Kiyavash, Patrick Thiran, | (参考訳) 本研究は、$(\alpha,\tau,\mathcal{X})$-projected-gradient-dominance propertyの下で関数を最小化するための射影確率的一階法の性能限界について検討する:$F(\mathbf{x})-\min_{\mathbf{x}'\in \mathcal{X}}F(\mathbf{x}')$は、$\tau\cdot\|\mathcal{G}_{\eta,\mathcal{X}}(\mathbf{x})\|^{\alpha}$ for some $\alpha\in[1,2) and $\tau>$0 and $\mathcal{G}\mathcal{X}}$(\mathbf{x}')$は、ある$0のプロジェクタ付きパラメータである。
非凸関数に対しては、バッチスムーズな一階確率オラクルを問合せして$\epsilon$-global-optimum点を得る複雑さの低い境界が$\Omega(\epsilon^{-{2}/{\alpha}})$であることが示される。
さらに、予測された分散還元1次アルゴリズムは、下界に一致する$\mathcal{O}(\epsilon^{-{2}/{\alpha}})$の上限を得られることを示す。
凸函数に対しては、局所的な勾配支配特性の下で関数を最小化するために$\Omega(\log(1/\epsilon)\cdot\epsilon^{-{2}/{\alpha}})$の複雑性下界を確立し、これは加速された確率的下階法の上界と一致する。
This work investigates the performance limits of projected stochastic first-order methods for minimizing functions under the $(\alpha,\tau,\mathcal{X})$-projected-gradient-dominance property, that asserts the sub-optimality gap $F(\mathbf{x})-\min_{\mathbf{x}'\in \mathcal{X}}F(\mathbf{x}')$ is upper-bounded by $\tau\cdot\|\mathcal{G}_{\eta,\mathcal{X}}(\mathbf{x})\|^{\alpha}$ for some $\alpha\in[1,2)$ and $\tau>0$ and $\mathcal{G}_{\eta,\mathcal{X}}(\mathbf{x})$ is the projected-gradient mapping with $\eta>0$ as a parameter. For non-convex functions, we show that the complexity lower bound of querying a batch smooth first-order stochastic oracle to obtain an $\epsilon$-global-optimum point is $\Omega(\epsilon^{-{2}/{\alpha}})$. Furthermore, we show that a projected variance-reduced first-order algorithm can obtain the upper complexity bound of $\mathcal{O}(\epsilon^{-{2}/{\alpha}})$, matching the lower bound. For convex functions, we establish a complexity lower bound of $\Omega(\log(1/\epsilon)\cdot\epsilon^{-{2}/{\alpha}})$ for minimizing functions under a local version of gradient-dominance property, which also matches the upper complexity bound of accelerated stochastic subgradient methods. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# E$^3$NeRF:Blurry画像からの高効率事象強調ニューラル放射場
E$^3$NeRF: Efficient Event-Enhanced Neural Radiance Fields from Blurry Images ( http://arxiv.org/abs/2408.01840v1 ) ライセンス: Link先を確認 | Yunshan Qi, Jia Li, Yifan Zhao, Yu Zhang, Lin Zhu, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、異なる視点の複数の画像からボリューム3D表現を学習することで、印象的なレンダリング性能を達成する。
しかし、野生でしばしば発生するため、ぼやけた入力から鋭いNeRFを再構築することは困難である。
そこで本研究では,RGB画像とイベントストリームを組み合わせることで,効率的なイベント強調型NeRF(E$^3$NeRF)を提案する。
イベントストリームをニューラルネットワークのボリューム表現学習プロセスに効果的に導入するために,実際のぼかしプロセスとイベント生成プロセスをモデル化してネットワークを誘導する,イベント拡張型ぼかしレンダリング損失とイベントレンダリング損失を提案する。
具体的には、イベントストリームからの時空間情報を活用して、空間的注意を通してぼやけたテクスチャに焦点を合わせながら、時間的ぼやけに学習注意を均等に分散する。
さらに、実世界のデータに対するカメラポーズ推定フレームワークを構築し、実際の応用にメソッドを一般化するイベントの誘導を行う。
従来の画像ベースやイベントベースのNeRFと比較して、私たちのフレームワークは、イベントと画像間の内部関係をより深く利用しています。
E$^3$NeRFは、特に不均一な動きや低照度シーンにおいて、ぼやけた画像から鋭いNeRFを効果的に学習できることを示す。
Neural Radiance Fields (NeRF) achieve impressive rendering performance by learning volumetric 3D representation from several images of different views. However, it is difficult to reconstruct a sharp NeRF from blurry input as it often occurs in the wild. To solve this problem, we propose a novel Efficient Event-Enhanced NeRF (E$^3$NeRF) by utilizing the combination of RGB images and event streams. To effectively introduce event streams into the neural volumetric representation learning process, we propose an event-enhanced blur rendering loss and an event rendering loss, which guide the network via modeling the real blur process and event generation process, respectively. Specifically, we leverage spatial-temporal information from the event stream to evenly distribute learning attention over temporal blur while simultaneously focusing on blurry texture through the spatial attention. Moreover, a camera pose estimation framework for real-world data is built with the guidance of the events to generalize the method to practical applications. Compared to previous image-based or event-based NeRF, our framework makes more profound use of the internal relationship between events and images. Extensive experiments on both synthetic data and real-world data demonstrate that E$^3$NeRF can effectively learn a sharp NeRF from blurry images, especially in non-uniform motion and low-light scenes. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 物体検出のための可視から赤外線領域へのスーパービジョン画像変換
Supervised Image Translation from Visible to Infrared Domain for Object Detection ( http://arxiv.org/abs/2408.01843v1 ) ライセンス: Link先を確認 | Prahlad Anand, Qiranul Saadiyean, Aniruddh Sikdar, Nalini N, Suresh Sundaram, | (参考訳) 本研究の目的は、物体検出を含む下流タスクの精度を向上させるために、2つのモード間の領域ギャップを埋め、可視から赤外線への変換を学習することである。
従来のアプローチでは、反復最適化やエンドツーエンドの深層畳み込みネットワークを通じて、ドメイン間の機能融合を試みていた。
しかし,この問題は画像翻訳と類似しており,ジェネレーティブ・アドバイサル・ネットワークとオブジェクト検出モデルを用いた2段階の学習戦略を採用している。
翻訳モデルは、テクスチャやその他の赤外線画像の特徴を保存しながら、可視画像の構造的詳細を保存する変換を学習する。
このような画像は、Yolov5、Mask、Faster RCNNなどの標準オブジェクト検出フレームワークのトレーニングに使用される。
また,モデル精度を向上し,最大5.3%のmAP向上を実現するため,パイプラインに超解像ステップを組み込むことの有用性についても検討した。
This study aims to learn a translation from visible to infrared imagery, bridging the domain gap between the two modalities so as to improve accuracy on downstream tasks including object detection. Previous approaches attempt to perform bi-domain feature fusion through iterative optimization or end-to-end deep convolutional networks. However, we pose the problem as similar to that of image translation, adopting a two-stage training strategy with a Generative Adversarial Network and an object detection model. The translation model learns a conversion that preserves the structural detail of visible images while preserving the texture and other characteristics of infrared images. Images so generated are used to train standard object detection frameworks including Yolov5, Mask and Faster RCNN. We also investigate the usefulness of integrating a super-resolution step into our pipeline to further improve model accuracy, and achieve an improvement of as high as 5.3% mAP. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# シャドー特徴を用いたコスト制約付きマルチラベルグループ特徴選択
Cost-constrained multi-label group feature selection using shadow features ( http://arxiv.org/abs/2408.01851v1 ) ライセンス: Link先を確認 | Tomasz Klonecki, Paweł Teisseyre, Jaesung Lee, | (参考訳) 複数ラベル分類における特徴選択の問題について,特徴群に割り当てられたコストを考慮した検討を行った。
このタスクでは、ラベルベクトルを予測するのに有用な機能のサブセットを選択することを目的としているが、同時に、選択した機能に関連するコストは、想定される予算を超えない。
この問題の解決は医学において非常に重要であり、特徴群に基づく様々な疾患の予測に関心があるかもしれない。
これらのグループは、血液検査のような特定の診断検査から得られたパラメータに関連付けられることがある。
診断テストコストは非常に高いため、関連する特徴を選択する際のコスト情報を考慮することが、予測を行うコストを削減する上で重要である。
情報理論に基づく特徴選択手法に着目する。
提案手法は2つのステップからなる。
まず、予算が尽きるまで条件付き相互情報を最大化しながら、順次特徴を選定する。
2番目のステップでは、既存のステップで既に使用されていたグループから追加のコストフリーの機能、すなわち、それらを選択する。
いわゆるシャドウ機能の概念に基づくストップルールにより,追加機能の数を制限することが可能である。
ペナルティ化基準に基づく既存の手法とは対照的に,本手法ではペナルティパラメータの最適化を計算的に要求する必要がない。
MIMICの医療データベースで実施した実験は,特に予算が限られている場合に,本手法の有効性を示す。
We consider the problem of feature selection in multi-label classification, considering the costs assigned to groups of features. In this task, the goal is to select a subset of features that will be useful for predicting the label vector, but at the same time, the cost associated with the selected features will not exceed the assumed budget. Solving the problem is of great importance in medicine, where we may be interested in predicting various diseases based on groups of features. The groups may be associated with parameters obtained from a certain diagnostic test, such as a blood test. Because diagnostic test costs can be very high, considering cost information when selecting relevant features becomes crucial to reducing the cost of making predictions. We focus on the feature selection method based on information theory. The proposed method consists of two steps. First, we select features sequentially while maximizing conditional mutual information until the budget is exhausted. In the second step, we select additional cost-free features, i.e., those coming from groups that have already been used in previous steps. Limiting the number of added features is possible using the stop rule based on the concept of so-called shadow features, which are randomized counterparts of the original ones. In contrast to existing approaches based on penalized criteria, in our method, we avoid the need for computationally demanding optimization of the penalty parameter. Experiments conducted on the MIMIC medical database show the effectiveness of the method, especially when the assumed budget is limited. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# Sólo Escúchame: スペインの情緒的伴奏チャットボット
Sólo Escúchame: Spanish Emotional Accompaniment Chatbot ( http://arxiv.org/abs/2408.01852v1 ) ライセンス: Link先を確認 | Bruno Gil Ramírez, Jessica López Espejel, María del Carmen Santiago Díaz, Gustavo Trinidad Rubín Linares, | (参考訳) 世界保健機関(WHO)によると、2019年の自殺は世界第4位の死因となった。
メンタルヘルスの急激な増加を考えると、心理的サポートの提供は極めて重要かつ緊急である。
本稿では,LLaMA-2-7b-Chatをベースとした,最初のオープンソースの感情支援チャットボットであるS\'olo Esc\'uchameを提案する。
2) スペイン語に翻訳された複数の英語ソースとChatGPT-3.5-Turboを用いたジェネリックデータから収集したHEARデータセットを導入した。
最後に,2つの半自動評価手法に基づく評価指標を提案する。
我々のシステムは、スペイン語の心理的補助を提供する上で、様々な最先端のモデルより優れています。
私たちのモデルとデータセットは再現性を促進するために公開されています。
According to the World Health Organization (WHO), suicide was the fourth leading cause of death in the world for individuals aged 15 to 29 in 2019. Given the rapid increase in mental health issues, providing psychological support is both crucial and urgent. In this paper: (1) we propose S\'olo Esc\'uchame, the first open-source Spanish emotional assistance chatbot, based on LLaMA-2-7b-Chat. (2) We introduced the HEAR (Hispanic Emotional Accompaniment Responses) dataset, compiled from multiple English sources translated into Spanish, as well as generic data generated using ChatGPT-3.5-Turbo. Finally, (3) we propose an evaluation metric based on two semi-automatic assessment methods. Our system outperforms a range of state-of-the-art models in providing psychological assistance in Spanish. Our models and datasets are publicly available to facilitate reproducibility. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 線形化された最適輸送を用いた確率粒子系の進化予測
Using Linearized Optimal Transport to Predict the Evolution of Stochastic Particle Systems ( http://arxiv.org/abs/2408.01857v1 ) ライセンス: Link先を確認 | Nicholas Karris, Evangelos A. Nikitopoulos, Ioannis Kevrekidis, Seungjoon Lee, Alexander Cloninger, | (参考訳) 我々は,確率測度の時間発展を,その進化を規定する演算子を明示的に学習することなく近似するアルゴリズムを開発した。
特に興味深い応用は、粒子系から生じる離散測度$\mu_t^N$である。
多くの状況において、個々の粒子は短時間のスケールでカオス的に動き、支配作用素の力学を学ぶことは困難であるが、バルク分布 $\mu_t^N$ は ``smoothly' を進化させる絶対連続測度 $\mu_t$ を近似する。
''$\mu_t$ が時間間隔で知られているなら、線形化された最適輸送理論は、$\mu_t$ の進化を ' `tangent vector field'' ($\mathbb R^d$ 上の時間依存ベクトル場として表現される) を用いて近似するオイラー的なスキームを提供する。
離散測度 $\mu_t^N$($\mu_t$を知らずに)の進化を予測するために、このオイラー近似の類似体を提案する。
類似の接ベクトル場を近似するために、系の2つの時間スケールの間に位置する時間ステップに有限差を使い、大きなN$進化(英語版)(\mu_t$)が現れるのに十分長いが、オイラースキームで使われる微分対象を十分に近似するのに十分短い。
制限挙動の出現を許すことで、最適輸送写像は、粒子のよりカオス的な動きではなく、バルク分布の滑らかな進化を記述するベクトル場を近似する。
本手法の有効性を,ガウス拡散モデルと細胞遊走モデルという2つの例を用いて実証し,本手法が比較的大きなステップでバルク挙動を予測することに成功していることを示す。
We develop an algorithm to approximate the time evolution of a probability measure without explicitly learning an operator that governs the evolution. A particular application of interest is discrete measures $\mu_t^N$ that arise from particle systems. In many such situations, the individual particles move chaotically on short time scales, making it difficult to learn the dynamics of a governing operator, but the bulk distribution $\mu_t^N$ approximates an absolutely continuous measure $\mu_t$ that evolves ``smoothly.'' If $\mu_t$ is known on some time interval, then linearized optimal transport theory provides an Euler-like scheme for approximating the evolution of $\mu_t$ using its ``tangent vector field'' (represented as a time-dependent vector field on $\mathbb R^d$), which can be computed as a limit of optimal transport maps. We propose an analog of this Euler approximation to predict the evolution of the discrete measure $\mu_t^N$ (without knowing $\mu_t$). To approximate the analogous tangent vector field, we use a finite difference over a time step that sits between the two time scales of the system -- long enough for the large-$N$ evolution ($\mu_t$) to emerge but short enough to satisfactorily approximate the derivative object used in the Euler scheme. By allowing the limiting behavior to emerge, the optimal transport maps closely approximate the vector field describing the bulk distribution's smooth evolution instead of the individual particles' more chaotic movements. We demonstrate the efficacy of this approach with two illustrative examples, Gaussian diffusion and a cell chemotaxis model, and show that our method succeeds in predicting the bulk behavior over relatively large steps. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# ガーシュゴリンディスクアライメントによるトランジショナルビデオ要約のためのグラフ展開とサンプリング
Graph Unfolding and Sampling for Transitory Video Summarization via Gershgorin Disc Alignment ( http://arxiv.org/abs/2408.01859v1 ) ライセンス: Link先を確認 | Sadid Sahami, Gene Cheung, Chia-Wen Lin, | (参考訳) 携帯電話からYouTubeやTikTokなどのソーシャルメディアサイトにアップロードされたユーザー生成ビデオ(UGV)は、短くて繰り返しではない。
我々は、ガーシュゴリンディスクアライメント(GDA)に基づく高速グラフサンプリングにより、推移的なUGVを複数のキーフレームに線形時間で要約する。
具体的には、まずUGV内の$N$フレームのシーケンスを$M$-hop path graph $\mathcal{G}^o$ for $M \ll N$としてモデル化する。
効率的なサンプリングに向けて、1$-hop パスグラフ $\mathcal{G}$ に "unfold" $\mathcal{G}^o$ を "unfold" し、一般化グラフ Laplacian 行列 $\mathcal{L}$ で指定する。
最小固有値 $\lambda_{\min}(\mathbf{B})$ の係数行列 $\mathbf{B} = \textit{diag}\left(\mathbf{h}\right) + \mu \mathcal{L}$ の最大化は、最悪の信号再構成エラーを最小限にすることと同値であることを示す。
代わりに、Gershgorin circle theorem (GCT) lower bound $\lambda^-_{\min}(\mathbf{B})$ を、すべてのグラフノード(フレーム)に対してガーシュゴリンディスクの左端を反復的に整列する新しい高速グラフサンプリングアルゴリズムにより、$\mathbf{h}$ を選択することで、最大化する。
複数のショートビデオデータセットに対する広範囲な実験により、我々のアルゴリズムは、最先端の手法と比較して、ビデオの要約性能に匹敵するか、より優れた結果が得られることを示した。
User-generated videos (UGVs) uploaded from mobile phones to social media sites like YouTube and TikTok are short and non-repetitive. We summarize a transitory UGV into several keyframes in linear time via fast graph sampling based on Gershgorin disc alignment (GDA). Specifically, we first model a sequence of $N$ frames in a UGV as an $M$-hop path graph $\mathcal{G}^o$ for $M \ll N$, where the similarity between two frames within $M$ time instants is encoded as a positive edge based on feature similarity. Towards efficient sampling, we then "unfold" $\mathcal{G}^o$ to a $1$-hop path graph $\mathcal{G}$, specified by a generalized graph Laplacian matrix $\mathcal{L}$, via one of two graph unfolding procedures with provable performance bounds. We show that maximizing the smallest eigenvalue $\lambda_{\min}(\mathbf{B})$ of a coefficient matrix $\mathbf{B} = \textit{diag}\left(\mathbf{h}\right) + \mu \mathcal{L}$, where $\mathbf{h}$ is the binary keyframe selection vector, is equivalent to minimizing a worst-case signal reconstruction error. We maximize instead the Gershgorin circle theorem (GCT) lower bound $\lambda^-_{\min}(\mathbf{B})$ by choosing $\mathbf{h}$ via a new fast graph sampling algorithm that iteratively aligns left-ends of Gershgorin discs for all graph nodes (frames). Extensive experiments on multiple short video datasets show that our algorithm achieves comparable or better video summarization performance compared to state-of-the-art methods, at a substantially reduced complexity. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 強い地域性を探る : 量子国家差別体制以降
Exploring strong locality : Quantum state discrimination regime and beyond ( http://arxiv.org/abs/2408.01860v1 ) ライセンス: Link先を確認 | Subrata Bera, Atanu Bhunia, Indranil Biswas, Indrani Chattopadhyay, Debasis Sarkar, | (参考訳) 局所的にアクセス可能な情報から局所的に隠されたエンビロンへの切り替えの信念に基づき,Bandyopadhyay et al[Phys. A 104, L050201 (2021)]に隠された非局所性活性化の概念が最近強調されている。
彼らは、ある局所的に区別可能な純粋量子状態の集合が、局所演算と古典的通信(LOCC)を許容することにより、確実に区別できない集合に変換できることを示した。
この変換は集合をすべての部分系に局所的に到達不能にするので、真に隠された非局所性の活性化として定義される。
本報告では,複数の非局所属性を明らかにするために,複数の局所観測者間で協調的な取り組みを要求されているのに対し,一方のクラスでは,単一パーティによる局所操作を活用して,上記の非局所特性を示すことを観察する。
この点から、後者のクラスは本質的に前者よりも局所的であることを主張して、より強い局所性を示す。
この分析は、量子状態判別の枠組みにおける局所現象と非局所現象の間の微妙な相互作用に光を当てる。
さらに,局所的な情報隠蔽の文脈において,それらの重要な応用を探求する。
さらに、'emph{``strong local" という集合の概念を導入し、局所性の観点から異なる実行可能な集合との比較を検討する。
Based on the conviction of switching information from locally accessible to locally hidden environs, the concept of hidden nonlocality activation has been recently highlighted by Bandyopadhyay et al. in [Phys. Rev. A 104, L050201 (2021)]. They demonstrate that a certain locally distinguishable set of pure quantum states can be transformed into an indistinguishable set with certainty by allowing local operations and classical communication(LOCC). As this transformation makes the set locally inaccessible to every subsystem, it is defined as the activation of genuine hidden nonlocality. In this paper, we observe that one class exhibits the previously mentioned nonlocal characteristics, harnessing local operation by a single party, while in contrast, another class demands cooperative endeavors among multiple local observers to reveal its nonlocal attributes. From this vantage point, we discern a stronger manifestation of locality, asserting that the latter class is inherently more local than the former. This analysis sheds light on the nuanced interplay between local and nonlocal phenomena within the framework of quantum state discrimination. Furthermore, we also explore their significant applications in the context of locally hiding information. Additionally, we introduce the concept of \emph{``strong local"} set and examine its comparison with different activable sets in terms of locality. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 誘導体を用いたガウス過程回帰におけるバッチアクティブ学習
Batch Active Learning in Gaussian Process Regression using Derivatives ( http://arxiv.org/abs/2408.01861v1 ) ライセンス: Link先を確認 | Hon Sum Alec Yu, Christoph Zimmer, Duy Nguyen-Tuong, | (参考訳) ガウス過程回帰モデルにおけるバッチアクティブラーニングにおける微分情報の利用について検討する。
提案手法では,データバッチの選択に予測共分散行列を用いて,サンプルの完全相関を利用する。
理論的には,提案アルゴリズムの最適性基準が異なることを考慮し,微分情報を組み込むことの利点を強調した経験的比較を行う。
この結果から,多様なアプリケーションにまたがるアプローチの有効性が示唆された。
We investigate the use of derivative information for Batch Active Learning in Gaussian Process regression models. The proposed approach employs the predictive covariance matrix for selection of data batches to exploit full correlation of samples. We theoretically analyse our proposed algorithm taking different optimality criteria into consideration and provide empirical comparisons highlighting the advantage of incorporating derivatives information. Our results show the effectiveness of our approach across diverse applications. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 非可換結合作用素を持つ開量子系:解析的アプローチ
Open quantum systems with non-commuting coupling operators: An analytic approach ( http://arxiv.org/abs/2408.01865v1 ) ライセンス: Link先を確認 | Jakub Garwoła, Dvira Segal, | (参考訳) 本稿では、非共役系演算子を介して複数の環境に強く結合したオープン量子系を扱うための解析的アプローチを提案する。
システムバスの強い結合を許容する手法として,最近開発された反応座標ポラロン変換法[PRX Quantum ${\bf 4}$, 020307 (2023)]を一般化し,非可換系演算子を用いて浴槽への結合を処理する。
このアプローチは、システムに対する浴の協調効果を明らかにする効果的なハミルトニアンを生成する。
散逸性環境と脱コヒーレンス環境の両方に結合したスピン不純物の場合、実効的なハミルトンは脱コヒーレンスによる緩和の抑制を予測している。
また、この手法を非可換作用素を介して局所浴に結合したスピンのアンサンブルに適用し、北エフXYスピン鎖相互作用の工学的手法を実証する。
非可換性(noncommutativity)は量子システムの特徴であり、我々のアプローチの今後の展望には、そのような真の量子効果を利用する熱機械の研究が含まれる。
We present an analytic approach to treat open quantum systems strongly coupled to multiple environments via noncommuting system operators, a prime example is a qubit concurrently coupled to both decoherring and dissipative baths. Our approach, which accommodates strong system-bath couplings, generalizes the recently developed reaction-coordinate polaron transform method [PRX Quantum ${\bf 4}$, 020307 (2023)] to handle couplings to baths via noncommuting system operators. This approach creates an effective Hamiltonian that reveals the cooperative effect of the baths on the system. For a spin impurity coupled to both dissipative and decoherring environments, the effective Hamiltonian predicts the suppression of relaxation by decoherence -- a phenomenon previously observed in simulations but lacking a theoretical foundation. We also apply the method to an ensemble of spins coupled to local baths through noncommuting operators, demonstrating the engineering of the Kitaev XY spin chain interaction. Noncommutativity is a feature of quantum systems; future prospects of our approach include the study of thermal machines that leverage such genuine quantum effects. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# LLMの興味深い失敗に対する効率的な解決策:Long Context WindowはLLMの長いシーケンスを不当に分析できない
Efficient Solutions For An Intriguing Failure of LLMs: Long Context Window Does Not Mean LLMs Can Analyze Long Sequences Flawlessly ( http://arxiv.org/abs/2408.01866v1 ) ライセンス: Link先を確認 | Peyman Hosseini, Ignacio Castro, Iacopo Ghinassi, Matthew Purver, | (参考訳) 大規模言語モデル(LLM)は、単一のフォワードパスで数百万のトークンを処理できる広範囲なコンテキストウィンドウのために、長いシーケンシャルな入力を解釈し分析する際、顕著な能力を示した。
しかし, 長い入力シーケンスを扱う場合, LLMは不足する。
本稿では,3つのデータセットと2つのタスク(感性分析とニュース分類)を用いて,Claude 3, Gemini Pro, GPT 3.5 Turbo, Llama 3 Instruct, Mistral Instruct モデルを含む様々なLCMの課題について検討する。
この制限に対処するため、長い入力シーケンスにおけるLLMの性能を最大50%向上するアドホックなソリューションを提案し、APIコストとレイテンシを最大93%、レイテンシを50%削減する。
Large Language Models (LLMs) have demonstrated remarkable capabilities in comprehending and analyzing lengthy sequential inputs, owing to their extensive context windows that allow processing millions of tokens in a single forward pass. However, this paper uncovers a surprising limitation: LLMs fall short when handling long input sequences. We investigate this issue using three datasets and two tasks (sentiment analysis and news categorization) across various LLMs, including Claude 3, Gemini Pro, GPT 3.5 Turbo, Llama 3 Instruct, and Mistral Instruct models. To address this limitation, we propose and evaluate ad-hoc solutions that substantially enhance LLMs' performance on long input sequences by up to 50%, while reducing API cost and latency by up to 93% and 50%, respectively. | 翻訳日:2024-08-06 18:11:11 公開日:2024-08-03 |
# 準安定系のベイズ推定のためのメタ後整合性
Meta-Posterior Consistency for the Bayesian Inference of Metastable System ( http://arxiv.org/abs/2408.01868v1 ) ライセンス: Link先を確認 | Zachary P Adams, Sayan Mukherjee, | (参考訳) 時系列からの力学系や確率過程の学習に関する文献の大部分は、ベイズ的および頻繁な推論手順のための安定系またはエルゴード系に焦点を当てている。
しかし、現実世界のほとんどのシステムは準安定であり、ある時間スケールでは力学は安定しているように見えるが、実際にはより長い時間スケールでは不安定である。
メタスタブルシステムに対する推論の一貫性は不可能かもしれないが、メタ一貫性について問うことができる。
本稿では,ベイジアンフレームワークにおけるメタ一貫性の導入,議論,定量化を行う。
メタ一貫性を利用して大規模システムのサブシステムのモデルを効率的に推論する方法について論じる。
また,一様エルゴード拡散の場合のメタ一貫性とモデル力学系のスペクトル特性の関係についても論じる。
The vast majority of the literature on learning dynamical systems or stochastic processes from time series has focused on stable or ergodic systems, for both Bayesian and frequentist inference procedures. However, most real-world systems are only metastable, that is, the dynamics appear to be stable on some time scale, but are in fact unstable over longer time scales. Consistency of inference for metastable systems may not be possible, but one can ask about metaconsistency: Do inference procedures converge when observations are taken over a large but finite time interval, but diverge on longer time scales? In this paper we introduce, discuss, and quantify metaconsistency in a Bayesian framework. We discuss how metaconsistency can be exploited to efficiently infer a model for a sub-system of a larger system, where inference on the global behavior may require much more data. We also discuss the relation between meta-consistency and the spectral properties of the model dynamical system in the case of uniformly ergodic diffusions. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# MALADE: 薬局用LLM剤と検索用増強剤の併用
MALADE: Orchestration of LLM-powered Agents with Retrieval Augmented Generation for Pharmacovigilance ( http://arxiv.org/abs/2408.01869v1 ) ライセンス: Link先を確認 | Jihye Choi, Nils Palumbo, Prasad Chalasani, Matthew M. Engelhard, Somesh Jha, Anivarya Kumar, David Page, | (参考訳) 大言語モデル(LLMs)の時代には、その顕著なテキスト理解と生成能力から、信頼に値する医療知識の合成、抽出、要約のための新しいLCMベースの手法を開発するという、前例のない機会がある。
本稿では,医学文献,臨床ノート,薬物ラベルなど,多種多様なテキストソースから副薬物イベント(ADE)を識別する上で,PhV(Pharmacovigilance)の問題に焦点をあてる。
残念なことに、この課題は薬物や結果の用語のバリエーションを含む要因によって妨げられ、ADEの記述は大量の物語テキストに埋もれていることが多い。
薬物ラベルデータからADEを抽出するためのLLMとRetrieval Augmented Generationを併用した,初の効果的な協調型マルチエージェントシステムであるMALADEを提案する。
この手法は、テキストリソースから抽出された関連情報を用いてLLMにクエリを拡張し、拡張データと整合した応答を構成するようLLMに指示する。
MALADEは一般のLCM非依存アーキテクチャであり,(1)医学文献,薬物ラベル,FDAツール(例:OpenFDA薬物情報API)など,さまざまな外部資料を活用すること,(2)学会の強みとともに構造化されたフォーマットで薬物アウトカムアソシエーションを抽出すること,(3)確立されたアソシエーションの説明を提供すること,などが特徴である。
GPT-4 Turbo または GPT-4o とFDA の薬物ラベルデータを用いて、MALADE は OMOP Ground Truth table of ADEs に対して 0.90 ROC Curve の Area Under ROC Curve で有効性を示す。
我々の実装はLangroid Multi-agent LLMフレームワークを利用しており、https://github.com/jihyechoi77/malade.comで見ることができる。
In the era of Large Language Models (LLMs), given their remarkable text understanding and generation abilities, there is an unprecedented opportunity to develop new, LLM-based methods for trustworthy medical knowledge synthesis, extraction and summarization. This paper focuses on the problem of Pharmacovigilance (PhV), where the significance and challenges lie in identifying Adverse Drug Events (ADEs) from diverse text sources, such as medical literature, clinical notes, and drug labels. Unfortunately, this task is hindered by factors including variations in the terminologies of drugs and outcomes, and ADE descriptions often being buried in large amounts of narrative text. We present MALADE, the first effective collaborative multi-agent system powered by LLM with Retrieval Augmented Generation for ADE extraction from drug label data. This technique involves augmenting a query to an LLM with relevant information extracted from text resources, and instructing the LLM to compose a response consistent with the augmented data. MALADE is a general LLM-agnostic architecture, and its unique capabilities are: (1) leveraging a variety of external sources, such as medical literature, drug labels, and FDA tools (e.g., OpenFDA drug information API), (2) extracting drug-outcome association in a structured format along with the strength of the association, and (3) providing explanations for established associations. Instantiated with GPT-4 Turbo or GPT-4o, and FDA drug label data, MALADE demonstrates its efficacy with an Area Under ROC Curve of 0.90 against the OMOP Ground Truth table of ADEs. Our implementation leverages the Langroid multi-agent LLM framework and can be found at https://github.com/jihyechoi77/malade. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# In-Distribution Data を用いた安全な半教師付きコントラスト学習
Safe Semi-Supervised Contrastive Learning Using In-Distribution Data as Positive Examples ( http://arxiv.org/abs/2408.01872v1 ) ライセンス: Link先を確認 | Min Gu Kwak, Hyungu Kahng, Seoung Bum Kim, | (参考訳) 半教師付き学習法は,少数のラベルが利用可能である場合に,多くの実用的な問題を解く上で有望な結果を示した。
既存の手法ではラベル付きデータのクラス分布とラベルなしデータのクラス分布は等しいと仮定するが、その性能は、ラベルなしデータの中にOOD(out-of-distriion)データが存在するクラス分布ミスマッチのシナリオで著しく低下する。
従来の安全な半教師付き学習研究は、ラベル付きデータに基づくトレーニングにOODデータが影響しにくくすることでこの問題に対処してきた。
しかし、研究によって不要なOODデータを効果的にフィルタリングしても、クラスに関わらず、すべてのデータが共有する基本的な情報を失う可能性がある。
そこで本稿では,ラベルのない大量のデータを完全に活用するために,自己教師付きコントラスト学習手法を提案する。
また、同じクラスのラベル付き負の例を正の例にアンカーとして集約するために、係数スケジュールを持つ対照的な損失関数を提案する。
提案手法の性能を評価するため,様々なミスマッチ比で画像分類データセット(CIFAR-10, CIFAR-100, Tiny ImageNet, CIFAR-100+ Tiny ImageNet)について実験を行った。
その結果,自己指導型コントラスト学習は分類精度を著しく向上させることがわかった。
さらに,分布内例の集約により表現性が向上し,分類精度が向上する。
Semi-supervised learning methods have shown promising results in solving many practical problems when only a few labels are available. The existing methods assume that the class distributions of labeled and unlabeled data are equal; however, their performances are significantly degraded in class distribution mismatch scenarios where out-of-distribution (OOD) data exist in the unlabeled data. Previous safe semi-supervised learning studies have addressed this problem by making OOD data less likely to affect training based on labeled data. However, even if the studies effectively filter out the unnecessary OOD data, they can lose the basic information that all data share regardless of class. To this end, we propose to apply a self-supervised contrastive learning approach to fully exploit a large amount of unlabeled data. We also propose a contrastive loss function with coefficient schedule to aggregate as an anchor the labeled negative examples of the same class into positive examples. To evaluate the performance of the proposed method, we conduct experiments on image classification datasets - CIFAR-10, CIFAR-100, Tiny ImageNet, and CIFAR-100+Tiny ImageNet - under various mismatch ratios. The results show that self-supervised contrastive learning significantly improves classification accuracy. Moreover, aggregating the in-distribution examples produces better representation and consequently further improves classification accuracy. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# Re-Invoke: ゼロショットツール検索のためのツール呼び出しの書き換え
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval ( http://arxiv.org/abs/2408.01875v1 ) ライセンス: Link先を確認 | Yanfei Chen, Jinsung Yoon, Devendra Singh Sachan, Qingze Wang, Vincent Cohen-Addad, Mohammadhossein Bateni, Chen-Yu Lee, Tomas Pfister, | (参考訳) 大規模言語モデル(LLM)の最近の進歩により、多種多様なツールを用いて複雑な推論とタスク充足能力を持つ自律エージェントが実現された。
しかし、タスクの最も関連性の高いツールを効果的に特定することは、ツールセットのサイズが大きくなるにつれて重要なボトルネックとなり、信頼性の高いツール利用を妨げる。
そこで我々はRe-Invokeを提案する。Re-Invokeはトレーニングなしで大規模ツールセットに効果的にスケール可能な教師なしツール検索手法である。
具体的には、ツールインデックス作成フェーズにおいて、各ツールドキュメントに関連するクエリ空間のさまざまな側面を包括的にカバーする、多様な合成クエリを最初に生成する。
第2に、LLMのクエリ理解機能を活用して、推論フェーズ中にユーザクエリから重要なツール関連コンテキストと基盤となるインテントを抽出する。
最後に、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、完全に教師なしの環境で、最先端の代替品よりも大幅に優れています。
特に,ToolEデータセットでは,シングルツール検索ではnDCG@5が20%向上し,マルチツール検索では39%改善した。
Recent advances in large language models (LLMs) have enabled autonomous agents with complex reasoning and task-fulfillment capabilities using a wide range of tools. However, effectively identifying the most relevant tools for a given task becomes a key bottleneck as the toolset size grows, hindering reliable tool utilization. To address this, we introduce Re-Invoke, an unsupervised tool retrieval method designed to scale effectively to large toolsets without training. Specifically, we first generate a diverse set of synthetic queries that comprehensively cover different aspects of the query space associated with each tool document during the tool indexing phase. Second, we leverage LLM's query understanding capabilities to extract key tool-related context and underlying intents from user queries during the inference phase. Finally, we employ a novel multi-view similarity ranking strategy based on intents to pinpoint the most relevant tools for each query. Our evaluation demonstrates that Re-Invoke significantly outperforms state-of-the-art alternatives in both single-tool and multi-tool scenarios, all within a fully unsupervised setting. Notably, on the ToolE datasets, we achieve a 20% relative improvement in nDCG@5 for single-tool retrieval and a 39% improvement for multi-tool retrieval. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# ゼロショット ObjectNav に適した人工エージェント間の生成的コミュニケーションは可能か?
Is Generative Communication between Embodied Agents Good for Zero-Shot ObjectNav? ( http://arxiv.org/abs/2408.01877v1 ) ライセンス: Link先を確認 | Vishnu Sashank Dorbala, Vishnu Dutt Sharma, Pratap Tokekar, Dinesh Manocha, | (参考訳) Zero-Shot ObjectNavでは、具体化された接地エージェントが、環境固有の微調整なしで自然言語ラベルで指定されたターゲットオブジェクトにナビゲートされる。
地上エージェントの限られた見方と、その独立した探索行動を考えると、これは難しい。
これらの問題に対処するために、地上エージェントと並んでグローバルな視野を持つ補助的オーバーヘッドエージェントと、司法探索のための2つの協調ナビゲーションスキームを提案する。
我々は、ゼロショットObjectNavを改善するためにビジョンランゲージモデル(VLM)を具備したエンボディエージェント間のジェネレーティブコミュニケーション(GC)の効果を確立し、シミュレーションにおける未支援のセットアップと比較して、対象物を見つける能力の10%向上を実現した。
我々はさらに,幻覚と協調の存在を定量化するためのGCの分析を行った。
特に,具体的設定に特有な「プリエンプティブ・幻覚」の特徴を識別する。そこでは,オーバヘッドエージェントが,まだ動作していないとき,地上エージェントが対話の中でアクションを実行したと仮定する。
最後に、GCを用いて実世界の推論を行い、プリエンプティブ幻覚に対処することで、実世界のObjectNavのパフォーマンスを向上する定性的な例を示す。
In Zero-Shot ObjectNav, an embodied ground agent is expected to navigate to a target object specified by a natural language label without any environment-specific fine-tuning. This is challenging, given the limited view of a ground agent and its independent exploratory behavior. To address these issues, we consider an assistive overhead agent with a bounded global view alongside the ground agent and present two coordinated navigation schemes for judicious exploration. We establish the influence of the Generative Communication (GC) between the embodied agents equipped with Vision-Language Models (VLMs) in improving zero-shot ObjectNav, achieving a 10% improvement in the ground agent's ability to find the target object in comparison with an unassisted setup in simulation. We further analyze the GC for unique traits quantifying the presence of hallucination and cooperation. In particular, we identify a unique trait of "preemptive hallucination" specific to our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move. Finally, we conduct real-world inferences with GC and showcase qualitative examples where countering pre-emptive hallucination via prompt finetuning improves real-world ObjectNav performance. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# FBINeRF:ピンホールと魚眼神経放射場のための特徴ベース統合リカレントネットワーク
FBINeRF: Feature-Based Integrated Recurrent Network for Pinhole and Fisheye Neural Radiance Fields ( http://arxiv.org/abs/2408.01878v1 ) ライセンス: Link先を確認 | Yifan Wu, Tianyi Cheng, Peixu Xin, Janusz Konrad, | (参考訳) BARFやDBARFなどのNeural Radiance Fields(NeRF)を用いたカメラポーズの最適化とバンドル調整を目的としたこれまでの研究は、3Dシーンの再構成において印象的な機能を示した。
しかし、これらの手法はピンホールカメラのポーズ最適化のために設計されており、魚眼カメラのような放射像歪み下ではうまく機能しない。
さらに、DBARFにおける不正確な深さ初期化は、結果の全体的な収束と品質に影響を及ぼす誤った幾何学的情報をもたらす。
本稿では,放射状歪みに適応する柔軟なバンドル調整法を応用した適応型GRUを提案し,魚眼データセットから連続的な新しいビューを生成するために特徴に基づくリカレントニューラルネットワークを組み込んだ。
SCNeRFやOMNI-NeRFのような魚眼画像のための他のNeRF法では、歪んだポーズの精細化のために投影された光線距離損失を使用し、深刻なアーチファクトを引き起こし、長いレンダリング時間を持ち、下流のタスクでは、NeRF法で生成された密度の高いボクセル表現をメッシュ表現に変換する必要がある。
また,ピンホール画像に対するMiDaSに基づく深度初期化問題にも対処する。
広汎な実験により,FBINeRFの一般化能力を実証し,ピンホールカメラと魚眼カメラの双方に対して高忠実度結果を示す。
Previous studies aiming to optimize and bundle-adjust camera poses using Neural Radiance Fields (NeRFs), such as BARF and DBARF, have demonstrated impressive capabilities in 3D scene reconstruction. However, these approaches have been designed for pinhole-camera pose optimization and do not perform well under radial image distortions such as those in fisheye cameras. Furthermore, inaccurate depth initialization in DBARF results in erroneous geometric information affecting the overall convergence and quality of results. In this paper, we propose adaptive GRUs with a flexible bundle-adjustment method adapted to radial distortions and incorporate feature-based recurrent neural networks to generate continuous novel views from fisheye datasets. Other NeRF methods for fisheye images, such as SCNeRF and OMNI-NeRF, use projected ray distance loss for distorted pose refinement, causing severe artifacts, long rendering time, and are difficult to use in downstream tasks, where the dense voxel representation generated by a NeRF method needs to be converted into a mesh representation. We also address depth initialization issues by adding MiDaS-based depth priors for pinhole images. Through extensive experiments, we demonstrate the generalization capacity of FBINeRF and show high-fidelity results for both pinhole-camera and fisheye-camera NeRFs. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# グラフ上でのウォークワイズ:効率的な誘導探索による2元エージェントによる知識グラフ推論
Walk Wisely on Graph: Knowledge Graph Reasoning with Dual Agents via Efficient Guidance-Exploration ( http://arxiv.org/abs/2408.01880v1 ) ライセンス: Link先を確認 | Zijian Wang, Bin Wang, Haifeng Jing, Huayu Li, Hongbo Dou, | (参考訳) 近年,知識グラフ(KG)に対するマルチホップ推論は,その有効性と解釈可能性から広く研究されている。
しかし、従来のマルチホップ推論アプローチには2つの主要な欠点がある。
まず、エージェントは、まばらな報酬のために、初期段階で効果的で堅牢なポリシーを学ぶのに苦労する。
第二に、これらのアプローチは、エージェントが長い推論パスを横切る必要があるスパースナレッジグラフのような特定のデータセットに干渉することが多い。
これらの問題に対処するために,階層的強化学習(HRL)に基づく二重エージェントを用いたマルチホップ推論モデル FULORA を提案する。
FULORAは、二重エージェント間のeFficient GUidance-ExpLORAtionによる上記の推論課題に取り組む。
高レベルエージェントは、単純化された知識グラフの上を歩き、元の知識グラフの上を歩く低レベルエージェントの段階的なヒントを提供する。
このフレームワークでは,(1)リターンの最大化,(2)高レベルのエージェントからの効率的なガイダンスの統合という,2つの目的のバランスをとる値関数を最適化する。
3つの実単語知識グラフデータセットによる実験により、FULORAは、特に長距離推論の場合、RLベースのベースラインより優れていることが示された。
Recent years, multi-hop reasoning has been widely studied for knowledge graph (KG) reasoning due to its efficacy and interpretability. However, previous multi-hop reasoning approaches are subject to two primary shortcomings. First, agents struggle to learn effective and robust policies at the early phase due to sparse rewards. Second, these approaches often falter on specific datasets like sparse knowledge graphs, where agents are required to traverse lengthy reasoning paths. To address these problems, we propose a multi-hop reasoning model with dual agents based on hierarchical reinforcement learning (HRL), which is named FULORA. FULORA tackles the above reasoning challenges by eFficient GUidance-ExpLORAtion between dual agents. The high-level agent walks on the simplified knowledge graph to provide stage-wise hints for the low-level agent walking on the original knowledge graph. In this framework, the low-level agent optimizes a value function that balances two objectives: (1) maximizing return, and (2) integrating efficient guidance from the high-level agent. Experiments conducted on three real-word knowledge graph datasets demonstrate that FULORA outperforms RL-based baselines, especially in the case of long-distance reasoning. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-03 |
# ケースベース推論のための選好に基づく抽象的記述法(アペンディクスを用いた)
Preference-Based Abstract Argumentation for Case-Based Reasoning (with Appendix) ( http://arxiv.org/abs/2408.00108v2 ) ライセンス: Link先を確認 | Adam Gould, Guilherme Paulino-Passos, Seema Dadhania, Matthew Williams, Francesca Toni, | (参考訳) 本研究は、解釈可能なデータ駆動型分類モデルの有効性と柔軟性を高めるために、抽象論とケースベース推論(CBR)を用いた、ユーザ定義の新規な嗜好の導入を提案する。
具体的には、ケースベース推論のためのPreference-based Abstract Argumentationを導入する(AA-CBR-Pと呼ぶ)。
このモデルが予測を行う際に本質的にこれらの嗜好に従うことを証明し、従来のケースベース推論手法の抽象的議論が議論の構成要素に対する嗜好を表現するのに不十分であることを示す。
次に,脳腫瘍患者の異なる評価方法を評価する臨床試験から得られた実世界の医療データセットに対して,これが適用可能であることを実証した。
我々は、このデータセット上で、我々のアプローチが他の解釈可能な機械学習モデルより優れていることを実証的に示す。
In the pursuit of enhancing the efficacy and flexibility of interpretable, data-driven classification models, this work introduces a novel incorporation of user-defined preferences with Abstract Argumentation and Case-Based Reasoning (CBR). Specifically, we introduce Preference-Based Abstract Argumentation for Case-Based Reasoning (which we call AA-CBR-P), allowing users to define multiple approaches to compare cases with an ordering that specifies their preference over these comparison approaches. We prove that the model inherently follows these preferences when making predictions and show that previous abstract argumentation for case-based reasoning approaches are insufficient at expressing preferences over constituents of an argument. We then demonstrate how this can be applied to a real-world medical dataset sourced from a clinical trial evaluating differing assessment methods of patients with a primary brain tumour. We show empirically that our approach outperforms other interpretable machine learning models on this dataset. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-03 |
# 意図的・意図的摂動に対するディープニューラルネットワークのレジリエンスとセキュリティ:調査と研究課題
Resilience and Security of Deep Neural Networks Against Intentional and Unintentional Perturbations: Survey and Research Challenges ( http://arxiv.org/abs/2408.00193v2 ) ライセンス: Link先を確認 | Sazzad Sayyed, Milin Zhang, Shahriar Rifat, Ananthram Swami, Michael De Lucia, Francesco Restuccia, | (参考訳) ディープニューラルネットワーク(DNN)を高リスクシナリオにデプロイするには、DNNが意図的かつ意図的ではなく、外部の摂動に対して堅牢な推論を提供することが不可欠である。
意図的および意図的でない摂動に対するDNNの弾力性は広く研究されているが、これらの本質的に絡み合った問題領域の統一的なビジョンはいまだに欠落している。
本稿では, 現状調査と提案手法の類似点を明らかにすることで, このギャップを埋めるとともに, レジリエントでセキュアなDNNの展開に必要な研究課題も分析する。
DNNのレジリエンスを意図的かつ意図しない摂動に結びつけるような調査は行われていないため、この研究は両領域のフロンティアを前進させるのに役立つと信じている。
In order to deploy deep neural networks (DNNs) in high-stakes scenarios, it is imperative that DNNs provide inference robust to external perturbations - both intentional and unintentional. Although the resilience of DNNs to intentional and unintentional perturbations has been widely investigated, a unified vision of these inherently intertwined problem domains is still missing. In this work, we fill this gap by providing a survey of the state of the art and highlighting the similarities of the proposed approaches.We also analyze the research challenges that need to be addressed to deploy resilient and secure DNNs. As there has not been any such survey connecting the resilience of DNNs to intentional and unintentional perturbations, we believe this work can help advance the frontier in both domains by enabling the exchange of ideas between the two communities. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-03 |
# 有限次元量子システムにおける離散時間量子ウォークのロバスト実装
Robust Implementation of Discrete-time Quantum Walks in Any Finite-dimensional Quantum System ( http://arxiv.org/abs/2408.00530v2 ) ライセンス: Link先を確認 | Biswayan Nandi, Sandipan Singha, Ankan Datta, Amit Saha, Amlan Chakrabarti, | (参考訳) 量子ウォークは特定の量子アルゴリズムを加速し、量子処理の普遍的なパラダイムとして機能することを示した。
離散時間量子ウォーク(DTQW)モデルは、その離散性から、回路実装において最も適した選択肢の1つである。
しかしながら、現在の実装のほとんどは多層量子回路が特徴であり、計算コストが増加し、現在の量子コンピュータ上での信頼性の高い実行時間ステップの数が顕著に減少する。
NISQ時代には量子コンピュータは十分にスケーラブルではないので、我々はまた、アンシラフリーフロンティアゾーンに閉じこめなければならない。
そこで本研究では, 量子ビットシステムにおける提案手法を用いて, ゲート数および回路深さに関する回路コストを, 最先端のインクリメント・デクリメント・アプローチと比較して半分削減することに成功している。
さらに,提案手法の工学的卓越性に対して,アキン効率の有限次元量子系にDTQWを実装した。
アンシラを必要とせずに効率的に量子ウォークを実装できるようにするため,マルチキュービットゲートを分解するための中間Qudit手法を取り入れた。
実験の結果は、ほんの数ステップの領域を超えて重要であり、量子コンピュータへの信頼性のある実装と利用の基礎を築いた。
Research has shown that quantum walks can accelerate certain quantum algorithms and act as a universal paradigm for quantum processing. The discrete-time quantum walk (DTQW) model, owing to its discrete nature, stands out as one of the most suitable choices for circuit implementation. Nevertheless, most current implementations are characterized by extensive, multi-layered quantum circuits, leading to higher computational expenses and a notable decrease in the number of confidently executable time steps on current quantum computers. Since quantum computers are not scalable enough in this NISQ era, we also must confine ourselves to the ancilla-free frontier zone. Therefore, in this paper, we have successfully cut down the circuit cost concerning gate count and circuit depth by half through our proposed methodology in qubit systems as compared to the state-of-the-art increment-decrement approach. Furthermore, for the engineering excellence of our proposed approach, we implement DTQW in any finite-dimensional quantum system with akin efficiency. To ensure an efficient implementation of quantum walks without requiring ancilla, we have incorporated an intermediate qudit technique for decomposing multi-qubit gates. Experimental outcomes hold significance far beyond the realm of just a few time steps, laying the groundwork for dependable implementation and utilization on quantum computers. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-03 |
# 後方スケーリング: 最小限の合成事前トレーニング?
Scaling Backwards: Minimal Synthetic Pre-training? ( http://arxiv.org/abs/2408.00677v2 ) ライセンス: Link先を確認 | Ryo Nakamura, Ryu Tadokoro, Ryosuke Yamada, Yuki M. Asano, Iro Laina, Christian Rupprecht, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka, | (参考訳) 事前学習と伝達学習は、現在のコンピュータビジョンシステムの重要な構成要素である。
プレトレーニングは通常、大規模な実世界の画像データセット上で実施されるが、本論文では、これが本当に必要かどうかを問う。
この目的のために、我々は、ImageNet-1kの100万枚の画像と似たパフォーマンスを達成できる最小限の、純粋に合成された事前学習データセットを探索する。
摂動を伴う単一フラクタルからそのようなデータセットを構築する。
これには3つの主要な発見がある。
(i)画像Net-1kのような大規模事前学習データセットと同等の性能で、最小限の合成画像でも事前学習が有効であることを示す。
(2)データセットに人工的なカテゴリを構築する単一パラメータについて検討する。
形状の違いは人間には区別できないが、強い性能を得るためには不可欠である。
3) 最後に, 事前学習を成功させるための最小限の要件について検討する。
驚くべきことに,合成画像の1kから1kへの大幅な削減は,事前学習性能の向上につながることが判明した。
最後に,本手法を合成画像から実画像へ拡張し,形状拡張による類似した事前学習効果を実画像で示せるかを確認する。
グレースケール画像とアフィン変換を使用することで、実際の画像でさえ'スケールバック'できることがわかった。
Pre-training and transfer learning are an important building block of current computer vision systems. While pre-training is usually performed on large real-world image datasets, in this paper we ask whether this is truly necessary. To this end, we search for a minimal, purely synthetic pre-training dataset that allows us to achieve performance similar to the 1 million images of ImageNet-1k. We construct such a dataset from a single fractal with perturbations. With this, we contribute three main findings. (i) We show that pre-training is effective even with minimal synthetic images, with performance on par with large-scale pre-training datasets like ImageNet-1k for full fine-tuning. (ii) We investigate the single parameter with which we construct artificial categories for our dataset. We find that while the shape differences can be indistinguishable to humans, they are crucial for obtaining strong performances. (iii) Finally, we investigate the minimal requirements for successful pre-training. Surprisingly, we find that a substantial reduction of synthetic images from 1k to 1 can even lead to an increase in pre-training performance, a motivation to further investigate ''scaling backwards''. Finally, we extend our method from synthetic images to real images to see if a single real image can show similar pre-training effect through shape augmentation. We find that the use of grayscale images and affine transformations allows even real images to ''scale backwards''. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-03 |