このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240429となっている論文です。

PDF登録状況(公開日: 20240429)

TitleAuthorsAbstract論文公表日・翻訳日
# 人工知能と機械学習研究における再現性とは何か

What is Reproducibility in Artificial Intelligence and Machine Learning Research? ( http://arxiv.org/abs/2407.10239v1 )

ライセンス: Link先を確認
Abhyuday Desai, Mohamed Abdelhamid, Nakul R. Padalkar, (参考訳) 人工知能(AI)と機械学習(ML)の急速に発展する分野において、再現性危機は、科学的完全性を維持し、進歩を促進するために明確な検証方法が緊急に必要であることを示している。 この危機は、検証用語に関する一般的な混乱によって複雑化している。 この課題に対応して,再現性,依存的かつ独立的な再現性,直接的かつ概念的再現性といった,重要な検証作業の役割と定義を明確にする検証フレームワークを導入する。 この構造化されたフレームワークは、AI/ML研究者にこれらの不可欠な概念を明確化し、適切な設計、実行、検証研究の解釈を促進することを目的としている。 それぞれの検証研究のニュアンスや特定の役割を明確にすることで、再現性の問題に対処するためのより情報的かつ方法論的なアプローチに貢献し、研究成果の信頼性と信頼性を高めるためのコミュニティの取り組みを支援したいと考えています。

In the rapidly evolving fields of Artificial Intelligence (AI) and Machine Learning (ML), the reproducibility crisis underscores the urgent need for clear validation methodologies to maintain scientific integrity and encourage advancement. The crisis is compounded by the prevalent confusion over validation terminology. Responding to this challenge, we introduce a validation framework that clarifies the roles and definitions of key validation efforts: repeatability, dependent and independent reproducibility, and direct and conceptual replicability. This structured framework aims to provide AI/ML researchers with the necessary clarity on these essential concepts, facilitating the appropriate design, conduct, and interpretation of validation studies. By articulating the nuances and specific roles of each type of validation study, we hope to contribute to a more informed and methodical approach to addressing the challenges of reproducibility, thereby supporting the community's efforts to enhance the reliability and trustworthiness of its research findings.
翻訳日:2024-07-22 12:59:07 公開日:2024-04-29
# End-to-End ASRシステムにおけるトークン化器における語彙サイズ修正のためのコスト最小化手法

A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system ( http://arxiv.org/abs/2406.02563v1 )

ライセンス: Link先を確認
Sunil Kumar Kopparapu, Ashish Panda, (参考訳) ハイブリッド音声認識システムとは異なり、トークンの使用は電話、バイフォン、トリホンに限られており、エンドツーエンドのASRシステムにおけるトークンの選択は、トレーニングデータのテキストコーパスから導かれる。 Byte Pair Encoding (BPE)やWordPieceのようなトークン化アルゴリズムは、音声認識システムの全体的なトレーニングプロセスで使用されるトークンを特定するのに人気がある。 ESPNetのような一般的なツールキットは、これらのトークン化アルゴリズムに予め定義された語彙サイズ(トークン数)を使用しているが、語彙サイズがどのように派生されたかについては議論されていない。 本稿では,トークン化プロセスがブラックボックスであると仮定してコスト関数を構築し,エンドツーエンドのASRを構築する上で最も有用なトークン数の選択を可能にする。 LibriSpeech 100 時間セットの実験を通して,トークンの数を慎重に選択することで,エンドツーエンドの ASR システムの性能が向上することを示す。

Unlike hybrid speech recognition systems where the use of tokens was restricted to phones, biphones or triphones the choice of tokens in the end-to-end ASR systems is derived from the text corpus of the training data. The use of tokenization algorithms like Byte Pair Encoding (BPE) and WordPiece is popular in identifying the tokens that are used in the overall training process of the speech recognition system. Popular toolkits, like ESPNet use a pre-defined vocabulary size (number of tokens) for these tokenization algorithms, but there is no discussion on how vocabulary size was derived. In this paper, we build a cost function, assuming the tokenization process to be a black-box to enable choosing the number of tokens which might most benefit building an end-to-end ASR. We show through experiments on LibriSpeech 100 hour set that the performance of an end-to-end ASR system improves when the number of tokens are chosen carefully.
翻訳日:2024-07-01 08:10:07 公開日:2024-04-29
# DragPoser: 遅延空間最適化による可変スパース追跡信号からの運動再構成

DragPoser: Motion Reconstruction from Variable Sparse Tracking Signals via Latent Space Optimization ( http://arxiv.org/abs/2406.14567v1 )

ライセンス: Link先を確認
Jose Luis Ponton, Eduard Pujol, Andreas Aristidou, Carlos Andujar, Nuria Pelechano, (参考訳) ユーザの動きに追従する高品質な動作再構成は、多くのセンサを備えたハイエンドなモキャップシステムによって達成できる。 しかし、このようなアニメーションの質を少ない入力装置で獲得することは、モキャップを一般大衆に近づけることによって、人気が高まっている。 主な課題は、学習ベースのアプローチにおけるエンドエフェクタの精度の喪失、あるいはIKベースのソリューションにおける自然さと滑らかさの欠如である。 さらに、そのようなシステムは特定の数のトラッカーに微調整されることが多く、センサーが隠蔽されたり機能不全になったりする場合など、欠落したデータに非常に敏感である。 これらの課題に対応するために、DragPoserという新しいディープラーニングベースのモーションリコンストラクションシステムを導入し、ハードでダイナミックなオンザフライ制約を正確に表現し、リアルタイムなハイエンドエフェクタの位置精度を実現する。 これは、構造化潜在空間内のポーズ最適化プロセスによって達成される。 我々のシステムでは、大規模な人間の動作データセット上で1回のトレーニングしか必要とせず、制約を動的に損失として定義することができ、ポーズは潜伏空間におけるこれらの損失の勾配を計算することで反復的に洗練される。 提案手法をさらに強化するために,Transformerアーキテクチャを用いて潜時空間の時間性を直接符号化するテンポラル予測ネットワークを組み込んだ。 このネットワークは、ポーズ最適化を有効なポーズの多様体に限定することを保証するとともに、過去のポーズデータを活用して時間的に一貫性のあるポーズを予測する。 その結果、DragPoserはIKベースと最新のデータ駆動方式の両方を超越し、正確なエンドエフェクタ位置決めを実現し、自然なポーズや時間的コヒーレントな動きを発生させることがわかった。 さらに、本システムは、オンザフライ制約修正に対する堅牢性を示し、様々な入力構成や変更に対して例外的な適応性を示す。

High-quality motion reconstruction that follows the user's movements can be achieved by high-end mocap systems with many sensors. However, obtaining such animation quality with fewer input devices is gaining popularity as it brings mocap closer to the general public. The main challenges include the loss of end-effector accuracy in learning-based approaches, or the lack of naturalness and smoothness in IK-based solutions. In addition, such systems are often finely tuned to a specific number of trackers and are highly sensitive to missing data e.g., in scenarios where a sensor is occluded or malfunctions. In response to these challenges, we introduce DragPoser, a novel deep-learning-based motion reconstruction system that accurately represents hard and dynamic on-the-fly constraints, attaining real-time high end-effectors position accuracy. This is achieved through a pose optimization process within a structured latent space. Our system requires only one-time training on a large human motion dataset, and then constraints can be dynamically defined as losses, while the pose is iteratively refined by computing the gradients of these losses within the latent space. To further enhance our approach, we incorporate a Temporal Predictor network, which employs a Transformer architecture to directly encode temporality within the latent space. This network ensures the pose optimization is confined to the manifold of valid poses and also leverages past pose data to predict temporally coherent poses. Results demonstrate that DragPoser surpasses both IK-based and the latest data-driven methods in achieving precise end-effector positioning, while it produces natural poses and temporally coherent motion. In addition, our system showcases robustness against on-the-fly constraint modifications, and exhibits exceptional adaptability to various input configurations and changes.
翻訳日:2024-07-01 07:30:49 公開日:2024-04-29
# 政策グラディエント駆動型騒音マスク

Policy Gradient-Driven Noise Mask ( http://arxiv.org/abs/2406.14568v1 )

ライセンス: Link先を確認
Mehmet Can Yavuz, Yang Yang, (参考訳) ディープラーニング分類器は、異質なマルチモーダルおよびマルチ組織バイオメディカルデータセットを扱う場合、重大な課題に直面している。 画像のモダリティに制限された低レベルの特徴区別性は、分類器の高レベルの意味関係を学習する能力を妨げ、結果として準最適性能をもたらす。 この問題に対処するために、画像強化戦略を正規化手法として採用する。 ネットワークトレーニング中の付加的なノイズ入力は、正規化法として確立された拡張であるが、現代のパイプラインは、ドロップアウトやウェイト崩壊のようなより堅牢な技術を好むことが多い。 この選好は、これらの確立された手法とノイズ入力を組み合わせることがモデル性能に悪影響を及ぼすという観察に起因している。 本研究では,マルチモーダル・マルチオーガナイズドデータセットの性能向上に適した条件付きノイズマスクの生成を学習する,新しい事前学習パイプラインを提案する。 強化学習アルゴリズムとして、微分可能なベータ分布と分類器ネットワークを用いて条件付き雑音のサンプリングを学習する、非常に軽量なポリシーネットワークからなる二重成分システムを用いる。 ポリシーネットワークは、事前訓練中に分類器を正規化する画像固有のノイズマスクを生成するために強化アルゴリズムを用いて訓練される。 重要な側面は、ポリシーネットワークの役割が微調整の前に中間的な(または加熱された)モデルを取得することに限定されていることである。 推測中、ポリシーネットワークは省略され、ベースラインモデルとノイズ正規化モデルを直接比較できる。 我々はRadImageNetデータセットの実験と関連する分析を行った。 その結果、中間モデルの微調整は、分類と一般化の両方の従来の訓練アルゴリズムよりも、目に見えない概念タスクに優れていた。

Deep learning classifiers face significant challenges when dealing with heterogeneous multi-modal and multi-organ biomedical datasets. The low-level feature distinguishability limited to imaging-modality hinders the classifiers' ability to learn high-level semantic relationships, resulting in sub-optimal performance. To address this issue, image augmentation strategies are employed as regularization techniques. While additive noise input during network training is a well-established augmentation as regularization method, modern pipelines often favor more robust techniques such as dropout and weight decay. This preference stems from the observation that combining these established techniques with noise input can adversely affect model performance. In this study, we propose a novel pretraining pipeline that learns to generate conditional noise mask specifically tailored to improve performance on multi-modal and multi-organ datasets. As a reinforcement learning algorithm, our approach employs a dual-component system comprising a very light-weight policy network that learns to sample conditional noise using a differentiable beta distribution and a classifier network. The policy network is trained using the reinforce algorithm to generate image-specific noise masks that regularize the classifier during pretraining. A key aspect is that the policy network's role is limited to obtaining an intermediate (or heated) model before fine-tuning. During inference, the policy network is omitted, allowing direct comparison between the baseline and noise-regularized models. We conducted experiments and related analyses on RadImageNet datasets. Results demonstrate that fine-tuning the intermediate models consistently outperforms conventional training algorithms on both classification and generalization to unseen concept tasks.
翻訳日:2024-07-01 07:30:49 公開日:2024-04-29
# 変分オートエンコーダによる人中心映像異常検出と軌道予測に関する探索的研究

An Exploratory Study on Human-Centric Video Anomaly Detection through Variational Autoencoders and Trajectory Prediction ( http://arxiv.org/abs/2406.15395v1 )

ライセンス: Link先を確認
Ghazal Alinezhad Noghre, Armin Danesh Pazho, Hamed Tabkhi, (参考訳) ビデオ異常検出(VAD)はコンピュータビジョンにおける課題であり、顕著な研究課題である。 近年,Pose-based Video Anomaly Detection (PAD) が研究コミュニティから注目されている。 具体的には、計算複雑性の低減、固有のプライバシー保護、特定の人口集団に対する差別や偏見に関連する懸念の緩和などが特徴である。 本稿では,変分オートエンコーダ(VAE)と軌跡予測を利用した新しい人中心型2ストリームグラフ改善型異常検出であるTSGADを紹介する。 TSGADは、軌道予測の利点とともに、ポーズに基づく人間中心型VADの新しいアプローチとしてVAEを利用する可能性を探究することを目的としている。 ベンチマークデータセットの総合的な実験を通じてTSGADの有効性を実証する。 TSGADは、変分オートエンコーダを採用する可能性を示す最先端の手法と同等の結果を示す。 これは将来の研究に有望な方向を示唆している。 この作業のコードベースはhttps://github.com/TeCSAR-UNCC/TSGADで公開されている。

Video Anomaly Detection (VAD) represents a challenging and prominent research task within computer vision. In recent years, Pose-based Video Anomaly Detection (PAD) has drawn considerable attention from the research community due to several inherent advantages over pixel-based approaches despite the occasional suboptimal performance. Specifically, PAD is characterized by reduced computational complexity, intrinsic privacy preservation, and the mitigation of concerns related to discrimination and bias against specific demographic groups. This paper introduces TSGAD, a novel human-centric Two-Stream Graph-Improved Anomaly Detection leveraging Variational Autoencoders (VAEs) and trajectory prediction. TSGAD aims to explore the possibility of utilizing VAEs as a new approach for pose-based human-centric VAD alongside the benefits of trajectory prediction. We demonstrate TSGAD's effectiveness through comprehensive experimentation on benchmark datasets. TSGAD demonstrates comparable results with state-of-the-art methods showcasing the potential of adopting variational autoencoders. This suggests a promising direction for future research endeavors. The code base for this work is available at https://github.com/TeCSAR-UNCC/TSGAD.
翻訳日:2024-07-01 07:11:08 公開日:2024-04-29
# タンパク質配列-構造-構造-構造関係のキャプチャによるタンパク質表現学習

Protein Representation Learning by Capturing Protein Sequence-Structure-Function Relationship ( http://arxiv.org/abs/2405.06663v1 )

ライセンス: Link先を確認
Eunji Ko, Seul Lee, Minseon Kim, Dongki Kim, (参考訳) タンパク質表現学習の目的は、様々なタンパク質関連下流タスクに適用可能なタンパク質データベースから知識を抽出することである。 タンパク質配列、構造、機能は、タンパク質の包括的理解のための3つの重要なモダリティであるが、タンパク質表現学習の既存の方法は、それらの間の非対称的な相互関係を捉えるのが困難であるため、これらのモダリティのうち1つまたは2つしか利用していない。 この非対称性を考慮した新しい非対称多モードマスク型オートエンコーダ(AMMA)を提案する。 AMMAは,(1)3つのモダリティを統一表現空間に統合する統一マルチモーダルエンコーダ,(2)非対称デコーダを採用し,シーケンス潜在特徴が構造的および機能的情報を反映することを保証している。 実験により, 提案したAMMAは, 分子間関係の整合性を示すタンパク質表現の学習に極めて有効であり, 様々な下流タンパク質関連タスクに有効であることが示された。

The goal of protein representation learning is to extract knowledge from protein databases that can be applied to various protein-related downstream tasks. Although protein sequence, structure, and function are the three key modalities for a comprehensive understanding of proteins, existing methods for protein representation learning have utilized only one or two of these modalities due to the difficulty of capturing the asymmetric interrelationships between them. To account for this asymmetry, we introduce our novel asymmetric multi-modal masked autoencoder (AMMA). AMMA adopts (1) a unified multi-modal encoder to integrate all three modalities into a unified representation space and (2) asymmetric decoders to ensure that sequence latent features reflect structural and functional information. The experiments demonstrate that the proposed AMMA is highly effective in learning protein representations that exhibit well-aligned inter-modal relationships, which in turn makes it effective for various downstream protein-related tasks.
翻訳日:2024-05-27 03:27:39 公開日:2024-04-29
# CLASSP:適応抑制とスパーシティ推進による継続的学習への生物学的に着想を得たアプローチ

CLASSP: a Biologically-Inspired Approach to Continual Learning through Adjustment Suppression and Sparsity Promotion ( http://arxiv.org/abs/2405.09637v1 )

ライセンス: Link先を確認
Oswaldo Ludwig, (参考訳) 本稿では,適応抑制・スパシリティ促進(CLASSP)による継続的学習(Continuous Learning)という,生物学的に着想を得た新たなトレーニング手法を提案する。 CLASSPは神経科学、特にシナプス伝達とLong-Term Potentiation(LTP)の文脈で観察される2つの主要な原理に基づいている。 第1の原理は、AdaGrad最適化アルゴリズムの一般化として実装された重量調整の減衰率である。 つまり、多くのアップデートを受けたウェイトは、以前見たデータに関する重要な情報をエンコードしている可能性が高いため、学習率を下げるべきである。 しかし、この原則は、これまで更新されていない重みの更新を促進するため、モデル全体の更新の拡散分布をもたらす。 したがって、第二原理は損失勾配のしきい値を導入する。 これにより、その重量に対する損失勾配が一定の閾値を超えている場合、すなわち、現在の損失に大きな影響を及ぼす重量のみを更新する場合のみ、重量を更新することでスパース学習を促進する。 どちらの原理もLTPで観測された現象を反映しており、閾値効果と徐々に増強の飽和が観察されている。 CLASSPはPython/PyTorchクラスで実装されており、任意のモデルに適用できる。 Computer Visionデータセットを使用したElastic Weight Consolidation (EWC)と比較して、CLASSPは精度とメモリフットプリントの点で優れたパフォーマンスを示している。

This paper introduces a new biologically-inspired training method named Continual Learning through Adjustment Suppression and Sparsity Promotion (CLASSP). CLASSP is based on two main principles observed in neuroscience, particularly in the context of synaptic transmission and Long-Term Potentiation (LTP). The first principle is a decay rate over the weight adjustment, which is implemented as a generalization of the AdaGrad optimization algorithm. This means that weights that have received many updates should have lower learning rates as they likely encode important information about previously seen data. However, this principle results in a diffuse distribution of updates throughout the model, as it promotes updates for weights that haven't been previously updated, while a sparse update distribution is preferred to leave weights unassigned for future tasks. Therefore, the second principle introduces a threshold on the loss gradient. This promotes sparse learning by updating a weight only if the loss gradient with respect to that weight is above a certain threshold, i.e. only updating weights with a significant impact on the current loss. Both principles reflect phenomena observed in LTP, where a threshold effect and a gradual saturation of potentiation have been observed. CLASSP is implemented in a Python/PyTorch class, making it applicable to any model. When compared with Elastic Weight Consolidation (EWC) using Computer Vision datasets, CLASSP demonstrates superior performance in terms of accuracy and memory footprint.
翻訳日:2024-05-27 03:17:55 公開日:2024-04-29
# HMAR:マルチビヘイビアレコメンデーションのための階層型マスケッドアテンション

HMAR: Hierarchical Masked Attention for Multi-Behaviour Recommendation ( http://arxiv.org/abs/2405.09638v1 )

ライセンス: Link先を確認
Shereen Elsayed, Ahmed Rashed, Lars Schmidt-Thieme, (参考訳) レコメンデーションシステムでは,ユーザ行動の進化を理解する上で,複数の行動的ユーザインタラクションに対処することが不可欠になっている。 最近のモデルでは、グラフニューラルネットワークやアテンションメカニズムなどの手法を使って多様な振る舞いをモデル化しているが、歴史的相互作用におけるシーケンシャルなパターンのキャプチャは依然として困難である。 この問題に対処するために,多行動レコメンデーション(HMAR)のための階層型マスケッド注意(Hierarchical Masked Attention)を導入する。 具体的には、同じ行動の項目にマスク付き自己注意を適用し、その後全ての行動に自己意識を付与する。 さらに,各項目の行動の履歴頻度を入力シーケンスにエンコードする履歴行動指標を提案する。 さらに、HMARモデルはマルチタスク環境で動作し、アイテムの振る舞いと関連するランキングスコアを同時に学習することができる。 4つの実世界のデータセットに対する大規模な実験結果から,提案モデルが最先端の手法より優れていることが示された。 私たちのコードとデータセットはここで入手可能です(https://github.com/Shereen-Elsayed/HMAR)。

In the context of recommendation systems, addressing multi-behavioral user interactions has become vital for understanding the evolving user behavior. Recent models utilize techniques like graph neural networks and attention mechanisms for modeling diverse behaviors, but capturing sequential patterns in historical interactions remains challenging. To tackle this, we introduce Hierarchical Masked Attention for multi-behavior recommendation (HMAR). Specifically, our approach applies masked self-attention to items of the same behavior, followed by self-attention across all behaviors. Additionally, we propose historical behavior indicators to encode the historical frequency of each items behavior in the input sequence. Furthermore, the HMAR model operates in a multi-task setting, allowing it to learn item behaviors and their associated ranking scores concurrently. Extensive experimental results on four real-world datasets demonstrate that our proposed model outperforms state-of-the-art methods. Our code and datasets are available here (https://github.com/Shereen-Elsayed/HMAR).
翻訳日:2024-05-27 03:17:55 公開日:2024-04-29
# Artificial General Intelligence (AGI)-Native Wireless Systems: 6Gを超える旅

Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G ( http://arxiv.org/abs/2405.02336v1 )

ライセンス: Link先を確認
Walid Saad, Omar Hashash, Christo Kurisummoottil Thomas, Christina Chaccour, Merouane Debbah, Narayan Mandayam, Zhu Han, (参考訳) デジタルツイン(DT)のようなサービスをサポートする将来の無線システムの構築は、メタサーフェスのような従来の技術への進歩を通じて達成することが困難である。 人工知能(AI)ネイティブネットワークは、無線技術のいくつかの制限を克服することを約束する一方で、開発は依然としてニューラルネットワークのようなAIツールに依存している。 このようなツールは、ネットワーク環境の非自明な課題や、新興ユースケースの需要の増加に対応するのに苦労しています。 本稿では、AIネイティブ無線システムの概念を再考し、それらを人工知能(AGI)ネイティブシステムに変換するために必要な共通感覚を取り入れる。 これらのシステムは、知覚、アナロジー、推論などの異なる認知能力を活用して、予期せぬシナリオを一般化し、扱えるようにすることで、常識を身につける。 このようなシステムのコンポーネントの開発に向けて、実世界の要素を一般化可能な表現に抽象化することで、知覚モジュールをどのように構築できるかを示すことから始める。 これらの表現は、因果性と超次元(HD)コンピューティングの原理に基づいて構築された世界モデルを作成するために使用され、直感的な物理学と整合し、共通感覚を定義する類推的推論を可能にする。 そこで本研究では,AGIネイティブネットワークを動作させる意図駆動型計画手法の提案において,統合情報理論などの手法が果たす役割について解説する。 次に、AGIネイティブネットワークが、人間や自律エージェントに関連するユースケースをどのように実現できるかについて議論する。 a)次世代DTの類似推論 ロ 認知アバターの同期で回復力のある体験、及び c)ホログラフィックテレポーテーションのような脳レベルのメタバース体験。 最後に、AGIネイティブシステムを構築するための一連のレコメンデーションで締めくくります。 最終的に、この論文は6G以上の時代のロードマップとして考えています。

Building future wireless systems that support services like digital twins (DTs) is challenging to achieve through advances to conventional technologies like meta-surfaces. While artificial intelligence (AI)-native networks promise to overcome some limitations of wireless technologies, developments still rely on AI tools like neural networks. Such tools struggle to cope with the non-trivial challenges of the network environment and the growing demands of emerging use cases. In this paper, we revisit the concept of AI-native wireless systems, equipping them with the common sense necessary to transform them into artificial general intelligence (AGI)-native systems. These systems acquire common sense by exploiting different cognitive abilities such as perception, analogy, and reasoning, that enable them to generalize and deal with unforeseen scenarios. Towards developing the components of such a system, we start by showing how the perception module can be built through abstracting real-world elements into generalizable representations. These representations are then used to create a world model, founded on principles of causality and hyper-dimensional (HD) computing, that aligns with intuitive physics and enables analogical reasoning, that define common sense. Then, we explain how methods such as integrated information theory play a role in the proposed intent-driven and objective-driven planning methods that maneuver the AGI-native network to take actions. Next, we discuss how an AGI-native network can enable use cases related to human and autonomous agents: a) analogical reasoning for next-generation DTs, b) synchronized and resilient experiences for cognitive avatars, and c) brain-level metaverse experiences like holographic teleportation. Finally, we conclude with a set of recommendations to build AGI-native systems. Ultimately, we envision this paper as a roadmap for the beyond 6G era.
翻訳日:2024-05-12 15:50:33 公開日:2024-04-29
# PoPE: 伝説的直交多項式を用いた大規模言語モデルの位置符号化

PoPE: Legendre Orthogonal Polynomials Based Position Encoding for Large Language Models ( http://arxiv.org/abs/2405.04585v1 )

ライセンス: Link先を確認
Arpit Aggarwal, (参考訳) 元の変圧器で使用される絶対位置符号化法(APE)のベースラインにいくつかの改良が提案されている。 本研究では,注意機構の重要な側面,相対的な位置情報学習能力,および正弦波基底関数の選択に起因したモデルの収束性について,高次元における位置符号化の不適切な表現が与える影響について検討する。 理論的洞察と経験的分析の組み合わせにより、これらの課題がAPEを超えてどのように拡張され、回転位置符号化(RoPE)などの相対位置符号化(RPE)手法の性能に悪影響を及ぼすかを明らかにする。 次に, 直交多項式に基づく位置符号化 (PoPE) という革新的な手法を導入し, 既存の手法の限界に対処する。 PoPE法は、直交ルジャンドル多項式を利用して位置情報を符号化する。 基底関数としてのレジェンダレ多項式は、相関構造の改善、非周期性、直交性、および様々な順序の多項式間の異なる機能形式を含む、位置符号化に望ましいいくつかの性質を提供する。 実験結果から,PoPEをベースライントランスフォーマーモデルに組み込んだトランスフォーマーモデルが,Multi30k$の英語-ドイツ語翻訳タスクに優れており,新たな性能ベンチマークが確立された。 さらに、PoPEベースの変圧器は、収束速度を著しく加速する。 さらに、PoPEの優れた性能に基づく位置符号化に関する新しい理論的視点を示す。

There are several improvements proposed over the baseline Absolute Positional Encoding (APE) method used in original transformer. In this study, we aim to investigate the implications of inadequately representing positional encoding in higher dimensions on crucial aspects of the attention mechanism, the model's capacity to learn relative positional information, and the convergence of models, all stemming from the choice of sinusoidal basis functions. Through a combination of theoretical insights and empirical analyses, we elucidate how these challenges extend beyond APEs and may adversely affect the performance of Relative Positional Encoding (RPE) methods, such as Rotatory Positional Encoding (RoPE). Subsequently, we introduce an innovative solution termed Orthogonal Polynomial Based Positional Encoding (PoPE) to address some of the limitations associated with existing methods. The PoPE method encodes positional information by leveraging Orthogonal Legendre polynomials. Legendre polynomials as basis functions offers several desirable properties for positional encoding, including improved correlation structure, non-periodicity, orthogonality, and distinct functional forms among polynomials of varying orders. Our experimental findings demonstrate that transformer models incorporating PoPE outperform baseline transformer models on the $Multi30k$ English-to-German translation task, thus establishing a new performance benchmark. Furthermore, PoPE-based transformers exhibit significantly accelerated convergence rates. Additionally, we will present novel theoretical perspectives on position encoding based on the superior performance of PoPE.
翻訳日:2024-05-12 15:40:48 公開日:2024-04-29
# 結び目の橋梁数を学ぶ

Learning bridge numbers of knots ( http://arxiv.org/abs/2405.05272v1 )

ライセンス: Link先を確認
Hanh Vo, Puttipong Pongtanapaisan, Thieu Nguyen, (参考訳) 本稿では,古典的および仮想的な結び目の両方のブリッジ数を決定するために,様々な計算手法を用いる。 古典的な結び目では、橋の番号の意味の曖昧さは存在しない。 仮想結び目に対しては、ブリッジ数には複数の自然な定義があり、その違いは任意に遠く離れることができることを示す。 次に、2つのデータセットを取得しました。1つは古典用、もう1つは仮想結び目用で、それぞれ100万以上のラベル付きデータポイントで構成されています。 このデータを用いて,橋梁数に基づく結び目分類において,一般的な機械学習モデルの有効性を評価する実験を行った。

This paper employs various computational techniques to determine the bridge numbers of both classical and virtual knots. For classical knots, there is no ambiguity of what the bridge number means. For virtual knots, there are multiple natural definitions of bridge number, and we demonstrate that the difference can be arbitrarily far apart. We then acquired two datasets, one for classical and one for virtual knots, each comprising over one million labeled data points. With the data, we conduct experiments to evaluate the effectiveness of common machine learning models in classifying knots based on their bridge numbers.
翻訳日:2024-05-12 15:40:48 公開日:2024-04-29
# EHRSQLにおける疑わしい質問の非バイアス評価に向けて

Towards Unbiased Evaluation of Detecting Unanswerable Questions in EHRSQL ( http://arxiv.org/abs/2405.01588v1 )

ライセンス: Link先を確認
Yongjin Yang, Sihyeon Kim, SangMook Kim, Gyubok Lee, Se-Young Yun, Edward Choi, (参考訳) EHR QAシステムに解決不可能な質問を組み込むことは、システムの信頼性をテストする上で不可欠である。 EHRSQLデータセットは、実用的な質問とともに、EHR QAシステムに解決不可能な質問を組み込んだ唯一のデータセットであるため、有望なベンチマークとして際立っている。 しかし、本研究では、これらの未解決問題におけるデータバイアスを識別し、特定のN-gramパターンをフィルタリングすることで、しばしば識別することができる。 このようなバイアスは、QAシステム評価の信頼性と信頼性を損なう。 この問題に対処するため,N-gram フィルタの冗長な影響を和らげるために,検証セットとテストセットの分割を調整する簡易なデバイアス法を提案する。 MIMIC-IIIデータセットを用いて実験することにより、EHRSQLにおける既存のデータバイアスと、このバイアスを軽減するためのデータ分割戦略の有効性を実証する。

Incorporating unanswerable questions into EHR QA systems is crucial for testing the trustworthiness of a system, as providing non-existent responses can mislead doctors in their diagnoses. The EHRSQL dataset stands out as a promising benchmark because it is the only dataset that incorporates unanswerable questions in the EHR QA system alongside practical questions. However, in this work, we identify a data bias in these unanswerable questions; they can often be discerned simply by filtering with specific N-gram patterns. Such biases jeopardize the authenticity and reliability of QA system evaluations. To tackle this problem, we propose a simple debiasing method of adjusting the split between the validation and test sets to neutralize the undue influence of N-gram filtering. By experimenting on the MIMIC-III dataset, we demonstrate both the existing data bias in EHRSQL and the effectiveness of our data split strategy in mitigating this bias.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-29
# GPT-4はポーランド委員会認定試験の297項目の大半をパスしている。

GPT-4 passes most of the 297 written Polish Board Certification Examinations ( http://arxiv.org/abs/2405.01589v1 )

ライセンス: Link先を確認
Jakub Pokrywka, Jeremi Kaczmarek, Edward Gorzelańczyk, (参考訳) 導入:最近、LLM(Large Language Models)の有効性が急速に向上し、多数のアプリケーションで使用できるようになった。 しかし、LSMによる偽情報の発生によって引き起こされるリスクは、医療などのセンシティブな分野における適用を著しく制限し、その実用性と信頼性を決定するための厳密な検証の必要性を強調している。 これまで、ポーランドの医学検査におけるLLMの性能を、非常に大規模なデータセット上で幅広い専門分野にわたって広範囲に比較する研究は行われていない。 目的: 本研究はポーランド委員会認定試験(Pa\'nstwowy Egzamin Specjalizacyjny, PES)における3つの生成事前学習変圧器(GPT)モデルの性能評価を行った。 方法: PES試験をダウンロード・処理するソフトウェアプログラムを開発し,OpenAIアプリケーションプログラミングインタフェースを用いてGPTモデルの性能を検証した。 結果: GPT-3.5はいずれの試験にも合格しなかった。 対照的に、GPT-4モデルは試験の過半数をパスする能力を示し、最新のモデルであるgpt-4-0125は222 (75%) をパスした。 GPTモデルの性能は著しく変化し、特定の専門性に関する試験において卓越した成績を示したが、他のモデルは完全に失敗した。 結論: LLMモデルの顕著な進歩と印象的な性能は、ポーランドの医学分野におけるAIの適用拡大を大いに約束している。 例えば、この進歩は、医療専門家のためのAIベースの医療アシスタントの開発につながり、医療サービスの効率性と正確性を高める可能性がある。

Introduction: Recently, the effectiveness of Large Language Models (LLMs) has increased rapidly, allowing them to be used in a great number of applications. However, the risks posed by the generation of false information through LLMs significantly limit their applications in sensitive areas such as healthcare, highlighting the necessity for rigorous validations to determine their utility and reliability. To date, no study has extensively compared the performance of LLMs on Polish medical examinations across a broad spectrum of specialties on a very large dataset. Objectives: This study evaluated the performance of three Generative Pretrained Transformer (GPT) models on the Polish Board Certification Exam (Pa\'nstwowy Egzamin Specjalizacyjny, PES) dataset, which consists of 297 tests. Methods: We developed a software program to download and process PES exams and tested the performance of GPT models using OpenAI Application Programming Interface. Results: Our findings reveal that GPT-3.5 did not pass any of the analyzed exams. In contrast, the GPT-4 models demonstrated the capability to pass the majority of the exams evaluated, with the most recent model, gpt-4-0125, successfully passing 222 (75%) of them. The performance of the GPT models varied significantly, displaying excellence in exams related to certain specialties while completely failing others. Conclusions: The significant progress and impressive performance of LLM models hold great promise for the increased application of AI in the field of medicine in Poland. For instance, this advancement could lead to the development of AI-based medical assistants for healthcare professionals, enhancing the efficiency and accuracy of medical services.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-29
# アラビア語の単語データセット1010億

101 Billion Arabic Words Dataset ( http://arxiv.org/abs/2405.01590v1 )

ライセンス: Link先を確認
Manel Aloui, Hasna Chouikhi, Ghaith Chaabane, Haithem Kchaou, Chehir Dhaouadi, (参考訳) 近年、Large Language Modelsは自然言語処理の分野に革命をもたらした。 これらの進歩は、アラビア語の理解と生成を著しく精度良く行うことができるアラビアのLLMの開発に重要な取り組みを刺激し、グローバルなベンチマークを定めている。 アラビア語のLLMの潜在的なバイアスは主に、アラビア語に翻訳された英語データを含むデータセットに依存しているためである。 この依存は、生成されたコンテンツの信頼性を損なうだけでなく、より広範な問題、すなわち原質のアラビア語のデータの不足を反映している。 本研究の目的は、アラブ世界のデータ不足に対処し、地域の言語とニュアンスの両方に忠実なアラビア語モデルの開発を促進することである。 我々は大規模なデータマイニングプロジェクトを行い、特にアラビアコンテンツを対象とするCommon Crawl WETファイルから大量のテキストを抽出した。 抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。 その結果、現在利用可能な最大のアラビア語データセットである101億のアラビア語の単語データセットが、真のアラビア語のLLMの開発に大きく貢献している。 本研究は、言語的・文化的に正確なアラビア語 LLM を作成する可能性だけでなく、アラビア語モデルの信頼性を高めるための先例となる。

In recent years, Large Language Models have revolutionized the field of natural language processing, showcasing an impressive rise predominantly in English-centric domains. These advancements have set a global benchmark, inspiring significant efforts toward developing Arabic LLMs capable of understanding and generating the Arabic language with remarkable accuracy. Despite these advancements, a critical challenge persists: the potential bias in Arabic LLMs, primarily attributed to their reliance on datasets comprising English data that has been translated into Arabic. This reliance not only compromises the authenticity of the generated content but also reflects a broader issue -the scarcity of original quality Arabic linguistic data. This study aims to address the data scarcity in the Arab world and to encourage the development of Arabic Language Models that are true to both the linguistic and nuances of the region. We undertook a large-scale data mining project, extracting a substantial volume of text from the Common Crawl WET files, specifically targeting Arabic content. The extracted data underwent a rigorous cleaning and deduplication process, using innovative techniques to ensure the integrity and uniqueness of the dataset. The result is the 101 Billion Arabic Words Dataset, the largest Arabic dataset available to date, which can significantly contribute to the development of authentic Arabic LLMs. This study not only highlights the potential for creating linguistically and culturally accurate Arabic LLMs but also sets a precedent for future research in enhancing the authenticity of Arabic language models.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-29
# マルチモダリティの簡易化:汎用大言語モデルを用いたラジオロジーにおけるマルチモダリティ問題への一様アプローチ

Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model ( http://arxiv.org/abs/2405.01591v1 )

ライセンス: Link先を確認
Seonhee Cho, Choonghan Kim, Jiho Lee, Chetan Chilkunda, Sujin Choi, Joo Heung Yoon, (参考訳) 近年のLMM(Large Multimodal Models)の進歩は、その一般化能力への関心を惹き付けている。 この進歩は、データの品質と感度が、モデルトレーニングと応用に固有の課題をもたらす医療領域に特に関係している。 しかし、文脈内学習に有効な高品質なデータへの依存は、現実の医療データに固有の必然的変動や誤りに遭遇した場合に、これらのモデルの有効性に関する疑問を提起する。 本稿では,汎用言語モデル(LLM)のコンテキスト内学習機能を活用し,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークであるMID-Mを紹介する。 MID-M はタスク固有の細調整 LMM や他の汎用ドメインに匹敵するあるいは優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータに対する事前トレーニングを行なわず、パラメータは大幅に少ない。 これは、ドメイン固有のタスクに汎用的なLLMを活用する可能性を強調し、従来のLMM開発に代わる持続的でコスト効率の高い代替手段を提供する。 さらに、データ品質問題に対するMID-Mの堅牢性は、実際の医療領域アプリケーションにおいて実用性を示している。

Recent advancements in Large Multimodal Models (LMMs) have attracted interest in their generalization capability with only a few samples in the prompt. This progress is particularly relevant to the medical domain, where the quality and sensitivity of data pose unique challenges for model training and application. However, the dependency on high-quality data for effective in-context learning raises questions about the feasibility of these models when encountering with the inevitable variations and errors inherent in real-world medical data. In this paper, we introduce MID-M, a novel framework that leverages the in-context learning capabilities of a general-domain Large Language Model (LLM) to process multimodal data via image descriptions. MID-M achieves a comparable or superior performance to task-specific fine-tuned LMMs and other general-domain ones, without the extensive domain-specific training or pre-training on multimodal data, with significantly fewer parameters. This highlights the potential of leveraging general-domain LLMs for domain-specific tasks and offers a sustainable and cost-effective alternative to traditional LMM developments. Moreover, the robustness of MID-M against data quality issues demonstrates its practical utility in real-world medical domain applications.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-29
# テキストと音声の単純化: Human vs. ChatGPT

Text and Audio Simplification: Human vs. ChatGPT ( http://arxiv.org/abs/2405.01592v1 )

ライセンス: Link先を確認
Gondy Leroy, David Kauchak, Philip Harber, Ankit Pal, Akash Shukla, (参考訳) 医療において、情報理解を高めるためのテキストと音声の簡易化が重要である。 ChatGPTの導入により、その簡易化性能の評価が必要とされる。 テキストの難易度を示す14の指標を用いて,人間とチャットGPTの簡易テキストを体系的に比較する。 本稿では,ChatGPTなどの簡易ツールが利用可能となるオンラインエディタについて紹介する。 測定値を用いて12のコーパス,6つのテキスト,1つのオーディオ,5つのChatGPT簡易コーパスを測定した。 次に、これらのコーパスを、前回のユーザ調査で単純化されたテキストと検証したテキストと比較する。 最後に、医療分野の専門家がこれらのテキストと5つの新しいChatGPT簡易版を評価した。 単純なコーパスは人間の簡易テキストとの類似性が高いことがわかった。 ChatGPTの単純化はメトリクスを正しい方向に移動させる。 医学領域の専門家による評価では、ChatGPTスタイルが好まれていたが、内容保持のためにテキスト自体が低評価であった。

Text and audio simplification to increase information comprehension are important in healthcare. With the introduction of ChatGPT, an evaluation of its simplification performance is needed. We provide a systematic comparison of human and ChatGPT simplified texts using fourteen metrics indicative of text difficulty. We briefly introduce our online editor where these simplification tools, including ChatGPT, are available. We scored twelve corpora using our metrics: six text, one audio, and five ChatGPT simplified corpora. We then compare these corpora with texts simplified and verified in a prior user study. Finally, a medical domain expert evaluated these texts and five, new ChatGPT simplified versions. We found that simple corpora show higher similarity with the human simplified texts. ChatGPT simplification moves metrics in the right direction. The medical domain expert evaluation showed a preference for the ChatGPT style, but the text itself was rated lower for content retention.
翻訳日:2024-05-06 16:58:34 公開日:2024-04-29
# 中心アライメントに基づくカーネル学習アルゴリズム

Algorithms for Learning Kernels Based on Centered Alignment ( http://arxiv.org/abs/1203.0550v3 )

ライセンス: Link先を確認
Corinna Cortes, Mehryar Mohri, Afshin Rostamizadeh, (参考訳) 本稿では,カーネル学習のための新しい,効果的なアルゴリズムを提案する。 特に, 実験結果に示すように, これらのアルゴリズムは, 従来改善が困難であったいわゆる一様結合解と, 分類と回帰の双方において, ベースカーネルの凸結合に基づくカーネル学習のアルゴリズムを常に上回っている。 我々のアルゴリズムは、カーネルまたはカーネル行列間の類似度尺度として使用される中心配向の概念に基づいている。 我々は、中心的アライメントの概念に基づいて、カーネルを学習するための新しいアルゴリズム、理論的、実証的な結果をいくつか提示する。 特に,アライメントに基づく正規化を用いて,カーネルと仮説の両方を学習するための1段階のアルゴリズムについて議論し,問題を単純なQPに還元できることを示し,アライメントカーネルを学習する効率的なアルゴリズムについて述べる。 我々の理論的結果は、カーネル行列間の中心的アライメントに束縛された新しい濃度、分類と回帰の両方に高いアライメントを持つカーネルに対して効果的な予測子が存在することの証明、および中心的アライメントに基づくカーネル学習アルゴリズムの幅広いファミリーに対する安定性に基づく一般化バウンダリの証明を含む。 また、分類と回帰の両方において、アライメントを中心としたアルゴリズムによる実験結果を報告する。

This paper presents new and effective algorithms for learning kernels. In particular, as shown by our empirical results, these algorithms consistently outperform the so-called uniform combination solution that has proven to be difficult to improve upon in the past, as well as other algorithms for learning kernels based on convex combinations of base kernels in both classification and regression. Our algorithms are based on the notion of centered alignment which is used as a similarity measure between kernels or kernel matrices. We present a number of novel algorithmic, theoretical, and empirical results for learning kernels based on our notion of centered alignment. In particular, we describe efficient algorithms for learning a maximum alignment kernel by showing that the problem can be reduced to a simple QP and discuss a one-stage algorithm for learning both a kernel and a hypothesis based on that kernel using an alignment-based regularization. Our theoretical results include a novel concentration bound for centered alignment between kernel matrices, the proof of the existence of effective predictors for kernels with high alignment, both for classification and for regression, and the proof of stability-based generalization bounds for a broad family of algorithms for learning kernels based on centered alignment. We also report the results of experiments with our centered alignment-based algorithms in both classification and regression.
翻訳日:2024-05-05 18:18:22 公開日:2024-04-29
# ロラランド:GPT-4を回転させた310個の微調整LDM技術報告

LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report ( http://arxiv.org/abs/2405.00732v1 )

ライセンス: Link先を確認
Justin Zhao, Timothy Wang, Wael Abid, Geoffrey Angus, Arnav Garg, Jeffery Kinnison, Alex Sherstinsky, Piero Molino, Travis Addair, Devvret Rishi, (参考訳) 低ランク適応 (LoRA) は、大規模言語モデル (LLM) のパラメータ効率的な微調整 (PEFT) のための最も広く採用されている手法の1つである。 LoRAは、トレーニング可能なパラメータとメモリ使用量を減らすと同時に、完全な微調整に匹敵するパフォーマンスを実現している。 本研究の目的は,LoRAで微調整されたLLMを実世界の応用に適用し,学習の可能性を評価することである。 まず,10のベースモデルと31のタスクに対して,310のモデルに対して,量子化低ランクアダプタを用いて微調整したLLMの品質を測定した。 その結果, 4ビットLORA微調整モデルでは, ベースモデルでは34点, GPT-4では10点に優れていた。 第2に、微調整の結果を予測する上で、タスク複雑性ヒューリスティックスの相関性と予測能力について、最も効果的な基礎モデルについて検討する。 最後に,オープンソースのマルチLoRA推論サーバであるLoRAXのレイテンシと並行性を評価し,共有ベースモデル重み付けと動的アダプタローディングを用いて,複数のLoRA微調整モデルの単一GPUへの展開を容易にする。 LoRAXは、80GBメモリを持つ単一のNVIDIA A100 GPU上で、25のLoRA微調整されたMistral-7B LLMをホストするWebアプリケーションであるLoRA Landを駆動する。 LoRA Landは、単一の汎用LSM上で複数の特殊なLSMを使用する場合の品質とコスト効率を強調している。

Low Rank Adaptation (LoRA) has emerged as one of the most widely adopted methods for Parameter Efficient Fine-Tuning (PEFT) of Large Language Models (LLMs). LoRA reduces the number of trainable parameters and memory usage while achieving comparable performance to full fine-tuning. We aim to assess the viability of training and serving LLMs fine-tuned with LoRA in real-world applications. First, we measure the quality of LLMs fine-tuned with quantized low rank adapters across 10 base models and 31 tasks for a total of 310 models. We find that 4-bit LoRA fine-tuned models outperform base models by 34 points and GPT-4 by 10 points on average. Second, we investigate the most effective base models for fine-tuning and assess the correlative and predictive capacities of task complexity heuristics in forecasting the outcomes of fine-tuning. Finally, we evaluate the latency and concurrency capabilities of LoRAX, an open-source Multi-LoRA inference server that facilitates the deployment of multiple LoRA fine-tuned models on a single GPU using shared base model weights and dynamic adapter loading. LoRAX powers LoRA Land, a web application that hosts 25 LoRA fine-tuned Mistral-7B LLMs on a single NVIDIA A100 GPU with 80GB memory. LoRA Land highlights the quality and cost-effectiveness of employing multiple specialized LLMs over a single, general-purpose LLM.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-29
# 脳波-MACS : 非信頼アノテーションによる脳内横断性脳疾患診断における手技的注意と信頼層形成

EEG-MACS: Manifold Attention and Confidence Stratification for EEG-based Cross-Center Brain Disease Diagnosis under Unreliable Annotations ( http://arxiv.org/abs/2405.00734v1 )

ライセンス: Link先を確認
Zhenxi Song, Ruihan Qin, Huixia Ren, Zhen Liang, Yi Guo, Min Zhang, Zhiguo Zhang, (参考訳) センター間のデータの異質性とアノテーションの不信頼性は、脳信号を用いた疾患のインテリジェントな診断に大きく挑戦する。 注目すべき例として、脳波に基づく神経変性疾患の診断がある。 本研究は,4つの中心から発生した脳波信号に基づいて神経変性疾患の診断を行うために,manifold Attention and Confidence Stratification(MACS)を用いた伝達可能なフレームワークを提案する。 MACSフレームワークの有効性は、これらの特徴に起因しています。 1)Augmentorは、データ空間を豊かにするために、様々な脳波で表される脳の変種を生成します。 2 スイッチナーは、信頼されたサンプルの特徴空間を拡充し、不正にラベル付けされたサンプルの過度な適合を減少させる。 3)エンコーダはリーマン多様体とユークリッド計量を用いて脳波の時空間変動と動的同期を捉える。 4 プロジェクターは、二重頭部を備え、複数の脳の変種にまたがる整合性を監視し、診断精度を確保する。 5 ストラテジエータは、学習過程を通して、信頼度で学習サンプルを適応的に成層する。 6)MACSのフォワードとバックプロパゲーションは,信頼できないアノテーションで学習システムを安定させるために,信頼層化によって制約される。 神経認知障害と運動障害の両方を中心コーパスを用いて対象非依存に実験し,既存のアルゴリズムと比較して優れた性能を示した。 この研究は、中小脳疾患の脳波に基づく診断を改善するだけでなく、MACSの技術を他のデータ分析に拡張するための洞察、データの異質性への対処、マルチメディアおよびマルチモーダルコンテンツ理解におけるアノテーションの信頼性に関する洞察を提供する。

Cross-center data heterogeneity and annotation unreliability significantly challenge the intelligent diagnosis of diseases using brain signals. A notable example is the EEG-based diagnosis of neurodegenerative diseases, which features subtler abnormal neural dynamics typically observed in small-group settings. To advance this area, in this work, we introduce a transferable framework employing Manifold Attention and Confidence Stratification (MACS) to diagnose neurodegenerative disorders based on EEG signals sourced from four centers with unreliable annotations. The MACS framework's effectiveness stems from these features: 1) The Augmentor generates various EEG-represented brain variants to enrich the data space; 2) The Switcher enhances the feature space for trusted samples and reduces overfitting on incorrectly labeled samples; 3) The Encoder uses the Riemannian manifold and Euclidean metrics to capture spatiotemporal variations and dynamic synchronization in EEG; 4) The Projector, equipped with dual heads, monitors consistency across multiple brain variants and ensures diagnostic accuracy; 5) The Stratifier adaptively stratifies learned samples by confidence levels throughout the training process; 6) Forward and backpropagation in MACS are constrained by confidence stratification to stabilize the learning system amid unreliable annotations. Our subject-independent experiments, conducted on both neurocognitive and movement disorders using cross-center corpora, have demonstrated superior performance compared to existing related algorithms. This work not only improves EEG-based diagnostics for cross-center and small-setting brain diseases but also offers insights into extending MACS techniques to other data analyses, tackling data heterogeneity and annotation unreliability in multimedia and multimodal content understanding.
翻訳日:2024-05-03 21:02:11 公開日:2024-04-29
# 深層学習による共同信号検出と自動変調分類

Joint Signal Detection and Automatic Modulation Classification via Deep Learning ( http://arxiv.org/abs/2405.00736v1 )

ライセンス: Link先を確認
Huijun Xing, Xuhui Zhang, Shuo Chang, Jinke Ren, Zixun Zhang, Jie Xu, Shuguang Cui, (参考訳) 信号検出と変調分類は、様々な無線通信システムにおいて2つの重要な課題である。 本稿では,異なる変調方式の複数の信号が異なるキャリア周波数で共存する現実的かつ複雑なシナリオを考慮した共同信号検出と自動変調分類(AMC)について検討する。 まず、共同設計を容易にするために、既存のRADIOMLデータセット(CRML23)を生成する。 信号検出ステップを無視した一般向けAMCデータセットと異なり、我々の合成データセットはより現実的な多重信号共存シナリオをカバーしている。 そこで我々は,信号検出用モジュールとAMCの2つのモジュールからなる複数信号共存環境に対する検出と分類のための共同フレームワークを提案する。 特に、これらの2つのモジュールは、"proposal"と呼ばれる指定されたデータ構造を用いて相互接続される。 最後に、新たに開発したデータセットに対して広範囲なシミュレーションを行い、設計の有効性を実証する。 私たちのコードとデータセットはオープンソースとして公開されています(https://github.com/Singingkettle/ChangShuoRadioData)。

Signal detection and modulation classification are two crucial tasks in various wireless communication systems. Different from prior works that investigate them independently, this paper studies the joint signal detection and automatic modulation classification (AMC) by considering a realistic and complex scenario, in which multiple signals with different modulation schemes coexist at different carrier frequencies. We first generate a coexisting RADIOML dataset (CRML23) to facilitate the joint design. Different from the publicly available AMC dataset ignoring the signal detection step and containing only one signal, our synthetic dataset covers the more realistic multiple-signal coexisting scenario. Then, we present a joint framework for detection and classification (JDM) for such a multiple-signal coexisting environment, which consists of two modules for signal detection and AMC, respectively. In particular, these two modules are interconnected using a designated data structure called "proposal". Finally, we conduct extensive simulations over the newly developed dataset, which demonstrate the effectiveness of our designs. Our code and dataset are now available as open-source (https://github.com/Singingkettle/ChangShuoRadioData).
翻訳日:2024-05-03 21:02:11 公開日:2024-04-29
# HLS変換:高レベル合成によるFPGAのエネルギー効率Llama 2推論

HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis ( http://arxiv.org/abs/2405.00738v1 )

ライセンス: Link先を確認
Andy He, Darren Key, Mason Bulling, Andrew Chang, Skyler Shapiro, Everett Lee, (参考訳) グラフィックス処理ユニット(GPU)はディープラーニングアプリケーションの主要なハードウェアアクセラレータとなり、トランスフォーマーのトレーニングや推論に広く使用されている。 しかし、GPUは大量のエネルギーを必要とし、環境問題を引き起こし、高い運用コストを必要とし、エッジコンピューティングには不適当である。 我々は、フィールドプログラマブルゲートアレイ(FPGA)上の高レベル合成(HLS)を用いて、トランスフォーマー、すなわちオープンソースのLLMであるLlama 2を開発した。 HLSにより、レジスタ・トランスファーレベル(RTL)でコードを書くことなくFPGA設計を迅速にプロトタイプできる。 我々はこの手法をHLSTransformと命名し、GPUの4倍のベースクロック速度にもかかわらずRTX 3090 GPUの最大2.46倍の推論速度を維持しながら、Xilinx Virtex UltraScale+VU9PFPGAのトークンあたりの12.75倍の削減と8.25倍のエネルギー削減を実現した。 トランスフォーマーのための既存のオープンソースFPGAアクセラレータが欠如しているため、コードをオープンソースにして、合成のためのステップを文書化しています。 この研究は、トランスフォーマー推論におけるFPGAの使用を民主化し、エネルギー効率のよい推論方法全般の研究を刺激するステップとして役立つことを願っている。 コードはhttps://github.com/HLSTransform/submissionで確認できる。

Graphics Processing Units (GPUs) have become the leading hardware accelerator for deep learning applications and are used widely in training and inference of transformers; transformers have achieved state-of-the-art performance in many areas of machine learning and are especially used in most modern Large Language Models (LLMs). However, GPUs require large amounts of energy, which poses environmental concerns, demands high operational costs, and causes GPUs to be unsuitable for edge computing. We develop an accelerator for transformers, namely, Llama 2, an open-source state-of-the-art LLM, using high level synthesis (HLS) on Field Programmable Gate Arrays (FPGAs). HLS allows us to rapidly prototype FPGA designs without writing code at the register-transfer level (RTL). We name our method HLSTransform, and the FPGA designs we synthesize with HLS achieve up to a 12.75x reduction and 8.25x reduction in energy used per token on the Xilinx Virtex UltraScale+ VU9P FPGA compared to an Intel Xeon Broadwell E5-2686 v4 CPU and NVIDIA RTX 3090 GPU respectively, while increasing inference speeds by up to 2.46x compared to CPU and maintaining 0.53x the speed of an RTX 3090 GPU despite the GPU's 4 times higher base clock rate. With the lack of existing open-source FPGA accelerators for transformers, we open-source our code and document our steps for synthesis. We hope this work will serve as a step in democratizing the use of FPGAs in transformer inference and inspire research into energy-efficient inference methods as a whole. The code can be found on https://github.com/HLSTransform/submission.
翻訳日:2024-05-03 20:52:21 公開日:2024-04-29
# RISEプロジェクト:産業煙発生の認識

Project RISE: Recognizing Industrial Smoke Emissions ( http://arxiv.org/abs/2005.06111v9 )

ライセンス: Link先を確認
Yen-Chia Hsu, Ting-Hao 'Kenneth' Huang, Ting-Yao Hu, Paul Dille, Sean Prendi, Ryan Hoffman, Anastasia Tsuhlares, Jessica Pachuta, Randy Sargent, Illah Nourbakhsh, (参考訳) 産業用煙の排出は人間の健康に重大な影響を及ぼす。 以前の研究では、喫煙を視覚的証拠として識別するためにコンピュータビジョン(CV)技術を用いることで、規制当局の態度に影響を与え、市民に環境正義を追求するよう促すことが示されている。 しかし、既存のデータセットは、空気質の擁護を支援するために必要な堅牢なCVモデルをトレーニングするのに十分な品質や量ではない。 産業煙発生の認識のための,最初の大規模ビデオデータセットRISEを紹介する。 我々は市民科学のアプローチを採用し、地域コミュニティのメンバと協力し、ビデオクリップに煙の排出があるかどうかをアノテートした。 われわれのデータセットには、19の異なるビューから12,567のクリップが含まれており、3つの産業施設を監視している。 これらの昼間のクリップは、全4シーズンを含む2年間で30日間に及ぶ。 ディープニューラルネットワークを用いて、強力なパフォーマンスベースラインを確立し、喫煙認識の課題を明らかにする実験を行った。 調査では,コミュニティのフィードバックを考察し,市民科学者と群衆労働者を社会影響のための人工知能の応用に統合する機会を示した。

Industrial smoke emissions pose a significant concern to human health. Prior works have shown that using Computer Vision (CV) techniques to identify smoke as visual evidence can influence the attitude of regulators and empower citizens to pursue environmental justice. However, existing datasets are not of sufficient quality nor quantity to train the robust CV models needed to support air quality advocacy. We introduce RISE, the first large-scale video dataset for Recognizing Industrial Smoke Emissions. We adopted a citizen science approach to collaborate with local community members to annotate whether a video clip has smoke emissions. Our dataset contains 12,567 clips from 19 distinct views from cameras that monitored three industrial facilities. These daytime clips span 30 days over two years, including all four seasons. We ran experiments using deep neural networks to establish a strong performance baseline and reveal smoke recognition challenges. Our survey study discussed community feedback, and our data analysis displayed opportunities for integrating citizen scientists and crowd workers into the application of Artificial Intelligence for Social Impact.
翻訳日:2024-05-02 20:57:20 公開日:2024-04-29
# 病原性を最小化した合成マイクロバイオームのベイズ誘導生成

Bayesian-Guided Generation of Synthetic Microbiomes with Minimized Pathogenicity ( http://arxiv.org/abs/2405.00070v1 )

ライセンス: Link先を確認
Nisha Pillai, Bindu Nanduri, Michael J Rothrock Jr., Zhiqian Chen, Mahalingam Ramkumar, (参考訳) 合成マイクロバイオームは、MDR(multidtug resistance)研究における障壁に対処するために、微生物を調節する新しい可能性を提供する。 本稿では,MDR削減の候補を特定するため,合成微生物変異体の空間を効率的に探索するベイズ最適化手法を提案する。 マイクロバイオームデータセットはオートエンコーダを用いて低次元の潜伏空間に符号化された。 この空間からサンプリングすることで、合成マイクロバイオームシグネチャの生成が可能となった。 ベイズ最適化は、最小限のサンプルに基づいて制限されたMDR病原体を用いた設計の識別を最大化するために生物学的スクリーニングのための変種を選択するために実装された。 4つの獲得関数が評価され, 期待改善, 上位信頼境界, トンプソンサンプリング, 改善確率が得られた。 各戦略に基づいて, 合成試料をMDR検出により優先した。 期待された改善, 高い信頼度, 改善の確率は, トンプソンサンプリングよりもはるかに少ない検索率で連続的に合成マイクロバイオーム候補を生成した。 深層潜時空間マッピングとベイズ学習を併用し, MDRプロファイルをカスタマイズした合成マイクロバイオームの創出の可能性を示した。

Synthetic microbiomes offer new possibilities for modulating microbiota, to address the barriers in multidtug resistance (MDR) research. We present a Bayesian optimization approach to enable efficient searching over the space of synthetic microbiome variants to identify candidates predictive of reduced MDR. Microbiome datasets were encoded into a low-dimensional latent space using autoencoders. Sampling from this space allowed generation of synthetic microbiome signatures. Bayesian optimization was then implemented to select variants for biological screening to maximize identification of designs with restricted MDR pathogens based on minimal samples. Four acquisition functions were evaluated: expected improvement, upper confidence bound, Thompson sampling, and probability of improvement. Based on each strategy, synthetic samples were prioritized according to their MDR detection. Expected improvement, upper confidence bound, and probability of improvement consistently produced synthetic microbiome candidates with significantly fewer searches than Thompson sampling. By combining deep latent space mapping and Bayesian learning for efficient guided screening, this study demonstrated the feasibility of creating bespoke synthetic microbiomes with customized MDR profiles.
翻訳日:2024-05-02 17:35:46 公開日:2024-04-29
# 歪補正のための直交歪推定手法

A Deep Ordinal Distortion Estimation Approach for Distortion Rectification ( http://arxiv.org/abs/2007.10689v2 )

ライセンス: Link先を確認
Kang Liao, Chunyu Lin, Yao Zhao, (参考訳) ゆがみは、一般的な広角カメラや魚眼カメラによって撮影された画像に広く存在している。 歪み補正の長い歴史にもかかわらず、単一の歪み画像から歪みパラメータを正確に推定することは依然として困難である。 主な理由は、これらのパラメータが画像の特徴に暗黙的であり、歪み情報を完全に学習するネットワークに影響を与えることである。 本研究では,より高精度なパラメータを高効率で得られる新しい歪み補正手法を提案する。 我々の重要な洞察は、歪み補正は、1つの歪んだ画像から順序歪みを学習する問題として考えられることである。 そこで本研究では, 局所言語関連推定ネットワークを設計し, 順序歪みを学習し, 現実的な歪み分布を近似する。 暗黙的歪みパラメータとは対照的に、提案した順序歪みは画像の特徴とより明確な関係を持ち、ニューラルネットワークの歪み知覚を著しく向上させる。 歪み情報の冗長性を考慮すると,本手法では歪み補正に有効であることを示すために,歪み推定に歪み画像の一部のみを用いる。 我々はまず,不均一な歪みパラメータを順序的歪みを通じて学習しやすい中間表現に統一し,画像特徴と歪み補正のギャップを埋める。 実験の結果,本手法は,視覚的外観上での最高の性能を示しながら,定量的評価を約23%改善し,最先端手法よりも優れた性能を示した。 コードはhttps://github.com/KangLiao929/OrdinalDistortionで公開されている。

Distortion is widely existed in the images captured by popular wide-angle cameras and fisheye cameras. Despite the long history of distortion rectification, accurately estimating the distortion parameters from a single distorted image is still challenging. The main reason is these parameters are implicit to image features, influencing the networks to fully learn the distortion information. In this work, we propose a novel distortion rectification approach that can obtain more accurate parameters with higher efficiency. Our key insight is that distortion rectification can be cast as a problem of learning an ordinal distortion from a single distorted image. To solve this problem, we design a local-global associated estimation network that learns the ordinal distortion to approximate the realistic distortion distribution. In contrast to the implicit distortion parameters, the proposed ordinal distortion have more explicit relationship with image features, and thus significantly boosts the distortion perception of neural networks. Considering the redundancy of distortion information, our approach only uses a part of distorted image for the ordinal distortion estimation, showing promising applications in the efficient distortion rectification. To our knowledge, we first unify the heterogeneous distortion parameters into a learning-friendly intermediate representation through ordinal distortion, bridging the gap between image feature and distortion rectification. The experimental results demonstrate that our approach outperforms the state-of-the-art methods by a significant margin, with approximately 23% improvement on the quantitative evaluation while displaying the best performance on visual appearance. The code is available at https://github.com/KangLiao929/OrdinalDistortion.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-29
# ClustML:人間ラベルグループで学習した散乱体におけるクラスターパターンの複雑度の測定

ClustML: A Measure of Cluster Pattern Complexity in Scatterplots Learnt from Human-labeled Groupings ( http://arxiv.org/abs/2106.00599v3 )

ライセンス: Link先を確認
Mostafa M. Abbas, Ehsan Ullah, Abdelkader Baggag, Halima Bensmail, Michael Sedlmair, Michaël Aupetit, (参考訳) ビジュアル品質測定(VQM)は、視覚化のパターンを自動的に検出し、定量化することにより、アナリストを支援するように設計されている。 ClustMLと呼ばれる,これまでに収集した被験者の判断に基づいて学習した,散在する人物の視覚的グルーピングパターンのための新しいVQMを提案する。 本モデルでは,ガウス混合モデルのパラメトリック空間における散乱プロットを符号化し,人間の判断データに基づいて学習した分類器を用いて,グループ化パターンの知覚的複雑さを推定する。 初期混合成分数と最終結合基数。 既存のVQMを改良し、まずは2ガウスのクラスタパターンに対する人間の判断をより良く推定し、次に、スパッタプロットにおける一般的なクラスタパターンのランク付け時に高い精度を与える。 我々は、ゲノムワイド・アソシエーション研究における親族データの解析にそれを用いており、専門家は大規模な散布体の視覚的分析に頼っている。 ベンチマークデータセットと新しいVQMを実用化し、さらなる改善を加えています。

Visual quality measures (VQMs) are designed to support analysts by automatically detecting and quantifying patterns in visualizations. We propose a new VQM for visual grouping patterns in scatterplots, called ClustML, which is trained on previously collected human subject judgments. Our model encodes scatterplots in the parametric space of a Gaussian Mixture Model and uses a classifier trained on human judgment data to estimate the perceptual complexity of grouping patterns. The numbers of initial mixture components and final combined groups. It improves on existing VQMs, first, by better estimating human judgments on two-Gaussian cluster patterns and, second, by giving higher accuracy when ranking general cluster patterns in scatterplots. We use it to analyze kinship data for genome-wide association studies, in which experts rely on the visual analysis of large sets of scatterplots. We make the benchmark datasets and the new VQM available for practical use and further improvements.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-29
# $k$-Randomized Response を用いたシャッフルモデルの高次プライバシー保証

Tight Differential Privacy Guarantees for the Shuffle Model with $k$-Randomized Response ( http://arxiv.org/abs/2205.08858v2 )

ライセンス: Link先を確認
Sayan Biswas, Kangsoo Jung, Catuscia Palamidessi, (参考訳) ほとんどの微分プライベート(DP)アルゴリズムは、信頼できるサードパーティがデータセットで作成されたクエリにノイズを挿入する中心モデル、あるいはユーザがデータをローカルに摂動するローカルモデルを想定している。 しかし、中央モデルは単一障害点を通して脆弱であり、局所モデルではデータの実用性が著しく低下する。 最近提案されたシャッフルモデル(shuffle model)は、メッセージがシャッフルされたサーバにローカルにプライベート化されたデータを送信し、プライベート化されたメッセージと対応するユーザの間のリンクを表現し、プライバシーとユーティリティのトレードオフをローカルモデルよりも向上させるという、中央パラダイムとローカルパラダイムの中間フレームワークである。 本稿では,$k$-Randomized Response 局所ランダム化器を用いたシャッフルモデルのDP保証について,理論上最も厳密な境界を導出する。 そこで我々は,ヒストグラムクエリにおけるシャッフルモデルの有用性に着目した。 我々は,$k$-RR機構で生成した経験的分布から元の分布を近似する行列逆転法を用いて,シャッフルモデルにより生成されたヒストグラムを除音し,結果として得られたヒストグラムの総変動距離を真から評価する。 我々は合成データと実データの両方を用いて、シャッフルモデルのプライバシー利用トレードオフと、最先端のガウスノイズを各ビンに付加して民営化した中心データの比較実験を行った。 実験結果は中央モデルを好む文献と一致しないが, 中央モデルとシャッフルモデルとの統計ユーティリティの差は非常に小さく, ほぼ同じ水準のDPであることを示す。

Most differentially private (DP) algorithms assume a central model in which a reliable third party inserts noise to queries made on datasets, or a local model where the users locally perturb their data. However, the central model is vulnerable via a single point of failure, and in the local model, the utility of the data deteriorates significantly. The recently proposed shuffle model is an intermediate framework between the central and the local paradigms where the users send their locally privatized data to a server where messages are shuffled, effacing the link between a privatized message and the corresponding user, giving a better trade-off between privacy and utility than the local model, as its privacy gets amplified without adding more noise. In this paper, we theoretically derive the strictest known bound for DP guarantee for the shuffle models with $k$-Randomized Response local randomizers. There on, we focus on the utility of the shuffle model for histogram queries. Leveraging on the matrix inversion method, which is used to approximate the original distribution from the empirical one produced by the $k$-RR mechanism, we de-noise the histogram produced by the shuffle model to evaluate the total variation distance of the resulting histogram from the true one, which we regard as the measure of utility of the privacy mechanism. We perform experiments on both synthetic and real data to compare the privacy-utility trade-off of the shuffle model with that of the central one privatized by adding the state-of-the-art Gaussian noise to each bin. Although the experimental results stay consistent with the literature that favour the central model, we see that, the difference in statistical utilities between the central and the shuffle models is very small, showing that they are almost comparable under the same level of DP.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-29
# 偶発的攻撃: 逐次的意思決定者に対する敵攻撃における検出可能性の問題

Illusory Attacks: Detectability Matters in Adversarial Attacks on Sequential Decision-Makers ( http://arxiv.org/abs/2207.10170v4 )

ライセンス: Link先を確認
Tim Franzmeyer, Stephen McAleer, João F. Henriques, Jakob N. Foerster, Philip H. S. Torr, Adel Bibi, Christian Schroeder de Witt, (参考訳) 現実世界に展開される自律エージェントは、感覚入力に対する敵の攻撃に対して堅牢である必要がある。 ロバスティフィケーション・エージェント・ポリシーは可能な限り最強の攻撃を予想する必要がある。 強化学習エージェントに対する既存の観測空間攻撃には共通の弱点があることを実証する。 ディテクタビリティは、セキュリティのエスカレーションを引き起こす可能性があるため、敵には望ましくない。 本稿では, シーケンシャルな意思決定者に対する新たな攻撃形式である \e attacks{} を紹介し, 有効かつ$\epsilon$-bounded statistics detectability の2つを紹介した。 本稿では,このような攻撃をエンドツーエンドに学習するための新しいデュアルアセンジアルゴリズムを提案する。 既存の攻撃と比較すると、自動的な手法で検出するのが極めて困難であることが実証的に見出され、人間の被験者(参照R84123/RE001)による小さな研究は、同様に人間の検出が困難であることを示唆している。 以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。 プロジェクトのWebサイトはhttps://tinyurl.com/illusory- attacksにある。

Autonomous agents deployed in the real world need to be robust against adversarial attacks on sensory inputs. Robustifying agent policies requires anticipating the strongest attacks possible. We demonstrate that existing observation-space attacks on reinforcement learning agents have a common weakness: while effective, their lack of information-theoretic detectability constraints makes them detectable using automated means or human inspection. Detectability is undesirable to adversaries as it may trigger security escalations. We introduce \eattacks{}, a novel form of adversarial attack on sequential decision-makers that is both effective and of $\epsilon$-bounded statistical detectability. We propose a novel dual ascent algorithm to learn such attacks end-to-end. Compared to existing attacks, we empirically find \eattacks{} to be significantly harder to detect with automated methods, and a small study with human participants (IRB approval under reference R84123/RE001) suggests they are similarly harder to detect for humans. Our findings suggest the need for better anomaly detectors, as well as effective hardware- and system-level defenses. The project website can be found at https://tinyurl.com/illusory-attacks.
翻訳日:2024-05-01 20:26:54 公開日:2024-04-29
# ローカルクラスタリングのためのR-ShinyのRパッケージ用グロークラスタへの応用

R-Shiny Applications for Local Clustering to be Included in the growclusters for R Package ( http://arxiv.org/abs/2304.06145v2 )

ライセンス: Link先を確認
Randall Powers, Wendy Martinez, Terrance Savitsky, (参考訳) growclusters for Rは、多変量データのパーティション構造を推定するパッケージである。 k-meansクラスタリングの階層的なバージョンを実装し、データセットの集合において既知の依存関係を考慮し、各セットがそのクラスタをひとつのグローバルパーティションから引き出す。 コレクションに設定された各コンポーネントデータセットは、データ内の既知のグループに対応する。 本稿では、クラスタリング手法を実装し、既知のグループ構造を持つデータセットをシミュレートするR Shinyアプリケーションに焦点を当てる。 これらのShinyアプリケーションは、クラスタリングの結果を可視化する新しい方法を実装している。 これらの視覚化には、コレクション全体のコンテキストにおける個々のデータセットの散乱と、コンポーネント(またはサブドメイン)データセットに対するクラスタ分散が含まれる。 労働統計局(BLS)による2000-2013年記事の収集から得られたデータは、R-Shinyの応用を説明するために使用される。 ここでは、コレクション内の既知のグループ化が出版年である。

growclusters for R is a package that estimates a partition structure for multivariate data. It does this by implementing a hierarchical version of k-means clustering that accounts for possible known dependencies in a collection of datasets, where each set draws its cluster means from a single, global partition. Each component data set in the collection corresponds to a known group in the data. This paper focuses on R Shiny applications that implement the clustering methodology and simulate data sets with known group structures. These Shiny applications implement novel ways of visualizing the results of the clustering. These visualizations include scatterplots of individual data sets in the context of the entire collection and cluster distributions versus component (or sub-domain) datasets. Data obtained from a collection of 2000-2013 articles from the Bureau of Labor Statistics (BLS) Monthly Labor Review (MLR) will be used to illustrate the R-Shiny applications. Here, the known grouping in the collection is the year of publication.
翻訳日:2024-05-01 20:17:07 公開日:2024-04-29
# 任意の次元同変ニューラルネットワーク

Any-dimensional equivariant neural networks ( http://arxiv.org/abs/2306.06327v2 )

ライセンス: Link先を確認
Eitan Levin, Mateo Díaz, (参考訳) 従来の教師付き学習は、関数を一定次元の入出力ペアの集合に適合させることで未知のマッピングを学習することを目的としている。 適合関数は、同じ次元の入力で定義される。 例として、任意の大きさのグラフ上で定義されたグラフパラメータや、任意の数の粒子上で定義された物理量がある。 我々は、代数トポロジで新たに発見された現象である表現安定性を利用して、任意の次元でデータでトレーニングし、任意の次元で入力を受け入れるよう拡張できる同変ニューラルネットワークを定義する。 当社のアプローチはユーザフレンドリで,ネットワークアーキテクチャとグループのみを均等に必要としており,任意のトレーニング手順と組み合わせることができる。 提案手法の簡単なオープンソース実装と,予備的な数値実験を提供する。

Traditional supervised learning aims to learn an unknown mapping by fitting a function to a set of input-output pairs with a fixed dimension. The fitted function is then defined on inputs of the same dimension. However, in many settings, the unknown mapping takes inputs in any dimension; examples include graph parameters defined on graphs of any size and physics quantities defined on an arbitrary number of particles. We leverage a newly-discovered phenomenon in algebraic topology, called representation stability, to define equivariant neural networks that can be trained with data in a fixed dimension and then extended to accept inputs in any dimension. Our approach is user-friendly, requiring only the network architecture and the groups for equivariance, and can be combined with any training procedure. We provide a simple open-source implementation of our methods and offer preliminary numerical experiments.
翻訳日:2024-05-01 20:07:22 公開日:2024-04-29
# AutoAgents: 自動エージェント生成フレームワーク

AutoAgents: A Framework for Automatic Agent Generation ( http://arxiv.org/abs/2309.17288v3 )

ライセンス: Link先を確認
Guangyao Chen, Siwei Dong, Yu Shu, Ge Zhang, Jaward Sesay, Börje F. Karlsson, Jie Fu, Yemin Shi, (参考訳) 大規模言語モデル(LLM)は、マルチエージェントシステムによるタスク解決の大幅な進歩を実現している。 しかし、既存のLLMベースのマルチエージェントアプローチの多くは、単純なタスクを扱うために事前に定義されたエージェントに依存しており、複数のエージェントの協調の適応性は異なるシナリオに制限されている。 そこで我々は,複数の専門エージェントを適応的に生成,コーディネートしてAIチームを構築する,革新的なフレームワークであるAutoAgentsを紹介した。 具体的には、AutoAgentsは、タスクの内容に基づいて複数の必要なエージェントを動的に生成し、生成された専門家エージェントに基づいて現在のタスクの計画ソリューションを作成することで、タスクとロールの関係を結合する。 複数の特殊エージェントが互いに協力し、タスクを効率的に達成します。 同時に、指定された計画とエージェントの反応を反映し、それらを改善するために、オブザーバの役割がフレームワークに組み込まれる。 各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。 これは、異なるタスクとチーム協力に異なる役割を割り当てることの重要性を強調し、複雑なタスクに取り組むための新しい視点を提供する。 プロジェクトのリポジトリはhttps://github.com/Link-AGI/AutoAgentsで公開されている。

Large language models (LLMs) have enabled remarkable advances in automated task-solving with multi-agent systems. However, most existing LLM-based multi-agent approaches rely on predefined agents to handle simple tasks, limiting the adaptability of multi-agent collaboration to different scenarios. Therefore, we introduce AutoAgents, an innovative framework that adaptively generates and coordinates multiple specialized agents to build an AI team according to different tasks. Specifically, AutoAgents couples the relationship between tasks and roles by dynamically generating multiple required agents based on task content and planning solutions for the current task based on the generated expert agents. Multiple specialized agents collaborate with each other to efficiently accomplish tasks. Concurrently, an observer role is incorporated into the framework to reflect on the designated plans and agents' responses and improve upon them. Our experiments on various benchmarks demonstrate that AutoAgents generates more coherent and accurate solutions than the existing multi-agent methods. This underscores the significance of assigning different roles to different tasks and of team cooperation, offering new perspectives for tackling complex tasks. The repository of this project is available at https://github.com/Link-AGI/AutoAgents.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-29
# 弾力性安全な強化学習のための制約付きポリシー最適化

Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning ( http://arxiv.org/abs/2310.03718v2 )

ライセンス: Link先を確認
Yihang Yao, Zuxin Liu, Zhepeng Cen, Jiacheng Zhu, Wenhao Yu, Tingnan Zhang, Ding Zhao, (参考訳) 安全強化学習(RL)は、事前定義された安全制約を受ける報酬最大化エージェントの訓練に焦点を当てる。 しかし、展開中のさまざまな安全制約に適応できる万能な安全ポリシーを、再訓練なしに学習することは、未調査で困難な領域である。 本研究では, 汎用安全RL問題を定式化し, トレーニング効率とゼロショット適応能力の2つの主要な要件について考察する。 そこで我々は,条件付き制約付き政策最適化 (CCPO) フレームワークを導入し,(1) 未知のしきい値条件下で値関数を近似するVersatile Value Estimation (VVE) と,(2) ポリシー最適化中の任意の制約しきい値の符号化を行う Conditioned Variational Inference (CVI) の2つの重要なモジュールについて述べる。 CCPOは安全性とタスク性能の点で基準線を上回り、ゼロショット適応能力はデータ効率の異なる制約閾値に保たれることを示した。 これにより、我々のアプローチは実世界の動的アプリケーションに適している。

Safe reinforcement learning (RL) focuses on training reward-maximizing agents subject to pre-defined safety constraints. Yet, learning versatile safe policies that can adapt to varying safety constraint requirements during deployment without retraining remains a largely unexplored and challenging area. In this work, we formulate the versatile safe RL problem and consider two primary requirements: training efficiency and zero-shot adaptation capability. To address them, we introduce the Conditioned Constrained Policy Optimization (CCPO) framework, consisting of two key modules: (1) Versatile Value Estimation (VVE) for approximating value functions under unseen threshold conditions, and (2) Conditioned Variational Inference (CVI) for encoding arbitrary constraint thresholds during policy optimization. Our extensive experiments demonstrate that CCPO outperforms the baselines in terms of safety and task performance while preserving zero-shot adaptation capabilities to different constraint thresholds data-efficiently. This makes our approach suitable for real-world dynamic applications.
翻訳日:2024-05-01 19:57:27 公開日:2024-04-29
# ハイブリッドデータを用いた効果的かつ効率的なフェデレーションツリー学習

Effective and Efficient Federated Tree Learning on Hybrid Data ( http://arxiv.org/abs/2310.11865v2 )

ライセンス: Link先を確認
Qinbin Li, Chulin Xie, Xiaojun Xu, Xiaoyuan Liu, Ce Zhang, Bo Li, Bingsheng He, Dawn Song, (参考訳) フェデレートラーニングは有望な分散学習パラダイムとして登場し、生データを転送することなく、複数のパーティ間の協調学習を促進する。 しかし、既存のフェデレート学習研究の多くは、異なるパーティのデータが同じ特徴やサンプル空間から来ていると仮定される水平または垂直のデータ設定に焦点を当てている。 実際には、さまざまなパーティのデータが機能とサンプルの両方で異なる可能性がある、ハイブリッドデータ設定が一般的なシナリオである。 そこで本研究では,ハイブリッドデータ上でのフェデレーションツリー学習を可能にする,新しいフェデレーション学習手法であるHybridTreeを提案する。 木における一貫した分割規則の存在を観察する。 これらの分割ルールの助けを借りて、理論的には、当事者の知識が木の下層に組み込むことができることを示す。 理論解析に基づき,木を訓練するために,頻繁な通信トラフィックを必要としない階層レベルのソリューションを提案する。 実験により,HybridTreeは計算および通信のオーバーヘッドが低い集中的な設定に匹敵する精度を達成できることを示した。 HybridTreeは、他のベースラインに比べて最大8倍のスピードアップを達成することができる。

Federated learning has emerged as a promising distributed learning paradigm that facilitates collaborative learning among multiple parties without transferring raw data. However, most existing federated learning studies focus on either horizontal or vertical data settings, where the data of different parties are assumed to be from the same feature or sample space. In practice, a common scenario is the hybrid data setting, where data from different parties may differ both in the features and samples. To address this, we propose HybridTree, a novel federated learning approach that enables federated tree learning on hybrid data. We observe the existence of consistent split rules in trees. With the help of these split rules, we theoretically show that the knowledge of parties can be incorporated into the lower layers of a tree. Based on our theoretical analysis, we propose a layer-level solution that does not need frequent communication traffic to train a tree. Our experiments demonstrate that HybridTree can achieve comparable accuracy to the centralized setting with low computational and communication overhead. HybridTree can achieve up to 8 times speedup compared with the other baselines.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-29
# GAN生成画像の品質評価にスキューを使う

Using Skew to Assess the Quality of GAN-generated Image Features ( http://arxiv.org/abs/2310.20636v2 )

ライセンス: Link先を確認
Lorenzo Luzi, Helen Jenne, Ryan Murray, Carlos Ortiz Marrero, (参考訳) GAN(Generative Adversarial Networks)の急速な進歩は、これらのモデルを堅牢に評価する必要がある。 確立された評価基準の中で、Fr\'{e}chetInception Distance (FID)は、その概念的単純さ、高速な計算時間、人間の知覚との強い相関により広く採用されている。 しかし、FIDには固有の制限があり、主に特徴埋め込みがガウス分布に従うという仮定から来ており、したがって最初の2つの瞬間によって定義することができる。 本稿では,画像特徴データにおける第3のモーメントの重要性を考察し,この情報を用いて新たな尺度を定義し,Skew Inception Distance (SID) と呼ぶ。 SIDは確率分布の擬似測度であり、FIDをどのように拡張するかを示し、その計算の実用的な方法を示す。 我々の数値実験では、SIDはFIDで追跡するか、イメージネットデータのイメージ特性を評価する際に、人間の知覚とより密接に一致している。 また、FIDとSIDの両方の計算時間を高速化するために、主成分分析が利用可能であることを示す。 GAN評価における画像特徴に対するSIDの利用に焦点をあてるが、他の生成モデルの評価を含め、SIDはより一般的に適用できる。

The rapid advancement of Generative Adversarial Networks (GANs) necessitates the need to robustly evaluate these models. Among the established evaluation criteria, the Fr\'{e}chetInception Distance (FID) has been widely adopted due to its conceptual simplicity, fast computation time, and strong correlation with human perception. However, FID has inherent limitations, mainly stemming from its assumption that feature embeddings follow a Gaussian distribution, and therefore can be defined by their first two moments. As this does not hold in practice, in this paper we explore the importance of third-moments in image feature data and use this information to define a new measure, which we call the Skew Inception Distance (SID). We prove that SID is a pseudometric on probability distributions, show how it extends FID, and present a practical method for its computation. Our numerical experiments support that SID either tracks with FID or, in some cases, aligns more closely with human perception when evaluating image features of ImageNet data. Our work also shows that principal component analysis can be used to speed up the computation time of both FID and SID. Although we focus on using SID on image features for GAN evaluation, SID is applicable much more generally, including for the evaluation of other generative models.
翻訳日:2024-05-01 19:47:42 公開日:2024-04-29
# 協調型マルチエージェントマルコフ決定プロセスにおける分散政策反復のための近似線形計画法

Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes ( http://arxiv.org/abs/2311.11789v2 )

ライセンス: Link先を確認
Lakshmi Mandal, Chandrashekar Lakshminarayanan, Shalabh Bhatnagar, (参考訳) 本研究では,mエージェントを含む協調型マルチエージェントマルコフ決定プロセス(MDP)について考察する。 各決定のエポックにおいて、すべてのmエージェントは、共通の長期的な目的を最大化するために、独立してアクションを選択する。 多エージェントセットアップのポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加し、膨大な計算コストが発生する。 このように、近年の作業では、各エージェントが一方的に意思決定を改善し、他のエージェントの判断が固定されていることを前提として、分散化された政策改善を考察している。 しかし、高次元状態-作用空間を持つ多数のエージェントに対して計算コストがかかる文献では、正確な値関数が考慮されている。 そこで本研究では,関数近似を用いた近似線形計画法を用いて,分散政策改善のための近似値関数を求める。 さらに, 協調型多エージェント有限・無限地平面ディスカウント型MDPについても検討し, それぞれの場合に適したアルゴリズムを提案する。 さらに,本論文における既存の最先端アルゴリズムに対して,理論的保証を提供し,その利点を実証する。

In this work, we consider a cooperative multi-agent Markov decision process (MDP) involving m agents. At each decision epoch, all the m agents independently select actions in order to maximize a common long-term objective. In the policy iteration process of multi-agent setup, the number of actions grows exponentially with the number of agents, incurring huge computational costs. Thus, recent works consider decentralized policy improvement, where each agent improves its decisions unilaterally, assuming that the decisions of the other agents are fixed. However, exact value functions are considered in the literature, which is computationally expensive for a large number of agents with high dimensional state-action space. Thus, we propose approximate decentralized policy iteration algorithms, using approximate linear programming with function approximation to compute the approximate value function for decentralized policy improvement. Further, we consider (both) cooperative multi-agent finite and infinite horizon discounted MDPs and propose suitable algorithms in each case. Moreover, we provide theoretical guarantees for our algorithms and also demonstrate their advantages over existing state-of-the-art algorithms in the literature.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-29
# nach0: マルチモーダルな自然言語と化学言語の基礎モデル

nach0: Multimodal Natural and Chemical Languages Foundation Model ( http://arxiv.org/abs/2311.12410v2 )

ライセンス: Link先を確認
Micha Livne, Zulfat Miftahutdinov, Elena Tutubalina, Maksim Kuznetsov, Daniil Polykovskiy, Annika Brundyn, Aastha Jhunjhunwala, Anthony Costa, Alex Aliper, Alán Aspuru-Guzik, Alex Zhavoronkov, (参考訳) 大規模言語モデル(LLM)は、様々な領域において科学的進歩を著しく推進し、多くの論文が創造的なソリューションで複雑な問題に取り組む能力を示した。 本稿では, 生物医学的質問応答, 実体認識, 分子生成, 分子合成, 属性予測など, 様々な化学・生物学的課題を解く新しい基礎モデル, nach0を提案する。 nach0は、科学文献、特許、分子文字列のラベルのないテキストで事前訓練されたマルチドメインでマルチタスクのエンコーダである。 我々は,タスクの最終的なセットに対して,特定のタスク関連命令を使用してnach0を微調整するインストラクションチューニングを採用した。 nach0を効果的に訓練するために、NeMoフレームワークを活用し、ベースモデルと大型モデルの両方を効率的に並列に最適化する。 大規模な実験により、我々のモデルは単一ドメインおよびクロスドメインタスクにおける最先端のベースラインより優れていることが示された。 さらに、分子およびテキスト形式で高品質な出力を生成することができ、その有効性をマルチドメイン設定で示すことができる。

Large Language Models (LLMs) have substantially driven scientific progress in various domains, and many papers have demonstrated their ability to tackle complex problems with creative solutions. Our paper introduces a new foundation model, nach0, capable of solving various chemical and biological tasks: biomedical question answering, named entity recognition, molecular generation, molecular synthesis, attributes prediction, and others. nach0 is a multi-domain and multi-task encoder-decoder LLM pre-trained on unlabeled text from scientific literature, patents, and molecule strings to incorporate a range of chemical and linguistic knowledge. We employed instruction tuning, where specific task-related instructions are utilized to fine-tune nach0 for the final set of tasks. To train nach0 effectively, we leverage the NeMo framework, enabling efficient parallel optimization of both base and large model versions. Extensive experiments demonstrate that our model outperforms state-of-the-art baselines on single-domain and cross-domain tasks. Furthermore, it can generate high-quality outputs in molecular and textual formats, showcasing its effectiveness in multi-domain setups.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-29
# 神経外科手術室における機器の同定による手術効率向上のためのコンピュータビジョン : 概念実証研究

Computer Vision for Increased Operative Efficiency via Identification of Instruments in the Neurosurgical Operating Room: A Proof-of-Concept Study ( http://arxiv.org/abs/2312.03001v2 )

ライセンス: Link先を確認
Tanner J. Zachem, Sully F. Chen, Vishal Venkatraman, David AW Sykes, Ravi Prakash, Koumani W. Ntowe, Mikhail A. Bethell, Samantha Spellicy, Alexander D Suarez, Weston Ross, Patrick J. Codd, (参考訳) Objectives Computer Vision(CV)は、機械が画像やビデオの解釈と理解を可能にする人工知能の分野である。 CVは手術器具を追跡するために手術室(OR)で補助を受ける可能性がある。 手術器具の追跡と管理のための潜在的な解決策として,神経外科手術室で手術器具を識別するCVアルゴリズムを構築した。 方法】一般的な27種類の神経外科器具の1660枚の画像を収集した。 画像はVGG Image Annotatorを使用してラベル付けされ、5倍のクロスバリデーションを使用してU-Net Convolutional Neural Networkをトレーニングするために80%のトレーニングと20%のテストセットに分割された。 結果:U-Netでは,25種類の楽器を識別するツール識別精度が80-100%,19/25級が90%以上であった。 モデルの性能は、60-80%の精度を持つAdson、Gerald、Debakeyのシロップをサブ分類するには不十分であった。 結論 手術器具を正確に識別するために機械学習を用いることの可能性を実証した。 機器識別は、外科的トレイパッキングの最適化、道具の使用量と無駄の削減、機器のずれの発生率の低減、定期的な機器メンテナンスのタイミングの補助に役立つ。 神経外科手術室に現れるすべての手術器具の精度を高めるには、さらなるトレーニングデータが必要である。 このような技術は、世界中の外科医がより少ない時間で行うことができるような、あらゆるタイプの手術に本当に必要なツールを証明するための方法として使われる可能性がある。

Objectives Computer vision (CV) is a field of artificial intelligence that enables machines to interpret and understand images and videos. CV has the potential to be of assistance in the operating room (OR) to track surgical instruments. We built a CV algorithm for identifying surgical instruments in the neurosurgical operating room as a potential solution for surgical instrument tracking and management to decrease surgical waste and opening of unnecessary tools. Methods We collected 1660 images of 27 commonly used neurosurgical instruments. Images were labeled using the VGG Image Annotator and split into 80% training and 20% testing sets in order to train a U-Net Convolutional Neural Network using 5-fold cross validation. Results Our U-Net achieved a tool identification accuracy of 80-100% when distinguishing 25 classes of instruments, with 19/25 classes having accuracy over 90%. The model performance was not adequate for sub classifying Adson, Gerald, and Debakey forceps, which had accuracies of 60-80%. Conclusions We demonstrated the viability of using machine learning to accurately identify surgical instruments. Instrument identification could help optimize surgical tray packing, decrease tool usage and waste, decrease incidence of instrument misplacement events, and assist in timing of routine instrument maintenance. More training data will be needed to increase accuracy across all surgical instruments that would appear in a neurosurgical operating room. Such technology has the potential to be used as a method to be used for proving what tools are truly needed in each type of operation allowing surgeons across the world to do more with less.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-29
# ロボットマニピュレーション学習と情報伝達における行動空間の役割について

On the Role of the Action Space in Robot Manipulation Learning and Sim-to-Real Transfer ( http://arxiv.org/abs/2312.03673v2 )

ライセンス: Link先を確認
Elie Aljalbout, Felix Frank, Maximilian Karl, Patrick van der Smagt, (参考訳) 本研究では,ロボット操作学習とシミュレート・トゥ・リアル・トランスファーにおける行動空間の選択について検討する。 我々は、パフォーマンスを評価するメトリクスを定義し、異なるアクション空間における出現する特性について検討する。 我々は、13の異なる制御空間を用いて、250以上の強化学習〜(RL)エージェントをシミュレートされたリーチおよびプッシュタスクで訓練する。 空間の選択は、共通のアクション空間設計特性の組み合わせにまたがる。 シミュレーションにおけるトレーニング性能の評価と実環境への移行について検討した。 ロボット行動空間の良質な特徴と悪質な特徴を特定し,今後の設計を推奨する。 本研究は,ロボット操作タスクにおけるRLアルゴリズムの設計に重要な意味を持ち,実世界のロボット工学におけるRLエージェントのトレーニングおよび転送において,アクション空間の注意深い検討の必要性を強調した。

We study the choice of action space in robot manipulation learning and sim-to-real transfer. We define metrics that assess the performance, and examine the emerging properties in the different action spaces. We train over 250 reinforcement learning~(RL) agents in simulated reaching and pushing tasks, using 13 different control spaces. The choice of spaces spans combinations of common action space design characteristics. We evaluate the training performance in simulation and the transfer to a real-world environment. We identify good and bad characteristics of robotic action spaces and make recommendations for future designs. Our findings have important implications for the design of RL algorithms for robot manipulation tasks, and highlight the need for careful consideration of action spaces when training and transferring RL agents for real-world robotics.
翻訳日:2024-05-01 19:37:57 公開日:2024-04-29
# 隠れたトリガーを検出する:非マルコフ逆関数をマルコフにマッピングする

Detecting Hidden Triggers: Mapping Non-Markov Reward Functions to Markov ( http://arxiv.org/abs/2401.11325v2 )

ライセンス: Link先を確認
Gregory Hyde, Eugene Santos Jr, (参考訳) 多くの強化学習アルゴリズムは最適性を保証するためにマルコフ報酬関数を仮定する。 しかし、すべての報酬函数がマルコフであることが知られているわけではない。 本稿では,非マルコフ報酬関数を等価なマルコフ報酬関数にマッピングするフレームワークを提案する。 Reward Machinesを学習する一般的な実践とは異なり、学習する高レベルな命題記号のセットは必要ありません。 むしろ、エンコードするデータから直接 \emph{hidden triggers} を学びます。 本稿では,1つのオートマトンで報酬依存をモデル化できることを考えると,リワードマシンの学習と決定論的有限状態オートマタの学習の重要性を示す。 私たちはこの区別を学習目的として定式化する。 我々のマッピングプロセスは整数線形計画問題として構築されている。 私たちは、マッピングが基盤となるプロセスに対して一貫した期待を提供することを証明しています。 我々は,Officeworld Domainにおけるブラックボックス非マルコフ・リワード関数を学習することで,我々のアプローチを実証的に検証する。 さらに,新たなドメインであるBreakfastworldにおいて,報酬間の依存関係の学習の有効性を示す。

Many Reinforcement Learning algorithms assume a Markov reward function to guarantee optimality. However, not all reward functions are known to be Markov. In this paper, we propose a framework for mapping non-Markov reward functions into equivalent Markov ones by learning a Reward Machine - a specialized reward automaton. Unlike the general practice of learning Reward Machines, we do not require a set of high-level propositional symbols from which to learn. Rather, we learn \emph{hidden triggers} directly from data that encode them. We demonstrate the importance of learning Reward Machines versus their Deterministic Finite-State Automata counterparts, for this task, given their ability to model reward dependencies in a single automaton. We formalize this distinction in our learning objective. Our mapping process is constructed as an Integer Linear Programming problem. We prove that our mappings provide consistent expectations for the underlying process. We empirically validate our approach by learning black-box non-Markov Reward functions in the Officeworld Domain. Additionally, we demonstrate the effectiveness of learning dependencies between rewards in a new domain, Breakfastworld.
翻訳日:2024-05-01 19:28:13 公開日:2024-04-29
# 臨床擬似ノートを用いた救急部門意思決定支援

Emergency Department Decision Support using Clinical Pseudo-notes ( http://arxiv.org/abs/2402.00160v2 )

ライセンス: Link先を確認
Simon A. Lee, Sujay Jain, Alex Chen, Kyoka Ono, Jennifer Fang, Akos Rudas, Jeffrey N. Chiang, (参考訳) 本研究では,複数モードのEHR表データを擬似ノートを用いてテキストにシリアライズし,臨床テキスト生成を模倣する手法であるMultiple Embedding Model for EHR (MEME)を提案する。 この変換は、分類データのより良い表現を保存し、文脈を学習するだけでなく、リッチな特徴表現のための事前訓練された基礎モデルの効果的な利用を可能にする。 文脈長の潜在的な問題に対処するため、我々のフレームワークは、それぞれのEHRモダリティの埋め込みを別々に符号化する。 複数の病院システムにまたがる救急部門における意思決定支援業務にMEMEを適用することで,その効果を実証する。 その結果,MEMEは従来の機械学習,EHR固有の基礎モデル,一般LLMよりも優れており,汎用的かつ拡張可能なEHR表現戦略としての可能性を強調している。

In this work, we introduce the Multiple Embedding Model for EHR (MEME), an approach that serializes multimodal EHR tabular data into text using pseudo-notes, mimicking clinical text generation. This conversion not only preserves better representations of categorical data and learns contexts but also enables the effective employment of pretrained foundation models for rich feature representation. To address potential issues with context length, our framework encodes embeddings for each EHR modality separately. We demonstrate the effectiveness of MEME by applying it to several decision support tasks within the Emergency Department across multiple hospital systems. Our findings indicate that MEME outperforms traditional machine learning, EHR-specific foundation models, and general LLMs, highlighting its potential as a general and extendible EHR representation strategy.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-29
# 二重性に基づく相互作用予測によるスケーラブルなマルチモーダルモデル予測制御

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions ( http://arxiv.org/abs/2402.01116v3 )

ライセンス: Link先を確認
Hansung Kim, Siddharth H. Nair, Francesco Borrelli, (参考訳) 複雑なマルチモーダルトラフィックシナリオにおいて,スケーラブルなリアルタイムモデル予測制御(MPC)を実現する階層型アーキテクチャを提案する。 このアーキテクチャは2つの重要なコンポーネントから構成される。 1) RAID-Net - ラグランジアン双対性を用いた自律走行車と周辺車両間のMPC予測地平線に沿った関連する相互作用を予測する新しい注意型リカレントニューラルネットワーク 2) 衝突回避制約を排除し, 計算効率を向上する確率的MPC問題を削減する。 本手法は,移動計画問題の解法において,12倍のスピードアップを示す,対話型周囲車両との交通交差点のシミュレーションで実証された。 提案されたアーキテクチャを複数の複雑なトラフィックシナリオで示すビデオは、以下の通りである。 GitHub:https://github.com/MPC-Berkeley/hmpc_raidnet

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
翻訳日:2024-05-01 19:18:28 公開日:2024-04-29
# ロボタクシー事故の解剖:クルーズ歩行者の事故から学んだこと

Anatomy of a Robotaxi Crash: Lessons from the Cruise Pedestrian Dragging Mishap ( http://arxiv.org/abs/2402.06046v2 )

ライセンス: Link先を確認
Philip Koopman, (参考訳) 2023年10月、GM Cruiseのロボタクシーとサンフランシスコの歩行者が衝突し、重傷を負っただけでなく、業界全体に持続する影響をもたらすであろう同社の劇的な不況も引き起こした。 Is-suesは、紛失事件そのものだけでなく、Cruiseがロボットタクシーで車の下に歩行者を引きずり込むのを間違えたことにも起因している。 外部調査報告は、事故を記述した資料を提供し、規制の観点から会社の対応を批判するが、安全工学の推奨事項を範囲から除外する。 外部報告資料の異なる部分を結びつけることで、イベント間の特定の事実や関係を明らかにする。 次に、近隣の不幸を認識して対応すること、複雑な状況下でいわゆる「最小リスク条件」戦略が不適切であること、不幸な事態を悪化させた過度に攻撃的な統合後の自動化選択に対処すること、不幸な組織的被害を下流で発生させることを認めること、などの安全性に関する教訓を探求する。

An October 2023 crash between a GM Cruise robotaxi and a pedestrian in San Francisco resulted not only in a severe injury, but also dramatic upheaval at that company that will likely have lasting effects throughout the industry. Is-sues stem not just from the loss events themselves, but also from how Cruise mishandled dealing with their robotaxi dragging a pedestrian under the vehicle after the initial post-crash stop. External investigation reports provide raw material describing the incident and critique the company's response from a regulatory point of view, but exclude safety engineering recommendations from scope. We highlight specific facts and relationships among events by tying together different pieces of the external report material. We then explore safety lessons that might be learned related to: recognizing and responding to nearby mishaps, building an accurate world model of a post-collision scenario, the in-adequacy of a so-called "minimal risk condition" strategy in complex situations, poor organizational discipline in responding to a mishap, overly aggressive post-collision automation choices that made a bad situation worse, and a reluctance to admit to a mishap causing much worse organizational harm down-stream.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-29
# 身体的AIの基礎的世界モデルにおける因果関係の本質的役割

The Essential Role of Causality in Foundation World Models for Embodied AI ( http://arxiv.org/abs/2402.06665v2 )

ライセンス: Link先を確認
Tarun Gupta, Wenbo Gong, Chao Ma, Nick Pawlowski, Agrin Hilmkil, Meyer Scetbon, Marc Rigter, Ade Famoti, Ashley Juan Llorens, Jianfeng Gao, Stefan Bauer, Danica Kragic, Bernhard Schölkopf, Cheng Zhang, (参考訳) 基礎モデルの最近の進歩、特に大規模マルチモーダルモデルや会話エージェントでは、一般的に有能なエンボディエージェントの可能性への関心が高まっている。 このようなエージェントは、多くの異なる現実世界環境で新しいタスクを実行する能力を必要とする。 しかし、現在の基礎モデルは物理的相互作用を正確にモデル化することができないため、Embodied AIには不十分である。 因果関係の研究は、可能な相互作用の結果を正確に予測するために不可欠である、バリディカル世界モデルの構築に寄与する。 本稿では,次世代のエンボディエージェントのための基礎世界モデルの構築に焦点をあて,これらにおける因果性の重要性を新たな視点として提示する。 我々は、世界との意義ある物理的相互作用を促進するためには、因果関係の考察を統合することが不可欠であると仮定する。 最後に、この文脈における因果関係に関する誤解を軽視し、今後の研究の展望を示す。

Recent advances in foundation models, especially in large multi-modal models and conversational agents, have ignited interest in the potential of generally capable embodied agents. Such agents will require the ability to perform new tasks in many different real-world environments. However, current foundation models fail to accurately model physical interactions and are therefore insufficient for Embodied AI. The study of causality lends itself to the construction of veridical world models, which are crucial for accurately predicting the outcomes of possible interactions. This paper focuses on the prospects of building foundation world models for the upcoming generation of embodied agents and presents a novel viewpoint on the significance of causality within these. We posit that integrating causal considerations is vital to facilitating meaningful physical interactions with the world. Finally, we demystify misconceptions about causality in this context and present our outlook for future research.
翻訳日:2024-05-01 19:18:28 公開日:2024-04-29
# UncertaintyTrack:マルチオブジェクトトラッキングにおける爆発検出と位置特定の不確実性

UncertaintyTrack: Exploiting Detection and Localization Uncertainty in Multi-Object Tracking ( http://arxiv.org/abs/2402.12303v2 )

ライセンス: Link先を確認
Chang Won Lee, Steven L. Waslander, (参考訳) 近年,Multi-object Tracking (MOT)法は,研究コミュニティからの強い関心と着実にオブジェクト検出法の改善により,性能が著しく向上している。 追跡手法の大多数は、追跡検出(TBD)パラダイムに従っており、関連する局所化の不確かさを意識せずに、受信した検出を盲目的に信頼している。 この不確実性認識の欠如は、MOTを含む下流のタスクに伝播した誤検知により、乗客を危険にさらすことができる自動運転のような安全クリティカルなタスクに問題を引き起こす。 箱の周囲の局所的不確実性を予測する確率的物体検出の研究は存在するが、自律走行のための2次元MOTの研究は、これらの推定値が物体追跡に有効に活用できるかどうかを研究していない。 本論文では,複数のTBDトラッカーに適用可能な拡張の集合であるUncertaintyTrackを紹介し,確率的対象検出器からの局所化不確実性推定を考慮に入れた。 バークレーディープドライブMOTデータセットの実験では,本手法と情報不確実性推定の組み合わせにより,IDスイッチの数を約19~3%削減し,mMOTAを2~3%改善した。 ソースコードはhttps://github.com/TRAILab/UncertaintyTrackで入手できる。

Multi-object tracking (MOT) methods have seen a significant boost in performance recently, due to strong interest from the research community and steadily improving object detection methods. The majority of tracking methods follow the tracking-by-detection (TBD) paradigm, blindly trust the incoming detections with no sense of their associated localization uncertainty. This lack of uncertainty awareness poses a problem in safety-critical tasks such as autonomous driving where passengers could be put at risk due to erroneous detections that have propagated to downstream tasks, including MOT. While there are existing works in probabilistic object detection that predict the localization uncertainty around the boxes, no work in 2D MOT for autonomous driving has studied whether these estimates are meaningful enough to be leveraged effectively in object tracking. We introduce UncertaintyTrack, a collection of extensions that can be applied to multiple TBD trackers to account for localization uncertainty estimates from probabilistic object detectors. Experiments on the Berkeley Deep Drive MOT dataset show that the combination of our method and informative uncertainty estimates reduces the number of ID switches by around 19\% and improves mMOTA by 2-3%. The source code is available at https://github.com/TRAILab/UncertaintyTrack
翻訳日:2024-05-01 19:18:28 公開日:2024-04-29
# Video ReCap: 時間長ビデオの再帰的キャプション

Video ReCap: Recursive Captioning of Hour-Long Videos ( http://arxiv.org/abs/2402.13250v4 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius, (参考訳) ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例えば、オブジェクト、シーン、アトミックアクション)を記述するテキストを出力するように設計されている。 しかし、ほとんどの現実世界のビデオは数分か数時間続き、異なる時間的粒度にまたがる複雑な階層構造を持つ。 本稿では,ビデオキャプションを劇的に異なる長さ(1秒から2時間)で処理し,複数の階層レベルで映像キャプションを出力する再帰的ビデオキャプションモデルであるVideo ReCapを提案する。 再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間の相乗効果を利用して、1時間のビデオを効率的に処理することができる。 ビデオの階層構造を学習するためのカリキュラム学習トレーニングスキームを,ビデオのアトミックな動作を記述したクリップレベルのキャプションから学び,セグメントレベルの記述に集中し,時間単位のビデオの要約を生成する。 さらに,Ego4Dを8,267個の長範囲ビデオ要約で拡張することにより,Ego4D-HCapデータセットを導入する。 再帰的モデルでは,階層レベルの異なるキャプションを柔軟に生成できると同時に,ビデオQA on EgoSchemaなどの複雑なビデオ理解タスクにも有効である。 データ、コード、モデルについては、https://sites.google.com/view/vidrecapを参照してください。

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
翻訳日:2024-05-01 19:18:28 公開日:2024-04-29
# QUCE: 生成的対実的説明のための経路ベース不確実性の最小化と定量化

QUCE: The Minimisation and Quantification of Path-Based Uncertainty for Generative Counterfactual Explanations ( http://arxiv.org/abs/2402.17516v3 )

ライセンス: Link先を確認
Jamie Duell, Monika Seisenberger, Hsuan Fu, Xiuyi Fan, (参考訳) Deep Neural Networks(DNN)は、機械学習(ML)ドメインにおける最も顕著なアプローチのひとつとして際立っている。 DNNの有効性は、最近の計算能力の増加と共に急上昇し、これらのアプローチはビッグデータにおける予測的課題に対処するために、かなりの複雑さにスケールすることができる。 しかし、DNNモデルの複雑さが増すにつれて、解釈可能性も低下する。 この課題に対応するために、Adversarial Gradient Integration (AGI)のような説明可能なモデルは、DNNが提供するパスベースの勾配を利用して意思決定を解明する。 しかし,分布外経路トラバーサル中に勾配が不規則を示す場合,経路に基づく説明器の性能は損なわれる可能性がある。 本稿では,経路の不確実性を最小限に抑えることで,流通経路を緩和する手法であるQuantified Uncertainty Counterfactual Explanations (QUCE)を紹介する。 QUCEは、説明を提示する際の不確実性を定量化するだけでなく、より特定の反実例を生成する。 本稿では,QUCE法の性能を,経路に基づく説明法と生成対実例の両方の競合手法と比較することによって示す。

Deep Neural Networks (DNNs) stand out as one of the most prominent approaches within the Machine Learning (ML) domain. The efficacy of DNNs has surged alongside recent increases in computational capacity, allowing these approaches to scale to significant complexities for addressing predictive challenges in big data. However, as the complexity of DNN models rises, interpretability diminishes. In response to this challenge, explainable models such as Adversarial Gradient Integration (AGI) leverage path-based gradients provided by DNNs to elucidate their decisions. Yet the performance of path-based explainers can be compromised when gradients exhibit irregularities during out-of-distribution path traversal. In this context, we introduce Quantified Uncertainty Counterfactual Explanations (QUCE), a method designed to mitigate out-of-distribution traversal by minimizing path uncertainty. QUCE not only quantifies uncertainty when presenting explanations but also generates more certain counterfactual examples. We showcase the performance of the QUCE method by comparing it with competing methods for both path-based explanations and generative counterfactual examples.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-29
# ソフトリストを用いた部分観測性を考慮したロボット組立のための対称性を考慮した強化学習

Symmetry-aware Reinforcement Learning for Robotic Assembly under Partial Observability with a Soft Wrist ( http://arxiv.org/abs/2402.18002v2 )

ライセンス: Link先を確認
Hai Nguyen, Tadashi Kozuno, Cristian C. Beltran-Hernandez, Masashi Hamaya, (参考訳) この研究は、ロボット組み立てにおいて、より安全に動作し、硬いものよりも低周波の制御信号を許容できるソフトな手首を用いて、接触に富んだペグ・イン・ホール作業に挑戦する。 以前の研究では、しばしば完全に観測可能な定式化を使用しており、ペグ・ツー・ホールのポーズに外部設定や推定器を必要とする。 対照的に、我々は、部分的に観察可能な定式化と、デモから深い強化学習を用いて、純粋に触覚的および固有受容的信号に作用するメモリベースのエージェントを学習する。 さらに、以前の研究は潜在的な領域対称性を含まないので、より大きな空間における解を探索しなければならない。 代わりに、トレーニングデータを増強し、補助的損失を構築し、エージェントに対称性を守らせることで、サンプル効率に対称性を活用することを提案する。 5種類の対称ペグ形状のシミュレーションの結果から,提案するエージェントは状態ベースエージェントに匹敵するか,さらに優れる可能性が示唆された。 特に、サンプル効率は、3時間以内に実際のロボットを直接学習することを可能にする。

This study tackles the representative yet challenging contact-rich peg-in-hole task of robotic assembly, using a soft wrist that can operate more safely and tolerate lower-frequency control signals than a rigid one. Previous studies often use a fully observable formulation, requiring external setups or estimators for the peg-to-hole pose. In contrast, we use a partially observable formulation and deep reinforcement learning from demonstrations to learn a memory-based agent that acts purely on haptic and proprioceptive signals. Moreover, previous works do not incorporate potential domain symmetry and thus must search for solutions in a bigger space. Instead, we propose to leverage the symmetry for sample efficiency by augmenting the training data and constructing auxiliary losses to force the agent to adhere to the symmetry. Results in simulation with five different symmetric peg shapes show that our proposed agent can be comparable to or even outperform a state-based agent. In particular, the sample efficiency also allows us to learn directly on the real robot within 3 hours.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-29
# LAB: チャットボットの大規模アライメント

LAB: Large-Scale Alignment for ChatBots ( http://arxiv.org/abs/2403.01081v3 )

ライセンス: Link先を確認
Shivchander Sudalairaj, Abhishek Bhandwaldar, Aldo Pareja, Kai Xu, David D. Cox, Akash Srivastava, (参考訳) LAB(Large-scale Alignment for chatBots)は,大規模言語モデル(LLM)トレーニングの指導・チューニングフェーズにおいて,スケーラビリティの課題を克服する新しい手法である。 分類誘導合成データ生成プロセスと多相チューニングフレームワークを活用することで、LABは高価な人間のアノテーションやGPT-4のようなプロプライエタリなモデルへの依存を著しく低減する。 従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。 したがって,LLMの能力向上のためのスケーラブルで費用対効果の高いソリューションと,大惨な忘れ込みの欠点を伴わない命令追従動作を提供することで,LLMの幅広い応用のための効率的なトレーニングの一歩を踏み出すことができる。

This work introduces LAB (Large-scale Alignment for chatBots), a novel methodology designed to overcome the scalability challenges in the instruction-tuning phase of large language model (LLM) training. Leveraging a taxonomy-guided synthetic data generation process and a multi-phase tuning framework, LAB significantly reduces reliance on expensive human annotations and proprietary models like GPT-4. We demonstrate that LAB-trained models can achieve competitive performance across several benchmarks compared to models trained with traditional human-annotated or GPT-4 generated synthetic data. Thus offering a scalable, cost-effective solution for enhancing LLM capabilities and instruction-following behaviors without the drawbacks of catastrophic forgetting, marking a step forward in the efficient training of LLMs for a wide range of applications.
翻訳日:2024-05-01 19:08:44 公開日:2024-04-29
# 大規模言語モデルによる交通事故管理の強化:重大度分類のためのハイブリッド機械学習アプローチ

Enhancing Traffic Incident Management with Large Language Models: A Hybrid Machine Learning Approach for Severity Classification ( http://arxiv.org/abs/2403.13547v2 )

ライセンス: Link先を確認
Artur Grigorev, Khaled Saleh, Yuming Ou, Adriana-Simona Mihaita, (参考訳) 本研究は,交通事故管理のための機械学習ワークフローへの大規模言語モデルの革新的な統合を,事故報告を用いた事故重大度分類に焦点をあてたものである。 インシデントレポートから抽出した従来のデータと並行して,現代の言語モデルが生成する特徴を活用することで,複数の機械学習アルゴリズムにおける重大度分類の精度の向上を実証する。 私たちの貢献は3倍です。 まず,複数の大規模言語モデルと組み合わせて特徴抽出を行う機械学習モデルについて,高精度なインシデント重大度分類のための最適組み合わせを特定することを目的とした,広範囲な比較を行った。 第二に、従来の機能エンジニアリングパイプラインと言語モデルによって強化されたものを比較し、非構造化テキスト処理における言語ベースの機能エンジニアリングの優位性を示す。 第3に,事故報告と言語に基づく特徴とを併用することで,重度分類精度が向上することを示す。 この包括的なアプローチは、インシデント管理の分野を前進させるだけでなく、方法論のドメイン間アプリケーションの可能性、特に構造化されていないテキストデータやテキスト表現に変換された特徴からのイベント結果の予測を必要とするコンテキストにおいても強調する。 具体的には,米国,イギリス,オーストラリア,クイーンズランドの3つの異なるデータセットに適用した。 このクロスコンチネンタルな応用は、私たちのアプローチの堅牢さを基盤としており、インシデント管理プロセスのグローバルな改善において、広く採用される可能性があることを示唆している。

This research showcases the innovative integration of Large Language Models into machine learning workflows for traffic incident management, focusing on the classification of incident severity using accident reports. By leveraging features generated by modern language models alongside conventional data extracted from incident reports, our research demonstrates improvements in the accuracy of severity classification across several machine learning algorithms. Our contributions are threefold. First, we present an extensive comparison of various machine learning models paired with multiple large language models for feature extraction, aiming to identify the optimal combinations for accurate incident severity classification. Second, we contrast traditional feature engineering pipelines with those enhanced by language models, showcasing the superiority of language-based feature engineering in processing unstructured text. Third, our study illustrates how merging baseline features from accident reports with language-based features can improve the severity classification accuracy. This comprehensive approach not only advances the field of incident management but also highlights the cross-domain application potential of our methodology, particularly in contexts requiring the prediction of event outcomes from unstructured textual data or features translated into textual representation. Specifically, our novel methodology was applied to three distinct datasets originating from the United States, the United Kingdom, and Queensland, Australia. This cross-continental application underlines the robustness of our approach, suggesting its potential for widespread adoption in improving incident management processes globally.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-29
# ロバスト符号混合翻訳のための合成データ生成と共同学習

Synthetic Data Generation and Joint Learning for Robust Code-Mixed Translation ( http://arxiv.org/abs/2403.16771v2 )

ライセンス: Link先を確認
Kartik Kartik, Sanjana Soni, Anoop Kunchukuttan, Tanmoy Chakraborty, Md Shad Akhtar, (参考訳) 現代の多言語世界における広範なオンラインコミュニケーションは、複数の言語(いわゆるコード混合言語)を単一発話でブレンドする機会を与えてきた。 この結果、注釈付きデータの不足とノイズの存在により、計算モデルにとって大きな課題となった。 低リソースのセットアップでデータ不足を緩和する潜在的な解決策は、翻訳を通じてリソース豊富な言語で既存のデータを活用することである。 本稿では,コードミキシング(ヒングリッシュとベンガル語)と英語機械翻訳の問題に取り組む。 まず, Hinglish の英語への並列コーパスである HINMIX を, 約4.2M 文対で合成的に開発する。 次に、実世界のコード混在テキストのノイズをクリーンでノイズの多い単語間でパラメータ共有することで処理する、頑健な摂動に基づく共同学習モデルRCMTを提案する。 さらに,ベンガル語から英語への翻訳において,RCMTの適応性を示す。 我々の評価と総合分析は、最先端のコード混在および堅牢な翻訳法よりもRCMTの方が優れていることを質的かつ定量的に証明している。

The widespread online communication in a modern multilingual world has provided opportunities to blend more than one language (aka code-mixed language) in a single utterance. This has resulted a formidable challenge for the computational models due to the scarcity of annotated data and presence of noise. A potential solution to mitigate the data scarcity problem in low-resource setup is to leverage existing data in resource-rich language through translation. In this paper, we tackle the problem of code-mixed (Hinglish and Bengalish) to English machine translation. First, we synthetically develop HINMIX, a parallel corpus of Hinglish to English, with ~4.2M sentence pairs. Subsequently, we propose RCMT, a robust perturbation based joint-training model that learns to handle noise in the real-world code-mixed text by parameter sharing across clean and noisy words. Further, we show the adaptability of RCMT in a zero-shot setup for Bengalish to English translation. Our evaluation and comprehensive analyses qualitatively and quantitatively demonstrate the superiority of RCMT over state-of-the-art code-mixed and robust translation methods.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-29
# モデル崩壊は必然か? 実データと合成データを蓄積して再帰の曲線を破る

Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data ( http://arxiv.org/abs/2404.01413v2 )

ライセンス: Link先を確認
Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Henry Sleight, John Hughes, Tomasz Korbak, Rajashree Agrawal, Dhruv Pai, Andrey Gromov, Daniel A. Roberts, Diyi Yang, David L. Donoho, Sanmi Koyejo, (参考訳) 生成モデルの拡散は、Webスケールのデータの事前学習と相まって、タイムリーな疑問を引き起こします。 モデルデータフィードバックループに関する最近の研究は、そのようなループがモデル崩壊と呼ばれる現象を引き起こすことを示唆している。 しかし、これらの研究は、新しいデータが時間の経過とともに古いデータを置き換えると仮定している。 本稿では,データの蓄積がモデル崩壊に与える影響について問う。 テキストコーパス上で言語モデルの列を事前学習することにより,この問題を実証的に研究する。 各世代の合成データによって元の実データを置き換えることは、モデル崩壊の傾向にあることを確認し、元の実データと並んで連続する合成データの蓄積がモデル崩壊を回避していることを示す。 分子コンフォメーション生成のための拡散モデルと、画像生成のための変分オートエンコーダという、他の種類の実データに対して、同様の結果が得られる。 データの蓄積がモデル崩壊を回避できる理由を理解するために,先行研究で導入された解析的抽出可能なフレームワークを用いて,線形モデルの列が前のモデルの出力に適合する。 このフレームワークを使った以前の研究は、もしデータが置き換えられた場合、テストエラーはモデル適合イテレーションの数で増加することを示しており、この議論を拡張して、もしデータが蓄積されたら、テストエラーはイテレーション数とは無関係に有限な上限を持ち、つまりモデル崩壊はもはや起こらないことを証明した。

The proliferation of generative models, combined with pretraining on web-scale data, raises a timely question: what happens when these models are trained on their own generated outputs? Recent investigations into model-data feedback loops proposed that such loops would lead to a phenomenon termed model collapse, under which performance progressively degrades with each model-data feedback iteration until fitted models become useless. However, those studies largely assumed that new data replace old data over time, where an arguably more realistic assumption is that data accumulate over time. In this paper, we ask: what effect does accumulating data have on model collapse? We empirically study this question by pretraining sequences of language models on text corpora. We confirm that replacing the original real data by each generation's synthetic data does indeed tend towards model collapse, then demonstrate that accumulating the successive generations of synthetic data alongside the original real data avoids model collapse; these results hold across a range of model sizes, architectures, and hyperparameters. We obtain similar results for deep generative models on other types of real data: diffusion models for molecule conformation generation and variational autoencoders for image generation. To understand why accumulating data can avoid model collapse, we use an analytically tractable framework introduced by prior work in which a sequence of linear models are fit to the previous models' outputs. Previous work used this framework to show that if data are replaced, the test error increases with the number of model-fitting iterations; we extend this argument to prove that if data instead accumulate, the test error has a finite upper bound independent of the number of iterations, meaning model collapse no longer occurs.
翻訳日:2024-05-01 18:58:59 公開日:2024-04-29
# Tao: DLベースのマイクロアーキテクチャシミュレーション

Tao: Re-Thinking DL-based Microarchitecture Simulation ( http://arxiv.org/abs/2404.10921v2 )

ライセンス: Link先を確認
Santosh Pandey, Amir Yazdanbakhsh, Hang Liu, (参考訳) マイクロアーキテクチャシミュレータは、マイクロアーキテクチャ設計者が特定の設計要件を満たす新しいハードウェアを検証、評価、最適化するために必須のツールである。 高速で正確で詳細なマイクロアーキテクチャーシミュレーションの探求は何十年にもわたって続いているが、既存のシミュレーターは様々な面で優れている。 (i) 実行駆動シミュレーションは正確かつ詳細なものであるが、非常に遅く、設計には専門家レベルの経験が必要である。 (II) トレース駆動シミュレーションは, 高速なシミュレーションを追求するために実行トレースを再利用するが, 精度上の懸念に直面し, 大幅な高速化に失敗する。 三 深層学習(DL)に基づくシミュレーションは驚くほど高速であり、精度も極めて高いが、微構造ボトルネック解析に欠かせない適切な低レベルの微構造性能指標を提供することができない。 さらに、新しいマイクロアーキテクチャをシミュレートする際に、トレース再生とモデル再トレーニングからかなりのオーバーヘッドを導入する。 本稿では, 上記のシミュレーションパラダイムの利点と限界を再考し, DLに基づくシミュレーションを再設計するTAOを紹介した。 次に、自己注意を用いて入力機能とDLモデルを再設計し、様々なパフォーマンス指標の予測をサポートする。 第3に,マイクロアーキテクチャ非依存の埋め込み層を学習することで,異なるマイクロアーキテクチャ構成間の高速な移動学習を可能にし,従来のDLベースシミュレータの再学習オーバーヘッドを低減する手法を提案する。 TAOは,最新のDLベースの取り組みに対して,総合的なトレーニング時間とシミュレーション時間を18.06倍に短縮できることを示す。

Microarchitecture simulators are indispensable tools for microarchitecture designers to validate, estimate, and optimize new hardware that meets specific design requirements. While the quest for a fast, accurate and detailed microarchitecture simulation has been ongoing for decades, existing simulators excel and fall short at different aspects: (i) Although execution-driven simulation is accurate and detailed, it is extremely slow and requires expert-level experience to design. (ii) Trace-driven simulation reuses the execution traces in pursuit of fast simulation but faces accuracy concerns and fails to achieve significant speedup. (iii) Emerging deep learning (DL)-based simulations are remarkably fast and have acceptable accuracy but fail to provide adequate low-level microarchitectural performance metrics crucial for microarchitectural bottleneck analysis. Additionally, they introduce substantial overheads from trace regeneration and model re-training when simulating a new microarchitecture. Re-thinking the advantages and limitations of the aforementioned simulation paradigms, this paper introduces TAO that redesigns the DL-based simulation with three primary contributions: First, we propose a new training dataset design such that the subsequent simulation only needs functional trace as inputs, which can be rapidly generated and reused across microarchitectures. Second, we redesign the input features and the DL model using self-attention to support predicting various performance metrics. Third, we propose techniques to train a microarchitecture agnostic embedding layer that enables fast transfer learning between different microarchitectural configurations and reduces the re-training overhead of conventional DL-based simulators. Our extensive evaluation shows TAO can reduce the overall training and simulation time by 18.06x over the state-of-the-art DL-based endeavors.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-29
# 対話システムの評価を再考する: ユーザフィードバックがクラウドワーカーとLLMに与える影響

Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs ( http://arxiv.org/abs/2404.12994v2 )

ライセンス: Link先を確認
Clemencia Siro, Mohammad Aliannejadi, Maarten de Rijke, (参考訳) アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。 対話的な環境では、このような信号は通常、相互作用の性質のため利用できなくなり、代わりに、評価はクラウドソースによる評価ラベルに依存することが多い。 アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。 本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザのフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。 TDSを評価するための2つの手法を探索し、比較する: 1つはユーザのフォローアップ発話を含み、もう1つは無関係である。 クラウドワーカーと大規模言語モデル(LLM)の両方をアノテータとして使用し、関連性、有用性、面白さ、説明品質の4つの側面にわたるシステム応答を評価する。 以上の結果から,アノテータ群とアノテータ群がアノテータ群にアノテータを割り当てた場合,ユーザのフィードバックがシステム評価に影響を与えることが示唆された。 労働者は、ユーザからのフィードバックによる有用性や面白さに対する感受性が、興味深いことや関連性に関するLLMよりも高い。 ユーザからのフィードバックは、作業者による有用性のよりパーソナライズされた評価をもたらし、ユーザの明示的なフィードバックと密接に一致します。 さらに、曖昧なユーザリクエストや複雑なユーザリクエストの場合、ユーザフィードバックは、クラウドワーカー間の合意を改善します。 これらの知見は,システム評価におけるユーザフィードバックの重要性を強調し,今後の研究における自動フィードバック統合の可能性を提案する。 この分野での研究を促進するために、アノテーション付きデータを公開しています。

In ad-hoc retrieval, evaluation relies heavily on user actions, including implicit feedback. In a conversational setting such signals are usually unavailable due to the nature of the interactions, and, instead, the evaluation often relies on crowdsourced evaluation labels. The role of user feedback in annotators' assessment of turns in a conversational perception has been little studied. We focus on how the evaluation of task-oriented dialogue systems (TDSs), is affected by considering user feedback, explicit or implicit, as provided through the follow-up utterance of a turn being evaluated. We explore and compare two methodologies for assessing TDSs: one includes the user's follow-up utterance and one without. We use both crowdworkers and large language models (LLMs) as annotators to assess system responses across four aspects: relevance, usefulness, interestingness, and explanation quality. Our findings indicate that there is a distinct difference in ratings assigned by both annotator groups in the two setups, indicating user feedback does influence system evaluation. Workers are more susceptible to user feedback on usefulness and interestingness compared to LLMs on interestingness and relevance. User feedback leads to a more personalized assessment of usefulness by workers, aligning closely with the user's explicit feedback. Additionally, in cases of ambiguous or complex user requests, user feedback improves agreement among crowdworkers. These findings emphasize the significance of user feedback in refining system evaluations and suggest the potential for automated feedback integration in future research. We publicly release the annotated data to foster research in this area.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-29
# 大規模言語モデルにおける創発的類似推論を支援する対実的タスクからのエビデンス

Evidence from counterfactual tasks supports emergent analogical reasoning in large language models ( http://arxiv.org/abs/2404.13070v2 )

ライセンス: Link先を確認
Taylor Webb, Keith J. Holyoak, Hongjing Lu, (参考訳) 我々は最近,大規模言語モデルがゼロショット方式で幅広いテキストベースの類似問題を解くことができることを示す証拠を報告し,類推のための創発的能力の存在を示唆した。 最近の2つのコメンテータは、言語モデルのトレーニングデータに存在したかもしれない材料との類似性を減少させるために、アルファベットの標準配列が任意に置換されたいわゆる「偽物」タスクの証拠を引用して、これらの結果に異議を唱えている。 ここでは、これらの批判に回答し、本研究で使用した試験材料に関する誤解を明らかにし、言語モデルがこれらの新しい対実的タスク変種に一般化できることを示す。

We recently reported evidence that large language models are capable of solving a wide range of text-based analogy problems in a zero-shot manner, indicating the presence of an emergent capacity for analogical reasoning. Two recent commentaries have challenged these results, citing evidence from so-called `counterfactual' tasks in which the standard sequence of the alphabet is arbitrarily permuted so as to decrease similarity with materials that may have been present in the language model's training data. Here, we reply to these critiques, clarifying some misunderstandings about the test materials used in our original work, and presenting evidence that language models are also capable of generalizing to these new counterfactual task variants.
翻訳日:2024-05-01 18:49:14 公開日:2024-04-29
# 細胞株非依存的L1000類似性の訓練と評価のためのフレームワークLeak Proof CMap

Leak Proof CMap; a framework for training and evaluation of cell line agnostic L1000 similarity methods ( http://arxiv.org/abs/2404.18960v1 )

ライセンス: Link先を確認
Steven Shave, Richard Kasprowicz, Abdullah M. Athar, Denise Vlachou, Neil O. Carragher, Cuong Q. Nguyen, (参考訳) Connectivity Map(コネクティビティマップ、CMap)は、L1000技術として知られる標準化された取得プロトコルを用いて構築された化学および遺伝的摂動に対する細胞転写応答の大規模なデータベースである。 CMapのようなデータベースは、薬物発見の努力を豊かにするためのエキサイティングな機会を提供し、"既知の"表現型景観を提供し、情報抽出とより良い情報決定のための最先端技術の開発を可能にする。 表現型類似度と尋問プロファイルを計測する複数の手法が開発されているが、機械学習手法の訓練と偏見のない評価のために適切なデータ分割を用いた標準ベンチマークが不足している。 そこで我々は'Leak Proof CMap'を開発し、典型的な三重項損失法とともに、共通の転写学的および一般的な表現型類似性手法の集合への応用を実証した。 3つの重要なパフォーマンス領域(コンパクト性、明瞭性、ユニーク性)のベンチマークは、トレーニング、検証、テストセットに類似した細胞株や、共有または密接な対応、あるいはアクションのメカニズムが存在しないことを保証したデータ分割を使用して、慎重に行われる。 これにより、新規な患者由来細胞株の新規な作用様式による治療の探索に類似した、目に見えないサンプルを用いたモデルのテストが可能になる。 慎重に作成されたベンチマークとデータ分割の仕組みにより、このツールはパーソナライズされた医療(ノーベル細胞株)で使用するための高性能な表現型類似性メソッドを作成し、L1000転写技術で高いスループットの表現型スクリーニング技術を向上するために存在する。

The Connectivity Map (CMap) is a large publicly available database of cellular transcriptomic responses to chemical and genetic perturbations built using a standardized acquisition protocol known as the L1000 technique. Databases such as CMap provide an exciting opportunity to enrich drug discovery efforts, providing a 'known' phenotypic landscape to explore and enabling the development of state of the art techniques for enhanced information extraction and better informed decisions. Whilst multiple methods for measuring phenotypic similarity and interrogating profiles have been developed, the field is severely lacking standardized benchmarks using appropriate data splitting for training and unbiased evaluation of machine learning methods. To address this, we have developed 'Leak Proof CMap' and exemplified its application to a set of common transcriptomic and generic phenotypic similarity methods along with an exemplar triplet loss-based method. Benchmarking in three critical performance areas (compactness, distinctness, and uniqueness) is conducted using carefully crafted data splits ensuring no similar cell lines or treatments with shared or closely matching responses or mechanisms of action are present in training, validation, or test sets. This enables testing of models with unseen samples akin to exploring treatments with novel modes of action in novel patient derived cell lines. With a carefully crafted benchmark and data splitting regime in place, the tooling now exists to create performant phenotypic similarity methods for use in personalized medicine (novel cell lines) and to better augment high throughput phenotypic screening technologies with the L1000 transcriptomic technology.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# マルチタスク学習のパワーを解き放つ:伝統的な、深く、事前訓練された基礎モデル時代を包括的に調査する

Unleashing the Power of Multi-Task Learning: A Comprehensive Survey Spanning Traditional, Deep, and Pretrained Foundation Model Eras ( http://arxiv.org/abs/2404.18961v1 )

ライセンス: Link先を確認
Jun Yu, Yutong Dai, Xiaokang Liu, Jin Huang, Yishan Shen, Ke Zhang, Rong Zhou, Eashan Adhikarla, Wenxuan Ye, Yixin Liu, Zhaoming Kong, Kai Zhang, Yilong Yin, Vinod Namboodiri, Brian D. Davison, Jason H. Moore, Yong Chen, (参考訳) MTLは、タスク固有の情報と共有情報の両方を効果的に活用し、複数の関連するタスクに同時に対処する学習パラダイムである。 STLとは対照的に、MTLはトレーニングプロセスと推論効率の両方を向上させる一連のメリットを提供します。 MTLの主な利点は、合理化されたモデルアーキテクチャ、性能向上、ドメイン間の一般化性である。 過去20年間で、MTLはCV、NLP、レコメンデーションシステム、疾患の予後と診断、ロボット工学など様々な分野において、柔軟かつ効果的なアプローチとして広く認識されるようになった。 本調査は,従来のアプローチから深層学習への最先端手法の技術的側面と,事前訓練された基礎モデルの最新の動向を包括的に概説する。 本調査では,MTL手法を,正規化,関係学習,特徴伝達,最適化,事前学習の5つの重要な領域に分類した。 この分類は、時系列的にMTLの発展を概説するだけでなく、各カテゴリの様々な専門的な戦略にも踏み込んでいる。 さらに、調査では、MTLが固定されたタスクの集合を扱うことから、タスクやモダリティの制約から解放されたより柔軟なアプローチを受け入れるまで、どのように進化していくかを明らかにしている。 ZSLの能力は、歴史的に包括された学習パラダイムの未開拓の可能性を解き放つ。 本調査は,1997年開始から2023年現在までのMTLの進展を概観した総合的な概要を研究コミュニティに提供することを願っている。 我々は、現在の課題に対処し、将来の可能性に先んじ、幅広い方法でMTL研究の機会と可能性に光を当てる。 このプロジェクトはhttps://github.com/junfish/Awesome-Multitask-Learning.comで公開されている。

MTL is a learning paradigm that effectively leverages both task-specific and shared information to address multiple related tasks simultaneously. In contrast to STL, MTL offers a suite of benefits that enhance both the training process and the inference efficiency. MTL's key advantages encompass streamlined model architecture, performance enhancement, and cross-domain generalizability. Over the past twenty years, MTL has become widely recognized as a flexible and effective approach in various fields, including CV, NLP, recommendation systems, disease prognosis and diagnosis, and robotics. This survey provides a comprehensive overview of the evolution of MTL, encompassing the technical aspects of cutting-edge methods from traditional approaches to deep learning and the latest trend of pretrained foundation models. Our survey methodically categorizes MTL techniques into five key areas: regularization, relationship learning, feature propagation, optimization, and pre-training. This categorization not only chronologically outlines the development of MTL but also dives into various specialized strategies within each category. Furthermore, the survey reveals how the MTL evolves from handling a fixed set of tasks to embracing a more flexible approach free from task or modality constraints. It explores the concepts of task-promptable and -agnostic training, along with the capacity for ZSL, which unleashes the untapped potential of this historically coveted learning paradigm. Overall, we hope this survey provides the research community with a comprehensive overview of the advancements in MTL from its inception in 1997 to the present in 2023. We address present challenges and look ahead to future possibilities, shedding light on the opportunities and potential avenues for MTL research in a broad manner. This project is publicly available at https://github.com/junfish/Awesome-Multitask-Learning.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# データ不均一性に対処するための集約型フェデレーション学習

An Aggregation-Free Federated Learning for Tackling Data Heterogeneity ( http://arxiv.org/abs/2404.18962v1 )

ライセンス: Link先を確認
Yuan Wang, Huazhu Fu, Renuga Kanagavelu, Qingsong Wei, Yong Liu, Rick Siow Mong Goh, (参考訳) フェデレートラーニング(FL)のパフォーマンスは、分散データセットから知識を利用することの有効性にかかっている。 従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。 このプロセスはクライアントのドリフト、特に重要なクロスクライアントデータの不均一性を引き起こし、モデル性能とFLアルゴリズムの収束に影響を及ぼす。 これらの課題に対処するために、新しい集約フリーFLアルゴリズムであるFedAFを導入する。 このフレームワークでは、クライアントはピア知識を活用して凝縮データを協調的に学習し、サーバはその後、凝縮データとクライアントから受信したソフトラベルを用いてグローバルモデルを訓練する。 FedAFは本質的に、クライアントのドリフトの問題を避け、顕著なデータの不均一性の中で凝縮データの品質を高め、グローバルモデルのパフォーマンスを改善します。 いくつかの一般的なベンチマークデータセットに関する大規模な数値研究により、FedAFはラベルスキューと特徴スキューデータの不均一性を扱う際に、様々な最先端のFLアルゴリズムを超越し、より優れたグローバルモデル精度とより高速な収束をもたらすことが示されている。

The performance of Federated Learning (FL) hinges on the effectiveness of utilizing knowledge from distributed datasets. Traditional FL methods adopt an aggregate-then-adapt framework, where clients update local models based on a global model aggregated by the server from the previous training round. This process can cause client drift, especially with significant cross-client data heterogeneity, impacting model performance and convergence of the FL algorithm. To address these challenges, we introduce FedAF, a novel aggregation-free FL algorithm. In this framework, clients collaboratively learn condensed data by leveraging peer knowledge, the server subsequently trains the global model using the condensed data and soft labels received from the clients. FedAF inherently avoids the issue of client drift, enhances the quality of condensed data amid notable data heterogeneity, and improves the global model performance. Extensive numerical studies on several popular benchmark datasets show FedAF surpasses various state-of-the-art FL algorithms in handling label-skew and feature-skew data heterogeneity, leading to superior global model accuracy and faster convergence.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# Re-Grievance Assist: MLによるコンプライアンス管理による顧客エクスペリエンス向上

RE-GrievanceAssist: Enhancing Customer Experience through ML-Powered Complaint Management ( http://arxiv.org/abs/2404.18963v1 )

ライセンス: Link先を確認
Venkatesh C, Harshit Oberoi, Anurag Kumar Pandey, Anil Goyal, Nikhil Sikka, (参考訳) 近年、デジタルプラットフォーム企業は、消費者の広範な普及による顧客苦情の管理において、ますます課題に直面している。 本稿では、不動産顧客の苦情管理に特化したエンドツーエンドパイプラインであるRE-GrievanceAssistを紹介する。 パイプラインは3つの重要なコンポーネントで構成されています。 一 TF-IDFベクトル化とXGBoost分類器を用いた応答/応答なしMLモデル 二 速文分類器を用いたユーザ型分類器 三 TF-IDFベクトル化及びXGBoost分類器を用いた号・号分類器 最後に、Databricksのバッチジョブとしてデプロイされ、2023年8月以降、月150,000Rsの月1,50,000Rsの月次コスト削減により、手作業全体の40%が大幅に削減された。

In recent years, digital platform companies have faced increasing challenges in managing customer complaints, driven by widespread consumer adoption. This paper introduces an end-to-end pipeline, named RE-GrievanceAssist, designed specifically for real estate customer complaint management. The pipeline consists of three key components: i) response/no-response ML model using TF-IDF vectorization and XGBoost classifier ; ii) user type classifier using fasttext classifier; iii) issue/sub-issue classifier using TF-IDF vectorization and XGBoost classifier. Finally, it has been deployed as a batch job in Databricks, resulting in a remarkable 40% reduction in overall manual effort with monthly cost reduction of Rs 1,50,000 since August 2023.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# 信頼性, 信頼性, 漏れの有無: 自動ファクトチェックのための証拠検証

Credible, Unreliable or Leaked?: Evidence Verification for Enhanced Automated Fact-checking ( http://arxiv.org/abs/2404.18971v1 )

ライセンス: Link先を確認
Zacharias Chrysidis, Stefanos-Iordanis Papadopoulos, Symeon Papadopoulos, Panagiotis C. Petrantonakis, (参考訳) AFC(Automated fact-checking)は、偽情報の拡散に対処するファクトチェックを支援する研究者によって注目を集めている。 既存のAFCメソッドの多くは、クレームの正確性を調べるためにWebからの外部情報を含んでいるが、収集された「証拠」のソースと品質を検証することの重要性を見落としていることが多い。 1つの見落とされがちな課題は、事実確認ウェブサイトから直接集められ、AFCシステムのトレーニングに使用される情報である「漏洩した証拠」への依存であり、初期の誤情報検出のための非現実的な設定である。 同様に、信頼できない情報源からの情報の取り込みは、AFCシステムの有効性を損なう可能性がある。 これらの課題に対処するために、証拠検証とフィルタリングに関する包括的なアプローチを提案する。 我々は、Credible, Un Reliable or LEaked (CREDULE)データセットを作成し、Credible, Un Reliable, Fact check (Leaked)に分類される91,632の項目からなる。 さらに、CREDULEでトレーニングされたEVVER-Net(EVidence VERification Network)を導入し、短文と長文の両方で漏れや信頼性の低い証拠を検出する。 EVVER-Netは、Webから収集したエビデンスをフィルタリングするために使用することができ、これにより、エンドツーエンドのAFCシステムの堅牢性を高めることができる。 我々は様々な言語モデルを用いて実験を行い、EVVER-Netが91.5%と94.4%の精度で優れた性能を誇示できることを示した。 最後に, LIAR-PLUS, MOCHEG, FACTIFY, NewsCLIPpings+, VERITEなど, 広く利用されている事実チェックデータセットから得られた証拠について検討した。

Automated fact-checking (AFC) is garnering increasing attention by researchers aiming to help fact-checkers combat the increasing spread of misinformation online. While many existing AFC methods incorporate external information from the Web to help examine the veracity of claims, they often overlook the importance of verifying the source and quality of collected "evidence". One overlooked challenge involves the reliance on "leaked evidence", information gathered directly from fact-checking websites and used to train AFC systems, resulting in an unrealistic setting for early misinformation detection. Similarly, the inclusion of information from unreliable sources can undermine the effectiveness of AFC systems. To address these challenges, we present a comprehensive approach to evidence verification and filtering. We create the "CREDible, Unreliable or LEaked" (CREDULE) dataset, which consists of 91,632 articles classified as Credible, Unreliable and Fact checked (Leaked). Additionally, we introduce the EVidence VERification Network (EVVER-Net), trained on CREDULE to detect leaked and unreliable evidence in both short and long texts. EVVER-Net can be used to filter evidence collected from the Web, thus enhancing the robustness of end-to-end AFC systems. We experiment with various language models and show that EVVER-Net can demonstrate impressive performance of up to 91.5% and 94.4% accuracy, while leveraging domain credibility scores along with short or long texts, respectively. Finally, we assess the evidence provided by widely-used fact-checking datasets including LIAR-PLUS, MOCHEG, FACTIFY, NewsCLIPpings+ and VERITE, some of which exhibit concerning rates of leaked and unreliable evidence.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# M3H:医療のためのマルチモーダルマルチタスク機械学習

M3H: Multimodal Multitask Machine Learning for Healthcare ( http://arxiv.org/abs/2404.18975v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Yu Ma, (参考訳) 近年のAIのブレークスルーは、我々の研究と医療の理解を根本的に強化することを目指している。 複数の医療タスクの分析モデリングに複数のデータモダリティ入力を活用する統合型多対多フレームワークの開発は、現代医学の統一的理解に不可欠である。 本稿では,M3Hについて紹介する。M3Hはマルチモーダル・マルチタスク・機械学習・フォー・ヘルスケア・フレームワークであり,多様なマルチモーダル・インプットからの学習を幅広い分野の医療タスクカテゴリや機械学習問題クラスに集約する。 フレームワークのモジュラー設計は、その一般化可能なデータ処理、タスク定義、迅速なモデルプロトタイピングを保証する。 我々は、4つの機械学習問題クラスにわたる41の医療タスクにおいて、4つのモード(語彙、時系列、言語、視覚)から訓練されたモデルを検証し、M3Hフレームワークを評価する。 以上の結果から,M3Hは16の医療部門から37の疾患診断,3つの病院手術予測,および1つの患者の表現課題,すなわち教師付きバイナリ分類,マルチクラス分類,回帰,クラスタリングのML問題クラスにおいて,標準的な単一タスクモデル(1.1~37.2%)よりも優れたマルチタスクモデルを生成することが示唆された。 さらに、このフレームワークは、自己探索(学習ソースタスクへの焦点)と横断探索(他のタスクからの学習の促進)のバランスをとるための、新しい注意機構を導入している。 さらに、M3Hは、追加タスクのジョイントラーニングがソースタスクの学習にどのように影響するかを、提案されたTIMスコアを用いて説明し、タスク相互依存のダイナミクスに光を当てる。 その適応可能なアーキテクチャは、カスタマイズと統合を促進し、将来のAI駆動ヘルスケアシステムのための堅牢でスケーラブルな候補ソリューションとして確立する。

Recent breakthroughs in AI are poised to fundamentally enhance our study and understanding of healthcare. The development of an integrated many-to-many framework that leverages multiple data modality inputs for the analytical modeling of multiple medical tasks, is critical for a unified understanding of modern medicine. In this work, we introduce M3H, an explainable Multimodal Multitask Machine Learning for Healthcare framework that consolidates learning from diverse multimodal inputs across a broad spectrum of medical task categories and machine learning problem classes. The modular design of the framework ensures its generalizable data processing, task definition, and rapid model prototyping, applicable to both clinical and operational healthcare settings. We evaluate the M3H framework by validating models trained from four modalities (tabular, time-series, language, and vision) on 41 medical tasks across 4 machine learning problem classes. Our results demonstrate that M3H consistently produces multitask models that outperform canonical single-task models (by 1.1- 37.2%) across 37 disease diagnoses from 16 medical departments, three hospital operation forecasts, and one patient phenotyping task: spanning ML problem classes of supervised binary classification, multiclass classification, regression, and clustering. Additionally, the framework introduces a novel attention mechanism to balance self-exploitation (focus on learning source task), and cross-exploration (encourage learning from other tasks). Furthermore, M3H provides explainability insights on how joint learning of additional tasks impacts the learning of source task using a proposed TIM score, shedding light into the dynamics of task interdependencies. Its adaptable architecture facilitates the customization and integration, establishing it as a robust and scalable candidate solution for future AI-driven healthcare systems.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# 多感覚人工知能の基礎

Foundations of Multisensory Artificial Intelligence ( http://arxiv.org/abs/2404.18976v1 )

ライセンス: Link先を確認
Paul Pu Liang, (参考訳) テキスト、音声、ビデオ、現実世界のセンサー、ウェアラブルデバイス、医療データなどの複数の感覚入力から学習する多感覚AIシステムを構築することは、人間の健康と幸福をサポートすること、マルチメディアコンテンツ処理を可能にすること、現実の自律エージェントの強化など、実践的なメリットを持つ多くの科学的領域において、大きな影響を与える可能性がある。 この論文は、さまざまな理論フレームワークとアプリケーションドメインを合成することによって、多感覚AIの機械学習基盤を前進させることを目的としている。 第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。 これらの相互作用は、すべてのマルチモーダル問題の基本的な構成要素であり、その量子化により、ユーザは、自身のマルチモーダルデータセットを理解し、これらのインタラクションを学ぶための原則化されたアプローチを設計し、モデルが学習に成功したかどうかを分析することができる。 第2部では,多くのモダリティやタスクを一般化する実用的マルチモーダル基礎モデルの設計について検討し,大規模言語モデルから実世界の知覚モデルへの基盤化に向けたステップを示す。 我々は、様々なモダリティ、タスク、研究領域にまたがる統一された大規模ベンチマークであるMultiBenchを紹介し、その後に、今日のマルチモーダル基盤モデルの多くを支えるクロスモーダルアテンションとマルチモーダルトランスフォーマーアーキテクチャを紹介した。 これらのアーキテクチャをMultiBenchにスケールすることで、汎用多感覚AIシステムの構築を可能にし、感情コンピューティング、メンタルヘルス、がん予後、ロボット工学における実世界への影響にこれらのモデルを応用するための協力的な取り組みについて論じる。 最後に、今後の作業がこれらのアイデアを、より汎用的でインタラクティブで安全なマルチセンサーAIにどのように活用できるかを議論することで、この論文を締めくくります。

Building multisensory AI systems that learn from multiple sensory inputs such as text, speech, video, real-world sensors, wearable devices, and medical data holds great promise for impact in many scientific areas with practical benefits, such as in supporting human health and well-being, enabling multimedia content processing, and enhancing real-world autonomous agents. By synthesizing a range of theoretical frameworks and application domains, this thesis aims to advance the machine learning foundations of multisensory AI. In the first part, we present a theoretical framework formalizing how modalities interact with each other to give rise to new information for a task. These interactions are the basic building blocks in all multimodal problems, and their quantification enables users to understand their multimodal datasets, design principled approaches to learn these interactions, and analyze whether their model has succeeded in learning. In the second part, we study the design of practical multimodal foundation models that generalize over many modalities and tasks, which presents a step toward grounding large language models to real-world sensory modalities. We introduce MultiBench, a unified large-scale benchmark across a wide range of modalities, tasks, and research areas, followed by the cross-modal attention and multimodal transformer architectures that now underpin many of today's multimodal foundation models. Scaling these architectures on MultiBench enables the creation of general-purpose multisensory AI systems, and we discuss our collaborative efforts in applying these models for real-world impact in affective computing, mental health, cancer prognosis, and robotics. Finally, we conclude this thesis by discussing how future work can leverage these ideas toward more general, interactive, and safe multisensory AI.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# 自然言語処理による求人市場分析

Computational Job Market Analysis with Natural Language Processing ( http://arxiv.org/abs/2404.18977v1 )

ライセンス: Link先を確認
Mike Zhang, (参考訳) [Abridged Abstract]最近の技術進歩は、雇用の見通しに重大な影響をもたらし、プラットフォームや言語間での雇用機会データの増加を支えている、労働市場のダイナミクスを浮き彫りにしている。 このようなデータを集約することは、労働市場の需要、新しいスキルの出現、そして様々な利害関係者のジョブマッチングを促進するための貴重な洞察の可能性を秘めている。 しかし、民間セクターにおける一般的な洞察にもかかわらず、この領域のための透明な言語技術システムとデータが欠落している。 本論文は,業務記述から関連情報を抽出する自然言語処理(NLP)技術,トレーニングデータの不足,標準化されたアノテーションガイドラインの欠如,求人広告からの効果的な抽出方法の欠如など,課題を特定するものである。 問題の枠組みを定め,注釈付きデータを取得し,抽出手法を導入する。 私たちのコントリビューションには、ジョブ記述データセット、非識別データセット、効率的なモデルトレーニングのための新しいアクティブラーニングアルゴリズムが含まれています。 本稿では,弱い監督によるスキル抽出,多言語言語モデルをジョブマーケット領域に適応させる分類工学的事前学習手法,および,複数のスキル抽出データセットを活用した検索強化モデルを提案する。 最後に,指定された分類の内から抽出した情報について検討した。

[Abridged Abstract] Recent technological advances underscore labor market dynamics, yielding significant consequences for employment prospects and increasing job vacancy data across platforms and languages. Aggregating such data holds potential for valuable insights into labor market demands, new skills emergence, and facilitating job matching for various stakeholders. However, despite prevalent insights in the private sector, transparent language technology systems and data for this domain are lacking. This thesis investigates Natural Language Processing (NLP) technology for extracting relevant information from job descriptions, identifying challenges including scarcity of training data, lack of standardized annotation guidelines, and shortage of effective extraction methods from job ads. We frame the problem, obtaining annotated data, and introducing extraction methodologies. Our contributions include job description datasets, a de-identification dataset, and a novel active learning algorithm for efficient model training. We propose skill extraction using weak supervision, a taxonomy-aware pre-training methodology adapting multilingual language models to the job market domain, and a retrieval-augmented model leveraging multiple skill extraction datasets to enhance overall performance. Finally, we ground extracted information within a designated taxonomy.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# テキストベースの教育環境における汎用エージェントを目指して--LLMとRLの統合に関する研究

Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs ( http://arxiv.org/abs/2404.18978v1 )

ライセンス: Link先を確認
Bahar Radmehr, Adish Singla, Tanja Käser, (参考訳) 教育環境における学習と教育経験を高める学習モデル開発への関心が高まっている。 しかし、既存の研究は主にタスクの巧妙な表現に頼って構成された環境に焦点を当てており、それによってエージェントのタスク間のスキルを一般化する能力は制限されている。 本稿では,RL(Reinforcement Learning)とLLM(Large Language Models)を統合することにより,オープンエンドテキストベースの学習環境におけるエージェントの一般化能力の向上を目指す。 我々は3種類のエージェントを調査する。 i)RLをベースとしたエージェントは、自然言語を状態表現や行動表現に利用し、最良のインタラクション戦略を見つける。 二 モデルの一般的な知識及び推論を利用したLLMベースのエージェント、及び 3) これらの2つの戦略を組み合わせるハイブリッドLLM支援RLエージェントは, エージェントの性能と一般化を改善する。 これらのエージェントの開発と評価を支援するために、診断会話の実践を目的としたPharmaSim仮想薬局環境から派生した新しいベンチマークであるPharmaSimTextを紹介する。 以上の結果から, RLをベースとしたエージェントは, タスク完了に優れるが, 品質診断質問の欠如が示唆された。 対照的に、LSMをベースとしたエージェントは、診断的な質問をしやすくするが、タスクの完了には至らない。 最後に,LLM と LLM を併用したオープンエンド学習環境における高性能エージェントの開発の可能性を強調し,これらの制約を克服する。

There has been a growing interest in developing learner models to enhance learning and teaching experiences in educational environments. However, existing works have primarily focused on structured environments relying on meticulously crafted representations of tasks, thereby limiting the agent's ability to generalize skills across tasks. In this paper, we aim to enhance the generalization capabilities of agents in open-ended text-based learning environments by integrating Reinforcement Learning (RL) with Large Language Models (LLMs). We investigate three types of agents: (i) RL-based agents that utilize natural language for state and action representations to find the best interaction strategy, (ii) LLM-based agents that leverage the model's general knowledge and reasoning through prompting, and (iii) hybrid LLM-assisted RL agents that combine these two strategies to improve agents' performance and generalization. To support the development and evaluation of these agents, we introduce PharmaSimText, a novel benchmark derived from the PharmaSim virtual pharmacy environment designed for practicing diagnostic conversations. Our results show that RL-based agents excel in task completion but lack in asking quality diagnostic questions. In contrast, LLM-based agents perform better in asking diagnostic questions but fall short of completing the task. Finally, hybrid LLM-assisted RL agents enable us to overcome these limitations, highlighting the potential of combining RL and LLMs to develop high-performing agents for open-ended learning environments.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# 放射線医の意図を復号する:胸部X線画像解析における領域同定のための新しいシステム

Decoding Radiologists' Intentions: A Novel System for Accurate Region Identification in Chest X-ray Image Analysis ( http://arxiv.org/abs/2404.18981v1 )

ライセンス: Link先を確認
Akash Awasthi, Safwan Ahmad, Bryant Le, Hien Van Nguyen, (参考訳) 胸部X線(CXR)画像解析の領域では、放射線技師は様々な領域を慎重に観察し、その観察をレポートに記録する。 CXR診断における誤りの頻度、特に経験の浅い放射線科医や病院の住民は、放射線科医の意図とそれに伴う関心領域を理解することの重要性を強調している。 この理解は、特に胸部X線写真異常の診断において、放射線技師を正確な関心領域に導くことによって誤りを修正するために重要である。 そこで本研究では, 放射線技師がCXR画像に対する関心や関心領域について, 主観的意図を識別するシステムを提案する。 このシステムは、経験の浅い実践者による誤りを修正し、それらを正確な関心領域に誘導する可能性を持って、放射線学者のテキスト発見に基づく視覚的文脈の解明を目指している。 提案システムは, 病院内の未経験者, 若年者に対して, 対面コミュニケーションのギャップを埋めて, 建設的なフィードバックを提供することが重要である。 このシステムは、診断精度を高め、医療コミュニティ内での継続的な学習を促進するための貴重なツールである。

In the realm of chest X-ray (CXR) image analysis, radiologists meticulously examine various regions, documenting their observations in reports. The prevalence of errors in CXR diagnoses, particularly among inexperienced radiologists and hospital residents, underscores the importance of understanding radiologists' intentions and the corresponding regions of interest. This understanding is crucial for correcting mistakes by guiding radiologists to the accurate regions of interest, especially in the diagnosis of chest radiograph abnormalities. In response to this imperative, we propose a novel system designed to identify the primary intentions articulated by radiologists in their reports and the corresponding regions of interest in CXR images. This system seeks to elucidate the visual context underlying radiologists' textual findings, with the potential to rectify errors made by less experienced practitioners and direct them to precise regions of interest. Importantly, the proposed system can be instrumental in providing constructive feedback to inexperienced radiologists or junior residents in the hospital, bridging the gap in face-to-face communication. The system represents a valuable tool for enhancing diagnostic accuracy and fostering continuous learning within the medical community.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# ChatGPTは説明推論を可能か?-帰納的推論のためのベンチマーク

Can ChatGPT Make Explanatory Inferences? Benchmarks for Abductive Reasoning ( http://arxiv.org/abs/2404.18982v1 )

ライセンス: Link先を確認
Paul Thagard, (参考訳) 説明推論(英: Explanatory inference)とは、説明を提供する仮説の作成と評価であり、時には誘惑的推論(abduction)または誘惑的推論(abductive inference)として知られる。 Generative AIは、テキスト、画像、音を生成する新しいアルゴリズムに基づいた、人工知能モデルの新たなセットである。 本稿では、AIプログラムが説明的推論を行う能力を評価するための一連のベンチマークを提案し、それらを用いて、主要な生成的AIモデルであるChatGPTが説明的推論を行うことができる範囲を決定する。 ベンチマークテストでは、ChatGPTは多くのドメインで創造的で評価的な推論を行うが、これは言語と視覚のモダリティに限られている。 ChatGPTと類似のモデルは説明、理解、因果推論、意味、創造性ができないという主張が反論される。

Explanatory inference is the creation and evaluation of hypotheses that provide explanations, and is sometimes known as abduction or abductive inference. Generative AI is a new set of artificial intelligence models based on novel algorithms for generating text, images, and sounds. This paper proposes a set of benchmarks for assessing the ability of AI programs to perform explanatory inference, and uses them to determine the extent to which ChatGPT, a leading generative AI model, is capable of making explanatory inferences. Tests on the benchmarks reveal that ChatGPT performs creative and evaluative inferences in many domains, although it is limited to verbal and visual modalities. Claims that ChatGPT and similar models are incapable of explanation, understanding, causal reasoning, meaning, and creativity are rebutted.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# I'm in the Bluesky Tonight: Insights from a Year Worth of Social Data

"I'm in the Bluesky Tonight": Insights from a Year Worth of Social Data ( http://arxiv.org/abs/2404.18984v1 )

ライセンス: Link先を確認
Andrea Failla, Giulio Rossetti, (参考訳) d/misinformationの増大によるオンラインソーシャルスペースの汚染は、社会的な懸念が高まっている。 しかし、ソーシャルメディアAPIへのアクセスを減らすという最近の決定は、一般に公開されている最近のソーシャルメディアデータ不足を招き、計算社会科学全体の進歩を妨げている。 本稿では,Bluesky Socialのソーシャルインタラクションとユーザ生成コンテンツの大規模かつ高包括的データセットを提示し,このプレス問題に対処する。 データセットには400万以上のユーザ(すべての登録アカウントの81%)の完全なポスト履歴が含まれており、総投稿数は235万である。 また、フォロー、コメント、再投稿、引用などのソーシャルデータを公開しています。 Blueskyはユーザーがフィードジェネレータ(例えばコンテンツレコメンデーションアルゴリズム)を作成してブックマークできるので、プラットフォーム上で利用可能ないくつかの人気のあるアルゴリズムの完全なアウトプットもリリースします。 このデータセットは、オンラインの振る舞いと人間と機械のエンゲージメントパターンを前例のない分析を可能にする。 特に、コンテンツ露出と自己選択の効果を研究し、コンテンツのバイラル性や拡散分析を行うための基盤的データを提供する。

Pollution of online social spaces caused by rampaging d/misinformation is a growing societal concern. However, recent decisions to reduce access to social media APIs are causing a shortage of publicly available, recent, social media data, thus hindering the advancement of computational social science as a whole. We present a large, high-coverage dataset of social interactions and user-generated content from Bluesky Social to address this pressing issue. The dataset contains the complete post history of over 4M users (81% of all registered accounts), totalling 235M posts. We also make available social data covering follow, comment, repost, and quote interactions. Since Bluesky allows users to create and bookmark feed generators (i.e., content recommendation algorithms), we also release the full output of several popular algorithms available on the platform, along with their timestamped ``like'' interactions and time of bookmarking. This dataset allows unprecedented analysis of online behavior and human-machine engagement patterns. Notably, it provides ground-truth data for studying the effects of content exposure and self-selection and performing content virality and diffusion analysis.
翻訳日:2024-05-01 18:29:43 公開日:2024-04-29
# 真理言語モデリングのためのマルコフエージェント

Markovian Agents for Truthful Language Modeling ( http://arxiv.org/abs/2404.18988v1 )

ライセンス: Link先を確認
Scott Viteri, Max Lamparth, Peter Chatain, Clark Barrett, (参考訳) CoT(Chain-of-Thought)推論は原則として、言語モデルの内部推論(LM)をより深く理解することを可能にする。 しかしながら、以前の研究は、いくつかのLMがCoTの変更にもかかわらず同様の質問に答えていることを示唆しており、これらのモデルがCoTを真に使っているわけではないことを示唆している。 本稿では,他の文脈に依存しない将来のテキストを予測するのに十分なCoTを生成するためのトレーニング手法を提案する。 この方法論は、LMが将来のトークンを予測できるならば、そのコンテキストを理解するためにCoTを使用することを保証します。 我々は、受信機LMに対する送信者の真偽は、受信機が将来の観測を予測できる程度であるという考えを定式化する。 次に、文脈としてCoTのみを与えられた将来のテキストを予測できる「マルコフ的」LMを定義する。 我々は、マルコフのLMに真理性の定義を適用し、政策勾配とPPO(Proximal Policy Optimization)を介して最適化することで、「マルコフの訓練」(Markovian training)手順を導出する。 長文演算問題に対するトレーニングアルゴリズムの有効性を実証し、このモデルがCoTを用いており、生成したCoTが他のモデルで意味があり有用であることを検証した。

Chain-of-Thought (CoT) reasoning could in principle enable a deeper understanding of a language model's (LM) internal reasoning. However, prior work suggests that some LMs answer questions similarly despite changes in their CoT, suggesting that those models are not truly using the CoT. We propose a training method to produce CoTs that are sufficient alone for predicting future text, independent of other context. This methodology gives a guarantee that if the LM can predict future tokens, then it must have used the CoT to understand its context. We formalize the idea that the truthfulness of a sender to a receiver LM is the degree to which the sender helps the receiver predict their future observations. Then we define a "Markovian" LM as one which predicts future text given only a CoT as context. We derive a "Markovian training" procedure by applying our definition of truthfulness to a Markovian LM and optimizing via policy gradient and Proximal Policy Optimization (PPO). We demonstrate the effectiveness of our training algorithm on long-context arithmetic problems, show that the model utilizes the CoT, and validate that the generated CoT is meaningful and usable by other models.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# サイバーいじめとオンラインハラスメント:デジタルウェルビーングの課題

Cyberbully and Online Harassment: Issues Associated with Digital Wellbeing ( http://arxiv.org/abs/2404.18989v1 )

ライセンス: Link先を確認
Manasi Kulkarni, Siddhi Durve, Bochen Jia, (参考訳) デジタル技術が日々の生活に浸透するにつれて、社会的相互作用に対するその影響は、特にサイバーいじめに関する重要な研究領域となっている。 このメタアナリシスは、問題を悪化させる触媒や潜在的な解決策として、サイバーバブル化における技術の役割を調査する。 サイバーいじめ(Cyberbullying)は、個人を嫌がらせ、脅し、屈辱するためにデジタルプラットフォームを使用することによって特徴づけられ、精神的および社会的幸福に重大な課題を提起する。 本研究は, コンテンツ監視アルゴリズム, 匿名報告システム, デジタルプラットフォームに組み込まれた教育イニシアチブなど, 革新的な技術介入が, サイバーいじめの頻度の低減にどのように貢献するかを評価するために, 多様な研究から経験的知見を合成する。 本研究は,動的デジタルランドスケープに対応する適応戦略の必要性を強調し,これらの介入の有効性に焦点を当てた。 この分析は、サイバーいじめの現状と技術ベースのソリューションの有効性を概観することにより、教育者、政策立案者、技術開発者を含むステークホルダーに貴重な洞察を提供する。 この発見は、テクノロジーをコミュニケーションの媒体としてだけでなく、サイバーいじめのネガティブな影響に対抗する戦略的ツールとして活用することの重要性を強調し、より包括的で尊敬すべきデジタル世界を促進する。

As digital technology becomes increasingly embedded in daily life, its impact on social interactions has become a critical area of study, particularly concerning cyberbullying. This meta-analysis investigates the dual role of technology in cyberbullying both as a catalyst that can exacerbate the issue and as a potential solution. Cyberbullying, characterized by the use of digital platforms to harass, threaten, or humiliate individuals, poses significant challenges to mental and social wellbeing. This research synthesizes empirical findings from diverse studies to evaluate how innovative technological interventions, such as content monitoring algorithms, anonymous reporting systems, and educational initiatives integrated within digital platforms, contribute to reducing the prevalence of cyberbullying. The study focuses on the effectiveness of these interventions in various settings, highlighting the need for adaptive strategies that respond to the dynamic digital landscape. By offering a comprehensive overview of the current state of cyberbullying and the efficacy of technology based solutions, this analysis provides valuable insights for stakeholders, including educators, policymakers, and technology developers, aiming to enhance digital wellbeing and create safer online environments. The findings underscore the importance of leveraging technology not only as a medium of communication but also as a strategic tool to combat the negative impacts of cyberbullying, thus promoting a more inclusive and respectful digital world.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 正規化流れによる統一シミュレーションと推論

Unifying Simulation and Inference with Normalizing Flows ( http://arxiv.org/abs/2404.18992v1 )

ライセンス: Link先を確認
Haoxing Du, Claudius Krause, Vinicius Mikuni, Benjamin Nachman, Ian Pang, David Shih, (参考訳) キャリブレーションを検出するためのディープニューラルネットワークの応用が数多くあり、自動高速検出器シミュレータとして深部生成モデルを提案する研究が増えている。 これらの2つのタスクは、エネルギー回帰のための条件付き生成モデルから最大極大推定(MLE)を用いて統一可能であることを示す。 直接回帰法とは異なり、MLE法は事前独立であり、非ガウス分解能は最大付近の確率の形状から決定できる。 ATLASライクなカロリーメータシミュレーションを用いて、この概念をカロリーメータのエネルギーキャリブレーションの文脈で実証する。

There have been many applications of deep neural networks to detector calibrations and a growing number of studies that propose deep generative models as automated fast detector simulators. We show that these two tasks can be unified by using maximum likelihood estimation (MLE) from conditional generative models for energy regression. Unlike direct regression techniques, the MLE approach is prior-independent and non-Gaussian resolutions can be determined from the shape of the likelihood near the maximum. Using an ATLAS-like calorimeter simulation, we demonstrate this concept in the context of calorimeter energy calibration.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# フェルミオンのトポロジーホログラフィー

Topological holography for fermions ( http://arxiv.org/abs/2404.19004v1 )

ライセンス: Link先を確認
Rui Wen, Weicheng Ye, Andrew C. Potter, (参考訳) トポロジカルホログラフィー(英: Topological holography)とは、(D+1)$-次元トポロジカル位数:対称性トポロジカル場の理論(SymTFT)における、$D$次元系の対称性電荷と欠陥の間の予想対応である。 トポロジカルホログラフィーは、SymTFTの異なるギャップド境界(アニオン凝縮)に対応する異なる位相を持つ、ギャップド系とギャップレス系の対称性のトポロジ的側面を捉えていると推測されている。 この対応は、フェルミオン電子を含む凝縮物質系の多くの相を除いて、主にボソニック系のために考えられていた。 本研究では,SymTFTフレームワークを拡張して,フェルミオン系のトポロジカルホログラフィ対応を確立する。 フェミオン対称性保護位相 (SPT) の分類, エッジモード, 積み重ね規則, フェルミオン共形場理論 (CFT) の分割関数の計算など, フェルミオン対称性保護位相と臨界点の1+1D$フェルミオンギャップの既知の性質を捉える。 単に既知の特性を再現するだけでなく、SymTFTアプローチが新しい物理を発見するための実践的なツールとして機能することを示し、このフレームワークを使用して、創発性フェルミオン異常を特徴とするフェルミオン内在的に隙間のないSPT位相の新たな例を構築する。

Topological holography is a conjectured correspondence between the symmetry charges and defects of a $D$-dimensional system with the anyons in a $(D+1)$-dimensional topological order: the symmetry topological field theory (SymTFT). Topological holography is conjectured to capture the topological aspects of symmetry in gapped and gapless systems, with different phases corresponding to different gapped boundaries (anyon condensations) of the SymTFT. This correspondence was previously considered primarily for bosonic systems, excluding many phases of condensed matter systems involving fermionic electrons. In this work, we extend the SymTFT framework to establish a topological holography correspondence for fermionic systems. We demonstrate that this fermionic SymTFT framework captures the known properties of $1+1D$ fermion gapped phases and critical points, including the classification, edge-modes, and stacking rules of fermionic symmetry-protected topological phases (SPTs), and computation of partition functions of fermionic conformal field theories (CFTs). Beyond merely reproducing known properties, we show that the SymTFT approach can additionally serve as a practical tool for discovering new physics, and use this framework to construct a new example of a fermionic intrinsically gapless SPT phase characterized by an emergent fermionic anomaly.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 超真空上の古典的ハードIQP回路の耐故障性コンパイル

Fault-tolerant compiling of classically hard IQP circuits on hypercubes ( http://arxiv.org/abs/2404.19005v1 )

ライセンス: Link先を確認
Dominik Hangleiter, Marcin Kalinowski, Dolev Bluvstein, Madelyn Cain, Nishad Maskara, Xun Gao, Aleksander Kubica, Mikhail D. Lukin, Michael J. Gullans, (参考訳) ノイズや不完全性の存在下で計算的に複雑な量子回路を実現することは難しい課題である。 フォールトトレラントな量子コンピューティングはノイズを低減するためのルートを提供するが、汎用アルゴリズムには大きなオーバーヘッドを必要とする。 そこで我々は,複雑なサンプリング回路を実現するためのハードウェア効率,フォールトトレラントアプローチを開発し,解析する。 我々は回路を、再構成可能な中性原子配列アーキテクチャにおける効率的な実装のための適切な量子誤り訂正符号で設計し、サンプリングアルゴリズムのフォールトトレラントコンパイルと呼ばれるものを構成する。 具体的には、変換ゲートと置換ゲートセットが任意の次数-$D$瞬時量子多項式(IQP)回路を実現することができる$[[2^D , D, 2]]$量子エラー検出符号の族を考える。 コードと原子配列ハードウェアのネイティブ操作を用いて、そのようなIQP回路のフォールトトレラントで高速なファミリをハイパーキューブ幾何学でコンパイルし、Bluvsteinらによる最近の実験で実現した[Nature 626, 7997 (2024)]。 本研究では,D$D$IQP回路の2次モーメント特性の理論を開発し,統計力学モデルにマッピングすることで,ハードネスを分析し,ランダムサンプリングの検証を行う。 我々は,ハイパーキューブIQP回路からのサンプリングが,平均忠実度と比較して線形クロスエントロピーベンチマーク(XEB)をシミュレートし,解析することが古典的に困難であることを示す。 完全スケーラブルなアプローチを実現するために,次数4$のIQP回路からのベルサンプリングが古典的に抽出可能であり,効率よく検証可能であることを示す。 さらに、$[[O(d^D,D,d]]$$ 距離$d$のカラーコードの新しいファミリーを考案し、逆IQPサンプリングの指数的エラー抑制を可能にした。 この結果から,エラー訂正コードとリアルハードウェアを併用したアルゴリズム設計において,フォールトトレラントコンパイルが強力なツールとして注目されている。

Realizing computationally complex quantum circuits in the presence of noise and imperfections is a challenging task. While fault-tolerant quantum computing provides a route to reducing noise, it requires a large overhead for generic algorithms. Here, we develop and analyze a hardware-efficient, fault-tolerant approach to realizing complex sampling circuits. We co-design the circuits with the appropriate quantum error correcting codes for efficient implementation in a reconfigurable neutral atom array architecture, constituting what we call a fault-tolerant compilation of the sampling algorithm. Specifically, we consider a family of $[[2^D , D, 2]]$ quantum error detecting codes whose transversal and permutation gate set can realize arbitrary degree-$D$ instantaneous quantum polynomial (IQP) circuits. Using native operations of the code and the atom array hardware, we compile a fault-tolerant and fast-scrambling family of such IQP circuits in a hypercube geometry, realized recently in the experiments by Bluvstein et al. [Nature 626, 7997 (2024)]. We develop a theory of second-moment properties of degree-$D$ IQP circuits for analyzing hardness and verification of random sampling by mapping to a statistical mechanics model. We provide evidence that sampling from hypercube IQP circuits is classically hard to simulate and analyze the linear cross-entropy benchmark (XEB) in comparison to the average fidelity. To realize a fully scalable approach, we first show that Bell sampling from degree-$4$ IQP circuits is classically intractable and can be efficiently validated. We further devise new families of $[[O(d^D),D,d]]$ color codes of increasing distance $d$, permitting exponential error suppression for transversal IQP sampling. Our results highlight fault-tolerant compiling as a powerful tool in co-designing algorithms with specific error-correcting codes and realistic hardware.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# どうやってここに来たのか? 会話のダイナミクスを要約する

How Did We Get Here? Summarizing Conversation Dynamics ( http://arxiv.org/abs/2404.19007v1 )

ライセンス: Link先を確認
Yilun Hua, Nicholas Chernogor, Yuzhe Gu, Seoyeon Julie Jeong, Miranda Luo, Cristian Danescu-Niculescu-Mizil, (参考訳) 会話を通して、参加者同士の相互作用の仕方は常に変動しており、それぞれのトーンが変化したり、ポイントを伝達するために異なる戦略に頼ったり、相互作用パターンを変更したりすることもある。 これらのダイナミクスの理解は、議論の実際の事実と意見の理解を補完し、会話の軌跡のより包括的な見解を提供する。 本研究では,人文要約のデータセットを構築し,複数の自動ベースラインを探索することにより,会話のダイナミクスを要約するタスクを紹介する。 このような要約が、確立された下流タスクを通じて会話の軌跡を捉えることができるかどうかを、現在進行中の会話が最終的に有害な行動に陥るかどうかを予測する。 この予測タスクでは,人間と自動化システムの両方を支援できることが示される。 人間は、要約を読むときよりも3倍速く、自信を持って予測する。 さらに、自動予測システムは、書き起こしを直接予測するよりも、会話ダイナミクスの要約に基づいて構築し、予測する方が正確である。

Throughout a conversation, the way participants interact with each other is in constant flux: their tones may change, they may resort to different strategies to convey their points, or they might alter their interaction patterns. An understanding of these dynamics can complement that of the actual facts and opinions discussed, offering a more holistic view of the trajectory of the conversation: how it arrived at its current state and where it is likely heading. In this work, we introduce the task of summarizing the dynamics of conversations, by constructing a dataset of human-written summaries, and exploring several automated baselines. We evaluate whether such summaries can capture the trajectory of conversations via an established downstream task: forecasting whether an ongoing conversation will eventually derail into toxic behavior. We show that they help both humans and automated systems with this forecasting task. Humans make predictions three times faster, and with greater confidence, when reading the summaries than when reading the transcripts. Furthermore, automated forecasting systems are more accurate when constructing, and then predicting based on, summaries of conversation dynamics, compared to directly predicting on the transcripts.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 強化学習によるボルンルールの合成

Synthesizing the Born rule with reinforcement learning ( http://arxiv.org/abs/2404.19011v1 )

ライセンス: Link先を確認
Rodrigo S. Piera, John B. DeBrota, Matthew B. Weiss, Gabriela B. Lemos, Jailson Sales Araújo, Gabriel H. Aguilar, Jacques L. Pienaar, (参考訳) 量子論の主観的ベイズ解釈(英語版)(QBism)によれば、量子力学は自然現象に賭けるときに、エージェントが賢明に使えるツールである。 特に、ボルン・ルールは意思決定の規範であると理解されており、実際は不足しているとしても、その理想は満たすべきである。 エージェントが量子力学に適合する決定を下すためには、何が必要か? ここでは、現実的な(非理想的な)エージェントが、その決定においてボルンルールから逸脱する可能性について検討する。 そこで我々は,対称情報完全測定(SIC)の出力に「ベット」を付加する強化学習アルゴリズムとして単純なエージェントをシミュレートし,期待したリターンを最大化するためにその決定を調整する。 我々は、アルゴリズムの意思決定行動がボルンルールの理想的な形式からどのくらい離れているかを定量化し、制限要因について検討する。 そこで本研究では,本手法を用いてシナリオを実験的に実装する。

According to the subjective Bayesian interpretation of quantum theory (QBism), quantum mechanics is a tool that an agent would be wise to use when making bets about natural phenomena. In particular, the Born rule is understood to be a decision-making norm, an ideal which one should strive to meet even if usually falling short in practice. What is required for an agent to make decisions that conform to quantum mechanics? Here we investigate how a realistic (hence non-ideal) agent might deviate from the Born rule in its decisions. To do so we simulate a simple agent as a reinforcement-learning algorithm that makes `bets' on the outputs of a symmetric informationally-complete measurement (SIC) and adjusts its decisions in order to maximize its expected return. We quantify how far the algorithm's decision-making behavior departs from the ideal form of the Born rule and investigate the limiting factors. We propose an experimental implementation of the scenario using heralded single photons.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 友長・ラッティンガー液体の無遷移量子駆動

Transitionless Quantum Driving of the Tomonaga-Luttinger Liquid ( http://arxiv.org/abs/2404.19013v1 )

ライセンス: Link先を確認
Léonce Dupays, Adolfo del Campo, (参考訳) STA(Shortcut to adiabaticity)は、多くの身体状態の迅速な準備を可能にし、adiabatic Strategyの限界を回避する。 本稿では,友長・ラッティンガー液体中の相互作用状態を生成するための高速STAプロトコルを提案する。 この目的のために、時間依存の友長・ラッティンガー液体と、駆動質量と周波数を持つ量子発振器のアンサンブルの等価性を利用する。 反断熱制御のクローズドフォーム表現を規定し,その効率性を示す。

Shortcuts to adiabaticity (STA) make the fast preparation of many-body states possible, circumventing the limitations of adiabatic strategies. We propose a fast STA protocol for generating interacting states in the Tomonaga-Luttinger liquid by counter-diabatic driving, stirring the dynamics with an auxiliary control field. To this end, we exploit the equivalence between the time-dependent Tomonaga-Luttinger liquid and an ensemble of quantum oscillators with driven mass and frequency. We specify the closed-form expression of the counterdiabatic control and demonstrate its efficiency in suppressing excitations.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# Simple-RF: 単純解を用いたスパース入力放射場正規化

Simple-RF: Regularizing Sparse Input Radiance Fields with Simpler Solutions ( http://arxiv.org/abs/2404.19015v1 )

ライセンス: Link先を確認
Nagabhushan Somraj, Adithyan Karanayil, Sai Harsha Mupparaju, Rajiv Soundararajan, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンのフォトリアリスティックなフリービューレンダリングにおいて印象的なパフォーマンスを示す。 近年のTensoRFやZipNeRFのようなNeRFの改良は、暗黙の表現を用いるNeRFと比較して、最適化とレンダリングを高速化するための明示的なモデルを採用している。 しかし、暗黙の放射場と暗示の放射場の両方は、所定のシーンにおける画像の密集サンプリングを必要とする。 スパースビューのみを使用すると、パフォーマンスは大幅に低下する。 放射界で推定される深度を監督することは、より少ない視野で効果的にトレーニングするのに役立ちます。 奥行きの監視は、古典的なアプローチか、大規模なデータセットで事前訓練されたニューラルネットワークを使って得られる。 前者はまばらな監督しか行わないが、後者は一般化の問題に悩まされることがある。 従来のアプローチとは対照的に,我々は拡張モデルを設計し,主放射場とともにそれらを訓練することにより,深度監視を学ぼうとしている。 さらに,様々な暗黙的および明示的な放射場にまたがって機能する正規化の枠組みを設計することを目指す。 これらの放射場モデルの特定の特徴がスパース・インプット・シナリオにおける観測画像に過度に適合していることが観察された。 我々のキーとなる発見は、位置符号化、分解テンソル成分の個数、ハッシュテーブルのサイズに関する放射界の能力の低下が、より単純な解を学習するためにモデルを制約し、特定の領域のより深い深さを推定することである。 このような縮小機能に基づく拡張モデルの設計により、主放射場に対するより優れた深度監視が得られる。 本研究では,前向きと360$^\circ$のシーンを含む一般的なデータセットに対して,これらの正規化を用いて,スパース入力ビューを用いて,最先端のビュー合成性能を実現する。

Neural Radiance Fields (NeRF) show impressive performance in photo-realistic free-view rendering of scenes. Recent improvements on the NeRF such as TensoRF and ZipNeRF employ explicit models for faster optimization and rendering, as compared to the NeRF that employs an implicit representation. However, both implicit and explicit radiance fields require dense sampling of images in the given scene. Their performance degrades significantly when only a sparse set of views is available. Researchers find that supervising the depth estimated by a radiance field helps train it effectively with fewer views. The depth supervision is obtained either using classical approaches or neural networks pre-trained on a large dataset. While the former may provide only sparse supervision, the latter may suffer from generalization issues. As opposed to the earlier approaches, we seek to learn the depth supervision by designing augmented models and training them along with the main radiance field. Further, we aim to design a framework of regularizations that can work across different implicit and explicit radiance fields. We observe that certain features of these radiance field models overfit to the observed images in the sparse-input scenario. Our key finding is that reducing the capability of the radiance fields with respect to positional encoding, the number of decomposed tensor components or the size of the hash table, constrains the model to learn simpler solutions, which estimate better depth in certain regions. By designing augmented models based on such reduced capabilities, we obtain better depth supervision for the main radiance field. We achieve state-of-the-art view-synthesis performance with sparse input views on popular datasets containing forward-facing and 360$^\circ$ scenes by employing the above regularizations.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# テンソルネットワーク収縮における符号問題

Sign problem in tensor network contraction ( http://arxiv.org/abs/2404.19023v1 )

ライセンス: Link先を確認
Jielun Chen, Jiaqing Jiang, Dominik Hangleiter, Norbert Schuch, (参考訳) テンソルネットワークの縮小の計算困難さはテンソルエントリの符号構造に依存するかを検討する。 計算複雑性の結果を用いて、正の成分しか持たないテンソルネットワークの近似縮約がより少ないことを観察する。 このことは、計算複雑性におけるこの遷移が、異なる収縮スキームの硬さにどのように現れているのかという疑問を提起する。 我々は、正のエントリに対するバイアスが異なるランダムなテンソルネットワークを研究することによって、この問題を追求する。 まず、モンテカルロサンプリングによる縮約を考察し、成分が主に正となるとき、難しい状態から簡単な状態への遷移が生じることを発見し、これは量子モンテカルロ符号問題のテンソルネットワークの顕在化として見ることができる。 第2に、境界テンソルネットワークに基づいて、よく使われる収縮を分析する。 その性能はテンソルネットワークにおける相関(絡み合い)の量によって支配される。 注目すべきことに、結合次元がより大きいほど(体積法則から絡み合う境界法へのスケーリング)、わずかに偏りが生じる。 これは、モンテカルロの収縮に見られる期待と振舞いの両方とは対照的である。 有効な統計モデルの研究から、この初期の遷移についてさらなる知見を得る。 最後に,テンソルネットワーク波動関数の予測値,すなわちPEPSの計算困難さについて検討し,絡み合いに基づく収縮の複雑さが常に低いことを示す。 PEPS期待値を正値テンソルネットワークにマッピングする局所変換を提供することで、これを説明できる。 これは、観測された境界法絡み合いのスケーリングの起源に関する洞察を与えるだけでなく、正の分解に基づくPEPS収縮に対する新しいアプローチも提案する。

We investigate how the computational difficulty of contracting tensor networks depends on the sign structure of the tensor entries. Using results from computational complexity, we observe that the approximate contraction of tensor networks with only positive entries has lower complexity. This raises the question how this transition in computational complexity manifests itself in the hardness of different contraction schemes. We pursue this question by studying random tensor networks with varying bias towards positive entries. First, we consider contraction via Monte Carlo sampling, and find that the transition from hard to easy occurs when the entries become predominantly positive; this can be seen as a tensor network manifestation of the Quantum Monte Carlo sign problem. Second, we analyze the commonly used contraction based on boundary tensor networks. Its performance is governed by the amount of correlations (entanglement) in the tensor network. Remarkably, we find that the transition from hard to easy (i.e., from a volume law to a boundary law scaling of entanglement) occurs already for a slight bias towards a positive mean, and the earlier the larger the bond dimension is. This is in contrast to both expectations and the behavior found in Monte Carlo contraction. We gain further insight into this early transition from the study of an effective statmech model. Finally, we investigate the computational difficulty of computing expectation values of tensor network wavefunctions, i.e., PEPS, where we find that the complexity of entanglement-based contraction always remains low. We explain this by providing a local transformation which maps PEPS expectation values to a positive-valued tensor network. This not only provides insight into the origin of the observed boundary law entanglement scaling, but also suggests new approaches towards PEPS contraction based on positive decompositions.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# セルフアテンション・スコーリング機構を用いた複数ページの視覚的質問応答

Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism ( http://arxiv.org/abs/2404.19024v1 )

ライセンス: Link先を確認
Lei Kang, Rubèn Tito, Ernest Valveny, Dimosthenis Karatzas, (参考訳) 文書は文書通信の2次元キャリアであり、その解釈にはテキストと視覚情報を効率的に組み合わせたマルチモーダルなアプローチが必要である。 文書視覚質問回答 (Document VQA) は、このマルチモーダルな性質から、文書理解と自然言語処理のコミュニティから大きな関心を集めている。 最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。 すべてのページを1つの大きなページにまとめて処理し、評価のためにも相当なGPUリソースを必要とする。 本研究では,マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。 特に,文書理解モデルPix2Structのエンコーダを利用した視覚のみの文書表現を用いる。 本手法では,各文書ページの関連点を自己注意スコアリング機構を用いて生成し,関連するページの検索を可能にする。 この適応により、評価中のページ数に制約を加えることなく、単一のページドキュメントVQAモデルをマルチページシナリオに拡張できます。 我々は,光学式文字認識(OCR)を必要とせずに最先端の性能を達成するだけでなく,MP-DocVQAデータセットの最大20ページに対して,800ページ近い文書に拡張したシナリオでも性能を持続することを示した。 我々のコードは \url{https://github.com/leitro/SelfAttnScoring-MPDocVQA} で公開されています。

Documents are 2-dimensional carriers of written communication, and as such their interpretation requires a multi-modal approach where textual and visual information are efficiently combined. Document Visual Question Answering (Document VQA), due to this multi-modal nature, has garnered significant interest from both the document understanding and natural language processing communities. The state-of-the-art single-page Document VQA methods show impressive performance, yet in multi-page scenarios, these methods struggle. They have to concatenate all pages into one large page for processing, demanding substantial GPU resources, even for evaluation. In this work, we propose a novel method and efficient training strategy for multi-page Document VQA tasks. In particular, we employ a visual-only document representation, leveraging the encoder from a document understanding model, Pix2Struct. Our approach utilizes a self-attention scoring mechanism to generate relevance scores for each document page, enabling the retrieval of pertinent pages. This adaptation allows us to extend single-page Document VQA models to multi-page scenarios without constraints on the number of pages during evaluation, all with minimal demand for GPU resources. Our extensive experiments demonstrate not only achieving state-of-the-art performance without the need for Optical Character Recognition (OCR), but also sustained performance in scenarios extending to documents of nearly 800 pages compared to a maximum of 20 pages in the MP-DocVQA dataset. Our code is publicly available at \url{https://github.com/leitro/SelfAttnScoring-MPDocVQA}.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 教師なしバイナリコード翻訳とコード類似性検出と脆弱性発見への応用

Unsupervised Binary Code Translation with Application to Code Similarity Detection and Vulnerability Discovery ( http://arxiv.org/abs/2404.19025v1 )

ライセンス: Link先を確認
Iftakhar Ahmad, Lannan Luo, (参考訳) バイナリコード分析は、ソフトウェアセキュリティの研究領域において非常に重要である。 今日では、ソフトウェアは様々なインストラクション・セット・アーキテクチャ(ISA)のためにしばしばコンパイルされる。 その結果,クロスアーキテクチャのバイナリコード解析が新たな問題となっている。 近年,ディープラーニングに基づくバイナリ分析は有望な成功を収めている。 ディープラーニングモデルのトレーニングには大量のデータが必要であることは広く知られている。 しかし、一部の低リソースISAでは、十分な量のデータを見つけることは困難であり、深層学習がバイナリ解析に広く採用されるのを防ぐことができる。 データ不足の問題を克服し、クロスアーキテクチャのバイナリコード解析を容易にするために、ニューラルネットワーク翻訳(NMT)のアイデアとテクニックをバイナリコード解析に適用することを提案する。 私たちの洞察では、バイナリは分解された後、アセンブリ言語で表現されます。 低リソースISAのバイナリを与えられた場合、高リソースISA(例えば、x86)のバイナリに変換します。 次に、高リソースISAでトレーニングされたモデルを使用して、翻訳されたバイナリをテストする。 我々はUNSUPERBINTRANSと呼ばれるモデルを実装し,その性能評価実験を行った。 具体的には、コード類似性検出と脆弱性発見という、2つの下流タスクを実行しました。 どちらの仕事でも、私たちは高い評価を得た。

Binary code analysis has immense importance in the research domain of software security. Today, software is very often compiled for various Instruction Set Architectures (ISAs). As a result, cross-architecture binary code analysis has become an emerging problem. Recently, deep learning-based binary analysis has shown promising success. It is widely known that training a deep learning model requires a massive amount of data. However, for some low-resource ISAs, an adequate amount of data is hard to find, preventing deep learning from being widely adopted for binary analysis. To overcome the data scarcity problem and facilitate cross-architecture binary code analysis, we propose to apply the ideas and techniques in Neural Machine Translation (NMT) to binary code analysis. Our insight is that a binary, after disassembly, is represented in some assembly language. Given a binary in a low-resource ISA, we translate it to a binary in a high-resource ISA (e.g., x86). Then we can use a model that has been trained on the high-resource ISA to test the translated binary. We have implemented the model called UNSUPERBINTRANS, and conducted experiments to evaluate its performance. Specifically, we conducted two downstream tasks, including code similarity detection and vulnerability discovery. In both tasks, we achieved high accuracies.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# MeGA:ハイファイダリティレンダリングとヘッド編集のためのハイブリッドメッシュ・ガウスヘッドアバター

MeGA: Hybrid Mesh-Gaussian Head Avatar for High-Fidelity Rendering and Head Editing ( http://arxiv.org/abs/2404.19026v1 )

ライセンス: Link先を確認
Cong Wang, Di Kang, He-Yi Sun, Shen-Han Qian, Zi-Xuan Wang, Linchao Bao, Song-Hai Zhang, (参考訳) マルチビュービデオから高忠実度ヘッドアバターを作成することは、多くのAR/VRアプリケーションの中核的な問題である。 しかし、既存の手法では、異なる特徴(例えば、皮膚と毛髪)をモデル化するために1つの単一の表現を使用するため、すべての異なるヘッドコンポーネントの高品質なレンダリングを同時に取得するのに苦労する。 本稿では,より適切な表現で異なる頭部成分をモデル化するハイブリッドメッシュ・ガウスヘッドアバター(MeGA)を提案する。 具体的には、拡張FLAMEメッシュを顔表現として選択し、UV変位マップを予測して、パーソナライズされた幾何学的詳細を改善するために頂点ごとのオフセットを提供する。 光リアリスティックなレンダリングを実現するために、遅延したニューラルレンダリングと3つの意味のある部分に切り離されたニューラルテクスチャを用いて顔色を得る。 ヘアモデリングでは,まず3次元ガウススプラッティングを用いて静的な標準髪を製作する。 さらに、複雑な動的表現を扱うために、剛体変換とMLPに基づく変形場を適用した。 閉塞認識ブレンディングと組み合わせて、MeGAは頭部全体の高忠実度レンダリングを生成し、下流タスクを自然にサポートする。 NeRSembleデータセットの実験は、我々のデザインの有効性を実証し、従来の最先端手法より優れ、髪型変更やテクスチャ編集など様々な編集機能をサポートしています。

Creating high-fidelity head avatars from multi-view videos is a core issue for many AR/VR applications. However, existing methods usually struggle to obtain high-quality renderings for all different head components simultaneously since they use one single representation to model components with drastically different characteristics (e.g., skin vs. hair). In this paper, we propose a Hybrid Mesh-Gaussian Head Avatar (MeGA) that models different head components with more suitable representations. Specifically, we select an enhanced FLAME mesh as our facial representation and predict a UV displacement map to provide per-vertex offsets for improved personalized geometric details. To achieve photorealistic renderings, we obtain facial colors using deferred neural rendering and disentangle neural textures into three meaningful parts. For hair modeling, we first build a static canonical hair using 3D Gaussian Splatting. A rigid transformation and an MLP-based deformation field are further applied to handle complex dynamic expressions. Combined with our occlusion-aware blending, MeGA generates higher-fidelity renderings for the whole head and naturally supports more downstream tasks. Experiments on the NeRSemble dataset demonstrate the effectiveness of our designs, outperforming previous state-of-the-art methods and supporting various editing functionalities, including hairstyle alteration and texture editing.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 単項ブロック最適化スキームと古典的後処理を組み合わせた変分量子固有解法の最適化

Better Optimization of Variational Quantum Eigensolvers by combining the Unitary Block Optimization Scheme with Classical Post-Processing ( http://arxiv.org/abs/2404.19027v1 )

ライセンス: Link先を確認
Xiaochuan Ding, Bryan K. Clark, (参考訳) 変分量子固有解法(VQE)は、ハミルトンの古典的に難解な基底状態を見つけるための有望なアプローチである。 Unitary Block Optimization Scheme (UBOS) は最先端のVQE方式であり、ゲートを網羅し、他のゲート環境における各ゲートの最適パラメータを求める。 UBOSは、SGD (Stochastic Gradient Descent) に対する等級によって、基底状態への収束時間を改善する。 それにもかかわらず、ショットノイズから生じる非常にノイズの多い期待値に直面して、収束率と最終的な収束エネルギーの両方に苦しむ。 ここではUBOSを改良する2つの古典的後処理手法について述べる。 ガウス過程回帰(GPR)を用いて、量子コンピュータからの原データを用いて人工的な拡張現実データを生成し、改善されたパラメータを解く際の全体的なエラーを低減する。 DROPR(Double Robust Optimization plus Rejection)を用いることで、非典型的にノイズの多いデータの外部への流出を防止し、特に誤った単一最適化ステップを発生させ、ノイズ測定に対するロバスト性を高める。 これらの手法を組み合わせることで、UBOSが3倍の誤差で到達する最終的な相対誤差をさらに削減し、追加の量子測定やサンプリングオーバーヘッドを追加することなく実現できる。 この研究は、古典的資源を用いて量子計測結果を後処理する技術を開発することにより、VQEアルゴリズムを著しく改善することを示した。

Variational Quantum Eigensolvers (VQE) are a promising approach for finding the classically intractable ground state of a Hamiltonian. The Unitary Block Optimization Scheme (UBOS) is a state-of-the-art VQE method which works by sweeping over gates and finding optimal parameters for each gate in the environment of other gates. UBOS improves the convergence time to the ground state by an order of magnitude over Stochastic Gradient Descent (SGD). It nonetheless suffers in both rate of convergence and final converged energies in the face of highly noisy expectation values coming from shot noise. Here we develop two classical post-processing techniques which improve UBOS especially when measurements have large noise. Using Gaussian Process Regression (GPR) we generate artificial augmented data using original data from the quantum computer to reduce the overall error when solving for the improved parameters. Using Double Robust Optimization plus Rejection (DROPR), we prevent outlying data which are atypically noisy from resulting in a a particularly erroneous single optimization step thereby increasing robustness against noisy measurements. Combining these techniques further reduces the final relative error that UBOS reaches by a factor of three without adding additional quantum measurement or sampling overhead. This work further demonstrates that developing techniques which use classical resources to post-process quantum measurement results can significantly improve VQE algorithms.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# 文書分類のための機械学習

Machine Unlearning for Document Classification ( http://arxiv.org/abs/2404.19031v1 )

ライセンス: Link先を確認
Lei Kang, Mohamed Ali Souibgui, Fei Yang, Lluis Gomez, Ernest Valveny, Dimosthenis Karatzas, (参考訳) 文書理解モデルは、最近、広範囲なユーザ文書の収集を活用して、顕著なパフォーマンスを示した。 しかし、文書には大量の個人情報が含まれていることが多いため、それらの使用はユーザーのプライバシーを脅かし、人間とAIサービスの信頼関係を弱める可能性がある。 これらの懸念に応えて、「忘れられる権利」を主張する法律が最近提案され、ユーザーはコンピュータシステムやニューラルネットワークモデルからプライベート情報を削除することを要求できる。 機械学習として知られる新しいアプローチが登場し、AIモデルを特定の種類のデータを忘れるようにしている。 本研究では,文書分類問題に対する機械学習について検討し,この領域を初めて研究した。 具体的には、遠隔サーバが十分に訓練されたモデルを持ち、少数のトレーニングデータしか持たない現実的なシナリオを考える。 この設定は、効率的に操作を忘れるように設計されている。 この研究は、文書分析アプリケーションにおけるプライバシー問題に対処することを目的とした機械学習手法の開発に向けた先駆的なステップである。 私たちのコードは、 \url{https://github.com/leitro/MachineUnlearning-DocClassification}で公開されています。

Document understanding models have recently demonstrated remarkable performance by leveraging extensive collections of user documents. However, since documents often contain large amounts of personal data, their usage can pose a threat to user privacy and weaken the bonds of trust between humans and AI services. In response to these concerns, legislation advocating ``the right to be forgotten" has recently been proposed, allowing users to request the removal of private information from computer systems and neural network models. A novel approach, known as machine unlearning, has emerged to make AI models forget about a particular class of data. In our research, we explore machine unlearning for document classification problems, representing, to the best of our knowledge, the first investigation into this area. Specifically, we consider a realistic scenario where a remote server houses a well-trained model and possesses only a small portion of training data. This setup is designed for efficient forgetting manipulation. This work represents a pioneering step towards the development of machine unlearning methods aimed at addressing privacy concerns in document analysis applications. Our code is publicly available at \url{https://github.com/leitro/MachineUnlearning-DocClassification}.
翻訳日:2024-05-01 18:19:58 公開日:2024-04-29
# フェルミオン型機械学習

Fermionic Machine Learning ( http://arxiv.org/abs/2404.19032v1 )

ライセンス: Link先を確認
Jérémie Gince, Jean-Michel Pagé, Marco Armenta, Ayana Sarkar, Stefanos Kourtis, (参考訳) フェミオン量子計算に基づく機械学習フレームワークであるフェミオン型機械学習(FermiML)を紹介する。 フェルミMLモデルは、自由マヨラナフェルミオンの系に正確にマッピングされる量子回路の制限されたクラスであるパラメータ化マッチゲート回路によって表現される。 FermiMLフレームワークは、パラメータ化された量子回路に基づく任意の量子機械学習(QML)モデルのフェルミオン系を構築することができる。 重要なことは、マッチゲート回路は効率よく古典的にシミュレートできるため、FermiMLは大規模な実世界のデータセット上のQMLメソッドのユーティリティベンチマークのためのフレキシブルなフレームワークである。 我々は、ランダム量子カーネルを用いた分類の文脈において、制限なしのPQCに対してFermiMLをベンチマークすることで、FermiMLの探索を開始する。 標準データセット(Digits と Wisconsin Breast Cancer)の実験を通じて、FermiMLカーネルはサポートベクターマシンを用いた分類タスクにおいて、制限なしのPQCカーネルと同等であることを示した。 さらに、FermiMLカーネルは、数十の関連する機能を持つデータセットを含む、多クラス分類における制限なしの候補よりも優れていることが判明した。 したがって、FermiMLが以前QMLに到達できなかったレシストラクチャを探索する上でどのように役立つかを示す。

We introduce fermionic machine learning (FermiML), a machine learning framework based on fermionic quantum computation. FermiML models are expressed in terms of parameterized matchgate circuits, a restricted class of quantum circuits that map exactly to systems of free Majorana fermions. The FermiML framework allows for building fermionic counterparts of any quantum machine learning (QML) model based on parameterized quantum circuits, including models that produce highly entangled quantum states. Importantly, matchgate circuits are efficiently simulable classically, thus rendering FermiML a flexible framework for utility benchmarks of QML methods on large real-world datasets. We initiate the exploration of FermiML by benchmarking it against unrestricted PQCs in the context of classification with random quantum kernels. Through experiments on standard datasets (Digits and Wisconsin Breast Cancer), we demonstrate that FermiML kernels are on-par with unrestricted PQC kernels in classification tasks using support-vector machines. Furthermore, we find that FermiML kernels outperform their unrestricted candidates on multi-class classification, including on datasets with several tens of relevant features. We thus show how FermiML enables us to explore regimes previously inaccessible to QML methods.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 個々の表面スピンの非共鳴電気量子制御

Non-resonant electric quantum control of individual on-surface spins ( http://arxiv.org/abs/2404.19036v1 )

ライセンス: Link先を確認
Santiago A. Rodríguez, Sergio S. Gómez, Joaquín Fernández-Rossier, Alejandro Ferrón, (参考訳) 量子制御技術は、孤立原子を含む異なる量子系の特性を操作し、活用する上で重要な役割を果たしている。 本稿では,STM(Scanning Tunneling Microscopy)により実装されたLandau-Zener-St\"uckelberg-Majorana (LZSM) 干渉計を用いて,単一表面原子スピン上の量子制御を実現することを提案する。 具体的には, MgO/Ag(100)表面上の孤立したFe原子において, 時間依存性の非共鳴交流電場をSTM先端表面ギャップにわたって適用することにより, 正確な量子状態操作を実現する方法についてモデル化する。 本研究では,Landau ZenerトンネルとLZSM干渉計を併用して,個々のFe原子の量子スピントンネルを測定するプロトコルを提案する。 提案実験はESR-STMインスツルメンテーションを用いて実施することができ、地上での単一スピン制御の研究に新たな場所を開くことができる。

Quantum control techniques play an important role in manipulating and harnessing the properties of different quantum systems, including isolated atoms. Here, we propose to achieve quantum control over a single on-surface atomic spin using Landau-Zener-St\"uckelberg-Majorana (LZSM) interferometry implemented with Scanning Tunneling Microscopy (STM). Specifically, we model how the application of time-dependent, non-resonant AC electric fields across the STM tip-surface gap makes it possible to achieve precise quantum state manipulation in an isolated Fe atom on a MgO/Ag(100) surface. We propose a protocol to combine Landau Zener tunneling with LZSM interferometry that permits one to measure the quantum spin tunneling of an individual Fe atom. The proposed experiments can be implemented with ESR-STM instrumentation, opening a new venue in the research of on-surface single spin control.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 映像画像のアニメーション化のための埋め込み表現学習ネットワーク

Embedded Representation Learning Network for Animating Styled Video Portrait ( http://arxiv.org/abs/2404.19038v1 )

ライセンス: Link先を確認
Tianyong Wang, Xiangyu Liang, Wangguandong Zheng, Dan Niu, Haifeng Xia, Siyu Xia, (参考訳) 講演ヘッドジェネレーションは、特にデジタルアバターや3Dアニメーションの設計において、広く応用される可能性から、近年大きな注目を集めている。 この実際的な要求に触発されて、いくつかの研究が、発声ヘッドを合成するためにNeRF(Neural Radiance Fields)を探索した。 しかし、これらの手法はNeRFに基づく2つの課題に直面している。 2)レンダリング画像における頸部周囲の変位アーティファクト これら2つの課題を克服するために,2つの学習段階を持つ新たな生成パラダイムである「textit{Embedded Representation Learning Network} (ERLNet)」を提案する。 まず,「textit{ audio-driven FLAME} (ADF)」モジュールを構築し,コンテンツ音声やスタイルビデオと同期した表情と頭部ポーズのシーケンスを生成する。 第二に、AFFによって導出されるシーケンスを考えると、ある小説 \textit{dual-branch fusion NeRF} (DBF-NeRF) はこれらの内容を探索して最終的な画像を描画する。 広範にわたる実証研究により、これらの2つの段階の協調が、既存のアルゴリズムよりもよりリアルな発話ヘッドの描画を効果的に促すことが実証された。

The talking head generation recently attracted considerable attention due to its widespread application prospects, especially for digital avatars and 3D animation design. Inspired by this practical demand, several works explored Neural Radiance Fields (NeRF) to synthesize the talking heads. However, these methods based on NeRF face two challenges: (1) Difficulty in generating style-controllable talking heads. (2) Displacement artifacts around the neck in rendered images. To overcome these two challenges, we propose a novel generative paradigm \textit{Embedded Representation Learning Network} (ERLNet) with two learning stages. First, the \textit{ audio-driven FLAME} (ADF) module is constructed to produce facial expression and head pose sequences synchronized with content audio and style video. Second, given the sequence deduced by the ADF, one novel \textit{dual-branch fusion NeRF} (DBF-NeRF) explores these contents to render the final images. Extensive empirical studies demonstrate that the collaboration of these two stages effectively facilitates our method to render a more realistic talking head than the existing algorithms.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# GSTalker: 変形可能なガウススプラッティングによるリアルタイム音声駆動型顔生成

GSTalker: Real-time Audio-Driven Talking Face Generation via Deformable Gaussian Splatting ( http://arxiv.org/abs/2404.19040v1 )

ライセンス: Link先を確認
Bo Chen, Shoukang Hu, Qi Chen, Chenpeng Du, Ran Yi, Yanmin Qian, Xie Chen, (参考訳) 高速トレーニング(40分)とリアルタイムレンダリング(125FPS)の両方に3Dオーディオ駆動の音声合成モデルであるGStalkerについて,従来の2Dおよび3D NeRFベースのモデリングフレームワークと比較して,3$\sim$5分のトレーニング材料用ビデオと3D NeRFベースのモデリングフレームワークについて述べる。 具体的には、GSTalkerは、音声駆動のガウス変形場を学習し、3Dガウスを変換し、オーディオ情報と同期させる。 さらに、安定した胴体をモデル化するために、ポーズ条件変形場を設計する。 条件ガウス変形場を効率的に最適化するために、粗い静的ガウス表現を学習して3次元ガウスを初期化する。 個人固有のビデオとオーディオトラックの大規模な実験により、GSTalkerは高速なトレーニングとリアルタイムレンダリング速度で、高忠実度およびオーディオリップの同期結果を生成することができることを確認した。

We present GStalker, a 3D audio-driven talking face generation model with Gaussian Splatting for both fast training (40 minutes) and real-time rendering (125 FPS) with a 3$\sim$5 minute video for training material, in comparison with previous 2D and 3D NeRF-based modeling frameworks which require hours of training and seconds of rendering per frame. Specifically, GSTalker learns an audio-driven Gaussian deformation field to translate and transform 3D Gaussians to synchronize with audio information, in which multi-resolution hashing grid-based tri-plane and temporal smooth module are incorporated to learn accurate deformation for fine-grained facial details. In addition, a pose-conditioned deformation field is designed to model the stabilized torso. To enable efficient optimization of the condition Gaussian deformation field, we initialize 3D Gaussians by learning a coarse static Gaussian representation. Extensive experiments in person-specific videos with audio tracks validate that GSTalker can generate high-fidelity and audio-lips synchronized results with fast training and real-time rendering speed.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# マルチスペクトル衛星画像を用いたクラスあいまい度指標による洪水浸水マップの深層能動学習の解釈可能性の向上

Improving Interpretability of Deep Active Learning for Flood Inundation Mapping Through Class Ambiguity Indices Using Multi-spectral Satellite Imagery ( http://arxiv.org/abs/2404.19043v1 )

ライセンス: Link先を確認
Hyunho Lee, Wenwen Li, (参考訳) 浸水マップは地球温暖化に伴う浸水リスクの増加に対応する重要な課題である。 近年の深層学習の顕著な進歩は、洪水浸水マッピングを含む広範な応用のきっかけとなっている。 教師付き学習における時間と労働集約的なデータラベリングプロセスに対処するため、深層学習戦略は実現可能なアプローチの1つである。 しかし、リモートセンシングの分野では、洪水浸水マッピングに特化して、深層アクティブな学習戦略の運用方法の解釈可能性について、限定的な調査が続けられている。 本研究では,多スペクトル衛星画像のクラスあいまいさに特化して,Flood Inundation Mapping (IDAL-FIM) の解釈可能な深部能動学習フレームワークを提案する。 実験では、Sen1Floods11データセットを使用し、U-NetをMC-dropoutで採用する。 さらに, ランダム, K-平均, BALD, エントロピー, マージン獲得関数の5つの取得関数を用いる。 実験結果から,2つのクラスあいまい度指標が,タイルレベルでの深層学習モデルの予測的不確かさと統計的に有意な相関を定め,深層学習の解釈に有効な変数であることを実証した。 次に,2次元密度プロットを可視化し,深層能動学習の操作に関する解釈を提供することにより,深層能動学習の挙動を説明する。

Flood inundation mapping is a critical task for responding to the increasing risk of flooding linked to global warming. Significant advancements of deep learning in recent years have triggered its extensive applications, including flood inundation mapping. To cope with the time-consuming and labor-intensive data labeling process in supervised learning, deep active learning strategies are one of the feasible approaches. However, there remains limited exploration into the interpretability of how deep active learning strategies operate, with a specific focus on flood inundation mapping in the field of remote sensing. In this study, we introduce a novel framework of Interpretable Deep Active Learning for Flood inundation Mapping (IDAL-FIM), specifically in terms of class ambiguity of multi-spectral satellite images. In the experiments, we utilize Sen1Floods11 dataset, and adopt U-Net with MC-dropout. In addition, we employ five acquisition functions, which are the random, K-means, BALD, entropy, and margin acquisition functions. Based on the experimental results, we demonstrate that two proposed class ambiguity indices are effective variables to interpret the deep active learning by establishing statistically significant correlation with the predictive uncertainty of the deep learning model at the tile level. Then, we illustrate the behaviors of deep active learning through visualizing two-dimensional density plots and providing interpretations regarding the operation of deep active learning, in flood inundation mapping.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 量子高調波発振器の冷却・トラップのための連続フィードバックプロトコル

Continuous feedback protocols for cooling and trapping a quantum harmonic oscillator ( http://arxiv.org/abs/2404.19047v1 )

ライセンス: Link先を確認
Guilherme De Sousa, Pharnam Bakhshinezhad, Björn Annby-Andersson, Peter Samuelsson, Patrick P. Potts, Christopher Jarzynski, (参考訳) 量子技術と実験は、しばしば低温状態での準備システムを必要とする。 本稿では、最近Annby-Andersson et al(Phys. Rev. Lett. 129, 050401, 2022)によって導かれた量子フォッカー・プランク・マスター方程式(QFPME)をモデル化したフィードバックプロトコルを用いて冷却方式を検討する。 この方程式は、連続的な弱い測定の下のシステムを記述し、これらの測定の結果に基づいてフィードバックを与える。 この定式化を、位置および/または運動量測定に基づくいくつかのプロトコルに対する高調波発振器の冷却とトラップに関する研究に応用する。 このプロトコルは、パラメータの適切な選択のための基底状態まで、あるいは近くまで振動子を冷却することができる。 我々の分析は、量子計測とフィードバックの分析可能なケーススタディを提供し、QFPMEの連続量子システムへの応用を例証する。

Quantum technologies and experiments often require preparing systems in low-temperature states. Here, we investigate cooling schemes using feedback protocols modeled with a Quantum Fokker-Planck Master Equation (QFPME) recently derived by Annby-Andersson et. al. (Phys. Rev. Lett. 129, 050401, 2022). This equation describes systems under continuous weak measurements, with feedback based on the outcome of these measurements. We apply this formalism to study the cooling and trapping of a harmonic oscillator for several protocols based on position and/or momentum measurements. We find that the protocols can cool the oscillator down to, or close to, the ground state for suitable choices of parameters. Our analysis provides an analytically solvable case study of quantum measurement and feedback and illustrates the application of the QFPME to continuous quantum systems.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 大規模言語のテキスト生成をリアルタイムに保護するためのフレームワーク

A Framework for Real-time Safeguarding the Text Generation of Large Language ( http://arxiv.org/abs/2404.19048v1 )

ライセンス: Link先を確認
Ximing Dong, Dayi Lin, Shaowei Wang, Ahmed E. Hassan, (参考訳) 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つが、有害なコンテンツを生成するための適合性のために倫理的・社会的リスクも生じる。 これを解決するために、LLMが安全でないコンテンツを生成するのを防ぐ様々なアプローチが開発されている。 しかし、既存の手法には、特定の制御モデルのトレーニングやテキスト生成時の積極的な介入の必要性など、品質劣化と計算オーバーヘッドの増加につながる制限がある。 これらの制限を緩和するために,LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。 LLMSafeGuardは、デコード中のビーム検索アルゴリズムに外部バリデータを統合する。 類似性に基づく検証手法を導入し,制約の導入を簡略化し,制御モデルトレーニングの必要性を排除した。 加えて、LLMSafeGuardはコンテキストワイズタイミング選択戦略を採用しており、必要なときにのみLLMを介入する。 我々は,LSMSafe-Guardを2つのタスク,すなわちデトキシ化と著作権保護を行い,SOTAベースラインよりも優れた性能を示す。 例えば、LLMSafeGuardは、平均的な毒性スコアを下げる。 LLMの出力は29.7%と最良基準値に対して、解毒作業における自然の出力と同様の言語的品質を保っている。 同様に、著作権上のタスクでは、LLMSafeGuardはベースラインに比べてLongest Common Subsequence (LCS)を56.2%削減する。 さらに、文脈的タイミング選択戦略は、各時間ステップの検証に匹敵する有効性を保ちながら、推論時間を少なくとも24%削減する。 LLMSafeGuardは、その効率性と効率のバランスをとるために、調整可能なパラメータも提供している。

Large Language Models (LLMs) have significantly advanced natural language processing (NLP) tasks but also pose ethical and societal risks due to their propensity to generate harmful content. To address this, various approaches have been developed to safeguard LLMs from producing unsafe content. However, existing methods have limitations, including the need for training specific control models and proactive intervention during text generation, that lead to quality degradation and increased computational overhead. To mitigate those limitations, we propose LLMSafeGuard, a lightweight framework to safeguard LLM text generation in real-time. LLMSafeGuard integrates an external validator into the beam search algorithm during decoding, rejecting candidates that violate safety constraints while allowing valid ones to proceed. We introduce a similarity based validation approach, simplifying constraint introduction and eliminating the need for control model training. Additionally, LLMSafeGuard employs a context-wise timing selection strategy, intervening LLMs only when necessary. We evaluate LLMSafe-Guard on two tasks, detoxification and copyright safeguarding, and demonstrate its superior performance over SOTA baselines. For instance, LLMSafeGuard reduces the average toxic score of. LLM output by 29.7% compared to the best baseline meanwhile preserving similar linguistic quality as natural output in detoxification task. Similarly, in the copyright task, LLMSafeGuard decreases the Longest Common Subsequence (LCS) by 56.2% compared to baselines. Moreover, our context-wise timing selection strategy reduces inference time by at least 24% meanwhile maintaining comparable effectiveness as validating each time step. LLMSafeGuard also offers tunable parameters to balance its effectiveness and efficiency.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 超次元計算によるモジュール型階層型認知マップ学習者の構築

Assembling Modular, Hierarchical Cognitive Map Learners with Hyperdimensional Computing ( http://arxiv.org/abs/2404.19051v1 )

ライセンス: Link先を確認
Nathan McDonald, Anthony Dematteo, (参考訳) 認知マップ学習者(CML)は、ノード状態、エッジアクション、エッジアクションアベイラビリティの内部表現を学習することによって抽象グラフをナビゲートする、独立して訓練された単一層人工ニューラルネットワーク(行列)の集合である。 この非定型的な情報分離の結果、CMLは2つのグラフノード状態間のほぼ最適経路計画を実行する。 しかし、CMLはいつ、なぜあるノードから別のノードへ移行すべきかを学ばない。 この研究は、高次元ベクトルとして表現されたノード状態を持つCMLを、記号機械学習(ML)の形式である超次元コンピューティング(HDC)と整合する。 この研究は、HDCベースのCMLをMLモジュールとして評価し、外部入力を受信し、他のHDCベースのモジュールに意味のある出力応答を計算する。 いくつかのCMLは独立に作成され、これらのCMLをトレーニングすることなく、それぞれのグラフトポロジーに明示的に言及することなく、ハノイのタワーを解くために再利用された。 この研究は、生物学的に妥当な認知的抽象化とオーケストレーションのレベルを構築するためのテンプレートを提案する。

Cognitive map learners (CML) are a collection of separate yet collaboratively trained single-layer artificial neural networks (matrices), which navigate an abstract graph by learning internal representations of the node states, edge actions, and edge action availabilities. A consequence of this atypical segregation of information is that the CML performs near-optimal path planning between any two graph node states. However, the CML does not learn when or why to transition from one node to another. This work created CMLs with node states expressed as high dimensional vectors consistent with hyperdimensional computing (HDC), a form of symbolic machine learning (ML). This work evaluated HDC-based CMLs as ML modules, capable of receiving external inputs and computing output responses which are semantically meaningful for other HDC-based modules. Several CMLs were prepared independently then repurposed to solve the Tower of Hanoi puzzle without retraining these CMLs and without explicit reference to their respective graph topologies. This work suggests a template for building levels of biologically plausible cognitive abstraction and orchestration.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 思考の計画:大規模言語モデルを用いたヒューリスティックガイド型問題解決

Plan of Thoughts: Heuristic-Guided Problem Solving with Large Language Models ( http://arxiv.org/abs/2404.19055v1 )

ライセンス: Link先を確認
Houjun Liu, (参考訳) 言語モデル(LM)は、幅広い領域にわたるゼロショット推論タスクにおいて重要な機能を提供するが、多段階推論を必要とする問題では十分実行されない。 それまでのアプローチでは、より大規模なマルチステップタスクをサブタスクに分割し、サブタスク毎に言語モデルにプロポーザル(「考え」)を生成させ、DFSのような徹底的な計画手法を使用してソリューションを構成するというものだった。 本研究では,提案手法を応用して,提案手法を新たに導入する。まず,部分的観測可能なマルコフ決定プロセス(POMDP)による多段階問題解決のための計画ベースのアプローチを,検索ヒューリスティックとして使用される状態の値に関するLM独自の考察により定式化し,さらにオンラインPOMDPソルバPOMCPを用いて,既存のアプローチと比較して89.4%の成果率を示し,また,従来使用されていた固定木探索よりも優れたパフォーマンス特性を提供する。 これらの貢献により、現代のLMは分解し、より大規模な推論タスクをより効果的に解決することができる。

While language models (LMs) offer significant capability in zero-shot reasoning tasks across a wide range of domains, they do not perform satisfactorily in problems which requires multi-step reasoning. Previous approaches to mitigate this involves breaking a larger, multi-step task into sub-tasks and asking the language model to generate proposals ("thoughts") for each sub-task and using exhaustive planning approaches such as DFS to compose a solution. In this work, we leverage this idea to introduce two new contributions: first, we formalize a planning-based approach to perform multi-step problem solving with LMs via Partially Observable Markov Decision Processes (POMDPs), with the LM's own reflections about the value of a state used as a search heuristic; second, leveraging the online POMDP solver POMCP, we demonstrate a superior success rate of 89.4% on the Game of 24 task as compared to existing approaches while also offering better anytime performance characteristics than fixed tree-search which is used previously. Taken together, these contributions allow modern LMs to decompose and solve larger-scale reasoning tasks more effectively.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 逐次ゴール完了のためのモジュール型階層型機械学習

Modular, Hierarchical Machine Learning for Sequential Goal Completion ( http://arxiv.org/abs/2404.19060v1 )

ライセンス: Link先を確認
Nathan McDonald, (参考訳) 異なる物体が密集している迷路があると、連続的なゴール完了タスクをロボットに課すことができる。 2) 扉を開けてから 3)宝箱を開ける。 典型的な機械学習(ML)ソリューションには、モノリシックにトレーニングされた人工知能(ANN)が含まれる。 しかし、ゴールのシーケンスやゴール自体が変化した場合、ANNは大幅に(または最悪の場合、完全に)再訓練されなければならない。 モノリシックなANNの代わりに、モジュール型MLコンポーネントは、 1) 独立して最適化可能(タスク非依存)で 2) 他のMLモジュールと任意に再構成できる。 この研究は、新しい2つのML技術を統合することで、モジュラーで階層的なMLフレームワークを記述する。 1)認知地図学習者(CML)と 2)超次元計算(HDC)。 CMLは抽象グラフのトポロジを学ぶために協調的に訓練された3つの単層ANN(行列)の集合である。 ここでは2つのCMLが構築され、1つは2次元物理空間上の位置を記述し、もう1つはこの空間にある物体の相対分布を記述した。 各CMLノード状態は高次元ベクトルとして符号化され、これらの高次元シンボルベクトルのシンボリック推論にML代数であるHDCを利用する。 このように、上記の各部分ゴールはCMLノード状態の代数方程式によって記述される。 その後、個別に訓練された複数のCMLが組み立てられ、迷路をナビゲートしてシーケンシャルなゴールタスクを解決した。 重要な点として、これらの目標の変更は、グローバルなANN再トレーニングスキームとは対照的に、CML-HDCアーキテクチャの局所的な変更のみを必要とした。 したがって、このフレームワークは、デジタル論理設計に似た、より伝統的なMLのエンジニアリングアプローチを可能にした。

Given a maze populated with different objects, one may task a robot with a sequential goal completion task, e.g. 1) pick up a key then 2) unlock the door then 3) unlock the treasure chest. A typical machine learning (ML) solution would involve a monolithically trained artificial neural network (ANN). However, if the sequence of goals or the goals themselves change, then the ANN must be significantly (or, at worst, completely) retrained. Instead of a monolithic ANN, a modular ML component would be 1) independently optimizable (task-agnostic) and 2) arbitrarily reconfigurable with other ML modules. This work describes a modular, hierarchical ML framework by integrating two emerging ML techniques: 1) cognitive map learners (CML) and 2) hyperdimensional computing (HDC). A CML is a collection of three single layer ANNs (matrices) collaboratively trained to learn the topology of an abstract graph. Here, two CMLs were constructed, one describing locations on in 2D physical space and the other the relative distribution of objects found in this space. Each CML node states was encoded as a high-dimensional vector to utilize HDC, an ML algebra, for symbolic reasoning over these high-dimensional symbol vectors. In this way, each sub-goal above was described by algebraic equations of CML node states. Multiple, independently trained CMLs were subsequently assembled together to navigate a maze to solve a sequential goal task. Critically, changes to these goals required only localized changes in the CML-HDC architecture, as opposed to a global ANN retraining scheme. This framework therefore enabled a more traditional engineering approach to ML, akin to digital logic design.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# SuperCLUE-Fin:中国LLMの各種財務課題と応用に関する微粒化解析

SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications ( http://arxiv.org/abs/2404.19063v1 )

ライセンス: Link先を確認
Liang Xu, Lei Zhu, Yaotong Wu, Hang Xue, (参考訳) SuperCLUE-Fin (SC-Fin) ベンチマークは、中国固有の金融大言語モデル(FLM)に適した先駆的な評価フレームワークである。 6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価し、理論的な知識とコンプライアンス、リスク管理、投資分析といった実践的な応用を含んでいる。 SC-Finは、実生活シナリオを模倣したマルチターンでオープンな会話を用いて、正確な財務理解、論理的推論、明快さ、計算効率、ビジネス累積、リスク認識、中国の規制の遵守など、さまざまな基準でモデルを測定する。 SC-Finは、1000以上の質問を含む厳密な評価において、GLM-4やMoonShot-v1-128kのような国内モデルがAグレードよりも優れている性能階層を特定し、理論知識を実用的金融ソリューションに転換するさらなる発展の可能性を強調している。 このベンチマークは、中国の文脈でFLMを精錬し、金融知識データベースの改善を指示し、財務解釈を標準化し、コンプライアンス、リスク管理、安全プラクティスを優先するモデルを推進するための重要なツールとして機能する。 我々は、中国金融セクターにおけるAI開発を推進する、文脈的に関連性があり包括的なベンチマークを作成します。 SC-Finは、中国市場における個人ユーザーと機関ユーザーの両方にとって、モデルパフォーマンスとユーザビリティを高めるための貴重な洞察を提供する、FLMの進歩と責任ある展開を促進する。 〜\footnote{Our ベンチマークは \url{https://www.CLUEbenchmarks.com}} で見ることができる。

The SuperCLUE-Fin (SC-Fin) benchmark is a pioneering evaluation framework tailored for Chinese-native financial large language models (FLMs). It assesses FLMs across six financial application domains and twenty-five specialized tasks, encompassing theoretical knowledge and practical applications such as compliance, risk management, and investment analysis. Using multi-turn, open-ended conversations that mimic real-life scenarios, SC-Fin measures models on a range of criteria, including accurate financial understanding, logical reasoning, clarity, computational efficiency, business acumen, risk perception, and compliance with Chinese regulations. In a rigorous evaluation involving over a thousand questions, SC-Fin identifies a performance hierarchy where domestic models like GLM-4 and MoonShot-v1-128k outperform others with an A-grade, highlighting the potential for further development in transforming theoretical knowledge into pragmatic financial solutions. This benchmark serves as a critical tool for refining FLMs in the Chinese context, directing improvements in financial knowledge databases, standardizing financial interpretations, and promoting models that prioritize compliance, risk management, and secure practices. We create a contextually relevant and comprehensive benchmark that drives the development of AI in the Chinese financial sector. SC-Fin facilitates the advancement and responsible deployment of FLMs, offering valuable insights for enhancing model performance and usability for both individual and institutional users in the Chinese market..~\footnote{Our benchmark can be found at \url{https://www.CLUEbenchmarks.com}}.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 複数シーケンスアライメントのためのゼロ知識証明

Zero Knowledge Proof for Multiple Sequence Alignment ( http://arxiv.org/abs/2404.19064v1 )

ライセンス: Link先を確認
Worasait Suwannik, (参考訳) 多重配列アライメント(MSA)はバイオインフォマティクスの基本的なアルゴリズムである。 入力シーケンスやアライメントスコアなどの他の情報を開示しながらアライメントを保護する必要がある場合、ゼロ知識証明を用いることができる。 本稿では,入力シーケンスとアライメントの整合性,アライメントとアライメントスコアの整合性をチェックする。 バリデーターはCircom言語で書かれており、サーキットにコンパイルされる。 zkSNARKと呼ばれるゼロ知識証明システムを用いて、回路とその入力に対して暗号証明を生成する。 この証明は、全ての入力が実際のアライメントを明らかにすることなく一貫したものであることを示す。

Multiple sequence alignment (MSA) is a fundamental algorithm in bioinformatics. In a situation when the alignment might need to be protected while revealing the other information such the input sequences and the alignment score, zero knowledge proof can be used. In this paper, a validator checks the consistency between the input sequence and the alignment, and between the alignment and the alignment score. The validator is written in Circom language which will be compile into a circuit. Using a zero knowledge prove system called zkSNARK, a cryptographic proof is generates for the circuit and its input. This proof demonstrates that all inputs are consistent without revealing the actual alignment.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# HELPER-X: メモリ拡張言語モデルによる4つの対話型視覚言語ドメインに対処するための統一型インストラクタ

HELPER-X: A Unified Instructable Embodied Agent to Tackle Four Interactive Vision-Language Domains with Memory-Augmented Language Models ( http://arxiv.org/abs/2404.19065v1 )

ライセンス: Link先を確認
Gabriel Sarch, Sahil Somani, Raghav Kapoor, Michael J. Tarr, Katerina Fragkiadaki, (参考訳) インストラクタブルエージェントの最近の研究は、メモリ拡張型大規模言語モデル(LLM)をタスクプランナとして使用しており、入力命令に関連する言語プログラム例を検索し、LLMプロンプトのインコンテクスト例として使用することで、正しいアクションとタスクプランを推測する際のLCMの性能を向上させる。 本技術報告では,HELPERのメモリを広い範囲のサンプルとプロンプトで拡張し,質問のための追加APIを統合することにより,HELPERの機能を拡張する。 この単純なHELPERの共有メモリへの拡張により、エージェントは対話、自然言語の指示に従うこと、アクティブな質問、コモンセンスルームの再編成から計画を実行するドメイン間で作業することができる。 ALFRED, TEACh, DialFRED, Tidy Taskの4種類の対話型視覚言語エンボディエージェントベンチマークにおいて, エージェントの評価を行った。 HELPER-Xは、ドメイン内のトレーニングを必要とせずに、単一のエージェントを使用して、これらのベンチマークで、数発の最先端のパフォーマンスを実現し、ドメイン内のトレーニングを受けたエージェントと競合し続ける。

Recent research on instructable agents has used memory-augmented Large Language Models (LLMs) as task planners, a technique that retrieves language-program examples relevant to the input instruction and uses them as in-context examples in the LLM prompt to improve the performance of the LLM in inferring the correct action and task plans. In this technical report, we extend the capabilities of HELPER, by expanding its memory with a wider array of examples and prompts, and by integrating additional APIs for asking questions. This simple expansion of HELPER into a shared memory enables the agent to work across the domains of executing plans from dialogue, natural language instruction following, active question asking, and commonsense room reorganization. We evaluate the agent on four diverse interactive visual-language embodied agent benchmarks: ALFRED, TEACh, DialFRED, and the Tidy Task. HELPER-X achieves few-shot, state-of-the-art performance across these benchmarks using a single agent, without requiring in-domain training, and remains competitive with agents that have undergone in-domain training.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 交通信号認識の革命:ビジョントランスフォーマーの可能性を探る

Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers ( http://arxiv.org/abs/2404.19066v1 )

ライセンス: Link先を確認
Susano Mingwin, Yulong Shisu, Yongshuai Wanwag, Sunshin Huing, (参考訳) 本研究では,深層学習技術を活用した交通信号認識(TSR)の革新的手法を提案する。 TSRは、運転支援システムと自動運転車の進歩において重要な役割を担っている。 従来のTSRアプローチは手動の特徴抽出に依存しており、労働集約的でコストがかかることが証明されている。 さらに、形状や色に基づく手法には、様々な要因への感受性や照明条件の変化など、固有の制限がある。 本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。 従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。 EAベースのTransformerブロックは、フィードフォワードネットワーク(Feed-Forward Network)、グローバルおよびローカルインタラクション(Global and Local Interaction)、マルチスケールリージョンアグリゲーションモジュール(Multi-Scale Region Aggregation Module)といったコンポーネントを通じて、マルチスケール、インタラクティブ、および個々の情報をキャプチャする。 さらに、不規則な位置を動的にモデル化するために、Modulated Deformable MSAモジュールが導入された。 GTSRB と BelgiumTS のデータセットを用いた実験により,予測速度と精度の両面において提案手法の有効性が示された。 本研究は,視覚変換器が交通信号の分類において大きな可能性を秘めており,TSRの新たなアルゴリズムフレームワークに寄与していることを結論する。 これらの発見は、正確で信頼性の高いTSRアルゴリズムの開発の舞台となり、運転支援システムと自動運転車に恩恵を与えた。

This research introduces an innovative method for Traffic Sign Recognition (TSR) by leveraging deep learning techniques, with a particular emphasis on Vision Transformers. TSR holds a vital role in advancing driver assistance systems and autonomous vehicles. Traditional TSR approaches, reliant on manual feature extraction, have proven to be labor-intensive and costly. Moreover, methods based on shape and color have inherent limitations, including susceptibility to various factors and changes in lighting conditions. This study explores three variants of Vision Transformers (PVT, TNT, LNL) and six convolutional neural networks (AlexNet, ResNet, VGG16, MobileNet, EfficientNet, GoogleNet) as baseline models. To address the shortcomings of traditional methods, a novel pyramid EATFormer backbone is proposed, amalgamating Evolutionary Algorithms (EAs) with the Transformer architecture. The introduced EA-based Transformer block captures multi-scale, interactive, and individual information through its components: Feed-Forward Network, Global and Local Interaction, and Multi-Scale Region Aggregation modules. Furthermore, a Modulated Deformable MSA module is introduced to dynamically model irregular locations. Experimental evaluations on the GTSRB and BelgiumTS datasets demonstrate the efficacy of the proposed approach in enhancing both prediction speed and accuracy. This study concludes that Vision Transformers hold significant promise in traffic sign classification and contributes a fresh algorithmic framework for TSR. These findings set the stage for the development of precise and dependable TSR algorithms, benefiting driver assistance systems and autonomous vehicles.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# 科学応用のためのHHL量子リニアソルバーの早期研究

An Early Investigation of the HHL Quantum Linear Solver for Scientific Applications ( http://arxiv.org/abs/2404.19067v1 )

ライセンス: Link先を確認
Muqing Zheng, Chenxu Liu, Samuel Stein, Xiangyu Li, Johannes Mülmenstädt, Yousu Chen, Ang Li, (参考訳) 本稿では,Harrow-Hassidim-Lloyd (HHL) アルゴリズムを用いて,NWQSimシミュレーションパッケージを用いた量子コンピューティングによる科学技術問題に対処する。 電力グリッド管理や熱伝達問題などの領域に着目し, 量子位相推定の精度と係数行列の諸性質の相関が, ニュートン・ラフソン法や有限差分法といった反復的・非定性数値法における最終解法と量子資源コスト, およびMicrosoft Azure Quantum Resource estimatorを用いた量子誤差補正コストに与える影響を検証した。 本稿では,量子誤り訂正前後の量子位相推定から指数的資源コストを推定し,物理量子ビットの需要を削減できる可能性を示す。 この研究は、将来の研究のための予備的なステップを踏襲し、ドメインアプリケーションにおける量子アルゴリズムのスケーラビリティと効率性について、より精査するよう促している。

In this paper, we explore using the Harrow-Hassidim-Lloyd (HHL) algorithm to address scientific and engineering problems through quantum computing utilizing the NWQSim simulation package on high-performance computing. Focusing on domains such as power-grid management and heat transfer problems, we demonstrate the correlations of the precision of quantum phase estimation, along with various properties of coefficient matrices, on the final solution and quantum resource cost in iterative and non-iterative numerical methods such as Newton-Raphson method and finite difference method, as well as their impacts on quantum error correction costs using Microsoft Azure Quantum resource estimator. We conclude the exponential resource cost from quantum phase estimation before and after quantum error correction and illustrate a potential way to reduce the demands on physical qubits. This work lays down a preliminary step for future investigations, urging a closer examination of quantum algorithms' scalability and efficiency in domain applications.
翻訳日:2024-05-01 18:10:13 公開日:2024-04-29
# Blind Spots and Biases: Annotator Cognitive Biases の役割を探る

Blind Spots and Biases: Exploring the Role of Annotator Cognitive Biases in NLP ( http://arxiv.org/abs/2404.19071v1 )

ライセンス: Link先を確認
Sanjana Gautam, Mukund Srinath, (参考訳) 人工知能の急速な普及に伴い、既存のバイアスや社会的格差を悪化させ、新しいものを導入する可能性への懸念が高まっている。 この問題は学界、政策立案者、産業、市民社会から広く注目を集めた。 人間の視点を統合することでAIシステムにおけるバイアスに関連する問題を軽減できるというエビデンスがある一方で、人間の意思決定に固有の認知バイアスに関連する課題も導入されている。 本研究は,既存の方法論の見直しと,バイアスに寄与するアノテーション属性の理解を目的とした継続的な調査に焦点をあてる。

With the rapid proliferation of artificial intelligence, there is growing concern over its potential to exacerbate existing biases and societal disparities and introduce novel ones. This issue has prompted widespread attention from academia, policymakers, industry, and civil society. While evidence suggests that integrating human perspectives can mitigate bias-related issues in AI systems, it also introduces challenges associated with cognitive biases inherent in human decision-making. Our research focuses on reviewing existing methodologies and ongoing investigations aimed at understanding annotation attributes that contribute to bias.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 依存データからスパース高次元行列値グラフモデルを学習する

Learning Sparse High-Dimensional Matrix-Valued Graphical Models From Dependent Data ( http://arxiv.org/abs/2404.19073v1 )

ライセンス: Link先を確認
Jitendra K Tugnait, (参考訳) 本稿では,厳密で高次元の定常行列-変量ガウス時系列の条件独立グラフ(CIG)を推定する問題を考察する。 高次元行列グラフィカルモデルに関する過去の研究は、行列変数の独立分布と同一分布(d.d.)の観測が可能であると仮定している。 ここでは、依存的な観察を許可する。 我々は、Kronecker分解可能パワースペクトル密度(PSD)を用いて、問題をスパース群ラスソベース周波数領域で定式化し、乗算器(ADMM)アプローチの交互方向法を用いて解決する。 問題は、フリップフロップ最適化によって解決される双凸である。 逆PSD推定器のフロベニウスノルムから真値への局所収束に十分な条件を与える。 この結果は収束率ももたらします。 合成データと実データの両方を利用した数値例を用いて,本手法について述べる。

We consider the problem of inferring the conditional independence graph (CIG) of a sparse, high-dimensional, stationary matrix-variate Gaussian time series. All past work on high-dimensional matrix graphical models assumes that independent and identically distributed (i.i.d.) observations of the matrix-variate are available. Here we allow dependent observations. We consider a sparse-group lasso-based frequency-domain formulation of the problem with a Kronecker-decomposable power spectral density (PSD), and solve it via an alternating direction method of multipliers (ADMM) approach. The problem is bi-convex which is solved via flip-flop optimization. We provide sufficient conditions for local convergence in the Frobenius norm of the inverse PSD estimators to the true value. This result also yields a rate of convergence. We illustrate our approach using numerical examples utilizing both synthetic and real data.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# フラットバンドスーパーワイヤのカオス支援動的トンネル

Chaos-Assisted Dynamical Tunneling in Flat Band Superwires ( http://arxiv.org/abs/2404.19074v1 )

ライセンス: Link先を確認
Anton Marius Graf, Ke Lin, MyeongSeo Kim, Joonas Keski-Rahkonen, Alvar Daza, Eric Heller, (参考訳) 最近の理論的研究により、2次元超格子の高ブリリアン領域における非定常輸送機構が明らかになった。 電子は、私たちがスーパーワイヤと呼ぶチャネルに沿ってナビゲートできる。 このような動的閉じ込めは、従来の導波路や1次元電子線で観測される静的あるいはエネルギー的閉じ込めと著しく異なる、弱い超格子偏向によって引き起こされる。 スーパーワイヤの量子的性質は、弾力的な動的トンネルを引き起こし、対応する古典位相空間の解離領域をリンクさせ、複数の平行チャネルの出現を可能にする。 本稿では,周期格子のカオスによる動的トンネル化を促進する基礎理論と機構について述べる。 さらに, 動的トンネルの機構は, パラ軸近似のレンズを通して効果的に概念化できることを示した。 さらに, 従来の退化ブロッホ状態の線形結合を表す固有状態から出現する超ワイヤが, 主に平らなバンド内に存在していることを明らかにした。 最後に, 種々の格子構造のトンネル速度を定量化し, 制御された方法でトンネルの抑制を実証し, 将来的なナノデバイスへの潜在的な影響を示唆する。

Recent theoretical investigations have revealed unconventional transport mechanisms within high Brilliouin zones of two-dimensional superlattices. Electrons can navigate along channels we call superwires, gently guided without brute force confinement. Such dynamical confinement is caused by weak superlattice deflections, markedly different from the static or energetic confinement observed in traditional wave guides or one-dimensional electron wires. The quantum properties of superwires give rise to elastic dynamical tunneling, linking disjoint regions of the corresponding classical phase space, and enabling the emergence of several parallel channels. This paper provides the underlying theory and mechanisms that facilitate dynamical tunneling assisted by chaos in periodic lattices. Moreover, we show that the mechanism of dynamical tunneling can be effectively conceptualized through the lens of a paraxial approximation. Our results further reveal that superwires predominantly exist within flat bands, emerging from eigenstates that represent linear combinations of conventional degenerate Bloch states. Finally, we quantify tunneling rates across various lattice configurations, and demonstrate the tunneling can be suppressed in a controlled fashion, illustrating potential implications in future nanodevices.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 時間空間トモグラフィ再構成のためのニューラルネットワークの分散確率最適化

Distributed Stochastic Optimization of a Neural Representation Network for Time-Space Tomography Reconstruction ( http://arxiv.org/abs/2404.19075v1 )

ライセンス: Link先を確認
K. Aditya Mohan, Massimiliano Ferrucci, Chuck Divin, Garrett A. Stevenson, Hyojin Kim, (参考訳) X線CT(Computerd tomography)を用いた動的事象の4次元時間空間再構成や変形物体の再構成は、非常に不適切な逆問題である。 既存のアプローチでは、オブジェクトは数千から数百のX線投影計測画像(連続的な制限角度CTスキャンの再構成)の間静止していると仮定している。 しかし、これは多くのその場実験における非現実的な仮定であり、これは突発的なアーティファクトを引き起こし、対象の非正確な形態的再構成を引き起こす。 そこで本研究では,新しい分散確率的学習アルゴリズムを用いて学習した分散暗黙的ニューラルネットワーク(DINR)ネットワークを用いた4次元時間空間再構成を提案する。 我々のDINRネットワークは、測定された投影画像がCT前方計測モデルの出力に最も合うように、そのネットワークパラメータを反復的に最適化することで、その出力でオブジェクトを再構築することを学ぶ。 連続値オブジェクト座標のスパースサンプリングセットにおけるDINR出力の関数である連続時間と空間フォワードの測定モデルを用いる。 オブジェクトの時間空間座標全体をサンプリングする密度の高いボクセルグリッドを前後に伝播する既存の最先端のニューラル表現アーキテクチャとは異なり、各イテレーションにおいてオブジェクト座標の小さなサブセットでDINRを伝播するだけで、メモリとトレーニング用の計算のオーダー・オブ・マグニチュードが減少する。 DINRは、複数の計算ノードとGPUにわたる分散計算を利用して、非常に大きなCTデータサイズであっても、高忠実な4D時間空間再構成を生成する。 我々は, 並列ビームと実験コーンビームX線CTデータの両方を用いて, 提案手法の優れた性能を実証した。

4D time-space reconstruction of dynamic events or deforming objects using X-ray computed tomography (CT) is an extremely ill-posed inverse problem. Existing approaches assume that the object remains static for the duration of several tens or hundreds of X-ray projection measurement images (reconstruction of consecutive limited-angle CT scans). However, this is an unrealistic assumption for many in-situ experiments that causes spurious artifacts and inaccurate morphological reconstructions of the object. To solve this problem, we propose to perform a 4D time-space reconstruction using a distributed implicit neural representation (DINR) network that is trained using a novel distributed stochastic training algorithm. Our DINR network learns to reconstruct the object at its output by iterative optimization of its network parameters such that the measured projection images best match the output of the CT forward measurement model. We use a continuous time and space forward measurement model that is a function of the DINR outputs at a sparsely sampled set of continuous valued object coordinates. Unlike existing state-of-the-art neural representation architectures that forward and back propagate through dense voxel grids that sample the object's entire time-space coordinates, we only propagate through the DINR at a small subset of object coordinates in each iteration resulting in an order-of-magnitude reduction in memory and compute for training. DINR leverages distributed computation across several compute nodes and GPUs to produce high-fidelity 4D time-space reconstructions even for extremely large CT data sizes. We use both simulated parallel-beam and experimental cone-beam X-ray CT datasets to demonstrate the superior performance of our approach.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 誰がブループリントをフォローしたのか?AI権利章典の青プリントに対する米国の連邦機関の反応の分析

Who Followed the Blueprint? Analyzing the Responses of U.S. Federal Agencies to the Blueprint for an AI Bill of Rights ( http://arxiv.org/abs/2404.19076v1 )

ライセンス: Link先を確認
Darren Lage, Riley Pruitt, Jason Ross Arnold, (参考訳) この研究は、2022年10月のホワイトハウスの「AI権利章典の青写真」で概説された原則に米国連邦政府が反応し、実施した範囲を調査した。 Blueprintは、AIシステムの倫理的ガバナンスのためのフレームワークを提供し、安全と有効性、アルゴリズムによる差別に対する保護、データプライバシ、AIシステムに関する通知と説明、ヒューマン代替とフォールバックの5つの基本原則で構成された。 著者らは15の連邦部門で公開されている記録の分析を通じて、Blueprintが公開後の機関の行動に直接影響を与えたという限られた証拠を発見した。 ブループリントに言及したのは5つの部門のみであり、12はその原則の1つ以上のステップを踏襲した。 しかしながら、この研究の多くは、Blueprint以前の前例や、信頼できるAIに関する以前の幹部命令の遵守など、Blueprintから切り離されたモチベーションを持っているように思われる。 省の活動は、ブループリントの原則と重なる安全、説明責任、透明性といった優先事項を強調したが、必ずしもそれに由来するものではない。 著者らは、非バインディングのBlueprintは、最初の1年で米国政府の倫理的AIガバナンスに対するアプローチを形作るのに最小限の影響を及ぼしたと結論付けている。 著名なAIリリース後の公的な懸念や、直接執行命令に従う義務といった要因は、連邦機関に影響を及ぼす可能性がある。 より厳密な研究は、連邦官僚制とより広い社会におけるブループリントの効果を確定的に評価するために必要となる。

This study examines the extent to which U.S. federal agencies responded to and implemented the principles outlined in the White House's October 2022 "Blueprint for an AI Bill of Rights." The Blueprint provided a framework for the ethical governance of artificial intelligence systems, organized around five core principles: safety and effectiveness, protection against algorithmic discrimination, data privacy, notice and explanation about AI systems, and human alternatives and fallback. Through an analysis of publicly available records across 15 federal departments, the authors found limited evidence that the Blueprint directly influenced agency actions after its release. Only five departments explicitly mentioned the Blueprint, while 12 took steps aligned with one or more of its principles. However, much of this work appeared to have precedents predating the Blueprint or motivations disconnected from it, such as compliance with prior executive orders on trustworthy AI. Departments' activities often emphasized priorities like safety, accountability and transparency that overlapped with Blueprint principles, but did not necessarily stem from it. The authors conclude that the non-binding Blueprint seems to have had minimal impact on shaping the U.S. government's approach to ethical AI governance in its first year. Factors like public concerns after high-profile AI releases and obligations to follow direct executive orders likely carried more influence over federal agencies. More rigorous study would be needed to definitively assess the Blueprint's effects within the federal bureaucracy and broader society.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 量子コンピュータの安定性

Stability of Quantum Computers ( http://arxiv.org/abs/2404.19082v1 )

ライセンス: Link先を確認
Samudra Dasgupta, (参考訳) 量子コンピューティングのポテンシャルは、古典的コンピュータと比較して、実行時間、エネルギー使用量、メモリ要求の超ポリノミカルな削減を約束する。 この技術は、分子構造理解のための多体量子システムをシミュレートし、大きな整数を分解し、機械学習を強化し、その過程で電気通信、物質科学、薬品、人工知能といった産業をディスラプトするなど、科学的な応用に革命をもたらす力を持っている。 しかし、量子コンピューティングのポテンシャルはノイズによって制限され、時間と量子ビットの非定常ノイズパラメータ分布によってさらに複雑になる。 この論文は、量子コンピューティングにおけるノイズの持続的問題、特にトランスモンプロセッサにおけるノイズパラメータの非定常性に焦点を当てている。

Quantum computing's potential is immense, promising super-polynomial reductions in execution time, energy use, and memory requirements compared to classical computers. This technology has the power to revolutionize scientific applications such as simulating many-body quantum systems for molecular structure understanding, factorization of large integers, enhance machine learning, and in the process, disrupt industries like telecommunications, material science, pharmaceuticals and artificial intelligence. However, quantum computing's potential is curtailed by noise, further complicated by non-stationary noise parameter distributions across time and qubits. This dissertation focuses on the persistent issue of noise in quantum computing, particularly non-stationarity of noise parameters in transmon processors.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 縦型マンモグラフィーのリスク予測

Longitudinal Mammogram Risk Prediction ( http://arxiv.org/abs/2404.19083v1 )

ライセンス: Link先を確認
Batuhan K. Karaman, Katerina Dodelzon, Gozde B. Akar, Mert R. Sabuncu, (参考訳) 乳がんは世界中の女性の死亡率の主要な原因の1つである。 早期発見とリスク評価は生存率の向上に重要な役割を果たす。 そのため、高リスク群の検診には、年中または二年生のマンモグラムが推奨されることが多い。 マンモグラムは通常、乳房画像報告・データシステム(BI-RADS)に基づく専門放射線学者によって解釈される。 近年,マンモグラムの解釈を自動化するため,機械学習(ML)と計算手法が開発されている。 しかし、BI-RADSとMLベースの手法はどちらも、現在からのデータの分析に重点を置いており、時には最新の訪問も行っている。 乳がんリスクの定量化には,縦断的画像所見の経時的変化が有用であることは明らかだが,本研究の系統的研究は行われていない。 本稿では,最先端のMLモデルを拡張して,任意の数の縦マンモグラフィーを摂取し,将来の乳癌のリスクを予測する。 大規模なデータセットでは,現在のマンモグラムのみを提示した場合に,我々のモデルであるLoMaRが最先端の性能を達成することを示す。 さらに,先行訪問の予測値の特徴付けにはLoMaRを用いる。 以上の結果から,長期(例年4回のマンモグラフィー)は,特に短期の乳癌のリスク予測の精度を著しく向上させる可能性が示唆された。 コードとモデルの重み付けはhttps://github.com/batuhankmkaraman/LoMaR.comで公開されています。

Breast cancer is one of the leading causes of mortality among women worldwide. Early detection and risk assessment play a crucial role in improving survival rates. Therefore, annual or biennial mammograms are often recommended for screening in high-risk groups. Mammograms are typically interpreted by expert radiologists based on the Breast Imaging Reporting and Data System (BI-RADS), which provides a uniform way to describe findings and categorizes them to indicate the level of concern for breast cancer. Recently, machine learning (ML) and computational approaches have been developed to automate and improve the interpretation of mammograms. However, both BI-RADS and the ML-based methods focus on the analysis of data from the present and sometimes the most recent prior visit. While it is clear that temporal changes in image features of the longitudinal scans should carry value for quantifying breast cancer risk, no prior work has conducted a systematic study of this. In this paper, we extend a state-of-the-art ML model to ingest an arbitrary number of longitudinal mammograms and predict future breast cancer risk. On a large-scale dataset, we demonstrate that our model, LoMaR, achieves state-of-the-art performance when presented with only the present mammogram. Furthermore, we use LoMaR to characterize the predictive value of prior visits. Our results show that longer histories (e.g., up to four prior annual mammograms) can significantly boost the accuracy of predicting future breast cancer risk, particularly beyond the short-term. Our code and model weights are available at https://github.com/batuhankmkaraman/LoMaR.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 高リスク運転シナリオにおける高度縦方向制御と衝突回避のための深部強化学習

Deep Reinforcement Learning for Advanced Longitudinal Control and Collision Avoidance in High-Risk Driving Scenarios ( http://arxiv.org/abs/2404.19087v1 )

ライセンス: Link先を確認
Dianwei Chen, Yaobang Gong, Xianfeng Yang, (参考訳) 既存のAdvanced Driver Assistance Systems(アドバンスト・ドライバー・アシスト・システムズ)は、主に後続車による潜在的なリスクを見越して、車両を直接に焦点を絞っている。 この監視は、1台の車両による緊急ブレーキが衝突を引き起こす可能性のある、高速、密集した複数の車両シナリオのような、リスクの高い状況の非効率な処理につながる可能性がある。 これらの制約を克服するために, 縦方向制御と衝突回避のための深層強化学習に基づくアルゴリズムを提案する。 提案アルゴリズムは、先行車両と後続車両の両方の挙動を効果的に検討する。 シミュレーションされた高リスクシナリオの実装は、従来のシステムが通常失敗する密集した交通で緊急ブレーキを伴い、重用車を含む衝突を防止できるアルゴリズム能力を示している。

Existing Advanced Driver Assistance Systems primarily focus on the vehicle directly ahead, often overlooking potential risks from following vehicles. This oversight can lead to ineffective handling of high risk situations, such as high speed, closely spaced, multi vehicle scenarios where emergency braking by one vehicle might trigger a pile up collision. To overcome these limitations, this study introduces a novel deep reinforcement learning based algorithm for longitudinal control and collision avoidance. This proposed algorithm effectively considers the behavior of both leading and following vehicles. Its implementation in simulated high risk scenarios, which involve emergency braking in dense traffic where traditional systems typically fail, has demonstrated the algorithm ability to prevent potential pile up collisions, including those involving heavy duty vehicles.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 対話型映画レコメンダとしての大規模言語モデル--ユーザスタディ

Large Language Models as Conversational Movie Recommenders: A User Study ( http://arxiv.org/abs/2404.19093v1 )

ライセンス: Link先を確認
Ruixuan Sun, Xinyi Li, Avinash Akella, Joseph A. Konstan, (参考訳) 本稿では,大規模言語モデル(LLM)をユーザの視点からパーソナライズした映画レコメンデーションのオンラインフィールド実験における有効性について検討する。 本研究は、オブジェクト間プロンプトと履歴消費評価の組み合わせと、オブジェクト内レコメンデーションシナリオの評価を含む。 160人のアクティブユーザからの会話や質問応答データを調べることで、LLMは強い推薦性を提供するが、全体的なパーソナライゼーション、多様性、ユーザ信頼は欠如していることが分かる。 また,異なるパーソナライズ・プロンプト技術がユーザの推薦品質に有意な影響を与えていないことも示唆した。 さらにLLMは、あまり知られていない映画やニッチ映画を推薦する能力も向上している。 質的な分析を通じて、ポジティブなユーザインタラクション体験とネガティブなユーザインタラクション体験に結びつく重要な会話パターンを特定し、LLMから高品質なレコメンデーションを得るためには、個人的コンテキストとサンプルを提供することが不可欠である、と結論づける。

This paper explores the effectiveness of using large language models (LLMs) for personalized movie recommendations from users' perspectives in an online field experiment. Our study involves a combination of between-subject prompt and historic consumption assessments, along with within-subject recommendation scenario evaluations. By examining conversation and survey response data from 160 active users, we find that LLMs offer strong recommendation explainability but lack overall personalization, diversity, and user trust. Our results also indicate that different personalized prompting techniques do not significantly affect user-perceived recommendation quality, but the number of movies a user has watched plays a more significant role. Furthermore, LLMs show a greater ability to recommend lesser-known or niche movies. Through qualitative analysis, we identify key conversational patterns linked to positive and negative user interaction experiences and conclude that providing personal context and examples is crucial for obtaining high-quality recommendations from LLMs.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# In-Contextシンボリック回帰:関数発見のための言語モデルを活用する

In-Context Symbolic Regression: Leveraging Language Models for Function Discovery ( http://arxiv.org/abs/2404.19094v1 )

ライセンス: Link先を確認
Matteo Merler, Nicola Dainese, Katsiaryna Haitsiukevich, (参考訳) シンボリック回帰(英: Symbolic Regression, SR)は、経験的観察のセットの根底にある数学的表現を抽出することを目的としたタスクである。 SRデータセットに基づいてトレーニングされたトランスフォーマーベースの手法は、このタスクの現在の最先端を保持でき、一方、Large Language Models (LLMs) をSRに適用することは、まだ探索されていない。 本研究は、SRパイプラインへの事前学習LLMの統合について検討し、収束に到達するまで観測セット上で達成した予測誤差に基づいて関数形式を反復的に洗練するアプローチを利用する。 本手法は, LLMを用いて観測結果に基づいて, 事前学習前の強い事前学習を生かして, 可能な関数の初期セットを提案する。 これらの関数はモデル自身や係数の外部オプティマイザによって反復的に洗練される。 このプロセスは、結果が満足するまで繰り返されます。 そして、この文脈で視覚言語モデルを分析し、最適化プロセスを支援するためにプロットを視覚入力として含めることを探る。 以上の結果から,LLMは与えられたデータに適合する優れた記号方程式を回復し,遺伝的プログラミングに基づくSRベースラインを上回り,最も複雑なベンチマークに対して有望な結果を示すインプットに画像が付加されることが判明した。

Symbolic Regression (SR) is a task which aims to extract the mathematical expression underlying a set of empirical observations. Transformer-based methods trained on SR datasets detain the current state-of-the-art in this task, while the application of Large Language Models (LLMs) to SR remains unexplored. This work investigates the integration of pre-trained LLMs into the SR pipeline, utilizing an approach that iteratively refines a functional form based on the prediction error it achieves on the observation set, until it reaches convergence. Our method leverages LLMs to propose an initial set of possible functions based on the observations, exploiting their strong pre-training prior. These functions are then iteratively refined by the model itself and by an external optimizer for their coefficients. The process is repeated until the results are satisfactory. We then analyze Vision-Language Models in this context, exploring the inclusion of plots as visual inputs to aid the optimization process. Our findings reveal that LLMs are able to successfully recover good symbolic equations that fit the given data, outperforming SR baselines based on Genetic Programming, with the addition of images in the input showing promising results for the most complex benchmarks.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# MLレコメンデーションシステムを用いた複合現実感における社会的相互作用の分析

Catalyzing Social Interactions in Mixed Reality using ML Recommendation Systems ( http://arxiv.org/abs/2404.19095v1 )

ライセンス: Link先を確認
Sparsh Srivastava, Rohan Arora, (参考訳) 我々は、視線認識、近接性、騒音レベル、混雑レベル、会話強度などの社会的相互作用を促進するために、MRシステムを通じて一意に収集された特徴を利用する、革新的な混合現実優先型ソーシャルレコメンデーションモデルを作成する。 さらに、これらのモデルを拡張して、タイムリーな通知を提供するための適切な機能を提供します。 ユーザ機能、MR機能、右タイム機能の新たな共通部分を作成することで、さまざまなモデルのパフォーマンス指標を測定します。 機能クラスの異なる組み合わせに基づいてトレーニングされた4つのモデルタイプを作成します。そこでは、ユーザ機能のクラスでトレーニングされたベースラインモデルと、MR機能、右タイム機能、およびすべての機能クラスの組み合わせについてトレーニングされたモデルを比較します。 データ収集とコストの制限により、我々は、正しい時間、混合現実、組み合わせモデルのパフォーマンス劣化を観察します。 これらの課題にも拘わらず、最高の性能モデルが24%以上の精度を達成した場合、全モデルの精度を14ポイント以上向上させる最適化を導入する。

We create an innovative mixed reality-first social recommendation model, utilizing features uniquely collected through mixed reality (MR) systems to promote social interaction, such as gaze recognition, proximity, noise level, congestion level, and conversational intensity. We further extend these models to include right-time features to deliver timely notifications. We measure performance metrics across various models by creating a new intersection of user features, MR features, and right-time features. We create four model types trained on different combinations of the feature classes, where we compare the baseline model trained on the class of user features against the models trained on MR features, right-time features, and a combination of all of the feature classes. Due to limitations in data collection and cost, we observe performance degradation in the right-time, mixed reality, and combination models. Despite these challenges, we introduce optimizations to improve accuracy across all models by over 14 percentage points, where the best performing model achieved 24% greater accuracy.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# MLソフトウェア構成の公正性を予測する

Predicting Fairness of ML Software Configuration ( http://arxiv.org/abs/2404.19100v1 )

ライセンス: Link先を確認
Salvador Robles Herrera, Verya Monjezi, Vladik Kreinovich, Ashutosh Trivedi, Saeid Tizpaz-Niari, (参考訳) 本稿では,機械学習のハイパーパラメータとフェアネスの関係について検討する。 データ駆動型ソリューションは、公正性を保証することが重要である重要な社会技術応用において、ますます利用されている。 ML開発者は、制御とデータ構造を介して決定ロジックを明示的に符号化する代わりに、入力データを提供し、事前処理を実行し、MLアルゴリズムを選択し、決定ロジックを符号化するプログラムを推論するためにハイパーパラメータ(HP)をチューニングする。 以前の報告では、HPの選択は公正性に大きな影響を及ぼす可能性がある。 しかし、正確性、正確性、公平性の間の理想的なトレードオフを見つけるためにHPをチューニングすることは、高価で面倒な作業である。 与えられたデータセットに対するHP構成の公平性を予測できますか? 予測は分布シフトに対して堅牢か? 我々は,グループフェアネスの概念に着目し,HP空間の5つのトレーニングアルゴリズムについて検討する。 我々はまず、木の回帰器とXGBootsがディープニューラルネットワークを著しく上回り、HPの公正性を正確に予測するベクトルマシンをサポートすることを発見した。 時間分布シフトの下でMLハイパーパラメータの公平さを予測する場合、ツリー回帰器は他のアルゴリズムよりも正確な精度で性能を向上する。 しかし、精度はMLトレーニングアルゴリズム、データセット、保護属性に依存する。 例えば、ツリー回帰モデルは、2014年から2018年までのロジスティック回帰と差別分析に基づいてデータシフトをトレーニングするために堅牢でした。 本手法は,機械学習学習アルゴリズムの微調整を効率よく行い,HPと公正性の関係を理解するための音響フレームワークを提供する。

This paper investigates the relationships between hyperparameters of machine learning and fairness. Data-driven solutions are increasingly used in critical socio-technical applications where ensuring fairness is important. Rather than explicitly encoding decision logic via control and data structures, the ML developers provide input data, perform some pre-processing, choose ML algorithms, and tune hyperparameters (HPs) to infer a program that encodes the decision logic. Prior works report that the selection of HPs can significantly influence fairness. However, tuning HPs to find an ideal trade-off between accuracy, precision, and fairness has remained an expensive and tedious task. Can we predict fairness of HP configuration for a given dataset? Are the predictions robust to distribution shifts? We focus on group fairness notions and investigate the HP space of 5 training algorithms. We first find that tree regressors and XGBoots significantly outperformed deep neural networks and support vector machines in accurately predicting the fairness of HPs. When predicting the fairness of ML hyperparameters under temporal distribution shift, the tree regressors outperforms the other algorithms with reasonable accuracy. However, the precision depends on the ML training algorithm, dataset, and protected attributes. For example, the tree regressor model was robust for training data shift from 2014 to 2018 on logistic regression and discriminant analysis HPs with sex as the protected attribute; but not for race and other training algorithms. Our method provides a sound framework to efficiently perform fine-tuning of ML training algorithms and understand the relationships between HPs and fairness.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# フェルミオン性暗黒物質コア-ハロ分布を持つホスト内部のGD-1ステラー流の軌跡のモデル化

Modelling the Track of the GD-1 Stellar Stream Inside a Host with a Fermionic Dark Matter Core-Halo Distribution ( http://arxiv.org/abs/2404.19102v1 )

ライセンス: Link先を確認
Martín F. Mestre, Carlos R. Argüelles, Daniel D. Carpintero, Valentina Crespi, Andreas Krut, (参考訳) 恒星の流れに関する伝統的な研究は、通常、現象学的に$\Lambda$CDM halos、または3軸性の異なるアドホックダークマター(DM)プロファイルを含んでおり、DM粒子の性質と質量に関する洞察を得るのを妨げている。 近年,ハロ生成の最大エントロピー原理を適用し,フェルミオン(量子)の性質を取り入れたDMハロモデルを提供し,フェルミオン質量に依存するDMプロファイルを導出した。 このようなプロファイルはより一般的な高密度な核、希薄なハロモルフォロジーで銀河の回転曲線を説明でき、縮退したフェルミオンコアは中心の巨大なブラックホール(BH)を模倣することができる。 我々は、主星の球状コアハロDM分布を用いてGD-1星流をモデル化しようとするが、同時に中心BHを持たない縮退したフェルミオンコアを通してSクラスター星のダイナミクスを説明する。 ストリーム軌道の初期条件とフェルミオンモデルの両方に適合する2つの最適化アルゴリズムを用いた。 ストリームオブザーバブルは、Gaia DR2サーベイの5次元位相空間データである。 我々は、フェルミオン質量でパラメータ化されたフェルミオン型コアハロプロファイルの族に対して、GD-1ストリームとS星の両方に良い適合性を見出すことができた。 この研究は、フェルミオンプロファイルが、巨大な中心天体と銀河のDMの両方にとって信頼できるモデルであることを示す。 注目すべきことに、このモデルは、Gaia DR3回転曲線(Gaia RC)から得られた最近の質量推定と一致する総MW質量が2.3\times 10^{11}M_{\odot}$と予測する。 要約すると、MWのDM分布に対する1つのフェルミオンモデルにより、銀河の3つの全く異なる距離スケールに適合する:$\sim 10^{-6}$ kpc (central, S-stars)、$\sim14$ kpc (mid, GD-1)、$\sim 30$ kpc (boundary, Gaia RC mass estimates)。

Traditional studies on stellar streams typically involve phenomenological $\Lambda$CDM halos or ad hoc dark matter (DM) profiles with different degrees of triaxiality, which preclude to gain insights into the nature and mass of the DM particles. Recently, a Maximum Entropy Principle of halo formation has been applied to provide a DM halo model which incorporates the fermionic (quantum) nature of the particles, while leading to DM profiles which depend on the fermion mass. Such profiles develop a more general dense core - diluted halo morphology able to explain the Galactic rotation curve, while the degenerate fermion core can mimic the central massive black hole (BH). We attempt to model the GD-1 stellar stream using a spherical core-halo DM distribution for the host, which, at the same time, explains the dynamics of the S-cluster stars through its degenerate fermion-core with no central BH. We used two optimization algorithms in order to fit both the initial conditions of the stream orbit and the fermionic model. The stream observables are 5D phase-space data from the Gaia DR2 survey. We were able to find good fits for both the GD-1 stream and the S-stars for a family of fermionic core-halo profiles parameterized by the fermion mass. This work provides evidence that the fermionic profile is a reliable model for both the massive central object and the DM of the Galaxy. Remarkably, this model predicts a total MW mass of $2.3\times 10^{11}M_{\odot}$ which is in agreement with recent mass estimates obtained from Gaia DR3 rotation curves (Gaia RC). In summary, with one single fermionic model for the DM distribution of the MW, we obtain a good fit in three totally different distance scales of the Galaxy: $\sim 10^{-6}$ kpc (central, S-stars), $\sim14$ kpc (mid, GD-1) and $\sim 30$ kpc (boundary, Gaia RC mass estimate).
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# パウリ観測可能量推定のための最適トレードオフ

Optimal tradeoffs for estimating Pauli observables ( http://arxiv.org/abs/2404.19105v1 )

ライセンス: Link先を確認
Sitan Chen, Weiyuan Gong, Qi Ye, (参考訳) 未知の$n$-qubit量子状態 $\rho$, estimate $\text{tr}(P\rho)$ for some set of Pauli operator $P$ to within additive error $\epsilon$。 一度に2つのコピーを測定するのに十分なメモリがあれば、$O(n/\epsilon^4)$コピーを使用してすべての$P$に対して$|\text{tr}(P\rho)|$を見積もることができるが、$k\le n$ qubits of memoryでは$\Omega(2^{(n-k)/3})$コピーが必要である。 これらの結果はいくつかの自然な疑問を残している。 この図は、パウリの特定の部分集合を見積もるだけで、物理的に関係のある設定でどのように変化するのか? $\epsilon$に対する最適な依存度は? 量子メモリとサンプル複雑性の最適なトレードオフは何か? 私たちはこれらの質問すべてに答える。 パウリスの任意の部分集合と測定戦略の族に対して、最適なサンプルの複雑さを$\log |A|$ 要素まで完全に特徴づける。 我々は、$\text{poly}(n)$-copy測定を行うプロトコルは、$\Omega(1/\epsilon^4)$測定をしなければならないことを示す。 for any protocol makes $\text{poly}(n)$-copy Measurement and only have $k < n$ qubits of memory, we show that $\widetilde{\Theta}(\min\{2^n/\epsilon^2, 2^{n-k}/\epsilon^4\})$ copy is necessary and enough。 提案するプロトコルは、前の作業のように絶対値だけでなく、実際の値 $\text{tr}(P\rho)$ を推定することもできる。 さらに,本手法の副産物として,純度試験の課題に厳密な境界を定め,パウリ・シャドウ・トモグラフィーのメモリ・サンプルトレードオフに存在しない興味深い相転移を示すことを示す。

We revisit the problem of Pauli shadow tomography: given copies of an unknown $n$-qubit quantum state $\rho$, estimate $\text{tr}(P\rho)$ for some set of Pauli operators $P$ to within additive error $\epsilon$. This has been a popular testbed for exploring the advantage of protocols with quantum memory over those without: with enough memory to measure two copies at a time, one can use Bell sampling to estimate $|\text{tr}(P\rho)|$ for all $P$ using $O(n/\epsilon^4)$ copies, but with $k\le n$ qubits of memory, $\Omega(2^{(n-k)/3})$ copies are needed. These results leave open several natural questions. How does this picture change in the physically relevant setting where one only needs to estimate a certain subset of Paulis? What is the optimal dependence on $\epsilon$? What is the optimal tradeoff between quantum memory and sample complexity? We answer all of these questions. For any subset $A$ of Paulis and any family of measurement strategies, we completely characterize the optimal sample complexity, up to $\log |A|$ factors. We show any protocol that makes $\text{poly}(n)$-copy measurements must make $\Omega(1/\epsilon^4)$ measurements. For any protocol that makes $\text{poly}(n)$-copy measurements and only has $k < n$ qubits of memory, we show that $\widetilde{\Theta}(\min\{2^n/\epsilon^2, 2^{n-k}/\epsilon^4\})$ copies are necessary and sufficient. The protocols we propose can also estimate the actual values $\text{tr}(P\rho)$, rather than just their absolute values as in prior work. Additionally, as a byproduct of our techniques, we establish tight bounds for the task of purity testing and show that it exhibits an intriguing phase transition not present in the memory-sample tradeoff for Pauli shadow tomography.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 周期および準周期磁性超格子における二層グラフェン

Bilayer graphene in periodic and quasiperiodic magnetic superlattices ( http://arxiv.org/abs/2404.19106v1 )

ライセンス: Link先を確認
David J. Fernández C., O. Pavón-Torres, (参考訳) 強結合モデルから生じる有効ハミルトニアンは, 周期的外磁場中に置かれた二層グラフェンの低層励起の挙動を, 既約二階超対称性変換を用いて検討した。 これらの励起を記述する方程式の結合系は、二階微分作用素によって交叉される周期的なシュリンガー・ハミルトン多様体の対に還元される。 より一般的な2階超対称性変換の直接的な実装により、周期性欠陥と禁止バンドに埋め込まれた有界状態を持つ非特異なシュリンガーポテンシャルを生成でき、これは準周期的磁気超格子に関連付けられる。

Starting from the effective Hamiltonian arising from the tight binding model, we study the behaviour of low-lying excitations for bilayer graphene placed in periodic external magnetic fields by using irreducible second order supersymmetry transformations. The coupled system of equations describing these excitations is reduced to a pair of periodic Schr\"odinger Hamiltonians intertwined by a second order differential operator. The direct implementation of more general second-order supersymmetry transformations allows to create nonsingular Schr\"odinger potentials with periodicity defects and bound states embedded in the forbidden bands, which turn out to be associated to quasiperiodic magnetic superlattices.
翻訳日:2024-05-01 18:00:28 公開日:2024-04-29
# 立方体サットスタートラッカーのリアルタイム畳み込みニューラルネットワークによるスター検出とセントロイド法

Real-Time Convolutional Neural Network-Based Star Detection and Centroiding Method for CubeSat Star Tracker ( http://arxiv.org/abs/2404.19108v1 )

ライセンス: Link先を確認
Hongrui Zhao, Michael F. Lembeck, Adrian Zhuang, Riya Shah, Jesse Wei, (参考訳) 星追跡装置は、絶対的な姿勢決定に使用される最も正確な天体センサの1つである。 撮像された画像中の星を検知し、サブピクセル精度の撮像焦点面上で投影されたセントロイドを正確に計算する。 恒星検出とセントロイドの伝統的なアルゴリズムは、しばしばセントロイド計算のピクセル検出とピクセル輝度重み付けのしきい値調整に頼っている。 しかし、高感度ノイズや迷路光といった課題は、アルゴリズムのパフォーマンスを損なう可能性がある。 本稿では、星検出とセントロイド化のための畳み込みニューラルネットワーク(CNN)に基づくアプローチについて紹介する。 実センサノイズと成層光で重畳されたシミュレーションされた星画像を用いて訓練されたCNNは、背景から星のピクセルを区別する二分分割マップと、最も近い恒星セントロイドに各ピクセルの近接を示す距離マップの両方を生成する。 この距離情報をピクセル座標と共に利用することで、セントロイド計算を最小二乗法で解ける3次問題の集合に変換する。 提案手法では,基盤となるCNNアーキテクチャに対して効率的なUNet変種を用い,その変種の性能評価を行った。 総合的なテストは、合成画像評価、ハードウェア・イン・ザ・ループ評価、夜空テストで実施されている。 実験の結果,提案手法は遠心分離精度で既存のアルゴリズムよりも優れており,高感度ノイズに対する耐性や光干渉に優れることがわかった。 我々のアルゴリズムのさらなる利点は、低消費電力のエッジAIプロセッサ上でリアルタイムに実行できることである。

Star trackers are one of the most accurate celestial sensors used for absolute attitude determination. The devices detect stars in captured images and accurately compute their projected centroids on an imaging focal plane with subpixel precision. Traditional algorithms for star detection and centroiding often rely on threshold adjustments for star pixel detection and pixel brightness weighting for centroid computation. However, challenges like high sensor noise and stray light can compromise algorithm performance. This article introduces a Convolutional Neural Network (CNN)-based approach for star detection and centroiding, tailored to address the issues posed by noisy star tracker images in the presence of stray light and other artifacts. Trained using simulated star images overlayed with real sensor noise and stray light, the CNN produces both a binary segmentation map distinguishing star pixels from the background and a distance map indicating each pixel's proximity to the nearest star centroid. Leveraging this distance information alongside pixel coordinates transforms centroid calculations into a set of trilateration problems solvable via the least squares method. Our method employs efficient UNet variants for the underlying CNN architectures, and the variants' performances are evaluated. Comprehensive testing has been undertaken with synthetic image evaluations, hardware-in-the-loop assessments, and night sky tests. The tests consistently demonstrated that our method outperforms several existing algorithms in centroiding accuracy and exhibits superior resilience to high sensor noise and stray light interference. An additional benefit of our algorithms is that they can be executed in real-time on low-power edge AI processors.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# マネーロンダリングの形状:Elliptic2データセットを用いたブロックチェーン上でのサブグラフ表現学習

The Shape of Money Laundering: Subgraph Representation Learning on the Blockchain with the Elliptic2 Dataset ( http://arxiv.org/abs/2404.19109v1 )

ライセンス: Link先を確認
Claudio Bellei, Muhua Xu, Ross Phillips, Tom Robinson, Mark Weber, Tim Kaler, Charles E. Leiserson, Arvind, Jie Chen, (参考訳) サブグラフ表現学習(Subgraph representation learning)は、複雑なネットワーク内の局所構造(または形状)を分析する技術である。 スケーラブルグラフニューラルネットワーク(GNN)の最近の発展によって実現されたこのアプローチは、ノードの抽象化レベルではなく、サブグループレベル(複数接続ノード)でリレーショナル情報をエンコードする。 我々は、アンチマネーロンダリング(AML)のような特定のドメインアプリケーションは本質的にサブグラフ問題であり、メインストリームグラフ技術は最適化の準位で運用されていると仮定する。 これは、実際のサイズと複雑さの注釈付きデータセットの不足に加えて、大規模にGNNワークフローを管理するためのソフトウェアツールの欠如による部分もある。 基本アルゴリズムやAMLなどのドメインアプリケーションでの作業を可能にするため、49Mノードクラスタと196Mエッジトランザクションからなるバックグラウンドグラフ内に、122KラベルのBitcoinクラスタのサブグラフを含む巨大なグラフデータセットであるElliptic2を紹介した。 このデータセットは、マネーロンダリングが暗号通貨で展示する「事例」の集合を学習し、新しい犯罪行為を正確に分類するために、不正行為と結びつくことが知られているサブグラフを提供する。 データセットとともに、私たちのグラフ技術、ソフトウェアツール、有望な初期の実験結果、そしてこのアプローチから既に得られる新たなドメイン洞察を共有しています。 同時に、このアプローチの即時的な実践価値と、仮想通貨やその他の金融ネットワークにおけるマネーロンダリングと法医学的分析の新しい標準の可能性を見出した。

Subgraph representation learning is a technique for analyzing local structures (or shapes) within complex networks. Enabled by recent developments in scalable Graph Neural Networks (GNNs), this approach encodes relational information at a subgroup level (multiple connected nodes) rather than at a node level of abstraction. We posit that certain domain applications, such as anti-money laundering (AML), are inherently subgraph problems and mainstream graph techniques have been operating at a suboptimal level of abstraction. This is due in part to the scarcity of annotated datasets of real-world size and complexity, as well as the lack of software tools for managing subgraph GNN workflows at scale. To enable work in fundamental algorithms as well as domain applications in AML and beyond, we introduce Elliptic2, a large graph dataset containing 122K labeled subgraphs of Bitcoin clusters within a background graph consisting of 49M node clusters and 196M edge transactions. The dataset provides subgraphs known to be linked to illicit activity for learning the set of "shapes" that money laundering exhibits in cryptocurrency and accurately classifying new criminal activity. Along with the dataset we share our graph techniques, software tooling, promising early experimental results, and new domain insights already gleaned from this approach. Taken together, we find immediate practical value in this approach and the potential for a new standard in anti-money laundering and forensic analytics in cryptocurrencies and other financial networks.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# EMOPortraits:マルチモーダル・ワンショット・アバター

EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars ( http://arxiv.org/abs/2404.19110v1 )

ライセンス: Link先を確認
Nikita Drobyshev, Antoni Bigata Casademunt, Konstantinos Vougioukas, Zoe Landgraf, Stavros Petridis, Maja Pantic, (参考訳) 視覚信号でアニメーションされたヘッドアバターは、特に運転者がアニメーションキャラクターと異なるクロスドライブ合成において、難しいが非常に実用的なアプローチとして人気を博している。 最近発表されたMegaPortraitsモデルは、この領域で最先端の結果を示している。 本研究では,このモデルについて,表情記述子に潜伏する空間に特に焦点をあて,顔の動きを強く表現する能力の限界を明らかにする。 これらの制限に対処するために、トレーニングパイプラインとモデルアーキテクチャの両方に大きな変更を提案し、EMOPortraitsモデルを導入しました。 我々のモデルに音声駆動型モードを組み込むことで、音声駆動型顔アニメーションにおいて最上位のパフォーマンスを実現し、視覚信号、音声、または両者のブレンドを含む様々なモーダルを通してソースアイデンティティを駆動できるようにする。 既存のデータセットにそのようなデータがない場合にギャップを埋める、広範囲の強靭で非対称な表情を特徴とする、新しい多視点ビデオデータセットを提案する。

Head avatars animated by visual signals have gained popularity, particularly in cross-driving synthesis where the driver differs from the animated character, a challenging but highly practical approach. The recently presented MegaPortraits model has demonstrated state-of-the-art results in this domain. We conduct a deep examination and evaluation of this model, with a particular focus on its latent space for facial expression descriptors, and uncover several limitations with its ability to express intense face motions. To address these limitations, we propose substantial changes in both training pipeline and model architecture, to introduce our EMOPortraits model, where we: Enhance the model's capability to faithfully support intense, asymmetric face expressions, setting a new state-of-the-art result in the emotion transfer task, surpassing previous methods in both metrics and quality. Incorporate speech-driven mode to our model, achieving top-tier performance in audio-driven facial animation, making it possible to drive source identity through diverse modalities, including visual signal, audio, or a blend of both. We propose a novel multi-view video dataset featuring a wide range of intense and asymmetric facial expressions, filling the gap with absence of such data in existing datasets.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# Hidden Synergy:$L_1$ Weight Normalization and 1-Path-Norm regularization

Hidden Synergy: $L_1$ Weight Normalization and 1-Path-Norm Regularization ( http://arxiv.org/abs/2404.19112v1 )

ライセンス: Link先を確認
Aditya Biswas, (参考訳) PSiLON Netは、重みベクトル毎に$L_1$の重み正規化を使い、各層にまたがる長さパラメータを共有するMLPアーキテクチャである。 1-path-normはニューラルネットワークのリプシッツ定数のバウンダリを提供し、その一般化性を反映し、PSiLON Netの設計が1-path-normを劇的に単純化し、効率的な学習とほぼスパースパラメータへの帰納バイアスを与えることを示す。 そこで本研究では,訓練の最終段階において,所望の精度で正確な間隔を確保できるプルーニング法を提案する。 残差ネットワークの帰納バイアスを生かし, 結合ReLUアクティベーションを利用した簡易な残差ブロックを提案する。 そのようなブロックで構築されたネットワークに対して、1-パスノルムの可能なパスの部分集合のみを考えると、リプシッツ定数をバウンドするのに十分であることを示す。 1-path-normと改良された境界を正規化器として使用し、過パラメータ化されたPSiLONネットとPSiLON ResNetを用いて、信頼性の高い最適化と強力な性能を示す実験を行う。

We present PSiLON Net, an MLP architecture that uses $L_1$ weight normalization for each weight vector and shares the length parameter across the layer. The 1-path-norm provides a bound for the Lipschitz constant of a neural network and reflects on its generalizability, and we show how PSiLON Net's design drastically simplifies the 1-path-norm, while providing an inductive bias towards efficient learning and near-sparse parameters. We propose a pruning method to achieve exact sparsity in the final stages of training, if desired. To exploit the inductive bias of residual networks, we present a simplified residual block, leveraging concatenated ReLU activations. For networks constructed with such blocks, we prove that considering only a subset of possible paths in the 1-path-norm is sufficient to bound the Lipschitz constant. Using the 1-path-norm and this improved bound as regularizers, we conduct experiments in the small data regime using overparameterized PSiLON Nets and PSiLON ResNets, demonstrating reliable optimization and strong performance.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 組織学における弱スーパービジョン対象定位モデルのソースフリー領域適応

Source-Free Domain Adaptation of Weakly-Supervised Object Localization Models for Histology ( http://arxiv.org/abs/2404.19113v1 )

ライセンス: Link先を確認
Alexis Guichemerre, Soufiane Belharbi, Tsiry Mayet, Shakeeb Murtaza, Pourya Shamsolmoali, Luke McCaffrey, Eric Granger, (参考訳) 深層学習の出現に伴い, 組織像に基づく癌診断において, デジタル病理学が注目されている。 ディープ弱教師付きオブジェクトローカライゼーション(WSOL)モデルは、安価なグローバルな画像クラスアノテーションを使用して、がんのグレードに応じて組織像を分類し、解釈のための関心領域(ROI)を特定するために訓練することができる。 当初、ラベル付きソース画像データに基づいてトレーニングされたWSOLモデルは、染色、スキャナー、癌タイプの変化によって生じる大きなドメインシフトの場合に、ラベルなしのターゲットデータを使用して適応することができる。 本稿では、プライバシと効率の理由から、ソースドメインデータを一切使用せずに、事前学習したソースモデルを新しいターゲットドメインに適合させるという難題である、ソースフリー(教師なし)ドメイン適応(SFDA)に焦点を当てる。 WSOLモデルのSFDAは、分類タスクとローカライゼーションタスクの両方に適応することを意図していないため、組織学におけるいくつかの課題を提起している。 本報告では, 主要SFDAファミリーの代表者である4つの最先端SFDA法について, 分類と位置推定の精度でWSOLと比較した。 SFDA-Distribution Estimation, Source HypOthesis Transfer, Cross-Domain Contrastive Learning, Adaptively Domain Statistics Alignmentである。 Glas (小, 乳癌) とCamelyon16 (大, 大腸癌) の組織学的データセットの実験結果から, これらのSFDA法は, 分類に最適化された場合, 適応後の局所化にはあまり役に立たないことが示唆された。

Given the emergence of deep learning, digital pathology has gained popularity for cancer diagnosis based on histology images. Deep weakly supervised object localization (WSOL) models can be trained to classify histology images according to cancer grade and identify regions of interest (ROIs) for interpretation, using inexpensive global image-class annotations. A WSOL model initially trained on some labeled source image data can be adapted using unlabeled target data in cases of significant domain shifts caused by variations in staining, scanners, and cancer type. In this paper, we focus on source-free (unsupervised) domain adaptation (SFDA), a challenging problem where a pre-trained source model is adapted to a new target domain without using any source domain data for privacy and efficiency reasons. SFDA of WSOL models raises several challenges in histology, most notably because they are not intended to adapt for both classification and localization tasks. In this paper, 4 state-of-the-art SFDA methods, each one representative of a main SFDA family, are compared for WSOL in terms of classification and localization accuracy. They are the SFDA-Distribution Estimation, Source HypOthesis Transfer, Cross-Domain Contrastive Learning, and Adaptively Domain Statistics Alignment. Experimental results on the challenging Glas (smaller, breast cancer) and Camelyon16 (larger, colon cancer) histology datasets indicate that these SFDA methods typically perform poorly for localization after adaptation when optimized for classification.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# IoTセキュリティの強化:MLベースの侵入検知システムの新機能エンジニアリングアプローチ

Enhancing IoT Security: A Novel Feature Engineering Approach for ML-Based Intrusion Detection Systems ( http://arxiv.org/abs/2404.19114v1 )

ライセンス: Link先を確認
Afsaneh Mahanipour, Hana Khamfroush, (参考訳) 日々の生活にIoT(Internet of Things)アプリケーションを統合することで、データトラフィックが急増し、重大なセキュリティ上の問題が発生しています。 クラウドとエッジコンピューティングを使用したIoTアプリケーションは、分散エッジとクラウドサービスからの攻撃面の拡大、IoTデバイスの脆弱性、および監視につながる相互接続システム間のセキュリティ管理の課題により、サイバー攻撃のリスクが高い。 これにより、侵入検知システム(IDS)に対するMLベースのソリューションが台頭し、ネットワークセキュリティの強化と多様な脅威に対する防御に有効であることが証明された。 しかし、IoTシステムにおけるMLベースのIDSは、特に、さまざまなIoTデータセットのノイズ、冗長、無関係な機能による課題に直面し、パフォーマンスに影響を及ぼす可能性がある。 そのため,システム性能の向上と計算コストの削減が重要となる。 本稿では,2層エッジユーザIoT環境における情報機能の生成を通じて,コストと精度のバランスのとれたトレードオフを見つける新しい手法を導入することにより,エッジレベルでのMLベースのIDSの有効性を向上させることに焦点を当てる。 この目的のために、ハイブリッドバイナリ量子インスパイアされた人工ビーコロニーと遺伝的プログラミングアルゴリズムが利用される。 提案手法の評価には,NSL-KDD,UNSW-NB15,BoT-IoTの3つのIoT侵入検出データセットを用いる。

The integration of Internet of Things (IoT) applications in our daily lives has led to a surge in data traffic, posing significant security challenges. IoT applications using cloud and edge computing are at higher risk of cyberattacks because of the expanded attack surface from distributed edge and cloud services, the vulnerability of IoT devices, and challenges in managing security across interconnected systems leading to oversights. This led to the rise of ML-based solutions for intrusion detection systems (IDSs), which have proven effective in enhancing network security and defending against diverse threats. However, ML-based IDS in IoT systems encounters challenges, particularly from noisy, redundant, and irrelevant features in varied IoT datasets, potentially impacting its performance. Therefore, reducing such features becomes crucial to enhance system performance and minimize computational costs. This paper focuses on improving the effectiveness of ML-based IDS at the edge level by introducing a novel method to find a balanced trade-off between cost and accuracy through the creation of informative features in a two-tier edge-user IoT environment. A hybrid Binary Quantum-inspired Artificial Bee Colony and Genetic Programming algorithm is utilized for this purpose. Three IoT intrusion detection datasets, namely NSL-KDD, UNSW-NB15, and BoT-IoT, are used for the evaluation of the proposed approach.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 健康情報のオーディオ配信における強調と一時停止の効果

Effects of Added Emphasis and Pause in Audio Delivery of Health Information ( http://arxiv.org/abs/2404.19119v1 )

ライセンス: Link先を確認
Arif Ahmed, Gondy Leroy, Stephen A. Rains, Philip Harber, David Kauchak, Prosanta Barai, (参考訳) 健康リテラシーは健康維持に不可欠であり、国家の主要な目標である。 情報のオーディオ配信は、自分自身に知らせるために人気が高まっている。 本研究では,情報強調・停止という形での音声強調の効果を,難易度が変化する健康テキストを用いて評価し,健康情報の理解と保持を計測する。 難易度の高いテキストから音声スニペットを作成し,Amazon Mechanical Turk (AMT) について検討した。 以上の結果から,情報理解と保持の両面での重視が重要であることが示唆された。 一時停止が加わらない場合、重要な情報を強調することで、難易度の高いテキストに対する認識の難しさを低下させることができる。 理解度は高く(54%)、強調しない(50%)よりも難しいテキストに正しく重点を置いている。 一時停止を加えると、知覚上の困難が減少し、保持性が改善されるが、情報の理解に悪影響を及ぼす。

Health literacy is crucial to supporting good health and is a major national goal. Audio delivery of information is becoming more popular for informing oneself. In this study, we evaluate the effect of audio enhancements in the form of information emphasis and pauses with health texts of varying difficulty and we measure health information comprehension and retention. We produced audio snippets from difficult and easy text and conducted the study on Amazon Mechanical Turk (AMT). Our findings suggest that emphasis matters for both information comprehension and retention. When there is no added pause, emphasizing significant information can lower the perceived difficulty for difficult and easy texts. Comprehension is higher (54%) with correctly placed emphasis for the difficult texts compared to not adding emphasis (50%). Adding a pause lowers perceived difficulty and can improve retention but adversely affects information comprehension.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# パケットフローにおけるペイロードエントロピーのキャラクタリゼーション

Characterising Payload Entropy in Packet Flows ( http://arxiv.org/abs/2404.19121v1 )

ライセンス: Link先を確認
Anthony Kenyon, Lipika Deka, David Elizondo, (参考訳) サイバー脅威の正確かつタイムリーな検出は、オンライン経済とデータを安全に保つ上で非常に重要です。 早期検出における重要なテクニックは、複雑な時系列パケットフロー内の低周波事象として隠蔽される、異常なネットワーク行動パターンの分類である。 このような異常を検出する方法の1つは、個々のパケット内のペイロードの情報エントロピーを分析することである。 アクティビティが異常かどうかを判断するには,リアルタイムエントロピー値とベースライン値を比較する必要がある。パケットデータのエントロピー解析は特に新しいものではないが,我々の知る限り,共通のネットワークサービス間でペイロードエントロピーのベースラインが公開されていない。 私たちは2つのコントリビューションを提供しています。 1)複数の大規模パケットデータセットを分析し,共通のネットワークサービスに対して,ベースラインペイロード情報エントロピー値を確立する。 2) ライブパケットデータやオフラインパケットデータからフローリカバリを行う際のエントロピー指標の効率的な手法について述べる。

Accurate and timely detection of cyber threats is critical to keeping our online economy and data safe. A key technique in early detection is the classification of unusual patterns of network behaviour, often hidden as low-frequency events within complex time-series packet flows. One of the ways in which such anomalies can be detected is to analyse the information entropy of the payload within individual packets, since changes in entropy can often indicate suspicious activity - such as whether session encryption has been compromised, or whether a plaintext channel has been co-opted as a covert channel. To decide whether activity is anomalous we need to compare real-time entropy values with baseline values, and while the analysis of entropy in packet data is not particularly new, to the best of our knowledge there are no published baselines for payload entropy across common network services. We offer two contributions: 1) We analyse several large packet datasets to establish baseline payload information entropy values for common network services, 2) We describe an efficient method for engineering entropy metrics when performing flow recovery from live or offline packet data, which can be expressed within feature subsets for subsequent analysis and machine learning applications.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 複合トークン/埋め込み型投機を用いた生産用LDMの高速化

Accelerating Production LLMs with Combined Token/Embedding Speculators ( http://arxiv.org/abs/2404.19124v1 )

ライセンス: Link先を確認
Davis Wertheimer, Joshua Rosenkranz, Thomas Parnell, Sahil Suneja, Pavithra Ranganathan, Raghu Ganti, Mudhakar Srivatsa, (参考訳) 本技術報告では,生産環境における大規模言語モデルの推論速度の向上を目的とした,新しい投機的復号化ドラフトモデルの設計と訓練について述べる。 コンテキストベクトルとサンプリングトークンの両方にドラフト予測を条件付けすることで、投機家が高品質なn-gramを効率的に予測できるように訓練することができる。 これにより,高速に最適化されたベースモデル実装のウォールクロック推論速度を2~3倍に向上させることができる。 これらの初期結果について検討し、さらなる改善に向けた次のステップについて説明する。

This technical report describes the design and training of novel speculative decoding draft models, for accelerating the inference speeds of large language models in a production environment. By conditioning draft predictions on both context vectors and sampled tokens, we can train our speculators to efficiently predict high-quality n-grams, which the base model then accepts or rejects. This allows us to effectively predict multiple tokens per inference forward pass, accelerating wall-clock inference speeds of highly optimized base model implementations by a factor of 2-3x. We explore these initial results and describe next steps for further improvements.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 畳み込みスパース符号化と共振器ネットワークを用いた視覚シーンの構成因子化

Compositional Factorization of Visual Scenes with Convolutional Sparse Coding and Resonator Networks ( http://arxiv.org/abs/2404.19126v1 )

ライセンス: Link先を確認
Christopher J. Kymn, Sonia Mazelet, Annabel Ng, Denis Kleyko, Bruno A. Olshausen, (参考訳) 本稿では,画像のスパースで潜在的な特徴表現を高次元ベクトルに符号化し,シーンコンテンツを解析する視覚的シーン解析と認識システムを提案する。 スパース特徴表現は畳み込みスパース符号化により画像統計から学習され、シーン解析は共振器ネットワークによって実行される。 共振器ネットワークとのスパース符号化の統合により、分散表現の容量が増加し、分解時の組合せ探索空間における衝突を低減する。 この問題に対して、共振器ネットワークは高速かつ正確なベクトル分解が可能であり、共振器ネットワークの収束を追跡するための信頼度に基づく計量を開発する。

We propose a system for visual scene analysis and recognition based on encoding the sparse, latent feature-representation of an image into a high-dimensional vector that is subsequently factorized to parse scene content. The sparse feature representation is learned from image statistics via convolutional sparse coding, while scene parsing is performed by a resonator network. The integration of sparse coding with the resonator network increases the capacity of distributed representations and reduces collisions in the combinatorial search space during factorization. We find that for this problem the resonator network is capable of fast and accurate vector factorization, and we develop a confidence-based metric that assists in tracking the convergence of the resonator network.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 分類のためのモデルフリーなサブデータ選択法

A model-free subdata selection method for classification ( http://arxiv.org/abs/2404.19127v1 )

ライセンス: Link先を確認
Rakhi Singh, (参考訳) サブデータ選択(Subdata selection)は、ビッグデータの小さな代表サンプルを選択する方法の研究であり、その分析は高速で統計的に効率的である。 既存のサブデータ選択法は、分類問題に対する(多重の)ロジスティック回帰のような基礎モデルを用いて、ビッグデータを合理的にモデル化できると仮定する。 これらの手法は、基礎となるモデリング仮定が正しいが、多くの場合、そうでなければ、悪い結果をもたらすとき、非常にうまく機能する。 本稿では,分類問題に対するモデルフリーなサブデータ選択法を提案し,その結果をPEDサブデータと呼ぶ。 PEDサブデータはデータのパーティションを見つけるために決定木を使用し、続いてパーティションの各コンポーネントから適切なサンプルを選択する。 ランダムフォレストは、選択したサブデータを分析するために使用される。 本手法は,応答の一般クラスとカテゴリー的および連続的予測器の両方に利用することができる。 PEDサブデータが一様データよりも小さいGiniとなることを解析的に示す。 さらに、PEDサブデータは、広範囲なシミュレーションおよび実データを用いて、競合する他の手法よりも高い分類精度を有することを示した。

Subdata selection is a study of methods that select a small representative sample of the big data, the analysis of which is fast and statistically efficient. The existing subdata selection methods assume that the big data can be reasonably modeled using an underlying model, such as a (multinomial) logistic regression for classification problems. These methods work extremely well when the underlying modeling assumption is correct but often yield poor results otherwise. In this paper, we propose a model-free subdata selection method for classification problems, and the resulting subdata is called PED subdata. The PED subdata uses decision trees to find a partition of the data, followed by selecting an appropriate sample from each component of the partition. Random forests are used for analyzing the selected subdata. Our method can be employed for a general number of classes in the response and for both categorical and continuous predictors. We show analytically that the PED subdata results in a smaller Gini than a uniform subdata. Further, we demonstrate that the PED subdata has higher classification accuracy than other competing methods through extensive simulated and real datasets.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# Q-GroundCAM:GradCAMによる視覚言語モデルのグラウンドの定量化

Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM ( http://arxiv.org/abs/2404.19128v1 )

ライセンス: Link先を確認
Navid Rajabi, Jana Kosecka, (参考訳) 視覚と言語モデル (VLM) は、様々なタスクで顕著なゼロショット (ZS) 性能を示し続けている。 しかしながら、多くの調査研究により、最も優れたVLMでさえ、画像中の言語句を適切に接地し、ローカライズする能力が欠如している、構成的シーン理解の側面を捉えるのに苦労していることが明らかになっている。 最近のVLMには、モデルサイズとデータセットサイズの両方のスケールアップ、トレーニング目標と監視レベルの追加、モデルアーキテクチャのバリエーションが含まれる。 句接地、参照表現理解、関係理解などのVLMの接地能力を特徴付けるために、ポインティングゲームはバウンディングボックスアノテーションを持つデータセットの評価指標として使われてきた。 本稿では,GradCAMアクティベーションを利用して,CLIP,BLIP,ALBEFといった事前学習VLMのグラウンドティング能力を厳格に評価する,新しいメトリクススイートを提案する。 これらのメトリクスは、VLMのゼロショット能力のより詳細な比較のために説明可能で定量的なアプローチを提供し、モデルの基底不確実性を測定することができる。 この特徴は、モデルのサイズ、データセットのサイズ、パフォーマンスの間の興味深いトレードオフを明らかにします。

Vision and Language Models (VLMs) continue to demonstrate remarkable zero-shot (ZS) performance across various tasks. However, many probing studies have revealed that even the best-performing VLMs struggle to capture aspects of compositional scene understanding, lacking the ability to properly ground and localize linguistic phrases in images. Recent VLM advancements include scaling up both model and dataset sizes, additional training objectives and levels of supervision, and variations in the model architectures. To characterize the grounding ability of VLMs, such as phrase grounding, referring expressions comprehension, and relationship understanding, Pointing Game has been used as an evaluation metric for datasets with bounding box annotations. In this paper, we introduce a novel suite of quantitative metrics that utilize GradCAM activations to rigorously evaluate the grounding capabilities of pre-trained VLMs like CLIP, BLIP, and ALBEF. These metrics offer an explainable and quantifiable approach for a more detailed comparison of the zero-shot capabilities of VLMs and enable measuring models' grounding uncertainty. This characterization reveals interesting tradeoffs between the size of the model, the dataset size, and their performance.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# SpherE: 集合検索のための表現的で解釈可能な知識グラフ

SpherE: Expressive and Interpretable Knowledge Graph Embedding for Set Retrieval ( http://arxiv.org/abs/2404.19130v1 )

ライセンス: Link先を確認
Zihao Li, Yuyi Ao, Jingrui He, (参考訳) 知識グラフ(KG)は、多くの関係事実(頭、関係、尾)を格納し、様々な応用を提供する。 多くの下流タスクはKGの表現的モデリングと予測的埋め込みに強く依存しているが、現在のKG表現学習手法のほとんどは、各エンティティがユークリッド空間のベクトルとして埋め込まれ、各関係が変換として埋め込まれ、エンティティランキングプロトコルに従う。 一方、そのような埋め込み設計は多対多の関係を捉えることはできない。 一方、多くの検索ケースでは、検索結果が正確であると期待される場合、特に遺伝子が病気の原因となるような場合に、ユーザはランキングなしで正確な回答を得られることを望んでいる。 このようなシナリオは一般に「セット検索」と呼ばれる。 本研究は,KG集合探索問題に関する先駆的な研究である。 集合検索は多対多関係の表現的モデリングに大きく依存していることを示し、この問題に対処する新しいKG埋め込みモデルSpherEを提案する。 SpherEは回転埋め込み法に基づいているが、各実体はベクトルの代わりに球体として埋め込まれる。 回転型モデルの高い解釈可能性を引き継ぐ一方で、我々のSpherEは1対マニー、多対マニー、多対マニーの関係をより表現的にモデル化することができる。 広範にわたる実験により,我々のSpherEは,不足した事実を推測する優れた予測能力を持ちながら,設定された検索問題にうまく対処できることを示した。 コードはhttps://github.com/Violet24K/SpherEで公開されている。

Knowledge graphs (KGs), which store an extensive number of relational facts (head, relation, tail), serve various applications. While many downstream tasks highly rely on the expressive modeling and predictive embedding of KGs, most of the current KG representation learning methods, where each entity is embedded as a vector in the Euclidean space and each relation is embedded as a transformation, follow an entity ranking protocol. On one hand, such an embedding design cannot capture many-to-many relations. On the other hand, in many retrieval cases, the users wish to get an exact set of answers without any ranking, especially when the results are expected to be precise, e.g., which genes cause an illness. Such scenarios are commonly referred to as "set retrieval". This work presents a pioneering study on the KG set retrieval problem. We show that the set retrieval highly depends on expressive modeling of many-to-many relations, and propose a new KG embedding model SpherE to address this problem. SpherE is based on rotational embedding methods, but each entity is embedded as a sphere instead of a vector. While inheriting the high interpretability of rotational-based models, our SpherE can more expressively model one-to-many, many-to-one, and many-to-many relations. Through extensive experiments, we show that our SpherE can well address the set retrieval problem while still having a good predictive ability to infer missing facts. The code is available at https://github.com/Violet24K/SpherE.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 教師なし連続学習における現在と過去の統合

Integrating Present and Past in Unsupervised Continual Learning ( http://arxiv.org/abs/2404.19132v1 )

ライセンス: Link先を確認
Yipeng Zhang, Laurent Charlin, Richard Zemel, Mengye Ren, (参考訳) 我々は、現在および過去のデータに特有の学習目標を、安定性、可塑性、およびクロスタスク統合を包含する、教師なし連続学習(UCL)の統一フレームワークを定式化する。 このフレームワークは、多くの既存のUCLアプローチがクロスタスク統合を見落とし、共有埋め込み空間における可塑性と安定性のバランスをとろうとしていることを明らかにしている。 これにより、タスク内データの多様性の欠如と、現在のタスクの学習効率の低下により、パフォーマンスが低下する。 提案手法であるOsirisは,3つの目的を個別な埋め込み空間上で明示的に最適化し,意味的に構造化されたタスクシーケンスを特徴とする2つの新しいベンチマークを含む,すべてのベンチマークの最先端性能を実現する。 標準的なベンチマークと比較すると、この2つの構造化されたベンチマークは現実世界の環境をナビゲートする際に人間や動物が受ける視覚信号によく似ている。 最後に,このような現実的な学習シナリオから連続モデルが有用であることを示す予備的証拠を示す。

We formulate a unifying framework for unsupervised continual learning (UCL), which disentangles learning objectives that are specific to the present and the past data, encompassing stability, plasticity, and cross-task consolidation. The framework reveals that many existing UCL approaches overlook cross-task consolidation and try to balance plasticity and stability in a shared embedding space. This results in worse performance due to a lack of within-task data diversity and reduced effectiveness in learning the current task. Our method, Osiris, which explicitly optimizes all three objectives on separate embedding spaces, achieves state-of-the-art performance on all benchmarks, including two novel benchmarks proposed in this paper featuring semantically structured task sequences. Compared to standard benchmarks, these two structured benchmarks more closely resemble visual signals received by humans and animals when navigating real-world environments. Finally, we show some preliminary evidence that continual models can benefit from such realistic learning scenarios.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# 非カテゴリーCADモデルによる深部クラスタリングアルゴリズムの評価

Evaluating Deep Clustering Algorithms on Non-Categorical 3D CAD Models ( http://arxiv.org/abs/2404.19134v1 )

ライセンス: Link先を確認
Siyuan Xiang, Chin Tseng, Congcong Wen, Deshana Desai, Yifeng Kou, Binil Starly, Daniele Panozzo, Chen Feng, (参考訳) 本稿では,大規模非分類CADモデル上でのディープクラスタリングアルゴリズムのベンチマークと評価について紹介する。 まず,2,968個の形状を持つABCデータセットのサブセットから,252,648個のCADモデル類似点を効率的にアノテートするワークフローを提案する。 次に,7つのベースライン深層クラスタリング手法を用いて,非分類データに対するクラスタリング手法の評価の根本的な課題について検討する。 これらの課題に基づき,新たなアンサンブルに基づくクラスタリング比較手法を提案する。 この研究は、3次元形状の深層クラスタリングアルゴリズムの未探索領域を直接ターゲットとした最初のものであり、深部幾何学計算に現れ始めている巨大な3次元形状のコレクションを解析・活用するための重要なビルディングブロックであると我々は信じている。

We introduce the first work on benchmarking and evaluating deep clustering algorithms on large-scale non-categorical 3D CAD models. We first propose a workflow to allow expert mechanical engineers to efficiently annotate 252,648 carefully sampled pairwise CAD model similarities, from a subset of the ABC dataset with 22,968 shapes. Using seven baseline deep clustering methods, we then investigate the fundamental challenges of evaluating clustering methods for non-categorical data. Based on these challenges, we propose a novel and viable ensemble-based clustering comparison approach. This work is the first to directly target the underexplored area of deep clustering algorithms for 3D shapes, and we believe it will be an important building block to analyze and utilize the massive 3D shape collections that are starting to appear in deep geometric computing.
翻訳日:2024-05-01 16:03:12 公開日:2024-04-29
# リーブ・カゴメ・ハバードモデルにおける多体量子熱機械

Many-body quantum thermal machines in a Lieb-kagome Hubbard model ( http://arxiv.org/abs/2404.19140v1 )

ライセンス: Link先を確認
Saikat Sur, Pritam Chattopadhyay, Madhuparna Karmakar, Avijit Misra, (参考訳) 量子多体系は、協調的な多体効果や量子臨界点の性能向上など、異なる利点を提供することで量子熱機械(QTM)を実現するのに適した作業媒体として機能する。 しかし、QTMの文脈における多体システムの臨界性を探る既存の文献の多くは、複雑な数値技術を必要とする非自明な電子的相互作用をモデルが覆い隠すものである。 ここでは、多機能QTMの作業媒体に対するライングラフリーブ・カゴメ格子のフレームワークにおいて、2次元(2次元)の原型Hubbardモデルを採用する。 我々は,非摂動静的経路近似法(SPA)モンテカルロ法を用いて,反発型ハバードモデルに対処する。 我々は, スターリングサイクルにおいて, 相互作用限界と非相互作用限界の両方において, 熱エンジン関数が支配的であり, 逆の冷媒作用が好まれる一方で, 加合目からリーブ限界へのひずみ誘導時にその性能が向上することが観察された。 さらに,2つの浴槽の温度差が低く,QTMがカルノット限界に達すると,QTMの性能が向上することを示した。 さらに, 磁気秩序が入射するリパルス型ハバード相互作用系におけるQTMの性能について, 広範囲にわたって検討した。 量子臨界点と大きな相互作用限界に沿ったQTMの性能について検討する。

Quantum many-body systems serve as a suitable working medium for realizing quantum thermal machines (QTMs) by offering distinct advantages such as cooperative many-body effects, and performance boost at the quantum critical points. However, the bulk of the existing literature exploring the criticality of many-body systems in the context of QTMs involves models sans the electronic interactions, which are non-trivial to deal with and require sophisticated numerical techniques. Here we adopt the prototypical Hubbard model in two dimensions (2D) in the framework of the line graph Lieb-kagome lattice for the working medium of a multi-functional QTM. We resort to a non-perturbative, static path approximated (SPA) Monte Carlo technique to deal with the repulsive Hubbard model. We observe that in a Stirling cycle, in both the interacting and non-interacting limits, the heat engine function dominates and its performance gets better when the strain is induced from the kagome to the Lieb limit, while for the reverse the refrigeration action is preferred. Further, we show that the QTM performs better when the difference between the temperatures of the two baths is lower and the QTM reaches the Carnot limit in this regime. Further, we extensively study the performance of the QTM in the repulsive Hubbard interacting regime where the magnetic orders come into the picture. We explore the performance of the QTM along the quantum critical points and in the large interaction limit.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# 地図制約軌道復元のためのマイクロマクロ空間時間グラフベースエンコーダデコーダ

Micro-Macro Spatial-Temporal Graph-based Encoder-Decoder for Map-Constrained Trajectory Recovery ( http://arxiv.org/abs/2404.19141v1 )

ライセンス: Link先を確認
Tonglong Wei, Youfang Lin, Yan Lin, Shengnan Guo, Lan Zhang, Huaiyu Wan, (参考訳) 道路網の制約に固執しながら、まばらな軌道で中間のGPSポイントを復元することは、インテリジェント交通システムにおけるユーザの移動行動に深い洞察を与える可能性がある。 近年の研究では、終端から終端までの方法で、地図に制約のある軌道回復を実現するという利点が実証されているが、それでも2つの大きな課題に直面している。 まず、既存の手法は主にシーケンスベースのモデルである。 個々のGPSポイントの情報と2つのGPSポイント間の移動を含む、個々の軌道のマイクロセマンティクスを包括的に捉えることは極めて困難である。 第二に、既存のアプローチはマクロ・セマンティックスの影響を無視している。 以上の課題に対処するために,マイクロマクロ空間時間グラフに基づくエンコーダデコーダ(MM-STGED)を提案する。 具体的には、各トラジェクトリをグラフとしてモデル化し、トラジェクトリのマイクロセマンティクスを効率的に記述し、トラジェクトリ表現を学習するための新しいメッセージパッシング機構を設計する。 さらに,トラジェクトリのマクロセマンティクスを抽出し,よりよく設計されたグラフベースのデコーダに組み込んでトラジェクトリリカバリを誘導する。 2つの実空間軌跡データセットからそれぞれ3つの異なるサンプリング間隔を持つスパース軌跡実験を行い、提案モデルの有効性を実証した。

Recovering intermediate missing GPS points in a sparse trajectory, while adhering to the constraints of the road network, could offer deep insights into users' moving behaviors in intelligent transportation systems. Although recent studies have demonstrated the advantages of achieving map-constrained trajectory recovery via an end-to-end manner, they still face two significant challenges. Firstly, existing methods are mostly sequence-based models. It is extremely hard for them to comprehensively capture the micro-semantics of individual trajectory, including the information of each GPS point and the movement between two GPS points. Secondly, existing approaches ignore the impact of the macro-semantics, i.e., the road conditions and the people's shared travel preferences reflected by a group of trajectories. To address the above challenges, we propose a Micro-Macro Spatial-Temporal Graph-based Encoder-Decoder (MM-STGED). Specifically, we model each trajectory as a graph to efficiently describe the micro-semantics of trajectory and design a novel message-passing mechanism to learn trajectory representations. Additionally, we extract the macro-semantics of trajectories and further incorporate them into a well-designed graph-based decoder to guide trajectory recovery. Extensive experiments conducted on sparse trajectories with three different sampling intervals that are respectively constructed from two real-world trajectory datasets demonstrate the superiority of our proposed model.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# パーセル強化光冷凍

Purcell enhanced optical refrigeration ( http://arxiv.org/abs/2404.19142v1 )

ライセンス: Link先を確認
Peng Ju, Stefan Püschel, Kunhong Shen, Yuanbin Jin, Hiroki Tanaka, Tongcang Li, (参考訳) 反ストークス蛍光による固体の光冷却は、無振動低温冷却技術として広く研究されている。 87Kの最低温度は、光学冷却を用いた希土類イオンドープ結晶で実証されている。 しかし、基底状態多様体における上層エネルギー準位の減少は、液体窒素 (LN$_2$) 以下の温度まで冷却を妨げ、その応用を固める。 本稿では,この制限を回避するためにPurcell拡張光冷凍法を提案する。 このアプローチは、近くのナノキャビティに結合し、平均発光波長をブルーシフトすることで、高エネルギー光子の放出を促進する。 このようなパーセル増強放出は、LN$_2$温度以下で高い占有力を示す基底状態多様体の低いエネルギーレベルから始める冷却を促進する。 実験で測定した光学係数を用いて,Yb$^{3+}$:YLiF$_{4}$ナノ結晶を現実的な条件下での達成可能な最小温度38Kを予測した。 提案手法は、他の希土類イオンドープ材料や半導体に適用でき、固体冷却による超伝導や他の量子デバイスの製造にも応用できる。

Optical refrigeration of solids with anti-Stokes fluorescence has been widely explored as a vibration-free cryogenic cooling technology. A minimum temperature of 87 K has been demonstrated with rare-earth ion doped crystals using optical refrigeration. However, the depletion of the upper-lying energy levels in the ground state manifold hinders further cooling to below liquid nitrogen (LN$_2$) temperatures, confining its applications. In this work, we introduce a Purcell enhanced optical refrigeration method to circumvent this limitation. This approach enhances the emission of high energy photons by coupling to a nearby nanocavity, blue shifting the mean emission wavelength. Such Purcell enhanced emission facilitates cooling starting from a lower energy level in the ground state manifold, which exhibits a higher occupation below LN$_2$ temperatures. Using our experimentally measured optical coefficients, our theoretical analysis predicts a minimum achievable temperature of 38 K for a Yb$^{3+}$:YLiF$_{4}$ nanocrystal near a cavity under realistic conditions. The proposed method is applicable to other rare-earth ion doped materials and semiconductors, and will have applications in creating superconducting and other quantum devices with solid-state cooling.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# 直交型ブートストラップ:入力不確かさの効率的なシミュレーション

Orthogonal Bootstrap: Efficient Simulation of Input Uncertainty ( http://arxiv.org/abs/2404.19145v1 )

ライセンス: Link先を確認
Kaizhao Liu, Jose Blanchet, Lexing Ying, Yiping Lu, (参考訳) Bootstrapは入力の不確実性をシミュレートするための一般的な方法論です。 しかし、サンプル数が多ければ計算コストがかかる可能性がある。 そこで本稿では,モンテカルロ複製に必要な数を削減するための新しい手法として, textbf{Orthogonal Bootstrap}を提案する。 Infinitesimal Jackknife として知られる閉形式の結果を持つ \textit{non-orthogonal part} と、シミュレートが容易な \textit{orthogonal part} である。 理論的,数値的には,Orthogonal BootstrapはBootstrapの計算コストを大幅に削減し,経験的精度を向上し,構成間隔の同じ幅を維持する。

Bootstrap is a popular methodology for simulating input uncertainty. However, it can be computationally expensive when the number of samples is large. We propose a new approach called \textbf{Orthogonal Bootstrap} that reduces the number of required Monte Carlo replications. We decomposes the target being simulated into two parts: the \textit{non-orthogonal part} which has a closed-form result known as Infinitesimal Jackknife and the \textit{orthogonal part} which is easier to be simulated. We theoretically and numerically show that Orthogonal Bootstrap significantly reduces the computational cost of Bootstrap while improving empirical accuracy and maintaining the same width of the constructed interval.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# テーマ固有の知識グラフの自動構築

Automated Construction of Theme-specific Knowledge Graphs ( http://arxiv.org/abs/2404.19146v1 )

ライセンス: Link先を確認
Linyi Ding, Sizhe Zhou, Jinfeng Xiao, Jiawei Han, (参考訳) 質問応答やインテリジェントな会話システムといった様々なタスクに知識グラフ(KG)が広く応用されているにもかかわらず、既存のKGは2つの大きな課題に直面している。 これらのことは、特に高度に専門化されたテーマ(例えば、専門的な科学的研究)と急速に進化する状況(例えば、ニュースや災害追跡)において、文脈内、微粒化、そしてKGからの最新の知識の検索と分析をかなり妨げている。 このような課題に対処するため、テーマ固有コーパスから構築されたKGであるテーマ固有知識グラフ(ThemeKG)を提案し、テーマ固有コーパスのための教師なしフレームワーク(TKGCon)を設計する。 このフレームワークは、テーマ固有の生のコーパスを取り込み、テーマの下に健全な実体と関係を含む高品質なKGを生成する。 具体的には、ウィキペディアのテーマの実体オントロジーから始め、大言語モデル(LLM)によって候補関係を生成し、関係オントロジーを構築する。 テーマコーパスから文書を解析するために、抽出したエンティティペアをオントロジーにマッピングし、候補関係を検索する。 最後に、コンテキストとオントロジーを組み込んで、エンティティペアの関係を統合する。 テーマ固有のKGに対してGPT-4を直接促すことは、不正確なエンティティ(クエリ結果の1つのエンティティとして"2つのメインタイプ"など)、不正確なエンティティ("is"、"has"など)、誤った関係("have due"、"to start"など)につながることを観察する。 対照的に、テーマ固有のKGを段階的に構築することで、我々のモデルはGPT-4より優れ、常に正確な実体や関係を識別できる。 また, このフレームワークは, 各種KG構築ベースラインと比較して, 性能評価に優れることを示した。

Despite widespread applications of knowledge graphs (KGs) in various tasks such as question answering and intelligent conversational systems, existing KGs face two major challenges: information granularity and deficiency in timeliness. These hinder considerably the retrieval and analysis of in-context, fine-grained, and up-to-date knowledge from KGs, particularly in highly specialized themes (e.g., specialized scientific research) and rapidly evolving contexts (e.g., breaking news or disaster tracking). To tackle such challenges, we propose a theme-specific knowledge graph (i.e., ThemeKG), a KG constructed from a theme-specific corpus, and design an unsupervised framework for ThemeKG construction (named TKGCon). The framework takes raw theme-specific corpus and generates a high-quality KG that includes salient entities and relations under the theme. Specifically, we start with an entity ontology of the theme from Wikipedia, based on which we then generate candidate relations by Large Language Models (LLMs) to construct a relation ontology. To parse the documents from the theme corpus, we first map the extracted entity pairs to the ontology and retrieve the candidate relations. Finally, we incorporate the context and ontology to consolidate the relations for entity pairs. We observe that directly prompting GPT-4 for theme-specific KG leads to inaccurate entities (such as "two main types" as one entity in the query result) and unclear (such as "is", "has") or wrong relations (such as "have due to", "to start"). In contrast, by constructing the theme-specific KG step by step, our model outperforms GPT-4 and could consistently identify accurate entities and relations. Experimental results also show that our framework excels in evaluations compared with various KG construction baselines.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# 骨格画像表現によるブラジル手話認識の強化

Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation ( http://arxiv.org/abs/2404.19148v1 )

ライセンス: Link先を確認
Carlos Eduardo G. R. Alves, Francisco de Assis Boldt, Thiago M. Paixão, (参考訳) 効果的なコミュニケーションは、聴覚障害者を社会に含める上で最重要である。 しかし、限られた手話(SL)知識による永続的なコミュニケーション障壁は、その完全な参加を妨げる。 この文脈では、署名者と非署名者のコミュニケーションを改善するために、手話認識(SLR)システムが開発されている。 特に,視覚ベースのSLサーチエンジン,学習ツール,翻訳システムの開発において,孤立信号(孤立手話認識,ISLR)の認識が極めて重要である。 本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化するISLRアプローチを提案する。 これらの画像は畳み込みニューラルネットワークによって処理され、視覚的時間情報を記号ラベルにマッピングする。 実験の結果,ブラジル手話(LIBRAS)における2つの広く認識されているデータセットのパフォーマンス指標から,本手法が最先端の指標を上回ったことが確認された。 より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。

Effective communication is paramount for the inclusion of deaf individuals in society. However, persistent communication barriers due to limited Sign Language (SL) knowledge hinder their full participation. In this context, Sign Language Recognition (SLR) systems have been developed to improve communication between signing and non-signing individuals. In particular, there is the problem of recognizing isolated signs (Isolated Sign Language Recognition, ISLR) of great relevance in the development of vision-based SL search engines, learning tools, and translation systems. This work proposes an ISLR approach where body, hands, and facial landmarks are extracted throughout time and encoded as 2-D images. These images are processed by a convolutional neural network, which maps the visual-temporal information into a sign label. Experimental results demonstrate that our method surpassed the state-of-the-art in terms of performance metrics on two widely recognized datasets in Brazilian Sign Language (LIBRAS), the primary focus of this study. In addition to being more accurate, our method is more time-efficient and easier to train due to its reliance on a simpler network architecture and solely RGB data as input.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# SAGS:構造を意識した3Dガウシアンスプレイティング

SAGS: Structure-Aware 3D Gaussian Splatting ( http://arxiv.org/abs/2404.19149v1 )

ライセンス: Link先を確認
Evangelos Ververas, Rolandos Alexandros Potamias, Jifei Song, Jiankang Deng, Stefanos Zafeiriou, (参考訳) NeRFの出現に続いて、3Dガウススプラッティング(3D-GS)は、体積法の計算負担を克服するリアルタイムニューラルネットワークレンダリングへの道を開いた。 3D-GSの先駆的な研究に続いて、いくつかの手法が圧縮性および高忠実度性能の代替手段の実現を試みた。 しかし、幾何学に依存しない最適化手法を用いることで、これらの手法はシーン固有の3次元構造を無視し、表現の表現性や質を制限し、様々な浮動小数点やアーティファクトをもたらす。 本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス・スティング法 (SAGS) を提案する。 SAGSは、複雑なシーンの学習を促進し、シーンの幾何学を保存する意味のある点変位を強制する、ローカル・グローバルなグラフ表現に基づいて構築されている。 さらに,単純な中点補間方式を用いてSAGSの軽量バージョンを導入し,圧縮戦略に頼らずに最大24$\times$サイズ縮小されたシーンのコンパクトな表現を示す。 複数のベンチマークデータセットにわたる大規模な実験は、レンダリング品質とモデルサイズの両方における最先端の3D-GS手法と比較して、SAGSの優位性を示している。 さらに, 本手法は, 正確な深度マップを得ながら, 浮き彫りや従来手法の不規則な歪みを効果的に軽減できることを示す。 プロジェクトページ https://eververas.github.io/SAGS/。

Following the advent of NeRFs, 3D Gaussian Splatting (3D-GS) has paved the way to real-time neural rendering overcoming the computational burden of volumetric methods. Following the pioneering work of 3D-GS, several methods have attempted to achieve compressible and high-fidelity performance alternatives. However, by employing a geometry-agnostic optimization scheme, these methods neglect the inherent 3D structure of the scene, thereby restricting the expressivity and the quality of the representation, resulting in various floating points and artifacts. In this work, we propose a structure-aware Gaussian Splatting method (SAGS) that implicitly encodes the geometry of the scene, which reflects to state-of-the-art rendering performance and reduced storage requirements on benchmark novel-view synthesis datasets. SAGS is founded on a local-global graph representation that facilitates the learning of complex scenes and enforces meaningful point displacements that preserve the scene's geometry. Additionally, we introduce a lightweight version of SAGS, using a simple yet effective mid-point interpolation scheme, which showcases a compact representation of the scene with up to 24$\times$ size reduction without the reliance on any compression strategies. Extensive experiments across multiple benchmark datasets demonstrate the superiority of SAGS compared to state-of-the-art 3D-GS methods under both rendering quality and model size. Besides, we demonstrate that our structure-aware method can effectively mitigate floating artifacts and irregular distortions of previous methods while obtaining precise depth maps. Project page https://eververas.github.io/SAGS/.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# RTF:リレーショナルトリプル抽出のための領域型テーブル充填法

RTF: Region-based Table Filling Method for Relational Triple Extraction ( http://arxiv.org/abs/2404.19154v1 )

ライセンス: Link先を確認
Ning An, Lei Hei, Yong Jiang, Weiping Meng, Jingjing Hu, Boran Huang, Feiliang Ren, (参考訳) リレーショナルトリプル抽出は知識グラフの自動構築に不可欠である。 既存のメソッドはトークンまたはトークンペアレベルからのみ浅い表現を構築する。 しかし、従来の研究は関係三重項の局所的な空間的依存関係を無視し、実体対境界検出の弱点をもたらす。 そこで本研究では,領域ベースのテーブルフィリング手法(RTF)を提案する。 そこで我々は,各関係トリプルを関係特化テーブル上の領域とみなし,各領域の2つのエンドポイントを決定することによって三重項を識別する,新しい領域ベースのタグ付け手法と双方向デコーディング戦略を考案した。 また,空間的視点から領域レベルのテーブル表現を構築するために畳み込みを導入し,トリプルの取得を容易にする。 さらに,関係分類器の学習効率を向上させるために,関係の異なる部分的タグ付けスコアを共有する。 実験結果から,提案手法は2つの広く使用されているベンチマークデータセットの3つの変種に対して,より優れた一般化能力を有する最先端の手法を実現することが示された。

Relational triple extraction is crucial work for the automatic construction of knowledge graphs. Existing methods only construct shallow representations from a token or token pair-level. However, previous works ignore local spatial dependencies of relational triples, resulting in a weakness of entity pair boundary detection. To tackle this problem, we propose a novel Region-based Table Filling method (RTF). We devise a novel region-based tagging scheme and bi-directional decoding strategy, which regard each relational triple as a region on the relation-specific table, and identifies triples by determining two endpoints of each region. We also introduce convolution to construct region-level table representations from a spatial perspective which makes triples easier to be captured. In addition, we share partial tagging scores among different relations to improve learning efficiency of relation classifier. Experimental results show that our method achieves state-of-the-art with better generalization capability on three variants of two widely used benchmark datasets.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# ディープラーニング時代のスケーラブルベイズ推論:ガウス過程からディープニューラルネットワークへ

Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks ( http://arxiv.org/abs/2404.19157v1 )

ライセンス: Link先を確認
Javier Antoran, (参考訳) 大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。 これらのシステムは、モデルの不確実性を表現することを除いて、パラメータの最大極大点推定に依存している。 これにより、過度に信頼された予測が得られ、シーケンシャルな意思決定にディープラーニングモデルを使用するのを防ぐことができる。 この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。 特に、線形化されたLaplace近似を利用して、事前学習されたニューラルネットワークに、それらの接する線形モデルによって提供される不確実性推定を装備する。 これは、ニューラルネットワークにおけるベイジアン推論の問題を、共役ガウス-線型モデルにおけるベイジアン推論の1つに変える。 残念なことに、このコストは、ネットワークパラメータの数や、出力寸法の観測時間の数で3倍に留まっている。 仮定すると、どちらの場合もトラクタブルではない。 本研究では,線形モデルとその凸双対(ガウス過程)の後方サンプリングを行うために,確率勾配降下(SGD)を用いて,この難易度に対処する。 これによって線形化されたニューラルネットワークに戻り、ハイパーパラメータ学習に使用する場合、線形化されたLaplace近似が現代のディープラーニングプラクティス – 確率的最適化、早期停止層、正規化層 – と相容れないことが分かりました。 我々はこれらを解き、線形化ニューラルネットワークを用いたスケーラブルなハイパーパラメータ学習のためのサンプルベースEMアルゴリズムを構築した。 本稿では,イメージネット上でトレーニングしたResNet-50(25Mパラメータ)を用いて,線形化されたニューラルネットワーク推論を行う手法を提案する。 さらに,本手法を用いて,深部画像先行ネットワークを用いて得られた3次元トモグラフィー再構成の不確かさを推定する。

Large neural networks trained on large datasets have become the dominant paradigm in machine learning. These systems rely on maximum likelihood point estimates of their parameters, precluding them from expressing model uncertainty. This may result in overconfident predictions and it prevents the use of deep learning models for sequential decision making. This thesis develops scalable methods to equip neural networks with model uncertainty. In particular, we leverage the linearised Laplace approximation to equip pre-trained neural networks with the uncertainty estimates provided by their tangent linear models. This turns the problem of Bayesian inference in neural networks into one of Bayesian inference in conjugate Gaussian-linear models. Alas, the cost of this remains cubic in either the number of network parameters or in the number of observations times output dimensions. By assumption, neither are tractable. We address this intractability by using stochastic gradient descent (SGD) -- the workhorse algorithm of deep learning -- to perform posterior sampling in linear models and their convex duals: Gaussian processes. With this, we turn back to linearised neural networks, finding the linearised Laplace approximation to present a number of incompatibilities with modern deep learning practices -- namely, stochastic optimisation, early stopping and normalisation layers -- when used for hyperparameter learning. We resolve these and construct a sample-based EM algorithm for scalable hyperparameter learning with linearised neural networks. We apply the above methods to perform linearised neural network inference with ResNet-50 (25M parameters) trained on Imagenet (1.2M observations and 1000 output dimensions). Additionally, we apply our methods to estimate uncertainty for 3d tomographic reconstructions obtained with the deep image prior network.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# 言語モデルにおけるパフォーマンスを駆動するものは何か?

What Drives Performance in Multilingual Language Models? ( http://arxiv.org/abs/2404.19159v1 )

ライセンス: Link先を確認
Sina Bagheri Nezhad, Ameeta Agrawal, (参考訳) 本研究では,多言語多言語大言語モデル(MLLM)の性能に影響を及ぼす要因について検討した。 SIB-200データセットを用いて, マスキング言語モデル, 自己回帰モデル, 命令調整型LLMを含む6つのMLLMについて検討した。 我々の分析では、all言語、SEEN言語(現在のモデルの事前学習データ)、UNSEEN言語(モデルの事前学習データに意味のある方法で存在または文書化されていない)の3つのシナリオを考察している。 本稿では,事前学習データサイズ,一般資源利用率,言語ファミリー,スクリプトタイプなどの要因がモデル性能に与える影響について検討する。 決定木解析により,SEEN言語において,事前学習データサイズが最も影響のある要因であることが判明した。 しかし、興味深いことに、スクリプトタイプと言語ファミリーはUNSEEN言語にとって不可欠であり、言語間移動学習の重要性を強調している。 特に、モデルのサイズとアーキテクチャは、識別された最も重要な機能を大きく変えない。 本研究は, MLLMの強度と限界に関する貴重な知見を提供し, より効果的で等価な多言語NLPシステムの開発を導くことを願っている。

This study investigates the factors influencing the performance of multilingual large language models (MLLMs) across diverse languages. We study 6 MLLMs, including masked language models, autoregressive models, and instruction-tuned LLMs, on the SIB-200 dataset, a topic classification dataset encompassing 204 languages. Our analysis considers three scenarios: ALL languages, SEEN languages (present in the model's pretraining data), and UNSEEN languages (not present or documented in the model's pretraining data in any meaningful way). We examine the impact of factors such as pretraining data size, general resource availability, language family, and script type on model performance. Decision tree analysis reveals that pretraining data size is the most influential factor for SEEN languages. However, interestingly, script type and language family are crucial for UNSEEN languages, highlighting the importance of cross-lingual transfer learning. Notably, model size and architecture do not significantly alter the most important features identified. Our findings provide valuable insights into the strengths and limitations of current MLLMs and hope to guide the development of more effective and equitable multilingual NLP systems.
翻訳日:2024-05-01 15:53:21 公開日:2024-04-29
# Landmark Alternating Diffusion

Landmark Alternating Diffusion ( http://arxiv.org/abs/2404.19649v1 )

ライセンス: Link先を確認
Sing-Yuan Yeh, Hau-Tieng Wu, Ronen Talmon, Mao-Pei Tsui, (参考訳) Alternating Diffusion (AD) は拡散に基づくセンサ融合アルゴリズムである。 様々な問題に適用できたが、計算上の負担は依然として限界である。 ランドマーク拡散(ROSELAND)によるロバストおよびスケーラブル埋め込み(ROSELAND)におけるランドマーク拡散の概念に着想を得て,ランドマークAD(Landmark AD, LAD)と呼ばれるADの変種を提案する。 本稿では,2つの脳波チャンネルを用いた自動睡眠ステージアノテーション問題に適用し,その応用例を示す。

Alternating Diffusion (AD) is a commonly applied diffusion-based sensor fusion algorithm. While it has been successfully applied to various problems, its computational burden remains a limitation. Inspired by the landmark diffusion idea considered in the Robust and Scalable Embedding via Landmark Diffusion (ROSELAND), we propose a variation of AD, called Landmark AD (LAD), which captures the essence of AD while offering superior computational efficiency. We provide a series of theoretical analyses of LAD under the manifold setup and apply it to the automatic sleep stage annotation problem with two electroencephalogram channels to demonstrate its application.
翻訳日:2024-05-01 13:46:04 公開日:2024-04-29
# CLIPに基づくインタラクティブ画像検索のための関連フィードバックの再検討

Revisiting Relevance Feedback for CLIP-based Interactive Image Retrieval ( http://arxiv.org/abs/2404.16398v2 )

ライセンス: Link先を確認
Ryoya Nara, Yu-Chieh Lin, Yuji Nozawa, Youyang Ng, Goh Itoh, Osamu Torii, Yusuke Matsui, (参考訳) 多くの画像検索研究では、メトリック学習を用いて画像エンコーダを訓練している。 しかし、メトリック学習はユーザの好みの違いに対処できず、画像エンコーダのトレーニングにデータを必要とする。 これらの制限を克服するため、インタラクティブ検索システムにおける古典的な手法である関連フィードバックを再検討し、関連フィードバックを用いた対話型CLIPベースの画像検索システムを提案する。 検索システムはまず検索を実行し、各ユーザの独自の好みをバイナリフィードバックで収集し、ユーザが好む画像を返す。 ユーザの好みが多様であっても,検索システムはフィードバックを通じてユーザの好みを学習し,好みに適応する。 さらに,本システムでは,CLIPのゼロショット転送性を活用し,トレーニングなしで高い精度を実現する。 検索システムは,各データセットに特化して画像エンコーダを訓練していないにもかかわらず,カテゴリベース画像検索において最先端のメトリック学習とよく競合することを示す。 さらに,1ラベルによる画像検索と条件付き画像検索の2つの実験環境を設定した。 いずれの場合も,検索システムはユーザの好みに効果的に対応し,フィードバックのない画像検索と比較して精度が向上する。 全体としては、画像検索を改善するためにCLIPと古典的関連フィードバック技術を統合することの潜在的な利点を強調している。

Many image retrieval studies use metric learning to train an image encoder. However, metric learning cannot handle differences in users' preferences, and requires data to train an image encoder. To overcome these limitations, we revisit relevance feedback, a classic technique for interactive retrieval systems, and propose an interactive CLIP-based image retrieval system with relevance feedback. Our retrieval system first executes the retrieval, collects each user's unique preferences through binary feedback, and returns images the user prefers. Even when users have various preferences, our retrieval system learns each user's preference through the feedback and adapts to the preference. Moreover, our retrieval system leverages CLIP's zero-shot transferability and achieves high accuracy without training. We empirically show that our retrieval system competes well with state-of-the-art metric learning in category-based image retrieval, despite not training image encoders specifically for each dataset. Furthermore, we set up two additional experimental settings where users have various preferences: one-label-based image retrieval and conditioned image retrieval. In both cases, our retrieval system effectively adapts to each user's preferences, resulting in improved accuracy compared to image retrieval without feedback. Overall, our work highlights the potential benefits of integrating CLIP with classic relevance feedback techniques to enhance image retrieval.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-29
# History repeats Itself: A Baseline for Temporal Knowledge Graph Forecasting

History repeats Itself: A Baseline for Temporal Knowledge Graph Forecasting ( http://arxiv.org/abs/2404.16726v2 )

ライセンス: Link先を確認
Julia Gastinger, Christian Meilicke, Federico Errica, Timo Sztyler, Anett Schuelke, Heiner Stuckenschmidt, (参考訳) 時間的知識グラフ (TKG) 予測は、知識グラフの歴史に基づいた将来の時間ステップのための知識グラフのリンクを予測することを目的としている。 現在までに、標準化された評価プロトコルとTKGモデル間の厳密な比較が可能であるが、評価において単純なベースラインの重要性は無視されることが多く、研究者が実際の進歩と架空の進歩を区別することができない。 本稿では,TKG予測のための直感的なベースラインを,繰り返し発生する事実の予測に基づいて設計することで,このギャップを埋めることを提案する。 ほとんどのTKGモデルと比較して、ハイパーパラメータチューニングがほとんど必要ではなく、反復的なトレーニングも必要ありません。 さらに、既存のアプローチで障害モードを特定するのにも役立ちます。 5つのデータセットの11の手法と比較すると、ベースラインのランクは3つのうち1つか3つで、最先端の予測品質が根本的に異なる。

Temporal Knowledge Graph (TKG) Forecasting aims at predicting links in Knowledge Graphs for future timesteps based on a history of Knowledge Graphs. To this day, standardized evaluation protocols and rigorous comparison across TKG models are available, but the importance of simple baselines is often neglected in the evaluation, which prevents researchers from discerning actual and fictitious progress. We propose to close this gap by designing an intuitive baseline for TKG Forecasting based on predicting recurring facts. Compared to most TKG models, it requires little hyperparameter tuning and no iterative training. Further, it can help to identify failure modes in existing approaches. The empirical findings are quite unexpected: compared to 11 methods on five datasets, our baseline ranks first or third in three of them, painting a radically different picture of the predictive quality of the state of the art.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-29
# GPT-4Vはどこまであるのか?オープンソース・スイートによる商用マルチモーダルモデルへのギャップを埋める

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites ( http://arxiv.org/abs/2404.16821v2 )

ライセンス: Link先を確認
Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Botian Shi, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang, (参考訳) 本稿では,オープンソースのマルチモーダル言語モデル(MLLM)であるInternVL 1.5を紹介する。 1)Strong Vision Encoder: 大規模ビジョンファウンデーションモデルのための継続的学習戦略を探求し、InternViT-6Bを導入し、視覚的理解能力を向上し、異なるLLMで転送および再利用できるようにする。 2)動的高解像度化:最大4K解像度入力をサポートする入力画像のアスペクト比と解像度に応じて、448$\times$448ピクセルのうち1~40ピクセルのタイルに分割する。 ハイクオリティバイリンガルデータセット: 共通場面, 文書画像, 注釈を英語と中国語の問合せペアで収集し, OCRおよび中国語に関連するタスクのパフォーマンスを大幅に向上させた。 InternVL 1.5を一連のベンチマークと比較研究により評価した。 オープンソースモデルとプロプライエタリモデルの両方と比較して、InternVL 1.5は競争力のあるパフォーマンスを示し、18ベンチマーク中8ベンチマークで最先端の結果を達成した。 コードはhttps://github.com/OpenGVLab/InternVLでリリースされた。

In this report, we introduce InternVL 1.5, an open-source multimodal large language model (MLLM) to bridge the capability gap between open-source and proprietary commercial models in multimodal understanding. We introduce three simple improvements: (1) Strong Vision Encoder: we explored a continuous learning strategy for the large-scale vision foundation model -- InternViT-6B, boosting its visual understanding capabilities, and making it can be transferred and reused in different LLMs. (2) Dynamic High-Resolution: we divide images into tiles ranging from 1 to 40 of 448$\times$448 pixels according to the aspect ratio and resolution of the input images, which supports up to 4K resolution input. (3) High-Quality Bilingual Dataset: we carefully collected a high-quality bilingual dataset that covers common scenes, document images, and annotated them with English and Chinese question-answer pairs, significantly enhancing performance in OCR- and Chinese-related tasks. We evaluate InternVL 1.5 through a series of benchmarks and comparative studies. Compared to both open-source and proprietary models, InternVL 1.5 shows competitive performance, achieving state-of-the-art results in 8 of 18 benchmarks. Code has been released at https://github.com/OpenGVLab/InternVL.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-29
# TinyMLとサイバーセキュリティ:電気自動車充電インフラのユースケース

On TinyML and Cybersecurity: Electric Vehicle Charging Infrastructure Use Case ( http://arxiv.org/abs/2404.16894v2 )

ライセンス: Link先を確認
Fatemeh Dehrouyeh, Li Yang, Firouz Badrkhani Ajaei, Abdallah Shami, (参考訳) 技術が進歩するにつれて、サイバーセキュリティにおける機械学習(ML)の使用は、サイバー脅威の複雑化に対処するためにますます重要になりつつある。 従来のMLモデルはサイバーセキュリティを強化することができるが、その高エネルギーとリソース要求はアプリケーションを制限するため、リソース制約のある環境においてより適切なソリューションとしてTiny Machine Learning(TinyML)が出現する。 TinyMLは、スマートホーム、ヘルスケア、産業自動化といった分野で広く採用されている。 TinyMLは、小さな低消費電力デバイス向けのMLアルゴリズムの最適化に重点を置いており、エッジデバイス上でのインテリジェントなデータ処理を可能にする。 本稿では,電力消費,メモリ制限,計算制約などのTinyMLテクニックの共通課題を包括的にレビューし,エネルギー収穫,計算最適化技術,プライバシー保護のための伝達学習など,これらの課題に対する潜在的な解決策について検討する。 一方,電気自動車充電インフラ(EVCI)のサイバーセキュリティ推進におけるTinyMLの応用を代表的ユースケースとして論じる。 TinyMLを用いたEVCIのサイバーセキュリティを強化する実験ケーススタディとして,遅延とメモリ使用量の削減の観点から従来のMLと比較し,精度のトレードオフがわずかである。 さらに、この研究には、PlatformIO環境でESP32マイクロコントローラを使用して実践的なセットアップが含まれており、EVCIのサイバーセキュリティにおけるTinyMLの応用をハンズオンで評価する。

As technology advances, the use of Machine Learning (ML) in cybersecurity is becoming increasingly crucial to tackle the growing complexity of cyber threats. While traditional ML models can enhance cybersecurity, their high energy and resource demands limit their applications, leading to the emergence of Tiny Machine Learning (TinyML) as a more suitable solution for resource-constrained environments. TinyML is widely applied in areas such as smart homes, healthcare, and industrial automation. TinyML focuses on optimizing ML algorithms for small, low-power devices, enabling intelligent data processing directly on edge devices. This paper provides a comprehensive review of common challenges of TinyML techniques, such as power consumption, limited memory, and computational constraints; it also explores potential solutions to these challenges, such as energy harvesting, computational optimization techniques, and transfer learning for privacy preservation. On the other hand, this paper discusses TinyML's applications in advancing cybersecurity for Electric Vehicle Charging Infrastructures (EVCIs) as a representative use case. It presents an experimental case study that enhances cybersecurity in EVCI using TinyML, evaluated against traditional ML in terms of reduced delay and memory usage, with a slight trade-off in accuracy. Additionally, the study includes a practical setup using the ESP32 microcontroller in the PlatformIO environment, which provides a hands-on assessment of TinyML's application in cybersecurity for EVCI.
翻訳日:2024-05-01 13:06:54 公開日:2024-04-29
# イメージアップサンプリング手法の妥当性のベンチマーク

Benchmarking the Fairness of Image Upsampling Methods ( http://arxiv.org/abs/2401.13555v3 )

ライセンス: Link先を確認
Mike Laszkiewicz, Imant Daunhawer, Julia E. Vogt, Asja Fischer, Johannes Lederer, (参考訳) 近年、画像やビデオなどの合成メディアを作成するための深層生成モデルの開発が急速に進んでいる。 日常業務におけるこれらのモデルの実践的応用は注目されているが、その公正性に関する本質的なリスクを評価することは重要である。 本研究では,条件付き生成モデルの性能と公平性をベンチマークする包括的なフレームワークを提案する。 我々は、その公正さと多様性のモデルを評価するために、教師付きフェアネスの指標である$\unicode{x2013}$インスパイアされたメトリクスのセットを開発する。 画像アップサンプリングの特定の応用に焦点を当てて、様々な現代的なアップサンプリング手法をカバーするベンチマークを作成する。 ベンチマークの一環として、FairFaceのサブセットであるUnfairFaceを紹介します。 実験的な研究は、偏りのないトレーニングセットを使用することの重要性を強調し、アルゴリズムがデータセットの不均衡にどのように反応するかを明らかにする。 また,どの手法も統計的に公平で多様な結果が得られないことがわかった。 すべての実験は、提供されたリポジトリを使って再現できます。

Recent years have witnessed a rapid development of deep generative models for creating synthetic media, such as images and videos. While the practical applications of these models in everyday tasks are enticing, it is crucial to assess the inherent risks regarding their fairness. In this work, we introduce a comprehensive framework for benchmarking the performance and fairness of conditional generative models. We develop a set of metrics$\unicode{x2013}$inspired by their supervised fairness counterparts$\unicode{x2013}$to evaluate the models on their fairness and diversity. Focusing on the specific application of image upsampling, we create a benchmark covering a wide variety of modern upsampling methods. As part of the benchmark, we introduce UnfairFace, a subset of FairFace that replicates the racial distribution of common large-scale face datasets. Our empirical study highlights the importance of using an unbiased training set and reveals variations in how the algorithms respond to dataset imbalances. Alarmingly, we find that none of the considered methods produces statistically fair and diverse results. All experiments can be reproduced using our provided repository.
翻訳日:2024-05-01 11:00:55 公開日:2024-04-29
# 単一セルシークエンシングデータのドメイン適応的・きめ細かい異常検出

Domain Adaptive and Fine-grained Anomaly Detection for Single-cell Sequencing Data and Beyond ( http://arxiv.org/abs/2404.17454v2 )

ライセンス: Link先を確認
Kaichen Xu, Yueyang Ding, Suyang Hou, Weiqiang Zhan, Nisang Chen, Jun Wang, Xiaobo Sun, (参考訳) 臨床診断と病理研究において, 病変組織からの顆粒状異常細胞の検出が重要である。 シングルセルシークエンシングデータは、このタスクに前例のない機会を提供する。 しかし、現在の異常検出手法は、マルチサンプルとマルチドメインの単一セルシークエンシングデータでよく見られるドメインシフトの処理に苦慮し、亜最適性能をもたらす。 さらに、これらの手法は異常細胞を病理学的に異なるサブタイプに区別することができない。 そこで本研究では, 異常細胞の検出, ドメイン適応, 微粒化アノテートを方法論的に結合したワークフローに統合する新規な再構成偏差誘導型生成フレームワーク ACSleuth を提案する。 特に、生成モデルにより出力される再構成偏差をドメインシフトの代わりに異常検出に利用した最初の理論的解析について述べる。 この分析により, ACSleuth における新規かつ優れた平均誤差に基づく異常スコアリングの開発が可能となった。 様々な単一セルデータやその他の表型データに対する広範囲なベンチマークは、マルチサンプルおよびマルチドメインコンテキストにおける異常の特定とサブタイピングにおいて、最先端の手法よりもACSleuthの方が優れていることを示している。 私たちのコードはhttps://github.com/Catchxu/ACsleuth.comで公開されています。

Fined-grained anomalous cell detection from affected tissues is critical for clinical diagnosis and pathological research. Single-cell sequencing data provide unprecedented opportunities for this task. However, current anomaly detection methods struggle to handle domain shifts prevalent in multi-sample and multi-domain single-cell sequencing data, leading to suboptimal performance. Moreover, these methods fall short of distinguishing anomalous cells into pathologically distinct subtypes. In response, we propose ACSleuth, a novel, reconstruction deviation-guided generative framework that integrates the detection, domain adaptation, and fine-grained annotating of anomalous cells into a methodologically cohesive workflow. Notably, we present the first theoretical analysis of using reconstruction deviations output by generative models for anomaly detection in lieu of domain shifts. This analysis informs us to develop a novel and superior maximum mean discrepancy-based anomaly scorer in ACSleuth. Extensive benchmarks over various single-cell data and other types of tabular data demonstrate ACSleuth's superiority over the state-of-the-art methods in identifying and subtyping anomalies in multi-sample and multi-domain contexts. Our code is available at https://github.com/Catchxu/ACsleuth.
翻訳日:2024-05-01 11:00:55 公開日:2024-04-29
# ニューラルスケーリング法則の解説

Explaining Neural Scaling Laws ( http://arxiv.org/abs/2102.06701v2 )

ライセンス: Link先を確認
Yasaman Bahri, Ethan Dyer, Jared Kaplan, Jaehoon Lee, Utkarsh Sharma, (参考訳) 訓練されたディープニューラルネットワークの人口減少は、トレーニングデータセットのサイズとネットワーク内のパラメータ数との正確なパワー-ルールスケーリング関係に従うことが多い。 本稿では、これらのスケーリング法則の起源を説明し、接続する理論を提案する。 データセットとモデルサイズの両方の分散制限と分解能制限のスケーリング挙動を,合計4つのスケーリングレギュレーションに対して同定する。 分散制限スケーリングは、単に十分に定義された無限のデータや無限幅の制限の存在から成り立つが、解像度制限された状態は、モデルがスムーズなデータ多様体を効果的に解いていることを仮定することによって説明できる。 大きな幅制限では、これは特定のカーネルのスペクトルから等価に得ることができ、大きな幅と大きなデータセット解像度制限スケーリング指数が双対性によって関連していることを示す。 大規模なランダムな特徴と事前訓練されたモデルの制御された設定において,4つのスケーリング機構すべてを示し,その予測をさまざまな標準アーキテクチャやデータセット上で実証的に検証する。 また、タスクとアーキテクチャのアスペクト比の修正によるデータセットとスケーリング指数のいくつかの経験的関係を観察する。 我々の研究は、異なるスケーリング体制を分類するための分類法を提供し、損失の改善を促す異なるメカニズムが存在することを強調し、スケーリング指数の顕微鏡的起源と関係性に関する洞察を与える。

The population loss of trained deep neural networks often follows precise power-law scaling relations with either the size of the training dataset or the number of parameters in the network. We propose a theory that explains the origins of and connects these scaling laws. We identify variance-limited and resolution-limited scaling behavior for both dataset and model size, for a total of four scaling regimes. The variance-limited scaling follows simply from the existence of a well-behaved infinite data or infinite width limit, while the resolution-limited regime can be explained by positing that models are effectively resolving a smooth data manifold. In the large width limit, this can be equivalently obtained from the spectrum of certain kernels, and we present evidence that large width and large dataset resolution-limited scaling exponents are related by a duality. We exhibit all four scaling regimes in the controlled setting of large random feature and pretrained models and test the predictions empirically on a range of standard architectures and datasets. We also observe several empirical relationships between datasets and scaling exponents under modifications of task and architecture aspect ratio. Our work provides a taxonomy for classifying different scaling regimes, underscores that there can be different mechanisms driving improvements in loss, and lends insight into the microscopic origins of and relationships between scaling exponents.
翻訳日:2024-05-01 03:53:07 公開日:2024-04-29
# コスト感受性学習によるNeyman-Pearson多クラス分類

Neyman-Pearson Multi-class Classification via Cost-sensitive Learning ( http://arxiv.org/abs/2111.04597v3 )

ライセンス: Link先を確認
Ye Tian, Yang Feng, (参考訳) 既存の多くの分類手法は、全体的な誤分類エラー率を最小限にすることを目的としている。 しかし、ローンのデフォルト予測のようなアプリケーションでは、異なるタイプのエラーが様々な結果をもたらす可能性がある。 この非対称性問題に対処するために、ネイマン・ピアソン(NP)パラダイムとコストセンシティブ(CS)パラダイムという2つの一般的なパラダイムが開発された。 NPパラダイムに関するこれまでの研究は、主にバイナリーケースに焦点を当てていたが、マルチクラスNP問題は、その実現可能性の不明さから、より大きな課題を提起している。 本研究では,強い双対性によりCS問題との接続を確立することにより,多クラスNP問題に取り組み,2つのアルゴリズムを提案する。 我々は、二項分類において重要なNPオラクル不等式の概念を、多クラス文脈におけるNPオラクル特性に拡張する。 我々のアルゴリズムは、特定の条件下でこれらのNPオラクル特性を満たす。 さらに,多クラスNP問題における実現可能性と強双対性を評価するための実用的アルゴリズムを開発した。 シミュレーションと実データ研究は、我々のアルゴリズムの有効性を検証する。 我々の知る限り、これは理論的な保証を伴う多クラスNP問題に対処する最初の研究である。 提案アルゴリズムは CRAN で利用可能な R パッケージ \texttt{npcs} で実装されている。

Most existing classification methods aim to minimize the overall misclassification error rate. However, in applications such as loan default prediction, different types of errors can have varying consequences. To address this asymmetry issue, two popular paradigms have been developed: the Neyman-Pearson (NP) paradigm and the cost-sensitive (CS) paradigm. Previous studies on the NP paradigm have primarily focused on the binary case, while the multi-class NP problem poses a greater challenge due to its unknown feasibility. In this work, we tackle the multi-class NP problem by establishing a connection with the CS problem via strong duality and propose two algorithms. We extend the concept of NP oracle inequalities, crucial in binary classifications, to NP oracle properties in the multi-class context. Our algorithms satisfy these NP oracle properties under certain conditions. Furthermore, we develop practical algorithms to assess the feasibility and strong duality in multi-class NP problems, which can offer practitioners the landscape of a multi-class NP problem with various target error levels. Simulations and real data studies validate the effectiveness of our algorithms. To our knowledge, this is the first study to address the multi-class NP problem with theoretical guarantees. The proposed algorithms have been implemented in the R package \texttt{npcs}, which is available on CRAN.
翻訳日:2024-05-01 03:53:07 公開日:2024-04-29
# 人間とエージェントの協調における温かみと能力

Warmth and competence in human-agent cooperation ( http://arxiv.org/abs/2201.13448v3 )

ライセンス: Link先を確認
Kevin R. McKee, Xuechunzi Bai, Susan T. Fiske, (参考訳) 人間との相互作用と協力は人工知能(AI)研究の構想をまとめている。 近年の研究では、深層強化学習で訓練されたAIエージェントが人間と協調できることが示されている。 これらの研究は、主に、タスクパフォーマンス、信頼水準の潜在的な変動、異なるエージェントが注目する主観的嗜好といった「客観的な」指標を通じて、人間の互換性を評価する。 人とエージェントの協調において主観的嗜好を形成する要因をよりよく理解するために,2プレイヤーの社会的ジレンマであるCoinsで深層強化学習エージェントを訓練する。 我々は、人間とエージェントの協力研究のために、N = 501$の参加者を募集し、遭遇したエージェントの印象を測定する。 参加者の温かさと能力に対する認識は、客観的なパフォーマンス指標以上の、異なるエージェントに対する表現された嗜好を予測する。 社会科学と生物学の研究からインスピレーションを得て、我々はその後、あるエージェントとエピソードをプレイした後、参加者は次のエピソードを同じエージェントでプレイしたいか、または単独でプレイしたいかを尋ねられるように、新しい「パートナー選択」フレームワークを実装した。 表現された嗜好と同様に、社会的知覚は、客観的なパフォーマンスよりも、参加者の明らかな嗜好をよりよく予測する。 これらの結果を踏まえ、人間とエージェントのインタラクション研究者は日常的に、社会的知覚と主観的嗜好の測定を研究に取り入れることを推奨する。

Interaction and cooperation with humans are overarching aspirations of artificial intelligence (AI) research. Recent studies demonstrate that AI agents trained with deep reinforcement learning are capable of collaborating with humans. These studies primarily evaluate human compatibility through "objective" metrics such as task performance, obscuring potential variation in the levels of trust and subjective preference that different agents garner. To better understand the factors shaping subjective preferences in human-agent cooperation, we train deep reinforcement learning agents in Coins, a two-player social dilemma. We recruit $N = 501$ participants for a human-agent cooperation study and measure their impressions of the agents they encounter. Participants' perceptions of warmth and competence predict their stated preferences for different agents, above and beyond objective performance metrics. Drawing inspiration from social science and biology research, we subsequently implement a new ``partner choice'' framework to elicit revealed preferences: after playing an episode with an agent, participants are asked whether they would like to play the next episode with the same agent or to play alone. As with stated preferences, social perception better predicts participants' revealed preferences than does objective performance. Given these results, we recommend human-agent interaction researchers routinely incorporate the measurement of social perception and subjective preferences into their studies.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# 資源効率の良い量子ネットワークのための量子セマンティック通信

Quantum Semantic Communications for Resource-Efficient Quantum Networking ( http://arxiv.org/abs/2205.02422v3 )

ライセンス: Link先を確認
Mahdi Chehimi, Christina Chaccour, Christo Kurisummoottil Thomas, Walid Saad, (参考訳) 量子通信ネットワーク(QCN)は、セキュアな情報伝送に量子力学を利用するが、脆弱で高価なフォトニックな量子リソースに依存しているため、QCNのリソース最適化は困難である。 古典的データの直接量子埋め込みを盲目的に圧縮する従来のQCNの作業とは異なり、この書簡では量子機械学習と量子意味表現の進歩を利用して、古典的データから関連する情報のみを量子通信とセマンティックフィデリティ測度を持つ量子チャネル上で正確に通信する最小の高次元量子状態に抽出し、埋め込む新しい量子意味通信(QSC)フレームワークを提案する。 シミュレーションの結果,提案手法は,意味に依存しないQCN方式と比較して,必要な量子通信資源の約50~75%の削減を実現し,高い量子セマンティック忠実度を実現していることがわかった。

Quantum communication networks (QCNs) utilize quantum mechanics for secure information transmission, but the reliance on fragile and expensive photonic quantum resources renders QCN resource optimization challenging. Unlike prior QCN works that relied on blindly compressing direct quantum embeddings of classical data, this letter proposes a novel quantum semantic communications (QSC) framework exploiting advancements in quantum machine learning and quantum semantic representations to extracts and embed only the relevant information from classical data into minimal high-dimensional quantum states that are accurately communicated over quantum channels with quantum communication and semantic fidelity measures. Simulation results indicate that, compared to semantic-agnostic QCN schemes, the proposed framework achieves approximately 50-75% reduction in quantum communication resources needed, while achieving a higher quantum semantic fidelity.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# 適応スペクトルクラスタリングによる高次ホモフィリーグラフの再構成

Restructuring Graph for Higher Homophily via Adaptive Spectral Clustering ( http://arxiv.org/abs/2206.02386v3 )

ライセンス: Link先を確認
Shouheng Li, Dongwoo Kim, Qing Wang, (参考訳) 文学界は、ホモフィルグラフとヘテロフィルグラフの両方に作用する新しいグラフニューラルネットワーク(GNN)を研究してきたが、古典的なGNNを非ホモフィルグラフに適応させる研究はほとんど行われていない。 好ましくないグラフを扱う能力は制限されているが、古典的なGNNは、効率性、単純性、説明可能性など、いくつかの優れた特性で際立っている。 本研究では,従来のGNNを含む任意の種類のGNNに統合可能なグラフ再構成手法を提案し,その制約を緩和しつつ,既存のGNNの利点を活用する。 私たちの貢献は3倍です。 a) 既知のノードラベルとよく一致した適応スペクトルクラスタリングのための擬固有ベクトルの重みを学習すること。 ロ ラベルの不均衡に頑健な新しい密度対応ホモフィル計量の提案、及び c) 適応スペクトルクラスタリングの結果に基づいて隣接行列を再構成し、同好性スコアを最大化する。 実験結果から, グラフ再構成手法は, 6つの古典的GNNの性能を, 平均25%向上させることができることがわかった。 強化されたパフォーマンスは最先端のメソッドに匹敵する。

While a growing body of literature has been studying new Graph Neural Networks (GNNs) that work on both homophilic and heterophilic graphs, little has been done on adapting classical GNNs to less-homophilic graphs. Although the ability to handle less-homophilic graphs is restricted, classical GNNs still stand out in several nice properties such as efficiency, simplicity, and explainability. In this work, we propose a novel graph restructuring method that can be integrated into any type of GNNs, including classical GNNs, to leverage the benefits of existing GNNs while alleviating their limitations. Our contribution is threefold: a) learning the weight of pseudo-eigenvectors for an adaptive spectral clustering that aligns well with known node labels, b) proposing a new density-aware homophilic metric that is robust to label imbalance, and c) reconstructing the adjacency matrix based on the result of adaptive spectral clustering to maximize the homophilic scores. The experimental results show that our graph restructuring method can significantly boost the performance of six classical GNNs by an average of 25% on less-homophilic graphs. The boosted performance is comparable to state-of-the-art methods.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# 参加ダイナミクスとマルチラーナーリトレーニングからの創発的特殊化

Emergent specialization from participation dynamics and multi-learner retraining ( http://arxiv.org/abs/2206.02667v3 )

ライセンス: Link先を確認
Sarah Dean, Mihaela Curmei, Lillian J. Ratliff, Jamie Morgenstern, Maryam Fazel, (参考訳) ユーザの振る舞いはシステムのパラメータに影響を与え、システムのパラメータはサービスのユーザエクスペリエンスに影響を与える。 例えば、すでにうまく機能しているタスクにのみサービスを使用するか、別のサービスに切り替える選択をするかもしれません。 これらの適応は、ユーザやタスクの集団について学習し、そのパフォーマンスを広範囲に向上するシステムの能力に影響を及ぼす。 本研究では、ユーザが経験する個々のリスクを減らすためにサービス間の参加を割り当て、現在のユーザ人口に対するサービスのリスクを低減するためにモデルパラメータを更新する、このようなダイナミクスのクラスを分析します。 これらのダイナミクスを 'emph{risk-reducing} と呼び、勾配降下や乗法重みを含む一般的なモデル更新の幅広いクラスをカバーする。 このダイナミクスの一般的なクラスでは、漸近的に安定な平衡は常にセグメンテーションされ、サブポピュレーションは1人の学習者に割り当てられる。 軽度の仮定では、実用的社会最適度は安定均衡である。 リスクの最小化を繰り返している以前の研究とは対照的に(橋本ら、2018年、ミラーら、2021年)、複数の学習者による筋電図の更新がより良い結果をもたらすことが判明した。 実データから初期化した模擬例を用いて,その現象を説明する。

Numerous online services are data-driven: the behavior of users affects the system's parameters, and the system's parameters affect the users' experience of the service, which in turn affects the way users may interact with the system. For example, people may choose to use a service only for tasks that already works well, or they may choose to switch to a different service. These adaptations influence the ability of a system to learn about a population of users and tasks in order to improve its performance broadly. In this work, we analyze a class of such dynamics -- where users allocate their participation amongst services to reduce the individual risk they experience, and services update their model parameters to reduce the service's risk on their current user population. We refer to these dynamics as \emph{risk-reducing}, which cover a broad class of common model updates including gradient descent and multiplicative weights. For this general class of dynamics, we show that asymptotically stable equilibria are always segmented, with sub-populations allocated to a single learner. Under mild assumptions, the utilitarian social optimum is a stable equilibrium. In contrast to previous work, which shows that repeated risk minimization can result in (Hashimoto et al., 2018; Miller et al., 2021), we find that repeated myopic updates with multiple learners lead to better outcomes. We illustrate the phenomena via a simulated example initialized from real data.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# 単調ニューラルネットワークのサイズと深さ--補間と近似

Size and depth of monotone neural networks: interpolation and approximation ( http://arxiv.org/abs/2207.05275v2 )

ライセンス: Link先を確認
Dan Mikulincer, Daniel Reichman, (参考訳) 我々は,全ての重み(バイアスを除く)が負でないしきい値ゲートを持つモノトンニューラルネットワークについて検討した。 このようなネットワークの表現力と効率性に焦点をあてる。 最初の結果は、$[0,1]^d$を超えるすべての単調関数が、深さ4の単調ネットワークによって任意に小さな加算誤差で近似できることを証明した。 d > 3$ の場合、深さが $d+1$ である以前の最もよく知られた構造を改善します。 我々の証明は,深度4のモノトーンしきい値ネットワークを用いたモノトーンデータセットに対するモノトーン補間問題の解法によって導かれる。 2つ目の主な結果では、モノトーンと任意のニューラルネットワークとしきい値ゲートとの間のサイズ境界を比較した。 ゲートに制約のないネットワークで効率的に計算できる単調実関数が存在するのに対して、これらの関数を近似する単調ネットワークは次元の指数的サイズを必要とする。

We study monotone neural networks with threshold gates where all the weights (other than the biases) are non-negative. We focus on the expressive power and efficiency of representation of such networks. Our first result establishes that every monotone function over $[0,1]^d$ can be approximated within arbitrarily small additive error by a depth-4 monotone network. When $d > 3$, we improve upon the previous best-known construction which has depth $d+1$. Our proof goes by solving the monotone interpolation problem for monotone datasets using a depth-4 monotone threshold network. In our second main result we compare size bounds between monotone and arbitrary neural networks with threshold gates. We find that there are monotone real functions that can be computed efficiently by networks with no restriction on the gates whereas monotone networks approximating these functions need exponential size in the dimension.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# MultiMatch: 半教師付きドメイン一般化のためのマルチタスク学習

MultiMatch: Multi-task Learning for Semi-supervised Domain Generalization ( http://arxiv.org/abs/2208.05853v3 )

ライセンス: Link先を確認
Lei Qi, Hongpeng Yang, Yinghuan Shi, Xin Geng, (参考訳) ドメイン一般化(DG)は、ソースドメインのモデルを学習して、見えないターゲットドメインをうまく一般化することを目的としている。 これは大きな成功を収めたものの、既存の手法のほとんどは、実世界のアプリケーションでは時間がかかり高価であるソースドメインの全トレーニングサンプルのラベル情報を必要とする。 本稿では,各ソースドメインにいくつかのラベル情報が存在する半教師付きドメイン一般化(SSDG)タスクを解決する。 この課題に対処するために、まずマルチドメイン学習の理論を分析し、それを強調する。 1【領域ギャップの影響緩和】 2) モデルトレーニングに全サンプルを活用することで,各ソース領域の一般化誤差を効果的に低減し,擬似ラベルの品質を向上させることができる。 本分析では,FixMatchをマルチタスク学習フレームワークに拡張し,SSDGのための高品質な擬似ラベルを生成する。 具体的には、各トレーニングドメインを単一のタスク(ローカルタスク)とみなし、すべてのトレーニングドメイン(グローバルタスク)を組み合わせて、目に見えないテストドメインのための追加タスクをトレーニングする。 マルチタスクフレームワークでは,個別のBNと分類器を各タスクに利用し,擬似ラベル処理中に異なるドメインからの干渉を効果的に緩和する。 また、フレームワーク内のほとんどのパラメータは共有されており、すべてのトレーニングサンプルで十分にトレーニングすることができる。 さらに、擬似ラベル精度とモデルの一般化をさらに高めるために、トレーニングおよびテスト中のグローバルタスクとローカルタスクから予測を融合する。 提案手法の有効性を検証し,いくつかのベンチマークDGデータセット上で既存の半教師付き手法とSSDG法より優れていることを示す。

Domain generalization (DG) aims at learning a model on source domains to well generalize on the unseen target domain. Although it has achieved great success, most of existing methods require the label information for all training samples in source domains, which is time-consuming and expensive in the real-world application. In this paper, we resort to solving the semi-supervised domain generalization (SSDG) task, where there are a few label information in each source domain. To address the task, we first analyze the theory of the multi-domain learning, which highlights that 1) mitigating the impact of domain gap and 2) exploiting all samples to train the model can effectively reduce the generalization error in each source domain so as to improve the quality of pseudo-labels. According to the analysis, we propose MultiMatch, i.e., extending FixMatch to the multi-task learning framework, producing the high-quality pseudo-label for SSDG. To be specific, we consider each training domain as a single task (i.e., local task) and combine all training domains together (i.e., global task) to train an extra task for the unseen test domain. In the multi-task framework, we utilize the independent BN and classifier for each task, which can effectively alleviate the interference from different domains during pseudo-labeling. Also, most of parameters in the framework are shared, which can be trained by all training samples sufficiently. Moreover, to further boost the pseudo-label accuracy and the model's generalization, we fuse the predictions from the global task and local task during training and testing, respectively. A series of experiments validate the effectiveness of the proposed method, and it outperforms the existing semi-supervised methods and the SSDG method on several benchmark DG datasets.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# エントロピー和に対するELBOの収束性について

On the Convergence of the ELBO to Entropy Sums ( http://arxiv.org/abs/2209.03077v5 )

ライセンス: Link先を確認
Jörg Lücke, Jan Warnken, (参考訳) 変分下界(ELBOまたは自由エネルギー)は、多くの確立された目的と、教師なし学習のための多くの新しいアルゴリズムの中心である。 このようなアルゴリズムは学習中にモデルパラメータを変更し、変動的な下界を増加させる。 学習は通常、パラメータが学習力学の定常点に近い値に収束するまで進行する。 この純粋に理論的な寄与において、(非常に大きな生成モデルのクラスに対して)変分下界がすべての定常学習点においてエントロピーの和に等しいことを示す。 1組の潜在変数と1組の観測変数を持つ標準的な機械学習モデルの場合、和は3つのエントロピーからなる: (A) 変動分布の(平均)エントロピー、(B) モデルの前の分布の負エントロピー、(C) 観測可能な分布の(予想)負エントロピー。 得られた結果は、有限個のデータポイント、任意の静止点(サドル点を含む)、および(よく振る舞う)変動分布の族に対して、現実的な条件で適用される。 エントロピー和に等しいことを示す生成モデルのクラスは、よく知られた生成モデルを含む。 Sigmoid Belief Networks,probabilistic PCA and (Gaussian and non-Gaussian) mix model。 この結果は、以前に示された特別なケースである標準(ガウス)変分オートエンコーダにも適用される(Damm et al , 2023)。 エントロピー和に等しいことを示すための前提条件は比較的穏やかである。 具体的には、与えられた生成モデルの分布は指数族でなければならないし、モデルはパラメータ化基準(通常は満たされる)を満たす必要がある。 ELBO の等式を定常点におけるエントロピー和 (entropy sums) に証明することは、この研究の主な貢献である。

The variational lower bound (a.k.a. ELBO or free energy) is the central objective for many established as well as many novel algorithms for unsupervised learning. During learning such algorithms change model parameters to increase the variational lower bound. Learning usually proceeds until parameters have converged to values close to a stationary point of the learning dynamics. In this purely theoretical contribution, we show that (for a very large class of generative models) the variational lower bound is at all stationary points of learning equal to a sum of entropies. For standard machine learning models with one set of latents and one set of observed variables, the sum consists of three entropies: (A) the (average) entropy of the variational distributions, (B) the negative entropy of the model's prior distribution, and (C) the (expected) negative entropy of the observable distribution. The obtained result applies under realistic conditions including: finite numbers of data points, at any stationary point (including saddle points) and for any family of (well behaved) variational distributions. The class of generative models for which we show the equality to entropy sums contains many well-known generative models. As concrete examples we discuss Sigmoid Belief Networks, probabilistic PCA and (Gaussian and non-Gaussian) mixture models. The result also applies for standard (Gaussian) variational autoencoders, a special case that has been shown previously (Damm et al., 2023). The prerequisites we use to show equality to entropy sums are relatively mild. Concretely, the distributions of a given generative model have to be of the exponential family, and the model has to satisfy a parameterization criterion (which is usually fulfilled). Proving the equality of the ELBO to entropy sums at stationary points (under the stated conditions) is the main contribution of this work.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# Prog-QAOA:古典的プログラムによる資源効率の高い量子最適化のためのフレームワーク

Prog-QAOA: Framework for resource-efficient quantum optimization through classical programs ( http://arxiv.org/abs/2209.03386v3 )

ライセンス: Link先を確認
Bence Bakó, Adam Glos, Özlem Salehi, Zoltán Zimborás, (参考訳) 現在の最先端量子最適化アルゴリズムは、元の問題を二進最適化問題として表現し、量子デバイスに適した等価イジングモデルに変換する必要がある。 イジングモデルの各項を個別に実装することは、しばしば高い冗長性をもたらし、必要なリソースを著しく増加させる。 代わりに、目的関数を計算し、制約を認証するための古典的プログラムを設計し、後に量子回路にコンパイルし、バイナリ最適化問題表現への依存をなくすことを提案する。 その結果,量子近似最適化アルゴリズム (QAOA) が新たに導入された。 我々は、このアイデアをトラベリングセールスマン問題やMax-K$-Cutのような最適化タスクに利用し、関連するすべてのコスト対策(例えば、キュービット数、ゲート数、回路深さ)に関して、ほぼ最適の回路を得る。 特定のパラダイム問題に対してのみ,Prog-QAOAのパワーを実証するが,本手法は汎用最適化問題に有効である。

Current state-of-the-art quantum optimization algorithms require representing the original problem as a binary optimization problem, which is then converted into an equivalent Ising model suitable for the quantum device. Implementing each term of the Ising model separately often results in high redundancy, significantly increasing the resources required. Instead, we propose to design classical programs for computing the objective function and certifying the constraints, and later compile them to quantum circuits, eliminating the reliance on the binary optimization problem representation. This results in a new variant of the Quantum Approximate Optimization Algorithm (QAOA), which we name the Prog-QAOA. We exploit this idea for optimization tasks like the Travelling Salesman Problem and Max-$K$-Cut and obtain circuits that are near-optimal with respect to all relevant cost measures, e.g., number of qubits, gates, and circuit depth. While we demonstrate the power of Prog-QAOA only for a particular set of paradigmatic problems, our approach is conveniently applicable to generic optimization problems.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# PAC, Reward-free, Preference-based Learning など, 決定推定係数を持つRLの統一アルゴリズム

Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond ( http://arxiv.org/abs/2209.11745v3 )

ライセンス: Link先を確認
Fan Chen, Song Mei, Yu Bai, (参考訳) 現代の強化学習(RL)は、単に最適な政策を学ぶこと以上のもので、環境探索、基礎となるモデルの推定、選好フィードバックからの学習といった、代替的な学習目標がすべて実践的に重要である。 特定の目標ごとに確実にサンプル効率のアルゴリズムが提案されているが、これらのアルゴリズムは特定の学習目標に強く依存し、異なる構造を許容することが多い。 これらの学習目標が、単一の統一アルゴリズムによって取り組めばよいのか、という疑問が浮き彫りになっている。 我々は,DEC(Decision-Estimation Coefficient)フレームワークを基盤として,大規模な学習目標を対象とした統一的なアルゴリズムフレームワークを開発することにより,この問題を進展させる。 我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。 一般化されたDECはまた、個々の学習目標に対して、サンプルの複雑さを低くする。 応用として、一般化されたDECを有界化するための自然な条件として「分解可能表現」を提案し、それを用いて、幅広い学習目標と問題クラスを直列化するための多くのサンプル効率の高い結果(および既存の結果の復元)を得る。 最後に,2つの既存楽観的モデルベースアルゴリズムを後方サンプリングと最大類似度推定に基づいて再解析し,DECと似た構造条件下でのサンプル複雑性境界を楽しむことを示す。

Modern Reinforcement Learning (RL) is more than just learning the optimal policy; Alternative learning goals such as exploring the environment, estimating the underlying model, and learning from preference feedback are all of practical importance. While provably sample-efficient algorithms for each specific goal have been proposed, these algorithms often depend strongly on the particular learning goal and thus admit different structures correspondingly. It is an urging open question whether these learning goals can rather be tackled by a single unified algorithm. We make progress on this question by developing a unified algorithm framework for a large class of learning goals, building on the Decision-Estimation Coefficient (DEC) framework. Our framework handles many learning goals such as no-regret RL, PAC RL, reward-free learning, model estimation, and preference-based learning, all by simply instantiating the same generic complexity measure called "Generalized DEC", and a corresponding generic algorithm. The generalized DEC also yields a sample complexity lower bound for each specific learning goal. As applications, we propose "decouplable representation" as a natural sufficient condition for bounding generalized DECs, and use it to obtain many new sample-efficient results (and recover existing results) for a wide range of learning goals and problem classes as direct corollaries. Finally, as a connection, we re-analyze two existing optimistic model-based algorithms based on Posterior Sampling and Maximum Likelihood Estimation, showing that they enjoy sample complexity bounds under similar structural conditions as the DEC.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# システム一般化のためのニューラルシンボリック再帰機械

Neural-Symbolic Recursive Machine for Systematic Generalization ( http://arxiv.org/abs/2210.01603v2 )

ライセンス: Link先を確認
Qing Li, Yixin Zhu, Yitao Liang, Ying Nian Wu, Song-Chun Zhu, Siyuan Huang, (参考訳) 現在の学習モデルは、特に限られたデータから構成規則を学習し、それらを新しい組み合わせに外挿する際に、人間のような体系的な一般化に苦しむことが多い。 我々は,ニューラルネットワーク再帰機械 (NSR) を導入し,その中核が接地記号システム (GSS) であり,学習データから直接組合せ構文や意味論の出現を可能にする。 NSRは、神経知覚、構文解析、意味論的推論を統合するモジュール設計を採用している。 これらのコンポーネントは、新しい推論・アブダクションアルゴリズムによって相乗的に訓練される。 これらの結果から,NSRの設計には等値性や構成性の帰納的バイアスが伴い,多種多様なシーケンス・シーケンスタスクを順応的に処理し,非並列な体系的一般化を実現することの表現力を与えることがわかった。 我々は,意味解析のためのSCAN,文字列操作のためのPCFG,算術的推論のためのHINT,合成機械翻訳タスクという,体系的な一般化能力の探索を目的とした4つのベンチマークにおいて,NSRの有効性を評価する。 その結果、一般化と伝達性の観点から、現代のニューラルモデルやハイブリッドモデルよりもNSRの方が優れていることが確認された。

Current learning models often struggle with human-like systematic generalization, particularly in learning compositional rules from limited data and extrapolating them to novel combinations. We introduce the Neural-Symbolic Recursive Machine (NSR), whose core is a Grounded Symbol System (GSS), allowing for the emergence of combinatorial syntax and semantics directly from training data. The NSR employs a modular design that integrates neural perception, syntactic parsing, and semantic reasoning. These components are synergistically trained through a novel deduction-abduction algorithm. Our findings demonstrate that NSR's design, imbued with the inductive biases of equivariance and compositionality, grants it the expressiveness to adeptly handle diverse sequence-to-sequence tasks and achieve unparalleled systematic generalization. We evaluate NSR's efficacy across four challenging benchmarks designed to probe systematic generalization capabilities: SCAN for semantic parsing, PCFG for string manipulation, HINT for arithmetic reasoning, and a compositional machine translation task. The results affirm NSR's superiority over contemporary neural and hybrid models in terms of generalization and transferability.
翻訳日:2024-05-01 03:47:11 公開日:2024-04-29
# 不均一因果効果推定のためのモデル選択の実証分析

Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation ( http://arxiv.org/abs/2211.01939v3 )

ライセンス: Link先を確認
Divyat Mahajan, Ioannis Mitliagkas, Brady Neal, Vasilis Syrgkanis, (参考訳) 本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。 機械学習とは異なり、モデル選択のためのクロスバリデーションの完全な類似は存在しない。 これに向けて、観測データのみを使用するCATEモデル選択のために、さまざまなサロゲートメトリクスが提案されている。 しかし,従来の研究では比較が限られていたため,有効性についてはよく分かっていない。 本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標をベンチマークするために,広範な実証分析を行った。 我々は、AutoMLを介してこれらのメトリクスに関連するハイパーパラメータをチューニングすることで、公正な比較を保証し、生成モデルを介して現実的なデータセットを組み込むことにより、より詳細なトレンドを提供する。 そこで本研究では,CATE推定器の注意的ハイパーパラメータ選択と因果アンサンブルに基づく新しいモデル選択手法を提案する。

We study the problem of model selection in causal inference, specifically for conditional average treatment effect (CATE) estimation. Unlike machine learning, there is no perfect analogue of cross-validation for model selection as we do not observe the counterfactual potential outcomes. Towards this, a variety of surrogate metrics have been proposed for CATE model selection that use only observed data. However, we do not have a good understanding regarding their effectiveness due to limited comparisons in prior studies. We conduct an extensive empirical analysis to benchmark the surrogate model selection metrics introduced in the literature, as well as the novel ones introduced in this work. We ensure a fair comparison by tuning the hyperparameters associated with these metrics via AutoML, and provide more detailed trends by incorporating realistic datasets via generative modeling. Our analysis suggests novel model selection strategies based on careful hyperparameter selection of CATE estimators and causal ensembling.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-29
# BosonSampling.jl:量子多光子干渉計のためのJuliaパッケージ

BosonSampling.jl: A Julia package for quantum multi-photon interferometry ( http://arxiv.org/abs/2212.09537v2 )

ライセンス: Link先を確認
Benoit Seron, Antoine Restivo, (参考訳) 本稿では、高速シミュレーションとボソンサンプリング器の数値解析のためのフリーオープンソースパッケージと、より一般的にはマルチ光子干渉計について述べる。 私たちのパッケージはJuliaで書かれており、簡単に表記できるCライクなパフォーマンスと高速でハイレベルなコーディングを実現しています。 下位のビルディングブロックは、複雑な低レベルの言語修正なしで容易に変更できる。 本稿では,統計ツール,最適化手法,古典的サンプリング器,検証ツールなど,ボソンサンプリングに関連するタスクに対する多種多様なルーチンを提案する。

We present a free open source package for high performance simulation and numerical investigation of boson samplers and, more generally, multi-photon interferometry. Our package is written in Julia, allowing C-like performance with easy notations and fast, high-level coding. Underlying building blocks can easily be modified without complicated low-level language modifications. We present a great variety of routines for tasks related to boson sampling, such as statistical tools, optimization methods, classical samplers and validation tools.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-29
# 古典論理への翻訳による量子化モーダル論理問題の解法

Solving Quantified Modal Logic Problems by Translation to Classical Logics ( http://arxiv.org/abs/2212.09570v3 )

ライセンス: Link先を確認
Alexander Steen, Geoff Sutcliffe, Christoph Benzmüller, (参考訳) 本稿では,1次モーダル論理問題のQMLTPライブラリから得られる問題に対するATPシステムの評価について述べる。 主に、この問題はTPTP言語の型付き一階述語論理と高階述語論理の両方に埋め込みアプローチを用いて変換され、一階述語respを用いて解決される。 高階論理ATPシステムとモデルファインダ。 さらに, ネイティブなモーダル論理ATPシステムの結果も検討し, 組込み手法による結果と比較した。 その結果,1次および高次埋め込みは,古典的システムに匹敵する性能を有し,定理証明のための埋め込み,ネイティブなモーダル論理ATPシステムは,予想を証明するための埋め込みアプローチにより性能が向上し,組込みアプローチは考慮されたネイティブなモーダルシステムよりも広い範囲のモーダル論理に対処できることがわかった。

This article describes an evaluation of Automated Theorem Proving (ATP) systems on problems taken from the QMLTP library of first-order modal logic problems. Principally, the problems are translated to both typed first-order and higher-order logic in the TPTP language using an embedding approach, and solved using first-order resp. higher-order logic ATP systems and model finders. Additionally, the results from native modal logic ATP systems are considered, and compared with the results from the embedding approach. The findings are that the embedding process is reliable and successful when state-of-the-art ATP systems are used as backend reasoners, The first-order and higher-order embeddings perform similarly, native modal logic ATP systems have comparable performance to classical systems using the embedding for proving theorems, native modal logic ATP systems are outperformed by the embedding approach for disproving conjectures, and the embedding approach can cope with a wider range of modal logics than the native modal systems considered.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-29
# エンジニアリングシステムのためのディープニューラル演算子による一般化の改善:デジタルツインへの道

Improved generalization with deep neural operators for engineering systems: Path towards digital twin ( http://arxiv.org/abs/2301.06701v3 )

ライセンス: Link先を確認
Kazuma Kobayashi, James Daniell, Syed Bahauddin Alam, (参考訳) ニューラル演算子ネットワーク(ONets)は、偏微分方程式(PDE)を近似する堅牢で一般化可能な代替手段を提供する機械学習アルゴリズムの新しい進歩を表している。 関数を直接近似する従来のニューラルネットワーク(NN)とは異なり、オネットは数学演算子の近似を専門とし、複雑なPDEに対処する上での有効性を高める。 本研究では,ブランチ/トランクアーキテクチャを用いたOnets実装であるDeep Operator Networks(DeepONets)の性能評価を行う。 ODEの系、一般拡散系、対流/拡散バーガーズ方程式の3つのテストケースが研究されている。 DeepONets は解演算子を正確に学習し、ODE に対して 0.96 以上の予測精度のスコアと観測領域上の拡散問題を達成するとともに、ゼロショット(再学習なしで)能力を達成する。 さらに、目に見えないシナリオ(ゼロショットの特徴)で評価すると、訓練されたモデルは優れた一般化能力を示す。 これは、サロゲートモデリングと物理的システム間のデジタル双対開発にとって、ONetsが重要なニッチであることを示している。 対流拡散はより大きな課題をもたらすが、結果は Onets の約束を確認し、DeepONet アルゴリズムのさらなる拡張を動機付けている。 この研究は、堅牢で一般化可能なサロゲートを通じて、デジタル双生児の可能性を解き放つための重要なステップである。

Neural Operator Networks (ONets) represent a novel advancement in machine learning algorithms, offering a robust and generalizable alternative for approximating partial differential equations (PDEs) solutions. Unlike traditional Neural Networks (NN), which directly approximate functions, ONets specialize in approximating mathematical operators, enhancing their efficacy in addressing complex PDEs. In this work, we evaluate the capabilities of Deep Operator Networks (DeepONets), an ONets implementation using a branch/trunk architecture. Three test cases are studied: a system of ODEs, a general diffusion system, and the convection/diffusion Burgers equation. It is demonstrated that DeepONets can accurately learn the solution operators, achieving prediction accuracy scores above 0.96 for the ODE and diffusion problems over the observed domain while achieving zero shot (without retraining) capability. More importantly, when evaluated on unseen scenarios (zero shot feature), the trained models exhibit excellent generalization ability. This underscores ONets vital niche for surrogate modeling and digital twin development across physical systems. While convection-diffusion poses a greater challenge, the results confirm the promise of ONets and motivate further enhancements to the DeepONet algorithm. This work represents an important step towards unlocking the potential of digital twins through robust and generalizable surrogates.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-29
# 量子生成モデルにおける相似性と最適化に関する非線形性の補足的研究

A supplemental investigation of non-linearity in quantum generative models with respect to simulatability and optimization ( http://arxiv.org/abs/2302.00788v2 )

ライセンス: Link先を確認
Kaitlin Gili, Rohan S. Kumar, Mykolas Sveistrys, C. J. Ballance, (参考訳) 近年の研究では、リピート・アンティル・サクセス(RUS)サブルーチンによる非線形性を量子回路に導入し、生成モデリングに活用することが実証されている。 この研究のフォローアップとして、量子アルゴリズムと機械学習コミュニティとの関連性に関する2つの疑問を考察する: この形式の非線形性を導入することで、遅延測定原理により学習モデルを古典的にシミュレートできるのか? そして、この形式の非線形性を導入することで、全体のモデルのトレーニングが不安定になるのでしょうか? 最初の質問に関して、RASサブルーチンは、この量子モデルを古典的モデルに自明にマッピングすることができず、一方、中間回路の測定を含むRASサブ回路を持たないモデルは、量子力学の遅延測定原理により古典ベイズネットワークにマッピングできることを示した。 このことは、提案された非線型性の形式が、モデルが古典的にシミュレートする非効率的であることを強く示唆している。 第2の質問の追求において、我々は3つの異なる確率分布、1つの連続と2つの離散の確率分布で示されたよりも大きなモデルを訓練し、複数のランダムな試行でトレーニング性能を比較した。 いくつかの試行において、モデルは非常によく機能するが、特定のデータセットによる試行間のばらつきは、その比較的低いトレーニング安定性を定量化する。

Recent work has demonstrated the utility of introducing non-linearity through repeat-until-success (RUS) sub-routines into quantum circuits for generative modeling. As a follow-up to this work, we investigate two questions of relevance to the quantum algorithms and machine learning communities: Does introducing this form of non-linearity make the learning model classically simulatable due to the deferred measurement principle? And does introducing this form of non-linearity make the overall model's training more unstable? With respect to the first question, we demonstrate that the RUS sub-routines do not allow us to trivially map this quantum model to a classical one, whereas a model without RUS sub-circuits containing mid-circuit measurements could be mapped to a classical Bayesian network due to the deferred measurement principle of quantum mechanics. This strongly suggests that the proposed form of non-linearity makes the model classically in-efficient to simulate. In the pursuit of the second question, we train larger models than previously shown on three different probability distributions, one continuous and two discrete, and compare the training performance across multiple random trials. We see that while the model is able to perform exceptionally well in some trials, the variance across trials with certain datasets quantifies its relatively poor training stability.
翻訳日:2024-05-01 03:37:12 公開日:2024-04-29
# 高次元線形回帰におけるオンラインSGDの線形関数の統計的推測

Statistical Inference for Linear Functionals of Online SGD in High-dimensional Linear Regression ( http://arxiv.org/abs/2302.09727v2 )

ライセンス: Link先を確認
Bhavya Agrawalla, Krishnakumar Balasubramanian, Promit Ghosal, (参考訳) 確率勾配降下 (SGD) は、データ科学者のツールボックスにおいて重要な方法として登場した。 しかし、SGDを高精細な用途に使用するには、関連する不確実性の慎重な定量化が必要である。 この研究の目的のために、オンラインSGDの線形汎関数に対する高次元中心極限定理(CLT)を確立し、非等方的ガウス入力による過度にパラメータ化された最小二乗回帰を反復する。 この結果から,CLTはオンラインSGDの反復回数において次元が指数関数的に指数関数である場合でも成り立つことを示す。 本研究は,CLTに現れる予測と分散項を推定するオンライン手法をさらに発展させ,開発したオンライン推定器の高確率境界を確立することを目的とする。 さらに、CLT結果と分散推定結果とともに、信頼区間を数値的に構築し、SGDによる実用的な高次元アルゴリズム推論を可能にする2段階のオンライン偏差補正手法を提案する。 また、ガウスシュタインの同一性に基づく単射モデルのクラスにも結果を拡張した。 また,理論的な知見を実際に検証するための数値シミュレーションも提供する。

Stochastic gradient descent (SGD) has emerged as the quintessential method in a data scientist's toolbox. Using SGD for high-stakes applications requires, however, careful quantification of the associated uncertainty. Towards that end, in this work, we establish a high-dimensional Central Limit Theorem (CLT) for linear functionals of online SGD iterates for overparametrized least-squares regression with non-isotropic Gaussian inputs. Our result shows that a CLT holds even when the dimensionality is of order exponential in the number of iterations of the online SGD, which, to the best of our knowledge, is the first such result. In order to use the developed result in practice, we further develop an online approach for estimating the expectation and the variance terms appearing in the CLT, and establish high-probability bounds for the developed online estimator. Furthermore, we propose a two-step fully online bias-correction methodology which together with the CLT result and the variance estimation result, provides a fully online and data-driven way to numerically construct confidence intervals, thereby enabling practical high-dimensional algorithmic inference with SGD. We also extend our results to a class of single-index models, based on the Gaussian Stein's identity. We also provide numerical simulations to verify our theoretical findings in practice.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-29
# DTAAD:多変量時系列データにおける異常検出のためのデュアルTcnアテンションネットワーク

DTAAD: Dual Tcn-Attention Networks for Anomaly Detection in Multivariate Time Series Data ( http://arxiv.org/abs/2302.10753v3 )

ライセンス: Link先を確認
Lingrui Yu, (参考訳) 異常検出技術は、今日の産業用途において重要な多変量時系列データにおいて、効果的な異常検出と診断を可能にする。 しかし, 異常ラベルの欠如, データの高次元複雑さ, 実際のハードウェアにおけるメモリボトルネック, 高速推論の必要性, などにより, 迅速かつ正確に検出できる異常検出システムの構築は困難である。 本稿では,Transformer と Dual Temporal Convolutional Network (TCN) に基づく異常検出・診断モデル DTAAD を提案する。 我々の全体モデルは、自己回帰モデル(AR)がオートエンコーダ(AE)構造と結合する統合設計である。 スケーリング手法とフィードバック機構を導入し、予測精度を改善し、相関差を拡大する。 我々の構築したDual TCN-Attention Network (DTA)は,超軽量モデルに属するトランスフォーマーエンコーダの単一層のみを用いている。 7つの公開データセットに関する広範な実験により、DTAADは検出および診断性能の両面で現在最先端のベースライン手法の大部分を超えていることが確認された。 具体的には、DTAADはF1スコアを8.38 %$に改善し、トレーニング時間をベースラインと比較して99 %$に短縮した。 コードとトレーニングスクリプトはGitHubでhttps://github.com/Yu-Lingrui/DTAADで公開されている。

Anomaly detection techniques enable effective anomaly detection and diagnosis in multi-variate time series data, which are of major significance for today's industrial applications. However, establishing an anomaly detection system that can be rapidly and accurately located is a challenging problem due to the lack of anomaly labels, the high dimensional complexity of the data, memory bottlenecks in actual hardware, and the need for fast reasoning. In this paper, we propose an anomaly detection and diagnosis model, DTAAD, based on Transformer and Dual Temporal Convolutional Network (TCN). Our overall model is an integrated design in which an autoregressive model (AR) combines with an autoencoder (AE) structure. Scaling methods and feedback mechanisms are introduced to improve prediction accuracy and expand correlation differences. Constructed by us, the Dual TCN-Attention Network (DTA) uses only a single layer of Transformer encoder in our baseline experiment, belonging to an ultra-lightweight model. Our extensive experiments on seven public datasets validate that DTAAD exceeds the majority of currently advanced baseline methods in both detection and diagnostic performance. Specifically, DTAAD improved F1 scores by $8.38\%$ and reduced training time by $99\%$ compared to the baseline. The code and training scripts are publicly available on GitHub at https://github.com/Yu-Lingrui/DTAAD.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-29
# リンドラーフレームにおける場の理論と熱場理論の形式論との対応について

Field theory in Rindler frame and more on the correspondence with thermal field theory formalisms ( http://arxiv.org/abs/2303.16022v2 )

ライセンス: Link先を確認
Dipankar Barman, Bibhas Ranjan Majhi, (参考訳) リンドラーフレームの2つの時間的に同じ加速度を持つ2つの加速された観測者を考えると、ミンコフスキー真空に対する熱浴における実際のスカラー場に対するファインマン・アドイットのプロパゲータを計算する。 同じウェッジ相関器のみが熱浴とウンルー熱浴の交換の下で対称であるが、クロスウェッジはそうではない。 興味深いことに、それらは場の加速と熱的性質の集合的な影響であるクロス項を含む。 特に、右と左のリンドラー・ウェッジの座標間の解析的連続を伴うゼロ温度記述は、予想通り、通常の熱電場-二重形式と一致する。 しかし、後続の定式化とは異なり、2つの体は現在元の系の一部となっている。 さらに、ケルディシュの輪郭がリンドラー時間の増大に沿うような閉時間形式(CTP)の空間的ケースの特徴を持つ。 興味深いことに、ウェッジ間の解析的連続がCTPの2つのより空間的なケースを提供するという特徴を観察する。 したがって、リンドラー・フレーム・フィールド理論は場の熱理論を扱うための有効な候補であり、通常の形式主義の間の橋の探索を照らすことができる。

Considering two accelerated observers with same acceleration in two timelike wedges of Rindler frame we calculate the Feynman-{\it like} propagators for a real scalar field in a thermal bath with respect to the Minkowski vacuum. Only the same wedge correlators are symmetric under the exchange of the {\it real} thermal bath and Unruh thermal bath, while the cross-wedge ones are not. Interestingly, they contain a cross term which is a collective effects of acceleration and thermal nature of field. Particularly the zero temperature description along with {\it no analytic continuation} between coordinates in right and left Rindler wedges, as expected, corresponds to usual thermofield-double formalism. However, unlike in later formulation, the two fields are now parts of the original system. Moreover it bears the features of a spacial case of closed-time formalism (CTP) where the Keldysh contour is along the increasing Rindler time in the respective Rindler wedges. Interestingly, we observe a new feature that the analytic continuation between the wedges provides the two more spacial cases of CTP. Hence Rindler-frame-field theory seems to be a viable candidate to deal thermal theory of fields and may illuminate the search for a bridge between the usual existing formalisms.
翻訳日:2024-05-01 01:44:16 公開日:2024-04-29
# 高エネルギー物理シミュレーションのための完全量子生成逆ネットワークモデル

A Full Quantum Generative Adversarial Network Model for High Energy Physics Simulations ( http://arxiv.org/abs/2305.07284v2 )

ライセンス: Link先を確認
Florian Rehm, Sofia Vallecorsa, Michele Grossi, Kerstin Borras, Dirk Krücker, (参考訳) 古典計算と比較して指数関数的なスピードアップが期待できる量子コンピューティングの見通しは、将来の高エネルギー物理学(HEP)シミュレーション手法の探索において有望な方法であると認識している。 CERNの大型ハドロン衝突型加速器(Large Hadron Collider)で採用されているHEPシミュレーションは極めて複雑であり、ハードウェアと時間に膨大な計算資源を必要とする。 いくつかのHEPシミュレーションでは、古典的な機械学習モデルは既に開発とテストが成功しており、結果として数桁のスピードアップが達成されている。 本研究は、量子コンピューティングが十分な精度とさらなる改善をもたらすかどうかを探求し、今後の研究のエキサイティングな方向として提案するものである。 小型のプロトタイプモデルを用いて,8ピクセルの小型キャラクタリメータシャワー画像を生成するための完全量子生成適応ネットワーク(GAN)モデルを実証した。 従来の量子モデルの利点は、テストサンプル上で平均化された単純な確率分布の代わりに、ピクセルエネルギー値を含む実際の個々の画像を生成することである。 この図を完成させるために、古典的判別器ニューラルネットワークを用いて、完全な量子GANモデルの結果をハイブリッド量子古典モデルと比較する。

The prospect of quantum computing with a potential exponential speed-up compared to classical computing identifies it as a promising method in the search for alternative future High Energy Physics (HEP) simulation approaches. HEP simulations, such as employed at the Large Hadron Collider at CERN, are extraordinarily complex and require an immense amount of computing resources in hardware and time. For some HEP simulations, classical machine learning models have already been successfully developed and tested, resulting in several orders of magnitude speed-up. In this research, we proceed to the next step and explore whether quantum computing can provide sufficient accuracy, and further improvements, suggesting it as an exciting direction of future investigations. With a small prototype model, we demonstrate a full quantum Generative Adversarial Network (GAN) model for generating downsized eight-pixel calorimeter shower images. The advantage over previous quantum models is that the model generates real individual images containing pixel energy values instead of simple probability distributions averaged over a test sample. To complete the picture, the results of the full quantum GAN model are compared to hybrid quantum-classical models using a classical discriminator neural network.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-29
# バークソンと古典的測定誤差モデルに対するロバストベイズ推定

Robust Bayesian Inference for Berkson and Classical Measurement Error Models ( http://arxiv.org/abs/2306.01468v2 )

ライセンス: Link先を確認
Charita Dellaporta, Theodoros Damoulas, (参考訳) 測定誤差は、応答変数に影響を及ぼす共変体がノイズによって破損した場合に発生する。 これは、特に因果効果推定のような共変量と応答変数の関係を正確に推定する問題において、誤った推論結果をもたらす可能性がある。 既存の測定誤差を扱う方法は、しばしば、誤差分布の知識や、その分散、共変量の複製された測定の可用性のような強い仮定に依存する。 本稿では,誤測定された共変量に対して頑健なベイズ非パラメトリック学習フレームワークを提案し,事前の仮定を必要とせず,誤り分布に関する事前の信念を組み込むことができる。 このアプローチは、ディリクレ・プロセス(DP)の先行中心測度を適切に定義することで、古典的およびバークソンのエラーモデルに適合する一般的なフレームワークを生み出します。 さらに、回帰モデルの種類に応じて損失関数の選択に柔軟性を提供する。 非ガウス分布誤差と非線形共変応答関係の一般化を可能にする最大平均離散性(MMD)損失に基づく一般化誤差のバウンダリを提供する。 本稿では,ベルクソンや古典的測定誤差を含む実世界の問題において,提案手法と先行技術の有効性を示す。

Measurement error occurs when a covariate influencing a response variable is corrupted by noise. This can lead to misleading inference outcomes, particularly in problems where accurately estimating the relationship between covariates and response variables is crucial, such as causal effect estimation. Existing methods for dealing with measurement error often rely on strong assumptions such as knowledge of the error distribution or its variance and availability of replicated measurements of the covariates. We propose a Bayesian Nonparametric Learning framework that is robust to mismeasured covariates, does not require the preceding assumptions, and can incorporate prior beliefs about the error distribution. This approach gives rise to a general framework that is suitable for both Classical and Berkson error models via the appropriate specification of the prior centering measure of a Dirichlet Process (DP). Moreover, it offers flexibility in the choice of loss function depending on the type of regression model. We provide bounds on the generalization error based on the Maximum Mean Discrepancy (MMD) loss which allows for generalization to non-Gaussian distributed errors and nonlinear covariate-response relationships. We showcase the effectiveness of the proposed framework versus prior art in real-world problems containing either Berkson or Classical measurement errors.
翻訳日:2024-05-01 01:34:26 公開日:2024-04-29
# PriSampler:拡散モデルの特性推定の軽減

PriSampler: Mitigating Property Inference of Diffusion Models ( http://arxiv.org/abs/2306.05208v2 )

ライセンス: Link先を確認
Hailong Hu, Jun Pang, (参考訳) 拡散モデルはデータ合成において著しく成功している。 しかし、これらのモデルが銀行や人間の顔データといったセンシティブなデータセットに適用されると、深刻なプライバシー上の懸念が生じる可能性がある。 本研究は,拡散モデルに対する資産推測攻撃に関する最初のプライバシ研究を体系的に提示し,拡散モデルからトレーニングセットのセンシティブなグローバルな特性を抽出することを目的とした。 具体的には、最も実用的な攻撃シナリオに注目し、敵は合成データのみにアクセスすることに制限される。 この現実的なシナリオでは、表や画像のデータセットを含む多様なデータ型に基づいて訓練された様々な拡散モデルに対して、プロパティ推論攻撃を包括的に評価する。 広範囲な評価により、拡散モデルとそのサンプルは、特性推論攻撃に対して普遍的に脆弱であることが明らかとなった。 そこで本研究では,拡散モデルの特性推定のリスクを軽減するために,新しいモデルに依存しないプラグイン手法PriSamplerを提案する。 PriSamplerは、よく訓練された拡散モデルに直接適用することができ、確率的および決定論的サンプリングの両方をサポートする。 大規模な実験は、我々の防衛の有効性を示しており、モデル所有者が望む定義済みの値に近い性質の比率を、敵に推測させる可能性がある。 特にPriSamplerは、モデルユーティリティとディフェンスパフォーマンスの両方で差分プライバシでトレーニングされた拡散モデルよりも、はるかに優れたパフォーマンスを示している。 この作業は、プロパティ推論攻撃の防止に対する認識を高め、プライバシ保護のための合成データリリースを促進する。

Diffusion models have been remarkably successful in data synthesis. However, when these models are applied to sensitive datasets, such as banking and human face data, they might bring up severe privacy concerns. This work systematically presents the first privacy study about property inference attacks against diffusion models, where adversaries aim to extract sensitive global properties of its training set from a diffusion model. Specifically, we focus on the most practical attack scenario: adversaries are restricted to accessing only synthetic data. Under this realistic scenario, we conduct a comprehensive evaluation of property inference attacks on various diffusion models trained on diverse data types, including tabular and image datasets. A broad range of evaluations reveals that diffusion models and their samplers are universally vulnerable to property inference attacks. In response, we propose a new model-agnostic plug-in method PriSampler to mitigate the risks of the property inference of diffusion models. PriSampler can be directly applied to well-trained diffusion models and support both stochastic and deterministic sampling. Extensive experiments illustrate the effectiveness of our defense, and it can lead adversaries to infer the proportion of properties as close as predefined values that model owners wish. Notably, PriSampler also shows its significantly superior performance to diffusion models trained with differential privacy on both model utility and defense performance. This work will elevate the awareness of preventing property inference attacks and encourage privacy-preserving synthetic data release.
翻訳日:2024-05-01 01:24:19 公開日:2024-04-29
# 最適対向試験誤差の達成について

On Achieving Optimal Adversarial Test Error ( http://arxiv.org/abs/2306.07544v2 )

ライセンス: Link先を確認
Justin D. Li, Matus Telgarsky, (参考訳) まず, 最適対向凸予測器の最適対向零点予測器の構造, 逆向凸損失と逆向零点損失の関係, 連続予測器が最適対向誤差に任意に近づくこと, および, 最適対向凸予測器の最適対向零点予測器の構造を解明する。 これらの結果と, 初期化近傍の対向学習における新たなRademacher複雑性境界を適用し, 一般データ分布と摂動集合に対して, 早期停止を伴う浅層ネットワーク上での対向訓練, 最適対向テスト誤差を最適に達成できることを証明した。 対照的に、事前の理論的研究は、専門的なデータ分散を考慮するか、トレーニングエラーの保証のみを提供するかのどちらかである。

We first elucidate various fundamental properties of optimal adversarial predictors: the structure of optimal adversarial convex predictors in terms of optimal adversarial zero-one predictors, bounds relating the adversarial convex loss to the adversarial zero-one loss, and the fact that continuous predictors can get arbitrarily close to the optimal adversarial error for both convex and zero-one losses. Applying these results along with new Rademacher complexity bounds for adversarial training near initialization, we prove that for general data distributions and perturbation sets, adversarial training on shallow networks with early stopping and an idealized optimal adversary is able to achieve optimal adversarial test error. By contrast, prior theoretical work either considered specialized data distributions or only provided training error guarantees.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# 動的ベイズネットワークを用いた暗号通貨の価格方向の因果的特徴工学

Causal Feature Engineering of Price Directions of Cryptocurrencies using Dynamic Bayesian Networks ( http://arxiv.org/abs/2306.08157v2 )

ライセンス: Link先を確認
Rasoul Amirzadeh, Asef Nazari, Dhananjay Thiruvady, Mong Shan Ee, (参考訳) 暗号通貨は様々な分野、特に金融と投資で人気を博している。 この人気は、プライバシや分散化、追跡不能といったブロックチェーン関連の特徴から生まれた、独自の仕様によるものだ。 仮想通貨の人気は上昇しているが、価格のボラティリティと不確実性のため、暗号通貨はリスクの高い投資のままである。 暗号通貨価格の固有のボラティリティと、内部の暗号通貨関連要因と外部の影響力のあるグローバル経済要因が組み合わさって、その価格と価格運動の方向を予測するのが困難である。 それでも、暗号通貨価格の方向性を予測することで得られる知識は、投資家が情報的投資決定を行う上で貴重なガイダンスを提供することができる。 本稿では,多変量設定で複雑なシステムをモデル化可能な動的ベイズネットワーク(DBN)アプローチを提案し,次の取引日に5つの人気アルトコイン(ビットコイン以外の暗号通貨)の価格移動方向を予測する。 提案モデルの有効性を2つの観点から評価した。 まず,提案手法を2つのベースラインモデル,すなわち自己回帰型統合移動平均とベクトル回帰モデルと比較する。 第2に,機能工学の観点からは,DBNの予測性能に対する23の異なる特徴が4つのカテゴリに分けた影響について検討した。 実験の結果,DBNはベースラインモデルよりも有意に優れていた。 さらに、特徴群の中で、技術的指標が暗号通貨価格の方向性の最も効果的な予測因子であることが判明した。

Cryptocurrencies have gained popularity across various sectors, especially in finance and investment. The popularity is partly due to their unique specifications originating from blockchain-related characteristics such as privacy, decentralisation, and untraceability. Despite their growing popularity, cryptocurrencies remain a high-risk investment due to their price volatility and uncertainty. The inherent volatility in cryptocurrency prices, coupled with internal cryptocurrency-related factors and external influential global economic factors makes predicting their prices and price movement directions challenging. Nevertheless, the knowledge obtained from predicting the direction of cryptocurrency prices can provide valuable guidance for investors in making informed investment decisions. To address this issue, this paper proposes a dynamic Bayesian network (DBN) approach, which can model complex systems in multivariate settings, to predict the price movement direction of five popular altcoins (cryptocurrencies other than Bitcoin) in the next trading day. The efficacy of the proposed model in predicting cryptocurrency price directions is evaluated from two perspectives. Firstly, our proposed approach is compared to two baseline models, namely an auto-regressive integrated moving average and support vector regression. Secondly, from a feature engineering point of view, the impact of twenty-three different features, grouped into four categories, on the DBN's prediction performance is investigated. The experimental results demonstrate that the DBN significantly outperforms the baseline models. In addition, among the groups of features, technical indicators are found to be the most effective predictors of cryptocurrency price directions.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# 建築エロージョンの振動症状の自動同定に向けて

Towards Automated Identification of Violation Symptoms of Architecture Erosion ( http://arxiv.org/abs/2306.08616v3 )

ライセンス: Link先を確認
Ruiyin Li, Peng Liang, Paris Avgeriou, (参考訳) アーキテクチャの侵食は、実装が意図したアーキテクチャから逸脱するにつれて、メンテナンスと進化に有害な影響を及ぼします。 これを防ぐためには、開発チームは浸食の症状、特に意図したアーキテクチャの違反を十分に早期に理解する必要がある。 これを実現する1つの方法は、アーキテクチャ違反をテキストアーティファクト、特にコードレビューから自動的に識別することです。 本稿では,コードレビューにおける開発者の議論からアーキテクチャ侵食の違反症状を特定するために,事前訓練した単語を3つ組み込んだ15の機械学習ベースと4つのディープラーニングベース分類器を開発した。 具体的には、OpenStack(NovaとNeutron)とQt(Qt BaseとQt Creator)の4つの大きなオープンソースプロジェクトのコードレビューコメントを調べました。 次に、コードレビューにおけるアーキテクチャ違反について議論した関係者からフィードバックを得て、トレーニングされた分類器の有用性を検証するため、調査および半構造化インタビューを行った。 その結果,Word2vec事前学習語埋め込みに基づくSVM分類器はF1スコア0.779で最良となることがわかった。 多くの場合、fastText事前訓練された単語埋め込みモデルを用いた分類器は比較的優れた性能が得られる。 さらに,200次元事前学習語埋め込みモデルは,100次元モデルと300次元モデルを用いた分類器よりも優れていた。 また、多数決戦略に基づくアンサンブル分類器は、さらにその分類器を強化し、個々の分類器より優れる。 最後に, 関連する開発者を対象に行ったオンライン調査およびインタビューから得られた知見から, 提案手法によって同定された違反症状は実用的価値があり, アーキテクチャの侵食を早期に警告できることがわかった。

Architecture erosion has a detrimental effect on maintenance and evolution, as the implementation drifts away from the intended architecture. To prevent this, development teams need to understand early enough the symptoms of erosion, and particularly violations of the intended architecture. One way to achieve this, is through the automated identification of architecture violations from textual artifacts, and particularly code reviews. In this paper, we developed 15 machine learning-based and 4 deep learning-based classifiers with three pre-trained word embeddings to identify violation symptoms of architecture erosion from developer discussions in code reviews. Specifically, we looked at code review comments from four large open-source projects from the OpenStack (Nova and Neutron) and Qt (Qt Base and Qt Creator) communities. We then conducted a survey and semi-structured interviews to acquire feedback from the involved participants who discussed architecture violations in code reviews, to validate the usefulness of our trained classifiers. The results show that the SVM classifier based on word2vec pre-trained word embedding performs the best with an F1-score of 0.779. In most cases, classifiers with the fastText pre-trained word embedding model can achieve relatively good performance. Furthermore, 200-dimensional pre-trained word embedding models outperform classifiers that use 100 and 300-dimensional models. In addition, an ensemble classifier based on the majority voting strategy can further enhance the classifier and outperforms the individual classifiers. Finally, the findings derived from the online survey and interviews conducted with the involved developers reveal that the violation symptoms identified by our approaches have practical value and can provide early warnings for impending architecture erosion.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# Wegner's Ising gauge spins vs Kitaev's Majorana partons: Mapping and application to anisootropic confinement in spin-orbital liquids

Wegner's Ising gauge spins versus Kitaev's Majorana partons: Mapping and application to anisotropic confinement in spin-orbital liquids ( http://arxiv.org/abs/2306.09405v3 )

ライセンス: Link先を確認
Urban F. P. Seifert, Sergej Moroz, (参考訳) 創発的なゲージ理論は、量子物質の記述において顕著な役割を担い、位相的順序と分数化励起を持つ分解相を支持する。 ウェグナーが最初に導入した、$\mathbb{Z}_2$格子ゲージ理論の一般的な構成は、リンク上に置かれ、離散的な$\mathbb{Z}_2$ガウス法則に従うイジングゲージスピンである。 Kitaev が示すように、$\mathbb{Z}_2$ 格子ゲージ理論は、結合依存相互作用を持つ特定のスピン系の正確な解にも現れる。 この文脈では、$\mathbb{Z}_2$ゲージ場はマヨラナフェルミオンから構成され、各サイト上のマヨラナフェルミオンのパリティによって与えられるゲージの制約が与えられる。 そこでは、北エフ型ゲージ理論がスピン軌道(クヘル・コンスキー)ハミルトニアン(英語版)の正確な解として現れる。 次に、我々は、$\mathbb{Z}_2$ゲージ理論における電場変数間の異方性相互作用に対応するスピン軌道ハミルトニアンへの局所摂動の研究にマッピングを適用した。 これらは弱い結合した1次元スピン鎖の出現を特徴とする異方性閉じ込めを引き起こす。 本研究では,これらの相の性質と,不在および不在なフェルミオン性物質等級の存在下での留置遷移について検討する。 最後に、ハニカム格子上の北エフスピン-1/2モデルに対して、我々の写像をどのように適用できるかについて議論する。

Emergent gauge theories take a prominent role in the description of quantum matter, supporting deconfined phases with topological order and fractionalized excitations. A common construction of $\mathbb{Z}_2$ lattice gauge theories, first introduced by Wegner, involves Ising gauge spins placed on links and subject to a discrete $\mathbb{Z}_2$ Gauss law constraint. As shown by Kitaev, $\mathbb{Z}_2$ lattice gauge theories also emerge in the exact solution of certain spin systems with bond-dependent interactions. In this context, the $\mathbb{Z}_2$ gauge field is constructed from Majorana fermions, with gauge constraints given by the parity of Majorana fermions on each site. In this work, we provide an explicit Jordan-Wigner transformation that maps between these two formulations on the square lattice, where the Kitaev-type gauge theory emerges as the exact solution of a spin-orbital (Kugel-Khomskii) Hamiltonian. We then apply our mapping to study local perturbations to the spin-orbital Hamiltonian, which correspond to anisotropic interactions between electric-field variables in the $\mathbb{Z}_2$ gauge theory. These are shown to induce anisotropic confinement that is characterized by emergence of weakly-coupled one-dimensional spin chains. We study the nature of these phases and corresponding confinement transitions in both absence and presence of itinerant fermionic matter degrees of freedom. Finally, we discuss how our mapping can be applied to the Kitaev spin-1/2 model on the honeycomb lattice.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# PAC-Chernoff境界:補間規則の一般化を理解する

PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime ( http://arxiv.org/abs/2306.10947v3 )

ライセンス: Link先を確認
Andrés R. Masegosa, Luis A. Ortega, (参考訳) 本稿では,超パラメータモデルクラスにおいても,補間器の完全密度を示す分布依存型PAC-Chernoffバウンダリを提案する。 この境界は、大偏差理論の基本原理に依存し、単純な実数値関数によって特徴づけられるモデルの滑らかさの自然な測度を定義する。 この境界と滑らか性という新たな概念に基づいて、ある補間子が例外的な一般化を示すのに対して、ある補間者が極端に一般化を示す理由を明らかにする統一的な理論的枠組みを提示する。 理論的には、データ拡張、不変アーキテクチャ、過パラメータ化と組み合わせて、$\ell_2$-norm, distance-from-initialization, input-gradient regularizationなどの手法を包含した、現代的な学習手法の幅広いスペクトルが、よりスムーズな補間器へと導かれ、より優れた一般化性能を示すものであることを示す。 本研究では、分布依存境界が、過パラメータ化補間器の一般化能力の背後にある複雑な力学を理解する強力なツールであることを示す。

This paper introduces a distribution-dependent PAC-Chernoff bound that exhibits perfect tightness for interpolators, even within over-parameterized model classes. This bound, which relies on basic principles of Large Deviation Theory, defines a natural measure of the smoothness of a model, characterized by simple real-valued functions. Building upon this bound and the new concept of smoothness, we present an unified theoretical framework revealing why certain interpolators show an exceptional generalization, while others falter. We theoretically show how a wide spectrum of modern learning methodologies, encompassing techniques such as $\ell_2$-norm, distance-from-initialization and input-gradient regularization, in combination with data augmentation, invariant architectures, and over-parameterization, collectively guide the optimizer toward smoother interpolators, which, according to our theoretical framework, are the ones exhibiting superior generalization performance. This study shows that distribution-dependent bounds serve as a powerful tool to understand the complex dynamics behind the generalization capabilities of over-parameterized interpolators.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# クロスドメイン人物再識別のための一般化可能なメトリックネットワーク

Generalizable Metric Network for Cross-domain Person Re-identification ( http://arxiv.org/abs/2306.11991v2 )

ライセンス: Link先を確認
Lei Qi, Ziang Liu, Yinghuan Shi, Xin Geng, (参考訳) 個人再識別(Re-ID)は公共の安全にとって重要な技術であり、監督された設定において大きな進歩を遂げている。 しかし、クロスドメイン(すなわち、ドメインの一般化)のシーンは、未確認のテストドメインとトレーニングとテストセット間のドメインシフトによるRe-IDタスクの課題を示す。 この課題に対処するために、既存のほとんどのメソッドは、すべてのドメインのドメイン不変または堅牢な機能を学ぶことを目的としています。 本稿では,サンプルペア空間において,トレーニングセットとテストセット間のデータ分配ギャップが,サンプルインスタンス空間よりも小さいことを観察する。 そこで本研究では,サンプルペア空間における標本類似性をさらに探求するために,GMN(Generalizable Metric Network)を提案する。 具体的には、メインネットワークにMetric Network(M-Net)を追加し、正と負のサンプルペア機能でトレーニングし、テスト段階で使用します。 さらに,Dropout-based Perturbation (DP) モジュールを導入し,サンプルペアの多様性を豊かにすることで,メトリックネットワークの一般化能力を高める。 さらに,ペア同一性を持つサンプルペア特徴が一貫したものであることを保証し,モデルの識別性を高めるため,ペア同一性センター(PIC)の損失を発生させる。 提案手法の有効性を,複数のベンチマークデータセットを用いた多数の実験により検証し,GMNにおける各モジュールの価値を確認する。

Person Re-identification (Re-ID) is a crucial technique for public security and has made significant progress in supervised settings. However, the cross-domain (i.e., domain generalization) scene presents a challenge in Re-ID tasks due to unseen test domains and domain-shift between the training and test sets. To tackle this challenge, most existing methods aim to learn domain-invariant or robust features for all domains. In this paper, we observe that the data-distribution gap between the training and test sets is smaller in the sample-pair space than in the sample-instance space. Based on this observation, we propose a Generalizable Metric Network (GMN) to further explore sample similarity in the sample-pair space. Specifically, we add a Metric Network (M-Net) after the main network and train it on positive and negative sample-pair features, which is then employed during the test stage. Additionally, we introduce the Dropout-based Perturbation (DP) module to enhance the generalization capability of the metric network by enriching the sample-pair diversity. Moreover, we develop a Pair-Identity Center (PIC) loss to enhance the model's discrimination by ensuring that sample-pair features with the same pair-identity are consistent. We validate the effectiveness of our proposed method through a lot of experiments on multiple benchmark datasets and confirm the value of each module in our GMN.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# 曖昧な画像のアノテーション:実世界バイオメディカル検証による高品質データの一般的なアノテーション戦略

Annotating Ambiguous Images: General Annotation Strategy for High-Quality Data with Real-World Biomedical Validation ( http://arxiv.org/abs/2306.12189v2 )

ライセンス: Link先を確認
Lars Schmarje, Vasco Grossmann, Claudius Zelenka, Johannes Brünger, Reinhard Koch, (参考訳) 画像分類の分野では、既存の手法はバイアスや曖昧なデータに悩まされることが多い。 半教師付き学習とクラスブレンディングを含む現在の戦略は、部分的な解決策を提供するが、決定的な解決方法がない。 このギャップに対処するため,本稿では,課題のあるデータセットで高品質なラベルを生成するための新たな戦略を提案する。 私たちのアプローチの中心は、信頼性のあるラベルの作成を可能にする広範な文献レビューに基づいて、明確に設計されたフローチャートです。 バイオメディカル分野における厳密な実世界テストケースを用いて,本手法の有効性を検証した。 われわれの実証研究は、25万以上のアノテーションを活用して、戦略決定の有効性を、その代替手段と比較して実証している。

In the field of image classification, existing methods often struggle with biased or ambiguous data, a prevalent issue in real-world scenarios. Current strategies, including semi-supervised learning and class blending, offer partial solutions but lack a definitive resolution. Addressing this gap, our paper introduces a novel strategy for generating high-quality labels in challenging datasets. Central to our approach is a clearly designed flowchart, based on a broad literature review, which enables the creation of reliable labels. We validate our methodology through a rigorous real-world test case in the biomedical field, specifically in deducing height reduction from vertebral imaging. Our empirical study, leveraging over 250,000 annotations, demonstrates the effectiveness of our strategies decisions compared to their alternatives.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# 大規模言語モデル(LLM)時代のレコメンダシステム

Recommender Systems in the Era of Large Language Models (LLMs) ( http://arxiv.org/abs/2307.02046v6 )

ライセンス: Link先を確認
Zihuai Zhao, Wenqi Fan, Jiatong Li, Yunqing Liu, Xiaowei Mei, Yiqi Wang, Zhen Wen, Fei Wang, Xiangyu Zhao, Jiliang Tang, Qing Li, (参考訳) eコマースとWebアプリケーションの繁栄により、Recommender Systems(RecSys)は私たちの日常生活の重要なコンポーネントとなり、ユーザの好みに合わせてパーソナライズされた提案を提供しています。 ディープニューラルネットワーク(DNN)は、ユーザとイテムのインタラクションをモデル化し、テキスト側情報を取り入れることでレコメンダシステムの強化に大きく進歩しているが、DNNベースの手法は、ユーザの関心の理解の困難さやテキスト側情報の取得、さまざまなレコメンデーションシナリオの一般化の障害、予測の推論など、制限に直面している。 一方、ChatGPTやGPT4といった大規模言語モデル(LLM)の出現は、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 その結果、最近の研究はレコメンダシステムを強化するためにLLMのパワーを活用しようと試みている。 推薦システムにおけるこの研究方向の急速な進化を考えると、既存のLLMを利用した推薦システムを要約した体系的な概要が必要である。 そこで本稿では, プレトレーニング, ファインチューニング, プロンプティングなど, LLMを活用したレコメンデータシステムの総合的なレビューを行う。 具体的には、まず、ユーザやアイテムの表現を学習するためのLLM(機能エンコーダ)のパワーを利用する代表的手法を紹介する。 次に,3つのパラダイム,すなわち事前学習,微調整,プロンプトからレコメンデーションシステムを強化するためのLLMの最近の技術について概説する。 最後に、この新興分野における今後の方向性を包括的に論じる。

With the prosperity of e-commerce and web applications, Recommender Systems (RecSys) have become an important component of our daily life, providing personalized suggestions that cater to user preferences. While Deep Neural Networks (DNNs) have made significant advancements in enhancing recommender systems by modeling user-item interactions and incorporating textual side information, DNN-based methods still face limitations, such as difficulties in understanding users' interests and capturing textual side information, inabilities in generalizing to various recommendation scenarios and reasoning on their predictions, etc. Meanwhile, the emergence of Large Language Models (LLMs), such as ChatGPT and GPT4, has revolutionized the fields of Natural Language Processing (NLP) and Artificial Intelligence (AI), due to their remarkable abilities in fundamental responsibilities of language understanding and generation, as well as impressive generalization and reasoning capabilities. As a result, recent studies have attempted to harness the power of LLMs to enhance recommender systems. Given the rapid evolution of this research direction in recommender systems, there is a pressing need for a systematic overview that summarizes existing LLM-empowered recommender systems, to provide researchers in relevant fields with an in-depth understanding. Therefore, in this paper, we conduct a comprehensive review of LLM-empowered recommender systems from various aspects including Pre-training, Fine-tuning, and Prompting. More specifically, we first introduce representative methods to harness the power of LLMs (as a feature encoder) for learning representations of users and items. Then, we review recent techniques of LLMs for enhancing recommender systems from three paradigms, namely pre-training, fine-tuning, and prompting. Finally, we comprehensively discuss future directions in this emerging field.
翻訳日:2024-05-01 01:24:18 公開日:2024-04-29
# MMBench: マルチモーダルモデルはオールアラウンドプレイヤーか?

MMBench: Is Your Multi-modal Model an All-around Player? ( http://arxiv.org/abs/2307.06281v4 )

ライセンス: Link先を確認
Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, Dahua Lin, (参考訳) 大規模視覚言語モデルは近年顕著な進歩を遂げており、視覚情報に関する認識と推論能力を示している。 しかし、これらの大きな視覚言語モデルをどのように効果的に評価するかは大きな障害であり、将来のモデル開発を妨げる。 VQAv2やCOCO Captionのような従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非ロバスト評価の指標が欠如している。 近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。 これらの課題に対応するために,新しいマルチモーダリティ・ベンチマークであるMMBenchを提案する。 MMBenchは、主に2つの要素からなる包括的な評価パイプラインを方法論的に開発する。 第1の要素は厳密にキュレートされたデータセットで、既存の類似ベンチマークを、さまざまな評価質問や能力で上回っている。 第2の要素は、新しいCircularEval戦略を導入し、ChatGPTの使用を取り入れている。 この実装は、自由形式の予測を事前定義された選択に変換するように設計されており、それによってモデルの予測をより堅牢に評価することができる。 MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。 MMBenchは、研究コミュニティのモデルの評価を向上し、この分野の今後の進歩を後押しすることを期待している。 プロジェクトページ: https://opencompass.org.cn/mmbench

Large vision-language models have recently achieved remarkable progress, exhibiting great perception and reasoning abilities concerning visual information. However, how to effectively evaluate these large vision-language models remains a major obstacle, hindering future model development. Traditional benchmarks like VQAv2 or COCO Caption provide quantitative performance measurements but suffer from a lack of fine-grained ability assessment and non-robust evaluation metrics. Recent subjective benchmarks, such as OwlEval, offer comprehensive evaluations of a model's abilities by incorporating human labor, but they are not scalable and display significant bias. In response to these challenges, we propose MMBench, a novel multi-modality benchmark. MMBench methodically develops a comprehensive evaluation pipeline, primarily comprised of two elements. The first element is a meticulously curated dataset that surpasses existing similar benchmarks in terms of the number and variety of evaluation questions and abilities. The second element introduces a novel CircularEval strategy and incorporates the use of ChatGPT. This implementation is designed to convert free-form predictions into pre-defined choices, thereby facilitating a more robust evaluation of the model's predictions. MMBench is a systematically-designed objective benchmark for robustly evaluating the various abilities of vision-language models. We hope MMBench will assist the research community in better evaluating their models and encourage future advancements in this domain. Project page: https://opencompass.org.cn/mmbench.
翻訳日:2024-05-01 01:14:26 公開日:2024-04-29
# ニューラルネットワーク共振器の潜時空間表現

Latent Space Representations of Neural Algorithmic Reasoners ( http://arxiv.org/abs/2307.08874v2 )

ライセンス: Link先を確認
Vladimir V. Mirjanić, Razvan Pascanu, Petar Veličković, (参考訳) ニューラルアルゴリズム推論(Neural Algorithmic Reasoning, NAR)は、アルゴリズムの実行を学ぶことによって、古典的な計算を確実にキャプチャできるニューラルネットワークの設計に焦点を当てた研究分野である。 典型的なアプローチは、アルゴリズムの実行中に繰り返し変換される高次元潜在空間の入力をエンコードするグラフニューラルネットワーク(GNN)アーキテクチャに依存する。 本稿では,アルゴリズムの実行時にGNNによって誘導される潜伏空間の構造を詳細に解析する。 可能な障害モードは2つあります。 一 分解能の喪失により、類似の値の区別が困難となること。 二 訓練中に観察した範囲外の値を扱うことができないこと。 本稿では,ソフトマックスアグリゲータに頼って最初の問題を解くことを提案するとともに,範囲外値を扱うために潜在空間を減衰させることを提案する。 これらの変更は、最先端のTriplet-GMPNNプロセッサを使用する場合、CLRS-30ベンチマークのアルゴリズムの大部分の改善につながることを示す。 私たちのコードはhttps://github.com/mirjanic/nar-latent-spacesで利用可能です。

Neural Algorithmic Reasoning (NAR) is a research area focused on designing neural architectures that can reliably capture classical computation, usually by learning to execute algorithms. A typical approach is to rely on Graph Neural Network (GNN) architectures, which encode inputs in high-dimensional latent spaces that are repeatedly transformed during the execution of the algorithm. In this work we perform a detailed analysis of the structure of the latent space induced by the GNN when executing algorithms. We identify two possible failure modes: (i) loss of resolution, making it hard to distinguish similar values; (ii) inability to deal with values outside the range observed during training. We propose to solve the first issue by relying on a softmax aggregator, and propose to decay the latent space in order to deal with out-of-range values. We show that these changes lead to improvements on the majority of algorithms in the standard CLRS-30 benchmark when using the state-of-the-art Triplet-GMPNN processor. Our code is available at https://github.com/mirjanic/nar-latent-spaces
翻訳日:2024-05-01 01:14:26 公開日:2024-04-29
# AIヒルベルトによるデータと背景知識の統合による科学的発見の進化

Evolving Scientific Discovery by Unifying Data and Background Knowledge with AI Hilbert ( http://arxiv.org/abs/2308.09474v3 )

ライセンス: Link先を確認
Ryan Cory-Wright, Cristina Cornelio, Sanjeeb Dash, Bachir El Khadir, Lior Horesh, (参考訳) 自然現象を同義に説明し、既存の背景理論と整合する科学公式の発見は、科学の重要な目標である。 歴史的に科学者は、既存の知識に基づいて方程式を操作し、新しい方程式を形成し、それらを実験的に検証することで、自然法則を導出してきた。 近年、大量の実験データを持つ環境では、データ駆動の科学的発見が有効な競争相手として浮上している。 残念なことに、データ駆動の手法は、データがノイズや不足している場合に有効な法則を見つけるのに失敗することが多い。 したがって、最近の研究は回帰と推論を組み合わせて、背景理論と矛盾する公式を排除している。 しかし、背景理論と整合した公式空間を探索して、データに最も適した公式を見つけるという問題は、十分に解決されていない。 我々は、すべての公理と科学法則が多項式等式と不等式によって表現可能である場合のこの問題に対する解決策を提案し、我々のアプローチが広く適用可能であることを主張する。 我々は、二項変数と論理的制約を用いて最小の複雑性の概念をモデル化し、混合整数線形あるいは半定値最適化による多項式最適化問題を解き、Positivstellensatz証明を用いて原理的に科学的発見の有効性を証明した。 本論文で活用した最適化手法により, 偏微分の複雑性が有界であるという仮定の下で, 完全に正しい背景理論を持つ多項式時間, あるいは, 部分的に正しい背景理論を持つ非決定論的多項式 (NP) 時間で実行することができる。 我々はケプラーの第3惑星運動法則、ハーゲン・ポアゼイユ方程式、放射重力波力方程式などの有名な科学法則が、公理や実験データから原理的に導出できることを実証した。

The discovery of scientific formulae that parsimoniously explain natural phenomena and align with existing background theory is a key goal in science. Historically, scientists have derived natural laws by manipulating equations based on existing knowledge, forming new equations, and verifying them experimentally. In recent years, data-driven scientific discovery has emerged as a viable competitor in settings with large amounts of experimental data. Unfortunately, data-driven methods often fail to discover valid laws when data is noisy or scarce. Accordingly, recent works combine regression and reasoning to eliminate formulae inconsistent with background theory. However, the problem of searching over the space of formulae consistent with background theory to find one that best fits the data is not well-solved. We propose a solution to this problem when all axioms and scientific laws are expressible via polynomial equalities and inequalities and argue that our approach is widely applicable. We model notions of minimal complexity using binary variables and logical constraints, solve polynomial optimization problems via mixed-integer linear or semidefinite optimization, and prove the validity of our scientific discoveries in a principled manner using Positivstellensatz certificates. The optimization techniques leveraged in this paper allow our approach to run in polynomial time with fully correct background theory under an assumption that the complexity of our derivation is bounded), or non-deterministic polynomial (NP) time with partially correct background theory. We demonstrate that some famous scientific laws, including Kepler's Third Law of Planetary Motion, the Hagen-Poiseuille Equation, and the Radiated Gravitational Wave Power equation, can be derived in a principled manner from axioms and experimental data.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# 物理インフォームドニューラルネットワークのためのベイズ推論

Bayesian Reasoning for Physics Informed Neural Networks ( http://arxiv.org/abs/2308.13222v2 )

ライセンス: Link先を確認
Krzysztof M. Graczyk, Kornel Witkowski, (参考訳) ベイジアン定式化における物理インフォームドニューラルネットワーク(PINN)の応用について述べる。 ラプラス近似から後部密度を得るためにベイズニューラルネットワークの枠組みを採用した。 それぞれのモデルまたは適合について、エビデンスを計算し、仮説を分類する尺度である。 最適解は、最も高い証拠価値を持つ解である。 我々はモデルのハイパーパラメータを得るためにベイズアルゴリズムの修正を提案している。 ベイズフレームワークでは、境界と方程式の相対重みが全体の損失に寄与していることが示されている。 提案手法は,Hybrid Monte Carloアルゴリズム (HMC) の後方分布から抽出した手法に匹敵する予測を行う。 我々は熱、波動、バーガー方程式を解き、得られた結果は正確な解と一致し、我々のアプローチの有効性を実証した。 バーガーの方程式問題において、このフレームワークは微分方程式とポテンシャル測定からの情報を組み合わせることができることを示した。 すべての解には、ベイズフレームワーク内で計算される不確実性(モデルのパラメータ依存によって引き起こされる)が与えられる。

We present the application of the physics-informed neural network (PINN) approach in Bayesian formulation. We have adopted the Bayesian neural network framework to obtain posterior densities from Laplace approximation. For each model or fit, the evidence is computed, which is a measure that classifies the hypothesis. The optimal solution is the one with the highest value of evidence. We have proposed a modification of the Bayesian algorithm to obtain hyperparameters of the model. We have shown that within the Bayesian framework, one can obtain the relative weights between the boundary and equation contributions to the total loss. Presented method leads to predictions comparable to those obtained by sampling from the posterior distribution within the Hybrid Monte Carlo algorithm (HMC). We have solved heat, wave, and Burger's equations, and the results obtained are in agreement with the exact solutions, demonstrating the effectiveness of our approach. In Burger's equation problem, we have demonstrated that the framework can combine information from differential equations and potential measurements. All solutions are provided with uncertainties (induced by the model's parameter dependence) computed within the Bayesian framework.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# 量子スピン鎖の作業統計:量子相転移の特徴付け、ベンチマーク時間進化、量子状態の通過率の検討

Work statistics for Quantum Spin Chains: characterizing quantum phase transitions, benchmarking time evolution, and examining passivity of quantum states ( http://arxiv.org/abs/2308.13366v4 )

ライセンス: Link先を確認
Feng-Li Lin, Ching-Yu Huang, (参考訳) 本研究では, 量子スピン鎖のゆらぎ定理の文脈における作業統計の3つの側面について, 行列積状態(MPS)に基づく数値的手法を用いて検討した。 まず,Ising や Haldane のスピン鎖上の急激なクエンチ過程によって行われる仕事のモーメント/累積を数値的に評価し,それらの挙動を量子相転移で調べる。 この結果から,第4累積まで,局所的な順序パラメータによって特徴づけられる量子相転移を示すことができるが,純粋に位相相転移には至らないことが示唆された。 第2に、実時間相関関数と熱分割関数の比を関連付けるジャジンスキーの等式のような揺らぎ定理を、数値的リアルタイム進化法のベンチマーク指標として用いることを提案する。 第三に、いくつかの循環的インパルス過程下での量子スピン鎖の基底状態と熱状態の相似性について検討する。 エルミタン作用下での熱状態と基底状態の通過性はそれぞれ第2の法則と変分原理によって保証され、数値計算により検証されることを示す。 さらに、変分原理を適用できない非エルミート作用下での基底状態の通過性についても考察する。 それにもかかわらず、Ising および Haldane 連鎖で考慮されたすべてのケースに対して、数値結果から通過性に違反することはない。 以上の結果から, 量子相転移を特徴付ける数値MPS法を用いて, 急激なクエンチ過程とインパルス過程の作業統計を正確に評価し, 量子状態の通過率を調べた。 また、揺らぎ定理の普遍性を利用して、アルゴリズムとモデル独立な方法で数値的リアルタイム進化をベンチマークする。

We study three aspects of work statistics in the context of the fluctuation theorem for the quantum spin chains up to $1024$ sites by numerical methods based on matrix-product states (MPS). First, we use our numerical method to evaluate the moments/cumulants of work done by sudden quench process on the Ising or Haldane spin chains and study their behaviors across the quantum phase transitions. Our results show that, up to the fourth cumulant, the work statistics can indicate the quantum phase transition characterized by the local order parameters but barely for purely topological phase transitions. Second, we propose to use the fluctuation theorem, such as Jarzynski's equality, which relates the real-time correlator to the ratio of the thermal partition functions, as a benchmark indicator for the numerical real-time evolving methods. Third, we study the passivity of ground and thermal states of quantum spin chains under some cyclic impulse processes. We show that the passivity of thermal states and ground states under the hermitian actions are ensured by the second laws and variational principles, respectively, and also verify it by numerical calculations. Besides, we also consider the passivity of ground states under non-hermitian actions, for which the variational principle cannot be applied. Despite that, we find no violation of passivity from our numerical results for all the cases considered in the Ising and Haldane chains. {Overall, we demonstrate that the work statistics for the sudden quench and impulse processes can be evaluated precisely by the numerical MPS method to characterize quantum phase transitions and examine the passivity of quantum states. We also propose to exploit the universality of the fluctuation theorem to benchmark the numerical real-time evolutions in an algorithm and model independent way.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# グラフニューラルネットワークのオーバースカッシング: 総合的な調査

Over-Squashing in Graph Neural Networks: A Comprehensive survey ( http://arxiv.org/abs/2308.15568v6 )

ライセンス: Link先を確認
Singh Akansha, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習に革命をもたらし、複雑な関係を効果的にキャプチャする。 相互接続されたノードを通じて情報を拡散するが、長距離の相互作用は「オーバー・スカッシング」と呼ばれる課題に直面している。 この調査は、長距離情報の拡散が妨げられるグラフニューラルネットワーク(GNN)におけるオーバー・スカッシングの課題を掘り下げ、複雑な長距離通信に依存するタスクに影響を与える。 オーバースカッシングの原因、結果、緩和戦略を包括的に探求する。 グラフのリウィリング、新しい正規化、スペクトル分析、曲率に基づく戦略など、さまざまな手法がレビューされ、トレードオフと有効性に焦点が当てられている。 オーバー・スクワッシングとオーバー・スムーシングのような他のGNN制限との相互作用についても論じており、ノードやグラフレベルのタスクでこれらの問題に対処するために設計されたモデルの分類を提供している。 パフォーマンス評価のためのベンチマークデータセットも詳細であり、この調査はGNN分野の研究者や実践者にとって貴重なリソースである。

Graph Neural Networks (GNNs) revolutionize machine learning for graph-structured data, effectively capturing complex relationships. They disseminate information through interconnected nodes, but long-range interactions face challenges known as "over-squashing". This survey delves into the challenge of over-squashing in Graph Neural Networks (GNNs), where long-range information dissemination is hindered, impacting tasks reliant on intricate long-distance interactions. It comprehensively explores the causes, consequences, and mitigation strategies for over-squashing. Various methodologies are reviewed, including graph rewiring, novel normalization, spectral analysis, and curvature-based strategies, with a focus on their trade-offs and effectiveness. The survey also discusses the interplay between over-squashing and other GNN limitations, such as over-smoothing, and provides a taxonomy of models designed to address these issues in node and graph-level tasks. Benchmark datasets for performance evaluation are also detailed, making this survey a valuable resource for researchers and practitioners in the GNN field.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# Bengali Document Layout Analysis -- YOLOV8ベースの実装アプローチ

Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach ( http://arxiv.org/abs/2309.00848v3 )

ライセンス: Link先を確認
Nazmus Sakib Ahmed, Saad Sakib Noor, Ashraful Islam Shanto Sikder, Abhijit Paul, (参考訳) 本稿では, YOLOv8モデルと革新的な後処理技術を用いて, Bengali Document Layout Analysis (DLA) の強化に着目する。 我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。 厳密な検証セットの評価の後、我々は完全なデータセットにアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。 我々のアンサンブルモデルと後処理の組み合わせは、BaDLADデータセットで特定された問題に対処しながら、個々のベースアーキテクチャよりも優れています。 このアプローチを活用することで,ベンガルの文書分析を推進し,OCRの改善と文書理解に寄与することを目指しており,BaDLADはこの取り組みの基盤として機能し,今後の研究を支援する。 さらに、我々の実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。

This paper focuses on enhancing Bengali Document Layout Analysis (DLA) using the YOLOv8 model and innovative post-processing techniques. We tackle challenges unique to the complex Bengali script by employing data augmentation for model robustness. After meticulous validation set evaluation, we fine-tune our approach on the complete dataset, leading to a two-stage prediction strategy for accurate element segmentation. Our ensemble model, combined with post-processing, outperforms individual base architectures, addressing issues identified in the BaDLAD dataset. By leveraging this approach, we aim to advance Bengali document analysis, contributing to improved OCR and document comprehension and BaDLAD serves as a foundational resource for this endeavor, aiding future research in the field. Furthermore, our experiments provided key insights to incorporate new strategies into the established solution.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# 金融時系列予測におけるディープラーニングのデータのスケーリング効果

Data Scaling Effect of Deep Learning in Financial Time Series Forecasting ( http://arxiv.org/abs/2309.02072v4 )

ライセンス: Link先を確認
Chen Liu, Minh-Ngoc Tran, Chao Wang, Richard Gerlach, Robert Kohn, (参考訳) 長年にわたり、研究者たちは金融時系列の予測においてディープラーニングの利用を探求してきた。 しかし、彼らはモデルの最適化に従来の計量的アプローチを頼り続け、個々の資産のディープラーニングモデルを最適化している。 本稿では,金融時系列の予測にディープラーニングを活用することに関心のある学術的・産業的実践者に対して,グローバルトレーニング(幅広い株式にわたるディープラーニングモデルを最適化する)の例として,ストックボラティリティ予測を用いる。 さらに、ボラティリティ予測のための事前訓練された基礎モデルを導入し、あらゆる株について正確なゼロショット予測を行うことができる。

For many years, researchers have been exploring the use of deep learning in the forecasting of financial time series. However, they have continued to rely on the conventional econometric approach for model optimization, optimizing the deep learning models on individual assets. In this paper, we use the stock volatility forecast as an example to illustrate global training - optimizes the deep learning model across a wide range of stocks - is both necessary and beneficial for any academic or industry practitioners who is interested in employing deep learning to forecast financial time series. Furthermore, a pre-trained foundation model for volatility forecast is introduced, capable of making accurate zero-shot forecasts for any stocks.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# PRISM: EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用

PRISM: Leveraging Prototype Patient Representations with Feature-Missing-Aware Calibration for EHR Data Sparsity Mitigation ( http://arxiv.org/abs/2309.04160v4 )

ライセンス: Link先を確認
Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Liantao Ma, Chengwei Pan, (参考訳) EHR(Electronic Health Record)のデータは情報に富んでいるが、しばしばスパーシティに悩まされ、予測モデリングにおいて重大な課題を提起する。 従来の計算手法では、実際のデータとインプットデータの区別が不十分であり、モデルにおける潜在的な不正確さにつながる。 PRISMは、類似した患者のプロトタイプ表現を通じてデータを間接的にインプットし、より密で正確な埋め込みを保証するフレームワークである。 PRISMには機能信頼学習モジュールも含まれており、欠落したデータから各機能の信頼性を評価する。 さらに、不正確なインプット値に対する過度な信頼を回避し、機能の信頼性を考慮に入れた新しい患者類似度指標も組み込まれている。 MIMIC-III, MIMIC-IV, PhysioNet Challenge 2012, eICUデータセットに関する広範な実験では、PRISMが病院内での死亡率や30日間の受信タスクを予測する上で優れた性能を示し、EHRデータの空間性を扱う上での有効性を示している。 再現性とさらなる研究のために、コードをhttps://github.com/yhzhu99/PRISM.comで公開しました。

Electronic Health Record (EHR) data, while rich in information, often suffers from sparsity, posing significant challenges in predictive modeling. Traditional imputation methods inadequately distinguish between real and imputed data, leading to potential inaccuracies in models. Addressing this, we introduce PRISM, a framework that indirectly imputes data through prototype representations of similar patients, thus ensuring denser and more accurate embeddings. PRISM also includes a feature confidence learner module, which evaluates the reliability of each feature in light of missing data. Additionally, it incorporates a new patient similarity metric that accounts for feature confidence, avoiding overreliance on imprecise imputed values. Our extensive experiments on the MIMIC-III, MIMIC-IV, PhysioNet Challenge 2012, eICU datasets demonstrate PRISM 's superior performance in predicting in-hospital mortality and 30-day readmission tasks, showcasing its effectiveness in handling EHR data sparsity. For the sake of reproducibility and further research, we have made the code publicly available at https://github.com/yhzhu99/PRISM.
翻訳日:2024-05-01 01:04:37 公開日:2024-04-29
# 有限および雑音データを用いた開形式偏微分方程式の物理制約付きロバスト学習

Physics-constrained robust learning of open-form partial differential equations from limited and noisy data ( http://arxiv.org/abs/2309.07672v2 )

ライセンス: Link先を確認
Mengge Du, Yuntian Chen, Longfeng Nie, Siyu Lou, Dongxiao Zhang, (参考訳) 非線形力学系の支配方程式の解法は依然として大きな課題である。 不十分な事前知識は正確な候補ライブラリの決定を妨げ、ノイズの多い観測は不正確な評価を導き、結果として冗長な関数項や誤式をもたらす。 本研究では,自由形式偏微分方程式(PDE)を有限・雑音データから頑健に解明する枠組みを提案する。 このフレームワークは,2つの更新プロセス – 発見と埋め込み – を通じて動作する。 発見フェーズはシンボル表現と新しい強化学習(RL)誘導ハイブリッドPDEジェネレータを用いて、ツリー構造を持つ多様なオープンフォームPDEを効率的に生成する。 ニューラルネットワークに基づく予測モデルは、システム応答に適合し、生成されたPDEに対する報酬評価器として機能する。 高い報酬を持つPDEを用いて、RL戦略を介してジェネレータを反復的に最適化し、パラメータフリー安定度で最良のPDEを選択する。 埋め込みフェーズは、発見過程から最初に特定されたPDEを物理的制約として、堅牢なトレーニングのための予測モデルに統合する。 PDEツリーのトラバースは、人間の介入なしに計算グラフと埋め込みプロセスの構築を自動化する。 数値実験により,非線形力学系から高ノイズなデータを用いて制御方程式を抽出し,他の物理インフォームドニューラルネットワークによる探索法より優れていることを示す。 この研究は、限られた知識で現実世界のシステムを探索する新たな可能性を開く。

Unveiling the underlying governing equations of nonlinear dynamic systems remains a significant challenge. Insufficient prior knowledge hinders the determination of an accurate candidate library, while noisy observations lead to imprecise evaluations, which in turn result in redundant function terms or erroneous equations. This study proposes a framework to robustly uncover open-form partial differential equations (PDEs) from limited and noisy data. The framework operates through two alternating update processes: discovering and embedding. The discovering phase employs symbolic representation and a novel reinforcement learning (RL)-guided hybrid PDE generator to efficiently produce diverse open-form PDEs with tree structures. A neural network-based predictive model fits the system response and serves as the reward evaluator for the generated PDEs. PDEs with higher rewards are utilized to iteratively optimize the generator via the RL strategy and the best-performing PDE is selected by a parameter-free stability metric. The embedding phase integrates the initially identified PDE from the discovering process as a physical constraint into the predictive model for robust training. The traversal of PDE trees automates the construction of the computational graph and the embedding process without human intervention. Numerical experiments demonstrate our framework's capability to uncover governing equations from nonlinear dynamic systems with limited and highly noisy data and outperform other physics-informed neural network-based discovery methods. This work opens new potential for exploring real-world systems with limited understanding.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# ベクトル値カーネル回帰のためのオンラインアルゴリズムの収束解析

Convergence analysis of online algorithms for vector-valued kernel regression ( http://arxiv.org/abs/2309.07779v2 )

ライセンス: Link先を確認
Michael Griebel, Peter Oswald, (参考訳) 本稿では, 適切な再生カーネルHilbert空間(RKHS)を用いたオンライン学習アルゴリズムを用いて, ノイズの多いベクトル値データから回帰関数を近似する問題を考える。 オンラインアルゴリズムでは、サンプルはランダムなプロセスによって一つずつ利用可能となり、回帰関数に近似を構築するために順次処理される。 我々は、そのようなオンライン近似アルゴリズムの漸近的性能に興味を持ち、RKHSノルムの期待二乗誤差が$C^2 (m+1)^{-s/(2+s)}$でバウンドできることを示し、$m$は現在の処理データの数であり、パラメータ$0<s\leq 1$は回帰関数に対するさらなる滑らかさの仮定を表し、定数$C$は入力ノイズの分散、回帰関数の滑らかさ、アルゴリズムのさらなるパラメータに依存する。

We consider the problem of approximating the regression function from noisy vector-valued data by an online learning algorithm using an appropriate reproducing kernel Hilbert space (RKHS) as prior. In an online algorithm, i.i.d. samples become available one by one by a random process and are successively processed to build approximations to the regression function. We are interested in the asymptotic performance of such online approximation algorithms and show that the expected squared error in the RKHS norm can be bounded by $C^2 (m+1)^{-s/(2+s)}$, where $m$ is the current number of processed data, the parameter $0<s\leq 1$ expresses an additional smoothness assumption on the regression function and the constant $C$ depends on the variance of the input noise, the smoothness of the regression function and further parameters of the algorithm.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# SCT:Salient Channelsを用いたパラメータ効率の良いファインチューニングのための簡易ベースライン

SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels ( http://arxiv.org/abs/2309.08513v5 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou, (参考訳) 事前学習された視覚変換器は、様々な下流タスクに強力な表現上の利点がある。 近年,多くのパラメータ効率細調整法が提案されており,その実験により,低データのリソースシナリオにおいて,パラメータの調整が完全な微調整を超えることが示されている。 しかし、これらの手法は、様々な下流タスクを微調整する際、タスク固有の情報を見落としている。 本稿では,SCT(Salient Channel Tuning)と呼ばれる簡易かつ効果的な手法を提案する。タスクイメージをモデルに転送し,特徴マップ内の部分的なチャネルを選択することで,パラメータコストを大幅に低減する1/8チャネルのみをチューニングできる。 19の視覚的伝達学習タスクの実験では、SCTは19のタスクのうち18のタスクに対して、完全な微調整よりも780$\times$のVT-Bのパラメータをわずか0.11M加えることで、完全な微調整よりも優れていた。 さらに、ドメインの一般化と少数ショット分類に関する実験は、我々のアプローチの有効性と汎用性をさらに示している。 コードはhttps://github.com/showlab/SCTで公開されている。

Pre-trained vision transformers have strong representation benefits to various downstream tasks. Recently, many parameter-efficient fine-tuning (PEFT) methods have been proposed, and their experiments demonstrate that tuning only 1\% extra parameters could surpass full fine-tuning in low-data resource scenarios. However, these methods overlook the task-specific information when fine-tuning diverse downstream tasks. In this paper, we propose a simple yet effective method called "Salient Channel Tuning" (SCT) to leverage the task-specific information by forwarding the model with the task images to select partial channels in a feature map that enables us to tune only 1/8 channels leading to significantly lower parameter costs. Experiments on 19 visual transfer learning downstream tasks demonstrate that our SCT outperforms full fine-tuning on 18 out of 19 tasks by adding only 0.11M parameters of the ViT-B, which is 780$\times$ fewer than its full fine-tuning counterpart. Furthermore, experiments on domain generalization and few-shot classification further demonstrate the effectiveness and generic of our approach. The code is available at https://github.com/showlab/SCT.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# Self2Seg:シングルイメージで自己監督された関節分割とデノイング

Self2Seg: Single-Image Self-Supervised Joint Segmentation and Denoising ( http://arxiv.org/abs/2309.10511v2 )

ライセンス: Link先を確認
Nadja Gruber, Johannes Schwab, Noémie Debroux, Nicolas Papadakis, Markus Haltmeier, (参考訳) 単一画像の分割とデノナイズのための自己教師型手法であるSelf2Segを開発した。 この目的のために、変分分法と自己教師付きディープラーニングの利点を組み合わせる。 我々の方法の大きな利点の1つは、大量のラベル付きサンプルが必要なデータ駆動手法とは対照的に、Self2Segはトレーニングデータベースを使わずにイメージを有意義な領域に分割するという事実である。 さらに,自己教師型認知そのものが,自己2Segの地域固有の学習によって著しく改善されていることを実証した。 そこで我々は,2つのタスクが互いに恩恵を受けるように,分節と分節を結合した,新しい自己教師型エネルギー機能を導入する。 我々は,統一最適化戦略を提案し,ノイズの多い顕微鏡画像に対して,提案するジョイントアプローチが,純粋にデノナイズやセグメンテーションに焦点を当てた代替手法よりも優れていることを示す。

We develop Self2Seg, a self-supervised method for the joint segmentation and denoising of a single image. To this end, we combine the advantages of variational segmentation with self-supervised deep learning. One major benefit of our method lies in the fact, that in contrast to data-driven methods, where huge amounts of labeled samples are necessary, Self2Seg segments an image into meaningful regions without any training database. Moreover, we demonstrate that self-supervised denoising itself is significantly improved through the region-specific learning of Self2Seg. Therefore, we introduce a novel self-supervised energy functional in which denoising and segmentation are coupled in a way that both tasks benefit from each other. We propose a unified optimisation strategy and numerically show that for noisy microscopy images our proposed joint approach outperforms its sequential counterpart as well as alternative methods focused purely on denoising or segmentation.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# GANベースのX線画像におけるモード崩壊問題に対する適応入力画像正規化

Adaptive Input-image Normalization for Solving the Mode Collapse Problem in GAN-based X-ray Images ( http://arxiv.org/abs/2309.12245v3 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Mubashir Husain Rehmani, Ruairi O'Reilly, (参考訳) バイオメディカル画像データセットは、標的疾患の希少性のために不均衡にすることができる。 合成画像の生成によってデータセットを増大させることにより、この不均衡に対処する上で、ジェネレーティブ・アドバイサル・ネットワークは重要な役割を果たす。 トレーニング画像に含まれる特徴の分布を正確に表現するために,多様な特徴を含む合成画像を生成することが重要である。 さらに、合成画像に多様な特徴がないことは、機械学習分類器の性能を低下させる可能性がある。 モード崩壊問題は、ジェネレーティブ・アドバイサル・ネットワークの多様な画像を生成する能力に影響を及ぼす。 モード崩壊はクラス内とクラス間という2つの種類がある。 本稿では,モード崩壊問題の両変種について検討し,その後の合成X線画像の多様性への影響について検討する。 この研究は、適応入力-画像正規化をDeep Convolutional GANとAuxiliary Classifier GANと統合してモード崩壊問題を緩和する利点を実証的な実証に貢献する。 合成生成画像は、データ拡張とVision Transformerモデルのトレーニングに利用される。 モデルの分類性能は、精度、リコール、精度スコアを用いて評価する。 その結果,適応的な入出力正規化を伴うDCGANとACGANは,非正規化X線画像でDCGANとACGANより優れており,優れた多様性スコアと分類スコアによって証明されている。

Biomedical image datasets can be imbalanced due to the rarity of targeted diseases. Generative Adversarial Networks play a key role in addressing this imbalance by enabling the generation of synthetic images to augment datasets. It is important to generate synthetic images that incorporate a diverse range of features to accurately represent the distribution of features present in the training imagery. Furthermore, the absence of diverse features in synthetic images can degrade the performance of machine learning classifiers. The mode collapse problem impacts Generative Adversarial Networks' capacity to generate diversified images. Mode collapse comes in two varieties: intra-class and inter-class. In this paper, both varieties of the mode collapse problem are investigated, and their subsequent impact on the diversity of synthetic X-ray images is evaluated. This work contributes an empirical demonstration of the benefits of integrating the adaptive input-image normalization with the Deep Convolutional GAN and Auxiliary Classifier GAN to alleviate the mode collapse problems. Synthetically generated images are utilized for data augmentation and training a Vision Transformer model. The classification performance of the model is evaluated using accuracy, recall, and precision scores. Results demonstrate that the DCGAN and the ACGAN with adaptive input-image normalization outperform the DCGAN and ACGAN with un-normalized X-ray images as evidenced by the superior diversity scores and classification scores.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# 量子統計的クエリによる量子プロセスの学習

Learning Quantum Processes with Quantum Statistical Queries ( http://arxiv.org/abs/2310.02075v3 )

ライセンス: Link先を確認
Chirag Wadhwa, Mina Doosti, (参考訳) 複雑な量子プロセスの学習は、量子コンピューティングと量子機械学習の多くの領域において中心的な課題であり、量子ベンチマーク、暗号解析、変分量子アルゴリズムに応用されている。 本稿では,量子統計クエリ(QSQ)モデル内で量子プロセス学習を研究するための最初の学習フレームワークを紹介し,量子プロセス(QPSQ)に対する統計クエリの最初の公式定義を提供する。 このフレームワークにより、任意の量子プロセスに対して、証明可能な性能保証を伴う効率的なQPSQ学習者を提案することができる。 また,本アルゴリズムの有効性を示す数値シミュレーションも提供する。 新たなフレームワークでは,一意的な2つの設計を学習するための指数的クエリ複雑性の低い境界,一意なユニタリーを学習するための2つの指数的低境界を証明した。 このフレームワークの実践的関連性は、暗号の応用を通じて実証されており、量子ハードウェアセキュリティの分野において重要な問題に対処する、古典的可読量子物理不閉関数(CR-QPUF)の大規模クラスの脆弱性を強調している。 この研究は、量子プロセスの学習可能性を理解するための重要なステップであり、セキュリティへの影響に光を当てている。

Learning complex quantum processes is a central challenge in many areas of quantum computing and quantum machine learning, with applications in quantum benchmarking, cryptanalysis, and variational quantum algorithms. This paper introduces the first learning framework for studying quantum process learning within the Quantum Statistical Query (QSQ) model, providing the first formal definition of statistical queries to quantum processes (QPSQs). The framework allows us to propose an efficient QPSQ learner for arbitrary quantum processes accompanied by a provable performance guarantee. We also provide numerical simulations to demonstrate the efficacy of this algorithm. In our new framework, we prove exponential query complexity lower bounds for learning unitary 2-designs, and a doubly exponential lower bound for learning haar-random unitaries. The practical relevance of this framework is exemplified through application in cryptography, highlighting vulnerabilities of a large class of Classical-Readout Quantum Physical Unclonable Functions (CR-QPUFs), addressing an important open question in the field of quantum hardware security. This work marks a significant step towards understanding the learnability of quantum processes and shedding light on their security implications.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# 量子最適化におけるラグランジアン双対性:制約問題に対するQUBO制限を克服する

Lagrangian Duality in Quantum Optimization: Overcoming QUBO Limitations for Constrained Problems ( http://arxiv.org/abs/2310.04542v2 )

ライセンス: Link先を確認
Einar Gabbassov, Gili Rosenberg, Artur Scherer, (参考訳) 本稿では,ラグランジアン双対性の概念を断熱的量子計算の枠組みに組み込むことにより,制約付き組合せ最適化問題の解法を提案する。 回路モデル-フォールトトレラント量子計算の設定において、この手法が回路深さの2次的改善を実現し、二次的非拘束二元最適化(QUBO)フレームワークに基づく修正による制約付き問題を解くという一般的なアプローチとは対照的に、制約非依存の回路幅を維持することを実証する。 本研究は,制約付き最適化にQUBOを用いた場合の限界について,詳細な検討を含む。 提案手法は、より単純なハミルトニアン問題のエネルギー的に高いレベルにおいて最適解を符号化することにより、これらの制限を克服し、より資源効率のよい量子回路を実現する。 我々は,双対性ギャップや相補的スラックネスといったラグランジアン双対性の概念が最適解をサンプリングする成功確率とどのように関係するかを詳細に分析することによって,戦略を固める。 NP完全二分knapsack問題を用いて,QUBO法に対するラグランジアン双対アプローチのベンチマークを行った。

We propose an approach to solving constrained combinatorial optimization problems based on embedding the concept of Lagrangian duality into the framework of adiabatic quantum computation. Within the setting of circuit-model fault-tolerant quantum computation, we demonstrate that this approach achieves a quadratic improvement in circuit depth and maintains a constraint-independent circuit width in contrast to the prevalent approach of solving constrained problems via reformulations based on the quadratic unconstrained binary optimization (QUBO) framework. Our study includes a detailed review of the limitations encountered when using QUBO for constrained optimization. We show that the proposed method overcomes these limitations by encoding the optimal solution at an energetically elevated level of a simpler problem Hamiltonian, which results in substantially more resource-efficient quantum circuits. We consolidate our strategy with a detailed analysis on how the concepts of Lagrangian duality such as duality gap and complementary slackness relate to the success probability of sampling the optimal solution. Our findings are illustrated by benchmarking the Lagrangian dual approach against the QUBO approach using the NP-complete binary knapsack problem.
翻訳日:2024-05-01 00:54:37 公開日:2024-04-29
# 単一タンジェント空間の誤りを解き明かす:ロボット学習におけるリーマン幾何学の適用分析と解明

Unraveling the Single Tangent Space Fallacy: An Analysis and Clarification for Applying Riemannian Geometry in Robot Learning ( http://arxiv.org/abs/2310.07902v3 )

ライセンス: Link先を確認
Noémie Jaquier, Leonel Rozo, Tamim Asfour, (参考訳) ロボット工学の領域では、多くの下流ロボティクスタスクは、データ処理、モデリング、合成のための機械学習手法を活用する。 このデータは、剛体配向を表す四元数の単位ノルム条件や、剛性およびマニピュラ性エリプシドの正の定性など、本質的に幾何学的制約を持つ変数を含むことが多い。 このような幾何学的制約を効果的に扱うには、微分幾何学から機械学習手法の定式化へのツールの導入が必要である。 この文脈において、リーマン多様体はそのような幾何学的制約を扱うための強力な数学的枠組みとして現れる。 しかしながら、最近のロボット学習への導入は、主に数学的に定型化された単純化によって特徴づけられ、以下「単一接地空間誤認」と呼ばれる。 このアプローチでは、単に関心のデータを単一の接点(ユークリッド)空間に投影するだけで、そこでは既成の学習アルゴリズムが適用される。 本論文は, このアプローチを取り巻く様々な誤解を理論的に解明し, その欠点を実験的に証明するものである。 最後に、ロボット学習アプリケーションにリーマン幾何学を採用する際に、ベストプラクティスを促進するための貴重な洞察を提供する。

In the realm of robotics, numerous downstream robotics tasks leverage machine learning methods for processing, modeling, or synthesizing data. Often, this data comprises variables that inherently carry geometric constraints, such as the unit-norm condition of quaternions representing rigid-body orientations or the positive definiteness of stiffness and manipulability ellipsoids. Handling such geometric constraints effectively requires the incorporation of tools from differential geometry into the formulation of machine learning methods. In this context, Riemannian manifolds emerge as a powerful mathematical framework to handle such geometric constraints. Nevertheless, their recent adoption in robot learning has been largely characterized by a mathematically-flawed simplification, hereinafter referred to as the "single tangent space fallacy". This approach involves merely projecting the data of interest onto a single tangent (Euclidean) space, over which an off-the-shelf learning algorithm is applied. This paper provides a theoretical elucidation of various misconceptions surrounding this approach and offers experimental evidence of its shortcomings. Finally, it presents valuable insights to promote best practices when employing Riemannian geometry within robot learning applications.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-29
# ZeroSwap: DeFiにおけるデータ駆動型最適市場

ZeroSwap: Data-driven Optimal Market Making in DeFi ( http://arxiv.org/abs/2310.09413v3 )

ライセンス: Link先を確認
Viraj Nadkarni, Jiachen Hu, Ranvir Rana, Chi Jin, Sanjeev Kulkarni, Pramod Viswanath, (参考訳) AMM(Automated Market Makers)は、分散金融における流動性供給と需要に合致する主要なセンターである。 彼らの機能は主に、資産を流動性プールに投資するインセンティブを得た流動性提供者(LP)の存在に依存している。 しかし、プールされた資産が取引される価格は、中央集権的・流動的な取引所の価格よりも安定していることが多い。 これによりLPは仲裁に苦しむことになる。 この問題は、グロステンとミルグロムの古典的な市場マイクロ構造モデルを通じて捉えられたトレーダーの行動に市場価格を適応させることによって解決される。 本稿では,アセットの外部価格を最適に追跡する,最初の最適ベイズアルゴリズムとモデルフリーなデータ駆動アルゴリズムを提案する。 我々が使用する最適性の概念は、市場メーカの価格にゼロ利益条件を強制するので、ZeroSwapという名前になる。 これにより、市場メーカは、情報トレーダーに損失とノイズトレーダーからの利益のバランスをとることができる。 当社のアプローチのキーとなる特性は、価格異状や損失異状を必要とせず、外部市場価格を見積もることができることです。 これらのアルゴリズムの性能を理論的に保証し、それらの価格提案の安定性と収束を保証し、強化学習理論に独立した関心を持つ。 市場状況の変化に対するアルゴリズムの堅牢性を実証的に実証する。

Automated Market Makers (AMMs) are major centers of matching liquidity supply and demand in Decentralized Finance. Their functioning relies primarily on the presence of liquidity providers (LPs) incentivized to invest their assets into a liquidity pool. However, the prices at which a pooled asset is traded is often more stale than the prices on centralized and more liquid exchanges. This leads to the LPs suffering losses to arbitrage. This problem is addressed by adapting market prices to trader behavior, captured via the classical market microstructure model of Glosten and Milgrom. In this paper, we propose the first optimal Bayesian and the first model-free data-driven algorithm to optimally track the external price of the asset. The notion of optimality that we use enforces a zero-profit condition on the prices of the market maker, hence the name ZeroSwap. This ensures that the market maker balances losses to informed traders with profits from noise traders. The key property of our approach is the ability to estimate the external market price without the need for price oracles or loss oracles. Our theoretical guarantees on the performance of both these algorithms, ensuring the stability and convergence of their price recommendations, are of independent interest in the theory of reinforcement learning. We empirically demonstrate the robustness of our algorithms to changing market conditions.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-29
# キューディット量子コンピュータにおける2次元格子ゲージ理論のシミュレーション

Simulating 2D lattice gauge theories on a qudit quantum computer ( http://arxiv.org/abs/2310.12110v2 )

ライセンス: Link先を確認
Michael Meth, Jan F. Haase, Jinglei Zhang, Claire Edmunds, Lukas Postler, Alex Steiner, Andrew J. Jena, Luca Dellantonio, Rainer Blatt, Peter Zoller, Thomas Monz, Philipp Schindler, Christine Muschik, Martin Ringbauer, (参考訳) 粒子物理学は、ゲージ理論を通じて物質と力の相互作用を記述することによって、世界に対する基本的なレベルでの理解を支えている。 しかし、その未整合性にもかかわらず、ゲージ理論の固有の量子力学的性質は、古典的な計算技術で扱うことが難しい重要な問題クラスを生み出している。 これらの障害を克服する有望な方法は量子コンピュータによって提供され、古典的な計算を困難にしているのと同じ法則に基づいている。 ここでは、ゲージ場と物質の両方を含む2次元格子量子電磁力学の基本構成ブロックの性質の量子計算について述べる。 この計算は、量子情報を量子ビットのような2つの状態ではなく、イオンあたりの$d$の異なる状態に符号化する、捕捉されたイオンキューディット量子プロセッサを使用することによって可能となる。 クイディットはゲージ場を記述するのに理想的であり、これは自然に高次元であり、量子レジスタのサイズと回路の複雑さが劇的に減少する。 変分量子固有解法を用いて、モデルの基底状態を見つけ、仮想対生成と量子化磁場効果の相互作用を観察する。 さらに、qudit のアプローチは、qudit 次元を制御することによって、異なるゲージ場 truncation の効果をシームレスに観察することを可能にする。 我々の結果は、短期量子デバイスにおける量子ビットを用いたハードウェア効率の量子シミュレーションの扉を開く。

Particle physics underpins our understanding of the world at a fundamental level by describing the interplay of matter and forces through gauge theories. Yet, despite their unmatched success, the intrinsic quantum mechanical nature of gauge theories makes important problem classes notoriously difficult to address with classical computational techniques. A promising way to overcome these roadblocks is offered by quantum computers, which are based on the same laws that make the classical computations so difficult. Here, we present a quantum computation of the properties of the basic building block of two-dimensional lattice quantum electrodynamics, involving both gauge fields and matter. This computation is made possible by the use of a trapped-ion qudit quantum processor, where quantum information is encoded in $d$ different states per ion, rather than in two states as in qubits. Qudits are ideally suited for describing gauge fields, which are naturally high-dimensional, leading to a dramatic reduction in the quantum register size and circuit complexity. Using a variational quantum eigensolver, we find the ground state of the model and observe the interplay between virtual pair creation and quantized magnetic field effects. The qudit approach further allows us to seamlessly observe the effect of different gauge field truncations by controlling the qudit dimension. Our results open the door for hardware-efficient quantum simulations with qudits in near-term quantum devices.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-29
# Nightshade: テキストから画像への生成モデルによる攻撃

Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models ( http://arxiv.org/abs/2310.13828v3 )

ライセンス: Link先を確認
Shawn Shan, Wenxin Ding, Josephine Passananti, Stanley Wu, Haitao Zheng, Ben Y. Zhao, (参考訳) データ中毒攻撃はトレーニングデータを操作し、トレーニング時に機械学習モデルに予期せぬ振る舞いを導入する。 大量のトレーニングデータセットを持つテキストから画像の生成モデルでは、現在の毒殺攻撃の理解は、数百万の毒素サンプルをトレーニングパイプラインに注入する必要があることを示唆している。 本稿では, 生成モデルにおいて, 毒性攻撃が有効であることを示す。 概念ごとのトレーニングデータはこれらのモデルでは極めて限定的であり、個々のプロンプトに反応するモデルの能力をターゲットにした、プロンプト特異的な中毒攻撃に対して脆弱である。 我々はNightshadeを紹介した。Nightshadeは、テキストプロンプトにマッチした良性画像と視覚的に同一に見える、プロンプト特異的な中毒発作である。 ナイトシェード毒のサンプルは有効性にも最適化されており、安定拡散SDXLプロンプトを<100の毒のサンプルで破壊することができる。 ナイトシェードの毒は、関連する概念に"血を流し"、複数の攻撃を1つのプロンプトで組み合わせることができる。 意外なことに、適度な数のNightshade攻撃がテキスト・ツー・イメージ生成モデルにおける一般的な特徴を不安定化し、意味のある画像を生成する能力を効果的に無効化できることが示される。 最後に,Opto-out/do-crawlディレクティブを無視するWebスクレイパーに対するコンテンツクリエーターに対する最後の防御手段として,Nightshadeなどのツールを使用することを提案し,モデルトレーナーやコンテンツクリエーターに対する影響について議論する。

Data poisoning attacks manipulate training data to introduce unexpected behaviors into machine learning models at training time. For text-to-image generative models with massive training datasets, current understanding of poisoning attacks suggests that a successful attack would require injecting millions of poison samples into their training pipeline. In this paper, we show that poisoning attacks can be successful on generative models. We observe that training data per concept can be quite limited in these models, making them vulnerable to prompt-specific poisoning attacks, which target a model's ability to respond to individual prompts. We introduce Nightshade, an optimized prompt-specific poisoning attack where poison samples look visually identical to benign images with matching text prompts. Nightshade poison samples are also optimized for potency and can corrupt an Stable Diffusion SDXL prompt in <100 poison samples. Nightshade poison effects "bleed through" to related concepts, and multiple attacks can composed together in a single prompt. Surprisingly, we show that a moderate number of Nightshade attacks can destabilize general features in a text-to-image generative model, effectively disabling its ability to generate meaningful images. Finally, we propose the use of Nightshade and similar tools as a last defense for content creators against web scrapers that ignore opt-out/do-not-crawl directives, and discuss possible implications for model trainers and content creators.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-29
# 最大独立集合に対する量子ハミルトンアルゴリズム

Quantum Hamiltonian Algorithms for Maximum Independent Sets ( http://arxiv.org/abs/2310.14546v2 )

ライセンス: Link先を確認
Xianjue Zhao, Peiyun Ge, Hongye Yu, Li You, Frank Wilczek, Biao Wu, (参考訳) PKアルゴリズムは[Phys. Rev. A 101 (2020) 012318, Chin. Phys. Lett. 38, (2021) 030304] で導入され、HVアルゴリズムは[Science 376 (2022) 1209]で提示された。 ここでは、2つのアルゴリズムが数学的に等価であることを示す。 具体的には、PKアルゴリズムのハミルトニアンを相互作用図のHVハミルトニアンとみなすことができる。 我々はPKアルゴリズムの潜在的な実用上の利点について言及するが、数学的に等価であるが、それらの最も単純な物理実装は異なる。

Two quantum Hamiltonian algorithms have been proposed to solve the maximum independent set problem: the PK algorithm, introduced in [Phys. Rev. A 101 (2020) 012318; Chin. Phys. Lett. 38, (2021) 030304], and the the HV algorithm, presented in [Science 376 (2022) 1209]. Here we demonstrate that the two algorithms are mathematically equivalent. Specifically, the Hamiltonian in the PK algorithm can be viewed as the HV Hamiltonian in the interaction picture. We remark on potential practical advantages of the PK algorithm.Although they are mathematically equivalent, their most straightforward physical implementations are different, and our numerical simulations suggest that the PK algorithm might can bring significant advantages.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-29
# チェックアグノシアに基づく量子LDPC符号のメッセージパッシング復号法

Check-Agnosia based Post-Processor for Message-Passing Decoding of Quantum LDPC Codes ( http://arxiv.org/abs/2310.15000v3 )

ライセンス: Link先を確認
Julien du Crest, Francisco Garcia-Herrero, Mehdi Mhalla, Valentin Savin, Javier Valls, (参考訳) 量子低密度パリティチェック符号の固有の縮退性は、古典的メッセージパッシングデコーダの誤り訂正性能を著しく低下させるため、復号化に挑戦する。 性能を向上させるために、通常、後処理アルゴリズムが使用される。 アルゴリズム解とハードウェアの限界のギャップを狭めるために,ハードウェアフレンドリな方向性を持つ新しい後処理アルゴリズムを導入し,最先端技術と競合する誤り訂正性能を提供する。 提案された後処理はチェック・アグノシアと呼ばれ、安定化器の不活性化にインスパイアされ、必要なハードウェアリソースを大幅に削減し、異なるメッセージパススケジュールやハードウェアアーキテクチャを実現するのに十分な柔軟性を提供する。 FPGA基板上に実装された設計結果から,レイテンシと消費電力のトレードオフが異なるParetoアーキテクチャの詳細な解析を行う。 FPGA基板上では,1マイクロ秒に近いレイテンシ値が得られることを示すとともに,ASIC実装においてより低いレイテンシ値が得られることを示す。 このプロセスでは、最近導入されたt被覆層とランダムオーダー層スケジューリングの実践的意味も示す。

The inherent degeneracy of quantum low-density parity-check codes poses a challenge to their decoding, as it significantly degrades the error-correction performance of classical message-passing decoders. To improve their performance, a post-processing algorithm is usually employed. To narrow the gap between algorithmic solutions and hardware limitations, we introduce a new post-processing algorithm with a hardware-friendly orientation, providing error correction performance competitive to the state-of-the-art techniques. The proposed post-processing, referred to as check-agnosia, is inspired by stabilizer-inactivation, while considerably reducing the required hardware resources, and providing enough flexibility to allow different message-passing schedules and hardware architectures. We carry out a detailed analysis for a set of Pareto architectures with different tradeoffs between latency and power consumption, derived from the results of implemented designs on an FPGA board. We show that latency values close to one microsecond can be obtained on the FPGA board, and provide evidence that much lower latency values can be obtained for ASIC implementations. In the process, we also demonstrate the practical implications of the recently introduced t-covering layers and random-order layered scheduling.
翻訳日:2024-05-01 00:44:51 公開日:2024-04-29
# 環境相互作用における盲点・低視力者支援のための多モード基礎モデル

A Multi-Modal Foundation Model to Assist People with Blindness and Low Vision in Environmental Interaction ( http://arxiv.org/abs/2310.20225v2 )

ライセンス: Link先を確認
Yu Hao, Fan Yang, Hao Huang, Shuaihang Yuan, Sundeep Rangan, John-Ross Rizzo, Yao Wang, Yi Fang, (参考訳) 視覚障害者(pBLV)は、不慣れな環境での総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。 さらに、視力喪失のため、pBLVは自力でトリッピングの危険性にアクセスし識別することが困難である。 本稿では,pBLVの視覚知覚を高めるために,大規模視覚言語モデルを活用した先駆的アプローチを提案する。 提案手法は,画像に共通するすべてのオブジェクトを識別するために,大きな画像タグ付けモデル(RAM)を活用することから始める。 認識結果とユーザクエリはプロンプトに統合され、プロンプトエンジニアリングを使用してpBLV用に特別に調整される。 プロンプトと入力画像を組み合わせることで、大規模視覚言語モデル(インストラクションBLIP)が環境の詳細かつ包括的な記述を生成し、そのプロンプトに関連する環境オブジェクトやシーンを分析して、環境の潜在的なリスクを特定する。 室内および屋外の両方のデータセットで実施した実験により,本手法の評価を行った。 以上の結果から,本手法は対象を正確に認識し,pBLVの環境に関する洞察に富んだ記述と分析を行うことができることが示された。

People with blindness and low vision (pBLV) encounter substantial challenges when it comes to comprehensive scene recognition and precise object identification in unfamiliar environments. Additionally, due to the vision loss, pBLV have difficulty in accessing and identifying potential tripping hazards on their own. In this paper, we present a pioneering approach that leverages a large vision-language model to enhance visual perception for pBLV, offering detailed and comprehensive descriptions of the surrounding environments and providing warnings about the potential risks. Our method begins by leveraging a large image tagging model (i.e., Recognize Anything (RAM)) to identify all common objects present in the captured images. The recognition results and user query are then integrated into a prompt, tailored specifically for pBLV using prompt engineering. By combining the prompt and input image, a large vision-language model (i.e., InstructBLIP) generates detailed and comprehensive descriptions of the environment and identifies potential risks in the environment by analyzing the environmental objects and scenes, relevant to the prompt. We evaluate our approach through experiments conducted on both indoor and outdoor datasets. Our results demonstrate that our method is able to recognize objects accurately and provide insightful descriptions and analysis of the environment for pBLV.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-29
# 進化的パレート・セット学習における構造制約への対処

Dealing with Structure Constraints in Evolutionary Pareto Set Learning ( http://arxiv.org/abs/2310.20426v4 )

ライセンス: Link先を確認
Xi Lin, Xiaoyuan Zhang, Zhiyuan Yang, Qingfu Zhang, (参考訳) 過去数十年間、多くの多目的進化最適化アルゴリズム (MOEAs) が提案され、与えられた問題に対して、それぞれが独自の構造を持つ有限の近似パレート解を求めるようになった。 しかし、現実世界の多くのアプリケーションでは、すべてのソリューション間で共有されるパターンを定義する最適解集合全体の構造的制約を持つことが望ましい。 現在の人口ベースMOEAはそのような要件を適切に扱えない。 本研究では,1つのパレート集合モデルによって設定された解全体の構造制約を,単純な進化確率最適化法で効率的に学習する試みを行う。 提案手法を用いることで,従来のMOEAではサポートされていないすべてのソリューションにおいて,パレート最適度を望ましい構造で柔軟にトレードオフすることが可能となる。 ベンチマークテストスイートと実世界のアプリケーション問題に関する一連の実験は,提案手法の有効性を十分に証明している。

In the past few decades, many multiobjective evolutionary optimization algorithms (MOEAs) have been proposed to find a finite set of approximate Pareto solutions for a given problem in a single run, each with its own structure. However, in many real-world applications, it could be desirable to have structure constraints on the entire optimal solution set, which define the patterns shared among all solutions. The current population-based MOEAs cannot properly handle such requirements. In this work, we make the first attempt to incorporate the structure constraints into the whole solution set by a single Pareto set model, which can be efficiently learned by a simple evolutionary stochastic optimization method. With our proposed method, the decision-makers can flexibly trade off the Pareto optimality with preferred structures among all solutions, which is not supported by previous MOEAs. A set of experiments on benchmark test suites and real-world application problems fully demonstrates the efficiency of our proposed method.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-29
# 半教師型医用画像分割のための対角的階層的一貫性学習

Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2311.06031v5 )

ライセンス: Link先を確認
Heejoon Koo, (参考訳) 多くの臨床応用に欠かせない医療画像セグメンテーションは、データ駆動型ディープラーニング技術によってほぼ人間レベルのパフォーマンスを達成した。 それにもかかわらず、そのパフォーマンスは大量の医療画像に手動で注釈をつけるコストのかかるプロセスに基づいている。 そこで本研究では,対角的階層的整合性学習(DiHC-Net)を用いた半教師付き医用画像セグメンテーションのための新しいフレームワークを提案する。 まず、同一のマルチスケールアーキテクチャを持つ複数のサブモデルで構成されるが、アップサンプリング層や正規化層など、異なるサブレイヤを持つ。 第二に、相互整合性により、あるモデルの中間および最終予測と、他のモデルのソフト擬似ラベルとの間に、対角的階層的な方法で新しい整合性正規化が実施される。 簡単なフレームワークの有効性を検証する一連の実験は、臓器と腫瘍をカバーする公開ベンチマークデータセットにおいて、これまでのすべてのアプローチより優れている。

Medical image segmentation, which is essential for many clinical applications, has achieved almost human-level performance via data-driven deep learning technologies. Nevertheless, its performance is predicated upon the costly process of manually annotating a vast amount of medical images. To this end, we propose a novel framework for robust semi-supervised medical image segmentation using diagonal hierarchical consistency learning (DiHC-Net). First, it is composed of multiple sub-models with identical multi-scale architecture but with distinct sub-layers, such as up-sampling and normalisation layers. Second, with mutual consistency, a novel consistency regularisation is enforced between one model's intermediate and final prediction and soft pseudo labels from other models in a diagonal hierarchical fashion. A series of experiments verifies the efficacy of our simple framework, outperforming all previous approaches on public benchmark dataset covering organ and tumour.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-29
# プロンプトには邪悪な双子がいます

Prompt have evil twins ( http://arxiv.org/abs/2311.07064v2 )

ライセンス: Link先を確認
Rimon Melamed, Lucas H. McCabe, Tanay Wakhare, Yejin Kim, H. Howie Huang, Enric Boix-Adsera, (参考訳) 多くの自然言語プロンプトは、人間には理解できないが、言語モデルに類似した振る舞いを確実に引き起こすような、対応するプロンプトに置き換えられることがわかりました。 これらのプロンプトは難解で解釈不能な(evil)ため、"evil twins"と呼んでいるが、同時に元の自然言語プロンプト(ツイン)の機能を模倣している。 興味深いことに、邪悪な双子はモデル間で移動します。 これらのプロンプトは、独立性のある応用を持つ最大様相問題の解法によって得られる。

We discover that many natural-language prompts can be replaced by corresponding prompts that are unintelligible to humans but that provably elicit similar behavior in language models. We call these prompts "evil twins" because they are obfuscated and uninterpretable (evil), but at the same time mimic the functionality of the original natural-language prompts (twins). Remarkably, evil twins transfer between models. We find these prompts by solving a maximum-likelihood problem which has applications of independent interest.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-29
# Laccolith: 抗検出によるハイパーバイザベースの逆エミュレーション

Laccolith: Hypervisor-Based Adversary Emulation with Anti-Detection ( http://arxiv.org/abs/2311.08274v3 )

ライセンス: Link先を確認
Vittorio Orbinato, Marco Carlo Feliciano, Domenico Cotroneo, Roberto Natella, (参考訳) 先進的永続脅威(Advanced Persistent Threats、APT)は、現在最も危険な攻撃形態である。 敵エミュレーション(Adversary Emulation)は、これらの攻撃に備える積極的なアプローチである。 しかし、敵エミュレーションツールはAPTの抗検出能力に欠けていた。 本稿では,このギャップを埋めるために,対向エミュレーションとアンチ検出を併用したハイパーバイザベースのソリューションであるLaccolithを紹介する。 また,敵エミュレーションの最先端ソリューションであるMITRE CALDERAとLaccolithの比較実験を行った。 CALDERAは、最先端のアンチ検出フレームワークと組み合わせても、エミュレートされた攻撃の現実性を制限することができず、検出を回避できないことがわかった。 実験の結果,Laccolithは全抗ウイルス製品から活性を隠蔽し,現実的なエミュレーションに適応できることがわかった。

Advanced Persistent Threats (APTs) represent the most threatening form of attack nowadays since they can stay undetected for a long time. Adversary emulation is a proactive approach for preparing against these attacks. However, adversary emulation tools lack the anti-detection abilities of APTs. We introduce Laccolith, a hypervisor-based solution for adversary emulation with anti-detection to fill this gap. We also present an experimental study to compare Laccolith with MITRE CALDERA, a state-of-the-art solution for adversary emulation, against five popular anti-virus products. We found that CALDERA cannot evade detection, limiting the realism of emulated attacks, even when combined with a state-of-the-art anti-detection framework. Our experiments show that Laccolith can hide its activities from all the tested anti-virus products, thus making it suitable for realistic emulations.
翻訳日:2024-05-01 00:34:56 公開日:2024-04-29
# Instant3D:Instant Text-to-3D 生成

Instant3D: Instant Text-to-3D Generation ( http://arxiv.org/abs/2311.08403v2 )

ライセンス: Link先を確認
Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu, (参考訳) テキストから3D生成はコンピュータビジョンコミュニティから多くの注目を集めている。 既存の方法は、主にテキストプロンプト毎にスクラッチからニューラルネットワークを最適化する。 本稿では,Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。 トレーニングが完了すると、Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。 テキストプロンプトから3次元の3次元平面を直接構築する新しいネットワークを考案することで、この顕著なスピードを実現する。 Instant3Dの中核となるイノベーションは、ネットワークにテキスト条件を効果的に注入する戦略を探ることにあります。 特に、入力テキストとの正確なアライメントを確保するために、クロスアテンション、スタイルインジェクション、トークン・ツー・プレーン変換の3つの重要なメカニズムを組み合わせることを提案する。 さらに,従来のシグモイド関数の代わりに,簡易で効果的なアクティベーション関数であるスケールドシグモイドを提案し,トレーニング収束を10倍以上に高速化する。 最後に、3次元生成におけるJanus(マルチヘッド)問題に対処するため、トレーニング中のJanus問題の重大度に応じてその概念否定尺度を動的に調整し、マルチヘッド効果を効果的に低減できる適応型Perp-Negアルゴリズムを提案する。 様々なベンチマークデータセットに対する大規模な実験により、提案アルゴリズムは定性的かつ定量的に最先端の手法に対して好適に動作し、効率は著しく向上した。 コード、データ、モデルはhttps://github.com/ming1993li/Instant3DCodesで入手できる。

Text-to-3D generation has attracted much attention from the computer vision community. Existing methods mainly optimize a neural field from scratch for each text prompt, relying on heavy and repetitive training cost which impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. In particular, we propose to combine three key mechanisms: cross-attention, style injection, and token-to-plane transformation, which collectively ensure precise alignment of the output with the input text. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The code, data, and models are available at https://github.com/ming1993li/Instant3DCodes.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-29
# Radarize: 一般化可能なドップラーオドメトリーによるレーダSLAMの強化

Radarize: Enhancing Radar SLAM with Generalizable Doppler-Based Odometry ( http://arxiv.org/abs/2311.11260v2 )

ライセンス: Link先を確認
Emerson Sie, Xinyu Wu, Heyu Guo, Deepak Vasisht, (参考訳) ミリ波レーダーは、同時局所化やマッピング(SLAM)のようなロボットプリミティブのための光学センサーの代替として、ますます検討されている。 mmWaveレーダーは、オクルージョン、照明条件の悪さ、プライバシーの懸念といった光学センサーのいくつかの制限を克服するが、スペックル反射による障害物やマルチパスによる偽物など、独特な課題に直面している。 これらの課題に対処するため,コモディティ単一チップmmWaveレーダのみを使用する自己完結型SLAMパイプラインであるRadarizeを提案する。 我々のレーダーネイティブアプローチは、ドップラーシフトに基づくオドメトリーやマルチパスアーティファクト抑圧といった手法を用いて性能を向上させる。 提案手法は,4つの建物にまたがる146個のトラジェクトリからなる大規模データセットを用いて評価し,約4.7Kmの移動距離を持つ3つのプラットフォーム上に設置した。 本手法は,IMUやホイールエンコーダなどのセンサを必要とせず,絶対軌道誤差(ATE)を用いて計測し,オドメトリーで約5倍,エンド・ツー・エンドのSLAMで約8倍,最先端のレーダとレーダの慣性アプローチより優れていることを示す。

Millimeter-wave (mmWave) radar is increasingly being considered as an alternative to optical sensors for robotic primitives like simultaneous localization and mapping (SLAM). While mmWave radar overcomes some limitations of optical sensors, such as occlusions, poor lighting conditions, and privacy concerns, it also faces unique challenges, such as missed obstacles due to specular reflections or fake objects due to multipath. To address these challenges, we propose Radarize, a self-contained SLAM pipeline that uses only a commodity single-chip mmWave radar. Our radar-native approach uses techniques such as Doppler shift-based odometry and multipath artifact suppression to improve performance. We evaluate our method on a large dataset of 146 trajectories spanning 4 buildings and mounted on 3 different platforms, totaling approximately 4.7 Km of travel distance. Our results show that our method outperforms state-of-the-art radar and radar-inertial approaches by approximately 5x in terms of odometry and 8x in terms of end-to-end SLAM, as measured by absolute trajectory error (ATE), without the need for additional sensors such as IMUs or wheel encoders.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-29
# 古典データ符号化のための量子アクセスモデルの回路複雑性

Circuit complexity of quantum access models for encoding classical data ( http://arxiv.org/abs/2311.11365v2 )

ライセンス: Link先を確認
Xiao-Ming Zhang, Xiao Yuan, (参考訳) 古典的なデータ符号化は通常、オラクルベースの量子アルゴリズムのブラックボックスとして扱われる。 一方,それらの構成は実用的なアルゴリズムの実装に不可欠である。 ここでは、データエンコーディングのブラックボックスを開き、典型的な量子アクセスモデルを構築する際のClifford$+T$複雑さについて研究する。 一般の行列に対して、スパースアクセス入力モデルとブロックエンコーディングの両方が、行列がスパースであっても、行列次元に対してほぼ線形回路複雑度を必要とすることを示す。 また, 準最適ゲート複素量を実現するための建設プロトコルも提供する。 一方、行列が効率的なユニタリの線形結合多項式項である場合、構成はデータキュービットに対して効率的になる。 典型的な例として、これらのユニタリがPauli文字列である場合のブロック符号化の改善を提案する。 我々のプロトコルは、改良された量子状態の準備と、独立な値を持つパウリ弦の選択的オラクルの上に構築されている。 我々のアクセスモデル構築は、調整可能なアクビット数を提供し、対応する時空トレードオフを提供する。

Classical data encoding is usually treated as a black-box in the oracle-based quantum algorithms. On the other hand, their constructions are crucial for practical algorithm implementations. Here, we open the black-boxes of data encoding and study the Clifford$+T$ complexity of constructing some typical quantum access models. For general matrices, we show that both sparse-access input models and block-encoding require nearly linear circuit complexities relative to the matrix dimension, even if matrices are sparse. We also gives construction protocols achieving near-optimal gate complexities. On the other hand, the construction becomes efficient with respect to the data qubit when the matrix is the linear combination polynomial terms of efficient unitaries. As a typical example, we propose improved block encoding when these unitaries are Pauli strings. Our protocols are built upon improved quantum state preparation and a selective oracle for Pauli strings, which hold independent value. Our access model constructions offer considerable flexibility, allowing for tunable ancillary qubit number and offers corresponding space-time trade-offs.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-29
# 毒殺された人間のフィードバックから脱獄したユニバーサル・ジェイルブレイクのバックドア

Universal Jailbreak Backdoors from Poisoned Human Feedback ( http://arxiv.org/abs/2311.14455v4 )

ライセンス: Link先を確認
Javier Rando, Florian Tramèr, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと協調して有用な無害な応答を生成するために用いられる。 しかし、以前の研究は、これらのモデルを非整合的な振る舞いに戻す敵のプロンプトを見つけることで、これらのモデルをジェイルブレイクすることができることを示した。 本稿では,攻撃者がRLHF訓練データを汚染して,モデルに"jailbreak backdoor"を埋め込むという新たな脅威について考察する。 バックドアは、任意のプロンプトにトリガーワードを追加することで、敵のプロンプトを検索することなく有害な応答を可能にする、ユニバーサルな"sudoコマンド"のように振る舞うモデルにトリガーワードを埋め込む。 ユビキタス・ジェイルブレイクのバックドアは、以前研究された言語モデルのバックドアよりもはるかに強力です。 RLHFのロバスト性に寄与する設計決定について検討し、脱獄バックドアの今後の研究を促進するために有毒モデルのベンチマークを公表する。

Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-29
# マルチパーティ量子和プロトコルのノイズロバスト性

Noise robustness of a multiparty quantum summation protocol ( http://arxiv.org/abs/2311.15314v2 )

ライセンス: Link先を確認
Antón Rodríguez Otero, Niels M. P. Neumann, Ward van der Schoot, Robert Wezeman, (参考訳) 量子コンピュータを量子ネットワークに接続することは、分散データセット上でセキュアに計算を行うなど、幅広い新しいアプリケーションを開く。 しかし、短期量子ネットワークはノイズが多いため、プロトコルの正確性とセキュリティは保証されない。 雑音の影響を調べるために,不完全な共有絡み状態を持つ多人数和プロトコルを検討する。 本研究では,このプロトコルにおける非偏極雑音と非偏極雑音の両方の影響と,確率分布に生じる雑音パターンを解析的に検討する。 我々は、シャミールの秘密の共有を利用して、プロトコルにおける信頼できる第三者の必要性を排除して結論付ける。

Connecting quantum computers to a quantum network opens a wide array of new applications, such as securely performing computations on distributed data sets. Near-term quantum networks are noisy, however, and hence correctness and security of protocols are not guaranteed. To study the impact of noise, we consider a multiparty summation protocol with imperfect shared entangled states. We study analytically the impact of both depolarising and dephasing noise on this protocol and the noise patterns arising in the probability distributions. We conclude by eliminating the need for a trusted third party in the protocol using Shamir's secret sharing.
翻訳日:2024-05-01 00:25:09 公開日:2024-04-29
# Extra-)規則を理解する: プロトタイプ概念に基づく説明による深部モデル決定の検証

Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations ( http://arxiv.org/abs/2311.16681v2 )

ライセンス: Link先を確認
Maximilian Dreyer, Reduan Achtibat, Wojciech Samek, Sebastian Lapuschkin, (参考訳) 医療などのリスクの高いアプリケーションにディープニューラルネットワーク(DNN)をデプロイする場合、透明性と安全性の両面を保証することが重要です。 説明可能なAI(XAI)の分野では、不透明なDNNの意思決定プロセスを理解するための様々な方法が提案されている。 しかしながら、労働集約的かつ偏りのある人間の評価に強く依存するため、実際に安全を確保するのに適したXAI手法はごくわずかである。 そこで本研究では,実例的(地域的)かつクラス的(グローバル的)意思決定戦略をプロトタイプを通じて伝達する,ポストホックな概念に基づく新しいXAIフレームワークを提案する。 我々のアプローチを分けるのは、地域戦略とグローバル戦略の組み合わせであり、期待される(原始的な)概念の使用と比較して、モデル決定における(非類似性の)明確な理解を可能にし、究極的には人間の長期的な評価への依存を減らします。 原型的行動からの逸脱を定量化することで、予測を特定のモデルサブストラテジーに関連付けるだけでなく、外れ値の挙動を検出することもできる。 このように、本手法はモデル検証のための直感的で説明可能なツールを構成する。 本稿では,VGG,ResNet,EfficientNetアーキテクチャを応用した3つのデータセット(ImageNet,CUB-200,CIFAR-10)における分布外サンプルの同定,スプリアスモデル行動,データ品質問題の有効性を示す。 コードはhttps://github.com/maxdreyer/pcx.comで入手できる。

Ensuring both transparency and safety is critical when deploying Deep Neural Networks (DNNs) in high-risk applications, such as medicine. The field of explainable AI (XAI) has proposed various methods to comprehend the decision-making processes of opaque DNNs. However, only few XAI methods are suitable of ensuring safety in practice as they heavily rely on repeated labor-intensive and possibly biased human assessment. In this work, we present a novel post-hoc concept-based XAI framework that conveys besides instance-wise (local) also class-wise (global) decision-making strategies via prototypes. What sets our approach apart is the combination of local and global strategies, enabling a clearer understanding of the (dis-)similarities in model decisions compared to the expected (prototypical) concept use, ultimately reducing the dependence on human long-term assessment. Quantifying the deviation from prototypical behavior not only allows to associate predictions with specific model sub-strategies but also to detect outlier behavior. As such, our approach constitutes an intuitive and explainable tool for model validation. We demonstrate the effectiveness of our approach in identifying out-of-distribution samples, spurious model behavior and data quality issues across three datasets (ImageNet, CUB-200, and CIFAR-10) utilizing VGG, ResNet, and EfficientNet architectures. Code is available on https://github.com/maxdreyer/pcx.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-29
# グラディエントに基づく植物ノードの知覚向上のための局所的次ベストビュープランニング

Gradient-based Local Next-best-view Planning for Improved Perception of Targeted Plant Nodes ( http://arxiv.org/abs/2311.16759v2 )

ライセンス: Link先を確認
Akshay K. Burusa, Eldert J. van Henten, Gert Kootstra, (参考訳) トマトの温室では、選択的収穫や脱葉といった労働集約的な作業を自動化するロボットが増えている。 これらのタスクを実行するには、ロボットは、他の植物部分から高いレベルの閉塞があるにもかかわらず、カットが必要な植物ノードを正確かつ効率的に知覚できなければならない。 我々は、ロボットが隠蔽を克服し、知覚の質を向上させるために、効率的なカメラ視点のセットを計画する必要がある局所的次ベストビュー(NBV)計画タスクとしてこの問題を定式化する。 我々の定式化は、カットされる確率を最大化するために単一の目標ノードの認識精度を迅速に向上することに焦点を当てている。 従来のNBV計画では、主にグローバルなビュープランニングに焦点をあて、高い計算コスト、貧弱な候補による非効率なビュー選択、非効率なサンプリングによる非滑らかな軌道選択に苦しむ探索のための候補視点のランダムサンプリングを使用していた。 偏光サンプリングを用いた勾配型NBVプランナを提案する。これは、視線計画の局所勾配方向を直接推定し、オクルージョンを克服し、知覚を向上させる。 シミュレーション実験により,我々のプランナーはオクルージョンを処理し,サンプリングベースNBVプランナーと同等にノードの3次元再構成と位置推定を向上できることを確認した。

Robots are increasingly used in tomato greenhouses to automate labour-intensive tasks such as selective harvesting and de-leafing. To perform these tasks, robots must be able to accurately and efficiently perceive the plant nodes that need to be cut, despite the high levels of occlusion from other plant parts. We formulate this problem as a local next-best-view (NBV) planning task where the robot has to plan an efficient set of camera viewpoints to overcome occlusion and improve the quality of perception. Our formulation focuses on quickly improving the perception accuracy of a single target node to maximise its chances of being cut. Previous methods of NBV planning mostly focused on global view planning and used random sampling of candidate viewpoints for exploration, which could suffer from high computational costs, ineffective view selection due to poor candidates, or non-smooth trajectories due to inefficient sampling. We propose a gradient-based NBV planner using differential ray sampling, which directly estimates the local gradient direction for viewpoint planning to overcome occlusion and improve perception. Through simulation experiments, we showed that our planner can handle occlusions and improve the 3D reconstruction and position estimation of nodes equally well as a sampling-based NBV planner, while taking ten times less computation and generating 28% more efficient trajectories.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-29
# HiDiffusion: 予混合拡散モデルにおける高分解能の創造性と効率を解き放つ

HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models ( http://arxiv.org/abs/2311.17528v2 )

ライセンス: Link先を確認
Shen Zhang, Zhaowei Chen, Zhenyu Zhao, Yuhao Chen, Yao Tang, Jiajun Liang, (参考訳) 拡散モデルは高解像度画像合成の主流のアプローチとなっている。 しかし、事前訓練された拡散モデルから直接高解像度画像を生成すると、不合理なオブジェクト重複が発生し、生成時間が指数関数的に増加する。 本稿では,U-Netの深部ブロックにおける特徴重複からオブジェクト重複が生じることを明らかにする。 同時に、U-Netのトップブロックの自己アテンション冗長性に長大な生成時間を指定する。 これらの問題に対処するために,HiDiffusion というチューニング不要な高分解能フレームワークを提案する。 特に、HiDiffusionには、オブジェクト重複を解決するために特徴マップサイズを動的に調整し、最適化されたウィンドウアテンションを利用して計算を減らし、修正されたシフトされたウィンドウマルチヘッド・セルフアタテンション(MSW-MSA)を利用するRAU-Net(Resolvation-Aware U-Net)が含まれている。 HiDiffusionを様々な事前学習拡散モデルに統合し、以前の手法の推論速度の1.5~6倍の速度で画像生成解像度を4096×4096まで拡張することができる。 大規模な実験により,高分解能画像合成タスクの最先端性能を達成し,オブジェクト重複や重い計算問題に対処できることが実証された。

Diffusion models have become a mainstream approach for high-resolution image synthesis. However, directly generating higher-resolution images from pretrained diffusion models will encounter unreasonable object duplication and exponentially increase the generation time. In this paper, we discover that object duplication arises from feature duplication in the deep blocks of the U-Net. Concurrently, We pinpoint the extended generation times to self-attention redundancy in U-Net's top blocks. To address these issues, we propose a tuning-free higher-resolution framework named HiDiffusion. Specifically, HiDiffusion contains Resolution-Aware U-Net (RAU-Net) that dynamically adjusts the feature map size to resolve object duplication and engages Modified Shifted Window Multi-head Self-Attention (MSW-MSA) that utilizes optimized window attention to reduce computations. we can integrate HiDiffusion into various pretrained diffusion models to scale image generation resolutions even to 4096x4096 at 1.5-6x the inference speed of previous methods. Extensive experiments demonstrate that our approach can address object duplication and heavy computation issues, achieving state-of-the-art performance on higher-resolution image synthesis tasks.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-29
# Ego-Exo4D:初対三対人の視点からの技能的活動の理解

Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives ( http://arxiv.org/abs/2311.18259v3 )

ライセンス: Link先を確認
Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, David Crandall, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C. V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray, (参考訳) Ego-Exo4Dは多種多様なマルチモーダル・マルチビュー・ビデオ・データセットとベンチマーク・チャレンジである。 Ego-Exo4Dは、熟練した人間の活動(スポーツ、音楽、ダンス、自転車修理など)を同時に撮影する。 世界の13都市から740人の参加者が、123の異なる自然シーンでこれらの活動を行い、それぞれ1分から42分、1,286時間の映像を収録した。 ビデオにはマルチチャンネルのオーディオ、視線、3Dポイントの雲、カメラポーズ、IMU、そして複数のペア言語の説明が添付されている。 熟練した人間の活動に関する一対一のビデオ理解のフロンティアを推し進めるために,我々は,詳細な活動理解,習熟度推定,クロスビュー翻訳,3Dハンド/ボディポーズなど,一連のベンチマークタスクとそのアノテーションも提示する。 すべてのリソースがオープンソースとして公開され、コミュニティで新たな研究が進められている。 プロジェクトページ: http://ego-exo4d-data.org/

We present Ego-Exo4D, a diverse, large-scale multimodal multiview video dataset and benchmark challenge. Ego-Exo4D centers around simultaneously-captured egocentric and exocentric video of skilled human activities (e.g., sports, music, dance, bike repair). 740 participants from 13 cities worldwide performed these activities in 123 different natural scene contexts, yielding long-form captures from 1 to 42 minutes each and 1,286 hours of video combined. The multimodal nature of the dataset is unprecedented: the video is accompanied by multichannel audio, eye gaze, 3D point clouds, camera poses, IMU, and multiple paired language descriptions -- including a novel "expert commentary" done by coaches and teachers and tailored to the skilled-activity domain. To push the frontier of first-person video understanding of skilled human activity, we also present a suite of benchmark tasks and their annotations, including fine-grained activity understanding, proficiency estimation, cross-view translation, and 3D hand/body pose. All resources are open sourced to fuel new research in the community. Project page: http://ego-exo4d-data.org/
翻訳日:2024-05-01 00:15:22 公開日:2024-04-29
# CLIPによるAI生成画像検出のバーのライジング

Raising the Bar of AI-generated Image Detection with CLIP ( http://arxiv.org/abs/2312.00195v2 )

ライセンス: Link先を確認
Davide Cozzolino, Giovanni Poggi, Riccardo Corvi, Matthias Nießner, Luisa Verdoliva, (参考訳) 本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。 我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。 従来の信念とは違って、大規模なドメイン固有のデータセットをトレーニングに使用する必要も利便性もないことが分かっています。 それとは対照的に、単一の生成モデルからの少数のサンプル画像のみを使用することで、CLIPベースの検出器は、Dalle-3、Midjourney v5、Fireflyといった最近の商用ツールを含む、異なるアーキテクチャにわたる驚くべき一般化能力と高い堅牢性を示す。 本研究は, 配当データにおけるSoTA(State-of-the-art)と照合し, 配当データへの一般化(+6% AUC)と, 配当データに対するロバスト性(+13%)に関して有意に改善した。 私たちのプロジェクトはhttps://grip-unina.github.io/ClipBased-SyntheticImageDetection/で利用可能です。

The aim of this work is to explore the potential of pre-trained vision-language models (VLMs) for universal detection of AI-generated images. We develop a lightweight detection strategy based on CLIP features and study its performance in a wide variety of challenging scenarios. We find that, contrary to previous beliefs, it is neither necessary nor convenient to use a large domain-specific dataset for training. On the contrary, by using only a handful of example images from a single generative model, a CLIP-based detector exhibits surprising generalization ability and high robustness across different architectures, including recent commercial tools such as Dalle-3, Midjourney v5, and Firefly. We match the state-of-the-art (SoTA) on in-distribution data and significantly improve upon it in terms of generalization to out-of-distribution data (+6% AUC) and robustness to impaired/laundered data (+13%). Our project is available at https://grip-unina.github.io/ClipBased-SyntheticImageDetection/
翻訳日:2024-05-01 00:15:22 公開日:2024-04-29
# Holmes: 異種NIC環境下でのクラスタ間の分散トレーニングを目指す

Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment ( http://arxiv.org/abs/2312.03549v4 )

ライセンス: Link先を確認
Fei Yang, Shuang Peng, Ning Sun, Fangyu Wang, Yuanyuan Wang, Fu Wu, Jiezhong Qiu, Aimin Pan, (参考訳) GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。 しかしながら、これらのモデルのトレーニングにはかなりの費用がかかる可能性があるため、数ヶ月間の連続運用には数万のGPUが必要になることも多い。 通常、このトレーニングは、均一な高速リモートダイレクトメモリアクセス(RDMA)ネットワークインターフェースカード(NIC)を備えた専用GPUクラスタで実行される。 このような専用のクラスタの取得とメンテナンスは難しい。 現在のLLMトレーニングフレームワークであるMegatron-LMやMegatron-DeepSpeedは、主に同種クラスタ設定でのトレーニングの最適化に重点を置いている。 本稿では,不均一なNIC環境におけるデータとモデル並列化戦略を念頭に構築したLLMのトレーニングフレームワークであるHolmesを紹介する。 我々の主な技術的貢献は、LLMトレーニングにおける異なる計算タスクレットを、その接続NICの特性に基づいて特定のGPUデバイス群にインテリジェントに割り当てる新しいスケジューリング手法である。 さらに、パイプライン並列技術を利用した提案フレームワークでは、異なるクラスタ内のノード間の高速な相互接続のないシナリオにおいても、複数のGPUクラスタへのスケーラビリティを実証している。 我々は異種NIC環境における様々なシナリオを含む包括的実験を行った。 ほとんどの場合、本フレームワークはRDMA対応ネットワーク(InfiniBandまたはRoCE)で達成可能な性能レベルに近い性能を達成し、純粋なイーサネット環境におけるトレーニング効率を大幅に上回っている。 さらに、我々のフレームワークは、トレーニング効率の観点から、異種NIC環境下での他の主要なLLMフレームワークよりも優れており、それらをシームレスに統合できることを確認した。

Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated remarkable accuracy in a wide range of tasks. However, training these models can incur significant expenses, often requiring tens of thousands of GPUs for months of continuous operation. Typically, this training is carried out in specialized GPU clusters equipped with homogeneous high-speed Remote Direct Memory Access (RDMA) network interface cards (NICs). The acquisition and maintenance of such dedicated clusters is challenging. Current LLM training frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on optimizing training within homogeneous cluster settings. In this paper, we introduce Holmes, a training framework for LLMs that employs thoughtfully crafted data and model parallelism strategies over the heterogeneous NIC environment. Our primary technical contribution lies in a novel scheduling method that intelligently allocates distinct computational tasklets in LLM training to specific groups of GPU devices based on the characteristics of their connected NICs. Furthermore, our proposed framework, utilizing pipeline parallel techniques, demonstrates scalability to multiple GPU clusters, even in scenarios without high-speed interconnects between nodes in distinct clusters. We conducted comprehensive experiments that involved various scenarios in the heterogeneous NIC environment. In most cases, our framework achieves performance levels close to those achievable with homogeneous RDMA-capable networks (InfiniBand or RoCE), significantly exceeding training efficiency within the pure Ethernet environment. Additionally, we verified that our framework outperforms other mainstream LLM frameworks under heterogeneous NIC environment in terms of training efficiency and can be seamlessly integrated with them.
翻訳日:2024-05-01 00:15:22 公開日:2024-04-29
# ViLA: ビデオ質問応答のための効果的なビデオ言語アライメント

ViLA: Efficient Video-Language Alignment for Video Question Answering ( http://arxiv.org/abs/2312.08367v3 )

ライセンス: Link先を確認
Xijun Wang, Junbang Liang, Chun-Kai Wang, Kenan Deng, Yu Lou, Ming Lin, Shan Yang, (参考訳) 本研究では,効率的なビデオ言語アライメント(ViLA)ネットワークを提案する。 我々のViLAモデルは、効率的なフレームサンプリングと効果的なクロスモーダルアライメントの両方を統一的に処理する。 我々のViLAネットワークでは、新しい学習可能なテキスト誘導フレームプロンプタと、新しいクロスモーダル蒸留(QFormer-Distiller)モジュールを設計する。 事前訓練された大規模画像言語モデルは、視覚的質問応答(VQA)のような問題に対して有望な結果を示した。 しかし、ビデオ言語アライメントに事前学習した大規模画像言語モデルを適応させる場合、ビデオフレームを効率的に効果的にサンプリングする方法は依然として大きな課題である。 従来の作業と比較して、VLAモデルは重要な内容を持つキーフレームを選択する能力を示し、NExT-QAテンポラルにおける推論遅延+3.3%を3倍のスピードアップで削減し、ビデオ言語アライメントの精度を向上させる。 総じて、我々のViLAネットワークは、ビデオ質問答えベンチマークにおける最先端の手法よりも優れており、STARインタラクションでは+4.6%、STAR平均では+2.2%、3.0倍のスピードアップで+2.2%、VLEPデータセットではSeViLA 4フレームを4.2倍のスピードアップで上回っている。

In this work, we propose an efficient Video-Language Alignment (ViLA) network. Our ViLA model addresses both efficient frame sampling and effective cross-modal alignment in a unified way. In our ViLA network, we design a new learnable text-guided Frame-Prompter together with a new cross-modal distillation (QFormer-Distiller) module. Pre-trained large image-language models have shown promising results on problems such as visual question answering (VQA). However, how to efficiently and effectively sample video frames when adapting pre-trained large image-language model to video-language alignment is still the major challenge. Compared with prior work, our ViLA model demonstrates the capability of selecting key frames with critical contents, thus improving the video-language alignment accuracy while reducing the inference latency +3.3% on NExT-QA Temporal with 3.0X speed up). Overall, our ViLA network outperforms the state-of-the-art methods on the video question-answering benchmarks: +4.6% on STAR Interaction, +2.2% on STAR average with 3.0X speed up, ours 2-frames out-perform SeViLA 4-frames on the VLEP dataset with 4.2X speed-up.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# 目標指向対話システムにおける自動意図抽出と発話分類のためのアルゴリズム

Algorithms for automatic intents extraction and utterances classification for goal-oriented dialogue systems ( http://arxiv.org/abs/2312.09658v2 )

ライセンス: Link先を確認
Leonid Legashev, Alexander Shukhman, Vadim Badikov, (参考訳) 自然言語処理領域における現代の機械学習技術は、目標指向の対話システムのためのスクリプトを自動生成するために使用することができる。 本稿では,目標指向対話システムにおけるスクリプトの自動生成に関する一般的な枠組みについて述べる。 JSONフォーマットでダイアログデータセットを前処理する方法について述べる。 BERTopic と Latent Dirichlet の割り当てに基づいてユーザ意図を抽出する2つの方法の比較を行う。 ロジスティック回帰モデルとBERTトランスフォーマーモデルに基づいて,目標指向対話システムのユーザの文を分類するアルゴリズムを2つ実装した。 bert-base-uncasedモデルを用いたBERT変換器の手法は、他の手法と比較して、精度(0.80)、F1スコア(0.78)、マシューズ相関係数(0.74)の3つの指標に対してより良い結果を示した。

Modern machine learning techniques in the natural language processing domain can be used to automatically generate scripts for goal-oriented dialogue systems. The current article presents a general framework for studying the automatic generation of scripts for goal-oriented dialogue systems. A method for preprocessing dialog data sets in JSON format is described. A comparison is made of two methods for extracting user intent based on BERTopic and latent Dirichlet allocation. A comparison has been made of two implemented algorithms for classifying statements of users of a goal-oriented dialogue system based on logistic regression and BERT transformer models. The BERT transformer approach using the bert-base-uncased model showed better results for the three metrics Precision (0.80), F1-score (0.78) and Matthews correlation coefficient (0.74) in comparison with other methods.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# VolumeDiffusion: 効率的なボリュームエンコーダを用いたフレキシブルテキスト・ツー・3D生成

VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder ( http://arxiv.org/abs/2312.11459v2 )

ライセンス: Link先を確認
Zhicong Tang, Shuyang Gu, Chunyu Wang, Ting Zhang, Jianmin Bao, Dong Chen, Baining Guo, (参考訳) 本稿では,テキストから3D生成のための3次元ボリュームエンコーダを提案する。 拡散モデルのトレーニングデータをスケールアップするために,マルチビュー画像から特徴量の効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。 本研究では,不正確なオブジェクトキャプションと高次元特徴ボリュームの課題をさらに解決する。 提案したモデルは、公開Objaverseデータセットに基づいてトレーニングされ、テキストプロンプトから多様で認識可能なサンプルを生成するという有望な結果を示す。 特に、テキストの手がかりを通じてオブジェクトの部分の特徴をより細かく制御し、1つのオブジェクトに複数の概念をシームレスに組み合わせることで、モデルの創造性を育む。 本研究は, 効率的でフレキシブルでスケーラブルな表現手法を導入することで, 3次元生成の進展に大きく貢献する。 コードはhttps://github.com/checkcrab/VolumeDiffusion.comで入手できる。

This paper introduces a pioneering 3D volumetric encoder designed for text-to-3D generation. To scale up the training data for the diffusion model, a lightweight network is developed to efficiently acquire feature volumes from multi-view images. The 3D volumes are then trained on a diffusion model for text-to-3D generation using a 3D U-Net. This research further addresses the challenges of inaccurate object captions and high-dimensional feature volumes. The proposed model, trained on the public Objaverse dataset, demonstrates promising outcomes in producing diverse and recognizable samples from text prompts. Notably, it empowers finer control over object part characteristics through textual cues, fostering model creativity by seamlessly combining multiple concepts within a single object. This research significantly contributes to the progress of 3D generation by introducing an efficient, flexible, and scalable representation methodology. Code is available at https://github.com/checkcrab/VolumeDiffusion.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# 集約的フェデレーション学習 - エンドエッジクラウドコラボレーションによる大規模モデルトレーニングの強化

Agglomerative Federated Learning: Empowering Larger Model Training via End-Edge-Cloud Collaboration ( http://arxiv.org/abs/2312.11489v3 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Quyang Pan, Tianliu He, Xuefeng Jiang, (参考訳) フェデレートラーニング(FL)は、プライバシを損なうことなく、エンドデバイス上で人工知能(AI)モデルをトレーニングすることを可能にする。 コンピューティングタスクがクラウド、エッジ、エンドデバイスの組み合わせによってますます実行されるにつれて、FLは、リアルタイムアクセスによる協調的なデバイススケール拡張を実現するために、エンドエッジクラウドコラボレーション(EECC)パラダイムの恩恵を受けることができる。 階層的フェデレートラーニング(HFL)はEECCに適した多層モデルアグリゲーションをサポートしているが、以前の研究は全ての計算ノードで同じモデル構造を前提としており、最も弱い端末によってモデルスケールを制限している。 この問題に対処するため、我々はEECCを利用した新しいFLフレームワークであるAgglomerative Federated Learning (FedAgg)を提案する。 FedAggは、BSBODP(Bridge Sample Based Online Distillation Protocol)に基づいて、すべての階層で再帰的に計算ノードを編成する。 この設計は、FLのプライバシー制約とEECCの柔軟性要件の両方を満たすことにより、より大きなモデルの可能性を活用することで、パフォーマンスを向上させる。 様々な条件下での実験では、FedAggは平均4.53\%の精度向上と収束率の顕著な改善により最先端の手法よりも優れていた。

Federated Learning (FL) enables training Artificial Intelligence (AI) models over end devices without compromising their privacy. As computing tasks are increasingly performed by a combination of cloud, edge, and end devices, FL can benefit from this End-Edge-Cloud Collaboration (EECC) paradigm to achieve collaborative device-scale expansion with real-time access. Although Hierarchical Federated Learning (HFL) supports multi-tier model aggregation suitable for EECC, prior works assume the same model structure on all computing nodes, constraining the model scale by the weakest end devices. To address this issue, we propose Agglomerative Federated Learning (FedAgg), which is a novel EECC-empowered FL framework that allows the trained models from end, edge, to cloud to grow larger in size and stronger in generalization ability. FedAgg recursively organizes computing nodes among all tiers based on Bridge Sample Based Online Distillation Protocol (BSBODP), which enables every pair of parent-child computing nodes to mutually transfer and distill knowledge extracted from generated bridge samples. This design enhances the performance by exploiting the potential of larger models, with privacy constraints of FL and flexibility requirements of EECC both satisfied. Experiments under various settings demonstrate that FedAgg outperforms state-of-the-art methods by an average of 4.53\% accuracy gains and remarkable improvements in convergence rate.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# 異種行動消去チャンネルによるマルチエージェント帯域学習

Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels ( http://arxiv.org/abs/2312.14259v2 )

ライセンス: Link先を確認
Osama A. Hanna, Merve Karakas, Lin F. Yang, Christina Fragouli, (参考訳) Multi-Armed Bandit (MAB) システムは、マルチエージェント分散環境におけるアプリケーションの増加を目撃しており、コラボレーティブMABアルゴリズムの進歩につながっている。 このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。 分散学習における主な課題は行動消去であり、しばしば通信遅延やチャネルノイズによって引き起こされる。 その結果、エージェントは学習者から意図した行動を受けていない可能性があり、その後、誤ったフィードバックがもたらされる。 本稿では,学習者が異種行動消去チャネルをまたいだ分散エージェントと同時に対話できる新しいアルゴリズムを提案する。 線形後悔を経験する既存のバンディットアルゴリズムとは対照的に,我々のアルゴリズムは線形後悔を保証する。 提案手法は、細心の注意を要する繰り返しプロトコルと、異種チャネル間の学習のスケジューリングに基づいて構築されている。 我々の知る限り、これらは異種行動消去チャネルを通して効果的に学習できる最初のアルゴリズムである。 我々は,マルチエージェント環境における通信制約や遅延の問題に対処する上で,その実用的意義を強調し,数値実験によりアルゴリズムの優れた性能を実証する。

Multi-Armed Bandit (MAB) systems are witnessing an upswing in applications within multi-agent distributed environments, leading to the advancement of collaborative MAB algorithms. In such settings, communication between agents executing actions and the primary learner making decisions can hinder the learning process. A prevalent challenge in distributed learning is action erasure, often induced by communication delays and/or channel noise. This results in agents possibly not receiving the intended action from the learner, subsequently leading to misguided feedback. In this paper, we introduce novel algorithms that enable learners to interact concurrently with distributed agents across heterogeneous action erasure channels with different action erasure probabilities. We illustrate that, in contrast to existing bandit algorithms, which experience linear regret, our algorithms assure sub-linear regret guarantees. Our proposed solutions are founded on a meticulously crafted repetition protocol and scheduling of learning across heterogeneous channels. To our knowledge, these are the first algorithms capable of effectively learning through heterogeneous action erasure channels. We substantiate the superior performance of our algorithm through numerical experiments, emphasizing their practical significance in addressing issues related to communication constraints and delays in multi-agent environments.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# 逐次学習アルゴリズムを用いたグラフ埋め込みのためのFPGAベースの加速器

An FPGA-Based Accelerator for Graph Embedding using Sequential Training Algorithm ( http://arxiv.org/abs/2312.15138v2 )

ライセンス: Link先を確認
Kazuki Sunaga, Keisuke Sugiura, Hiroki Matsutani, (参考訳) グラフ埋め込みは、固定長の低次元ベクトルを持つグラフ構造を表現する新しいアプローチである。 node2vecは、ランダムウォーク手法を用いて、あるグラフ上の隣接ノードをサンプリングすることにより、そのようなグラフ埋め込みを得るためのよく知られたアルゴリズムである。 しかし、元の node2vec アルゴリズムは一般的にグラフ構造のバッチトレーニングに依存しているため、配置後にグラフ構造が変化するアプリケーションには適していない。 本稿では、IoT(Internet of Things)環境のためのnode2vecアプリケーションに焦点を当てる。 本稿では,IoTデバイスがエッジ環境にデプロイされた後のグラフ構造の変化に対処するため,オンラインシーケンシャルトレーニングアルゴリズムと node2vec を組み合わせることを提案する。 提案した逐次学習可能なモデルはFPGA(Field-Programmable Gate Array)デバイス上に実装され,提案手法の利点を実証する。 提案されたFPGA実装は、ARM Cortex-A53 CPUのオリジナルのモデルと比較して最大205.25倍の高速化を実現している。 動的グラフを用いた評価の結果、元のモデルでは精度が低下するが、提案したシーケンシャルモデルはグラフ構造が変更されても高い精度でグラフ埋め込みが得られることを示す。

A graph embedding is an emerging approach that can represent a graph structure with a fixed-length low-dimensional vector. node2vec is a well-known algorithm to obtain such a graph embedding by sampling neighboring nodes on a given graph with a random walk technique. However, the original node2vec algorithm typically relies on a batch training of graph structures; thus, it is not suited for applications in which the graph structure changes after the deployment. In this paper, we focus on node2vec applications for IoT (Internet of Things) environments. To handle the changes of graph structures after the IoT devices have been deployed in edge environments, in this paper we propose to combine an online sequential training algorithm with node2vec. The proposed sequentially-trainable model is implemented on an FPGA (Field-Programmable Gate Array) device to demonstrate the benefits of our approach. The proposed FPGA implementation achieves up to 205.25 times speedup compared to the original model on ARM Cortex-A53 CPU. Evaluation results using dynamic graphs show that although the accuracy is decreased in the original model, the proposed sequential model can obtain better graph embedding that achieves a higher accuracy even when the graph structure is changed.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# 残留ニューラルネットワークの勾配サンプリング最適化を用いたロバストニューラルプルーニング

Robust Neural Pruning with Gradient Sampling Optimization for Residual Neural Networks ( http://arxiv.org/abs/2312.16020v3 )

ライセンス: Link先を確認
Juyoung Yun, (参考訳) この研究は、勾配サンプリング最適化技術、特にStochGradAdamをニューラルネットワークのプルーニングプロセスに統合するパイオニアとなる。 我々の主な目的は、資源制約のあるシナリオにおいて重要なプルーニングニューラルネットワークモデルの精度を維持するという重要な課題に対処することである。 広範囲な実験により,従来の最適化手法と比較して,勾配サンプリングはプルーニング過程の前後の精度を著しく向上することを示した。 本研究は、頑健な学習における勾配サンプリングの意義と、実質的なモデルの単純化後の重要な情報を維持することの重要性を明らかにする。 CIFAR-10データセットと残留ニューラルネットワークによる結果から,我々のアプローチの汎用性と有効性が確認された。 この研究は、限られた計算資源を持つ環境においても、性能を損なうことなく効率的なニューラルネットワークを開発するための有望な方向性を示す。

This research embarks on pioneering the integration of gradient sampling optimization techniques, particularly StochGradAdam, into the pruning process of neural networks. Our main objective is to address the significant challenge of maintaining accuracy in pruned neural models, critical in resource-constrained scenarios. Through extensive experimentation, we demonstrate that gradient sampling significantly preserves accuracy during and after the pruning process compared to traditional optimization methods. Our study highlights the pivotal role of gradient sampling in robust learning and maintaining crucial information post substantial model simplification. The results across CIFAR-10 datasets and residual neural architectures validate the versatility and effectiveness of our approach. This work presents a promising direction for developing efficient neural networks without compromising performance, even in environments with limited computational resources.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# 野生におけるアモダルグラウンドの真理と完遂

Amodal Ground Truth and Completion in the Wild ( http://arxiv.org/abs/2312.17247v2 )

ライセンス: Link先を確認
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman, (参考訳) 本稿では,非モーダル画像のセグメンテーションについて検討し,可視部と可視部の両方を含む全物体セグメンテーションマスクの予測を行った。 以前の研究では、実画像上のアモーダルなセグメンテーション基底真理は、通常手動のアナタトンによって予測され、従って主観的である。 対照的に、我々は3Dデータを用いて、実画像の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。 このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。 そこで本研究では,まずオクルーダを推定し,次にアモーダルマスクを補完する2段階モデルと,多数のカテゴリにわたるアモーダルセグメンテーションにおいて,安定拡散の表現力を利用する1段階モデルについて検討する。 ベルやホイッスルを使わずに,COCOAや新しいMP3D-Amodalデータセットを含む多種多様なオブジェクトをカバーするAmodalセグメンテーションデータセット上で,最先端のパフォーマンスを実現する。 データセット、モデル、コードはhttps://www.robots.ox.ac.uk/~vgg/research/amodal/で入手できる。

This paper studies amodal image segmentation: predicting entire object segmentation masks including both visible and invisible (occluded) parts. In previous work, the amodal segmentation ground truth on real images is usually predicted by manual annotaton and thus is subjective. In contrast, we use 3D data to establish an automatic pipeline to determine authentic ground truth amodal masks for partially occluded objects in real images. This pipeline is used to construct an amodal completion evaluation benchmark, MP3D-Amodal, consisting of a variety of object categories and labels. To better handle the amodal completion task in the wild, we explore two architecture variants: a two-stage model that first infers the occluder, followed by amodal mask completion; and a one-stage model that exploits the representation power of Stable Diffusion for amodal segmentation across many categories. Without bells and whistles, our method achieves a new state-of-the-art performance on Amodal segmentation datasets that cover a large variety of objects, including COCOA and our new MP3D-Amodal dataset. The dataset, model, and code are available at https://www.robots.ox.ac.uk/~vgg/research/amodal/.
翻訳日:2024-05-01 00:05:37 公開日:2024-04-29
# The TopCoW Challenge: TopCoW Challenge: Topology-Aware Anatomical Segmentation of the Circle of Willis for CTA and MRA

Benchmarking the CoW with the TopCoW Challenge: Topology-Aware Anatomical Segmentation of the Circle of Willis for CTA and MRA ( http://arxiv.org/abs/2312.17670v3 )

ライセンス: Link先を確認
Kaiyuan Yang, Fabio Musio, Yihui Ma, Norman Juchler, Johannes C. Paetzold, Rami Al-Maskari, Luciano Höher, Hongwei Bran Li, Ibrahim Ethem Hamamci, Anjany Sekuboyina, Suprosanna Shit, Houjing Huang, Chinmay Prabhakar, Ezequiel de la Rosa, Diana Waldmannstetter, Florian Kofler, Fernando Navarro, Martin Menten, Ivan Ezhov, Daniel Rueckert, Iris Vos, Ynte Ruigrok, Birgitta Velthuis, Hugo Kuijf, Julien Hämmerli, Catherine Wurster, Philippe Bijlenga, Laura Westphal, Jeroen Bisschop, Elisa Colombo, Hakim Baazaoui, Andrew Makmur, James Hallinan, Bene Wiestler, Jan S. Kirschke, Roland Wiest, Emmanuel Montagnon, Laurent Letourneau-Guillon, Adrian Galdran, Francesco Galati, Daniele Falcetta, Maria A. Zuluaga, Chaolong Lin, Haoran Zhao, Zehan Zhang, Sinyoung Ra, Jongyun Hwang, Hyunjin Park, Junqiang Chen, Marek Wodzinski, Henning Müller, Pengcheng Shi, Wei Liu, Ting Ma, Cansu Yalçin, Rachika E. Hamadache, Joaquim Salvi, Xavier Llado, Uma Maria Lal-Trehan Estrada, Valeriia Abramova, Luca Giancardo, Arnau Oliver, Jialu Liu, Haibin Huang, Yue Cui, Zehang Lin, Yusheng Liu, Shunzhi Zhu, Tatsat R. Patel, Vincent M. Tutino, Maysam Orouskhani, Huayu Wang, Mahmud Mossa-Basha, Chengcheng Zhu, Maximilian R. Rokuss, Yannick Kirchhoff, Nico Disch, Julius Holzschuh, Fabian Isensee, Klaus Maier-Hein, Yuki Sato, Sven Hirsch, Susanne Wegener, Bjoern Menze, (参考訳) ウィリス循環(英: Circle of Willis、略称:CoW)は、脳の主要な循環を繋ぐ重要な動脈網である。 その血管構造は、重篤な神経血管疾患のリスク、重症度、臨床結果に影響を及ぼすと考えられている。 しかし、高度に可変なCoW解剖を特徴付けることは、まだ手作業であり、時間を要する専門家のタスクである。 CoWは通常、磁気共鳴血管造影(MRA)とCTアンギオグラフィ(CTA)の2つのアンギオグラフィーによって画像化されるが、CoW解剖学、特にCTAのアノテーションを付加したパブリックデータセットは限られている。 そこで2023年に、注釈付きCoWデータセットのリリースでTopCoW Challengeを組織しました。 TopCoWデータセットは、仮想現実性(VR)技術によって実現された13の可能なCoWコンテナコンポーネントに対して、ボクセルレベルのアノテーションを備えた最初のパブリックデータセットである。 また、同じ患者からMRAとCTAをペアにした最初の大規模なデータセットでもある。 TopCoW チャレンジは、トポロジカルメトリクスに重点を置いたマルチクラス解剖学的セグメンテーションタスクとして、CoW のキャラクタリゼーション問題を定式化した。 我々は4大陸から140人以上の登録参加者を集めたCoWセグメンテーションタスクを世界中に招待した。 トップパフォーマンスチームは、多くのCoWコンポーネントをDiceのスコアに分割することに成功しました。 また、Diceスコアの高い予測についてもトポロジカルな誤りがあった。 追加のトポロジ解析により、特定のCoW成分を検出し、CoW変量トポロジを正確にマッチングするためのさらなる領域が明らかにされた。 TopCoWは、形態的にも位相的にも、MRAとCTAのためのCoW解剖学的セグメンテーションタスクをベンチマークする最初の試みである。

The Circle of Willis (CoW) is an important network of arteries connecting major circulations of the brain. Its vascular architecture is believed to affect the risk, severity, and clinical outcome of serious neuro-vascular diseases. However, characterizing the highly variable CoW anatomy is still a manual and time-consuming expert task. The CoW is usually imaged by two angiographic imaging modalities, magnetic resonance angiography (MRA) and computed tomography angiography (CTA), but there exist limited public datasets with annotations on CoW anatomy, especially for CTA. Therefore we organized the TopCoW Challenge in 2023 with the release of an annotated CoW dataset. The TopCoW dataset was the first public dataset with voxel-level annotations for thirteen possible CoW vessel components, enabled by virtual-reality (VR) technology. It was also the first large dataset with paired MRA and CTA from the same patients. TopCoW challenge formalized the CoW characterization problem as a multiclass anatomical segmentation task with an emphasis on topological metrics. We invited submissions worldwide for the CoW segmentation task, which attracted over 140 registered participants from four continents. The top performing teams managed to segment many CoW components to Dice scores around 90%, but with lower scores for communicating arteries and rare variants. There were also topological mistakes for predictions with high Dice scores. Additional topological analysis revealed further areas for improvement in detecting certain CoW components and matching CoW variant topology accurately. TopCoW represented a first attempt at benchmarking the CoW anatomical segmentation task for MRA and CTA, both morphologically and topologically.
翻訳日:2024-05-01 00:05:36 公開日:2024-04-29
# 露光ブラケットは、画像復元と拡張タスクの統合に必要なもの

Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks ( http://arxiv.org/abs/2401.00766v3 )

ライセンス: Link先を確認
Zhilu Zhang, Shuohao Zhang, Renlong Wu, Zifei Yan, Wangmeng Zuo, (参考訳) 低照度環境では、鮮明な内容の高品質な写真を取得することが非常に望ましいが、難しい。 マルチイメージ処理手法(バースト、デュアル露光、マルチ露光画像)はこの問題に対処する上で大きな進歩を遂げているが、通常は特定の復元や強化の問題に焦点を合わせており、マルチイメージの活用には不十分である。 マルチ露光画像は,分解,分解,高ダイナミックレンジイメージング,高解像度化に相補的であり,露光ブラケット写真を用いて修復作業と強化作業を統合することを提案する。 実世界のペアを集めることの難しさから,まず合成ペアデータを用いてモデルを事前学習し,実世界の未ラベル画像に適応させる手法を提案する。 特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。 さらに,200の夜間シナリオからペアを合成し,実世界の画像を収集するデータシミュレーションパイプラインを構築した。 両データセットの実験から,本手法は最先端のマルチイメージ処理に対して良好に動作することが示された。 データセット、コード、事前トレーニングされたモデルはhttps://github.com/cszhilu1998/BracketIREで入手できる。

It is highly desired but challenging to acquire high-quality photos with clear content in low-light environments. Although multi-image processing methods (using burst, dual-exposure, or multi-exposure images) have made significant progress in addressing this issue, they typically focus on specific restoration or enhancement problems, being insufficient in exploiting multi-image. Motivated by that multi-exposure images are complementary in denoising, deblurring, high dynamic range imaging, and super-resolution, we propose to utilize exposure bracketing photography to unify restoration and enhancement tasks in this work. Due to the difficulty in collecting real-world pairs, we suggest a solution that first pre-trains the model with synthetic paired data and then adapts it to real-world unlabeled images. In particular, a temporally modulated recurrent network (TMRNet) and self-supervised adaptation method are proposed. Moreover, we construct a data simulation pipeline to synthesize pairs and collect real-world images from 200 nighttime scenarios. Experiments on both datasets show that our method performs favorably against the state-of-the-art multi-image processing ones. The dataset, code, and pre-trained models are available at https://github.com/cszhilu1998/BracketIRE.
翻訳日:2024-05-01 00:05:36 公開日:2024-04-29
# 意図分析でLLMがジェイルブレイクのディフェンダーになる

Intention Analysis Makes LLMs A Good Jailbreak Defender ( http://arxiv.org/abs/2401.06561v3 )

ライセンス: Link先を確認
Yuqi Zhang, Liang Ding, Lefei Zhang, Dacheng Tao, (参考訳) 大規模言語モデル(LLM)を人的価値、特に複雑でステルスなジェイルブレイク攻撃に直面して調整することは、恐ろしい挑戦だ。 本研究では,意図分析(\mathbb{IA}$)という,シンプルで効果的な防衛戦略を提案する。 この背景にある原則は、LSM固有の自己修正をトリガーし、2段階のプロセスを通じて能力を改善することである。 1)本質的な意図分析、及び 2)政策対応対応。 特に$\mathbb{IA}$は推論のみの手法であり、その有用性を損なうことなくLLMの安全性を高めることができる。 ChatGLM、LLaMA2、Vicuna、MPT、DeepSeek、およびGPT-3.5にわたる様々なジェイルブレイクベンチマークに関する広範な実験により、$\mathbb{IA}$は、応答の有害性(平均-53.1%の攻撃成功率)を一貫して大幅に低減し、一般的な有用性を維持することができた。 われわれの$\mathbb{IA}$の助けを借りて、Vicuna-7BはGPT-3.5よりも攻撃の成功率が高い。 さらなる分析は、我々の方法がどのように機能するかについての洞察を提示する。 再現性を促進するため、コードとスクリプトをhttps://github.com/alphadl/SafeLLM_with_IntentionAnalysis.comでリリースします。

Aligning large language models (LLMs) with human values, particularly in the face of complex and stealthy jailbreak attacks, presents a formidable challenge. In this study, we present a simple yet highly effective defense strategy, i.e., Intention Analysis ($\mathbb{IA}$). The principle behind this is to trigger LLMs' inherent self-correct and improve ability through a two-stage process: 1) essential intention analysis, and 2) policy-aligned response. Notably, $\mathbb{IA}$ is an inference-only method, thus could enhance the safety of LLMs without compromising their helpfulness. Extensive experiments on varying jailbreak benchmarks across ChatGLM, LLaMA2, Vicuna, MPT, DeepSeek, and GPT-3.5 show that $\mathbb{IA}$ could consistently and significantly reduce the harmfulness in responses (averagely -53.1% attack success rate) and maintain the general helpfulness. Encouragingly, with the help of our $\mathbb{IA}$, Vicuna-7B even outperforms GPT-3.5 in terms of attack success rate. Further analyses present some insights into how our method works. To facilitate reproducibility, we release our code and scripts at: https://github.com/alphadl/SafeLLM_with_IntentionAnalysis.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# マルコフ雑音による確率近似と強化学習のODE法

The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise ( http://arxiv.org/abs/2401.07844v3 )

ライセンス: Link先を確認
Shuze Liu, Shuhang Chen, Shangtong Zhang, (参考訳) 確率近似(Stochastic approximation)は、ベクトルを反復的に、漸進的に、確率的に更新するアルゴリズムのクラスである。 確率近似アルゴリズムを解析する基本的な課題の1つは、その安定性、すなわち確率ベクトル反復がほぼ確実に有界であることを示すことである。 本稿では,マルティンゲール差音設定からマルコフ雑音設定への安定性に関するボルカール・メインの定理を拡張し,特に線形関数近似と可視性トレースを持つ非線形強化学習アルゴリズムにおける強化学習への適用性を大幅に向上させる。 我々の分析の中心は、少数の函数の変化の漸近速度の減少であり、これは大数の強い法則の形式とよく使われるV4リャプノフドリフト条件の両方によって示唆され、マルコフ鎖が有限で既約であれば自明に成り立つ。

Stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a stochastic approximation algorithm is to establish its stability, i.e., to show that the stochastic vector iterates are bounded almost surely. In this paper, we extend the celebrated Borkar-Meyn theorem for stability from the Martingale difference noise setting to the Markovian noise setting, which greatly improves its applicability in reinforcement learning, especially in those off-policy reinforcement learning algorithms with linear function approximation and eligibility traces. Central to our analysis is the diminishing asymptotic rate of change of a few functions, which is implied by both a form of strong law of large numbers and a commonly used V4 Lyapunov drift condition and trivially holds if the Markov chain is finite and irreducible.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# 散逸駆動量子ビットにおける非マルコビアン性の動的シグネチャ

Dynamical signatures of non-Markovianity in a dissipative-driven qubit ( http://arxiv.org/abs/2401.09298v3 )

ライセンス: Link先を確認
Graziano Amati, (参考訳) 散逸性ボゾン環境に結合した周期駆動量子ビットの力学における非マルコビアン性のシグネチャについて検討する。 我々は、数値的に正確な運動の階層方程式を統合することにより、量子ビットの密度行列の減少の力学を伝播する。 非マルコフ的特徴は、量子散逸に対する多様で相補的なアプローチからの予測を等しく基礎に比較することによって定量化される。 特に、量子状態の微分可能性、ヒルベルト空間上の量子ビットにアクセスできる体積の減衰、一般化リンドブラッド方程式における正準率の負性、中島-ズワンジグ一般化量子マスター方程式におけるメモリカーネルの緩和について分析する。 制御駆動がシステムのコヒーレントダイナミクスに及ぼす影響について検討する。 本研究では,時間的相関関数のエルゴード緩和を相殺し,時間的差分性を高め,正準散逸チャネルで観測される非マルコフ効果を強化することができることを示す。 さらに, 外部駆動の周波数を変調することにより, システムバス結合を十分に小さくする上での永遠的非マルコフ性現象について考察する。 本研究は、オープン量子力学と量子情報の枠組みにおける量子散逸の広範な理論的解析を提供する。

We investigate signatures of non-Markovianity in the dynamics of a periodically-driven qubit coupled to a dissipative bosonic environment. We propagate the dynamics of the reduced density matrix of the qubit by integrating the numerically exact hierarchical equations of motion. Non-Markovian features are quantified by comparing on an equal footing the predictions from diverse and complementary approaches to quantum dissipation. In particular, we analyze the distinguishability of quantum states, the decay of the volume accessible to the qubit on the Hilbert space, the negativity of the canonical rates in the generalized Lindblad equation and the relaxation of the memory kernels in the Nakajima-Zwanzig generalized quantum master equation. We study the effects of controlled driving on the coherent dynamics of the system. We show that a suitable external field can offset the ergodic relaxation of time correlation functions, increase distinguishability over time and strengthen non-Markovian effects witnessed by the canonical dissipation channels. We furthermore observe the phenomenon of eternal non-Markovianity for sufficiently small system-bath coupling and we discuss how this can be enhanced by modulating the frequency of the external drive. The present work provides a broad theoretical analysis of quantum dissipation in the framework of open quantum dynamics and quantum information.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# 防犯用プルーニング : 微調整を伴わない配向LLMの耐ジェイルブレイク性の向上

Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning ( http://arxiv.org/abs/2401.10862v2 )

ライセンス: Link先を確認
Adib Hasan, Ileana Rugina, Alex Wang, (参考訳) 大規模言語モデル(LLM)は、有害なコンテンツの生成を誘発する‘jailbreaking’プロンプトに影響を受けやすい。 本稿では,中程度のWADAプルーニング(Sun et al , 2023)は,標準ベンチマークの性能を維持しつつ,微調整を必要とせず,攻撃に対する抵抗を増大させることができることを示す。 以上の結果から, プルーニングの利点は, モデルの初期安全性レベルと相関し, WANDAプルーニングの正規化効果が示唆された。 この安全性向上を体系的に評価するために,5つのカテゴリにまたがる225の有害タスクのデータセットを導入する。 我々は、安全改善は正規化の観点から理解することができると論じる。 まず, Pruning は LLM がjailbreaking プロンプト内のタスク関連トークンにより効果的に焦点を合わせるのに役立つことを示す。 そこで我々は,ジェイルブレイクテンプレートへの統合前後における悪意あるプロンプトの難易度に及ぼすプルーニングの影響を解析した。 最後に,線形モデルにWADAを適用する際に,領域シフトによる統計的に有意な性能向上を示す。

Large Language Models (LLMs) are susceptible to `jailbreaking' prompts, which can induce the generation of harmful content. This paper demonstrates that moderate WANDA pruning (Sun et al., 2023) can increase their resistance to such attacks without the need for fine-tuning, while maintaining performance on standard benchmarks. Our findings suggest that the benefits of pruning correlate with the initial safety levels of the model, indicating a regularizing effect of WANDA pruning. We introduce a dataset of 225 harmful tasks across five categories to systematically evaluate this safety enhancement. We argue that safety improvements can be understood through a regularization perspective. First, we show that pruning helps LLMs focus more effectively on task-relevant tokens within jailbreaking prompts. Then, we analyze the effects of pruning on the perplexity of malicious prompts before and after their integration into jailbreak templates. Finally, we demonstrate statistically significant performance improvements under domain shifts when applying WANDA to linear models.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# 逆行列VT3D:3次元動作予測のための効率的な投影行列ベースアプローチ

InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction ( http://arxiv.org/abs/2401.12422v2 )

ライセンス: Link先を確認
Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall, (参考訳) 本稿では,多視点画像特徴量を3次元特徴量に変換する手法であるInverseMatrixVT3Dを提案する。 既存の3Dボリュームの構築方法は、しばしば深さ推定、デバイス固有の演算子、トランスフォーマークエリに依存しており、3D占有モデルの普及を妨げている。 対照的に,本手法では2つのプロジェクション行列を用いて静的マッピング関係と行列乗算を保存し,グローバルバードアイビュー(BEV)機能と局所的な3次元特徴量を生成する。 具体的には、マルチビュー画像特徴写像と2つのスパース投影行列の行列乗算を行うことにより、これを実現する。 プロジェクション行列に対するスパース行列処理手法を導入し,GPUメモリ使用率を最適化する。 さらに、グローバルなBEV特徴量とローカルな3D特徴量を統合することで、最終3Dボリュームを得るため、グローバルなローカルアテンション融合モジュールを提案する。 また,性能向上のため,マルチスケールの監視機構も採用している。 nuScenesとSemanticKITTIデータセットで実施された大規模な実験により、我々のアプローチは、その単純さと有効性だけでなく、自動運転車と道路安全にとって不可欠な、脆弱な道路利用者(VRU)を検出する上で最高のパフォーマンスを達成していることが明らかとなった。 コードはhttps://github.com/DanielMing123/InverseMatrixVT3Dで公開されている。

This paper introduces InverseMatrixVT3D, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer queries, which hinders the widespread adoption of 3D occupancy models. In contrast, our approach leverages two projection matrices to store the static mapping relationships and matrix multiplications to efficiently generate global Bird's Eye View (BEV) features and local 3D feature volumes. Specifically, we achieve this by performing matrix multiplications between multi-view image feature maps and two sparse projection matrices. We introduce a sparse matrix handling technique for the projection matrices to optimize GPU memory usage. Moreover, a global-local attention fusion module is proposed to integrate the global BEV features with the local 3D feature volumes to obtain the final 3D volume. We also employ a multi-scale supervision mechanism to enhance performance further. Extensive experiments performed on the nuScenes and SemanticKITTI datasets reveal that our approach not only stands out for its simplicity and effectiveness but also achieves the top performance in detecting vulnerable road users (VRU), crucial for autonomous driving and road safety. The code has been made available at: https://github.com/DanielMing123/InverseMatrixVT3D
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# (Chat)GPT v BERT:意味的変化検出のための正義の夜明け

(Chat)GPT v BERT: Dawn of Justice for Semantic Change Detection ( http://arxiv.org/abs/2401.14040v3 )

ライセンス: Link先を確認
Francesco Periti, Haim Dubossarsky, Nina Tahmasebi, (参考訳) 自然言語処理の世界では、BERTや(Chat)GPTのようなトランスフォーマーベースの言語モデルが、オープンな研究問題を解決するために強力な力を持つ語彙スーパーヒーローとして登場した。 本稿では,意味変化の時間的問題に特に着目し,ワープ・イン・コンテキスト(WiC)タスクの2つのダイアクロニック拡張(TempoWiC)とHistoWiC(HistoWiC)を解く能力を評価する。 特に,ChatGPT (and GPT) 3.5 のような新技術が BERT と比較される可能性について検討した。 本実験は,意味変化の研究における (Chat)GPT の利用を評価する最初の試みである。 以上の結果から,ChatGPTは基礎的なGPTバージョンよりも大幅に性能が低下することが示唆された。 さらに, (Chat)GPTは, 長期変化検出においてBERTよりも若干低い性能を示したが, 短期変化検出では著しく低下した。

In the universe of Natural Language Processing, Transformer-based language models like BERT and (Chat)GPT have emerged as lexical superheroes with great power to solve open research problems. In this paper, we specifically focus on the temporal problem of semantic change, and evaluate their ability to solve two diachronic extensions of the Word-in-Context (WiC) task: TempoWiC and HistoWiC. In particular, we investigate the potential of a novel, off-the-shelf technology like ChatGPT (and GPT) 3.5 compared to BERT, which represents a family of models that currently stand as the state-of-the-art for modeling semantic change. Our experiments represent the first attempt to assess the use of (Chat)GPT for studying semantic change. Our results indicate that ChatGPT performs significantly worse than the foundational GPT version. Furthermore, our results demonstrate that (Chat)GPT achieves slightly lower performance than BERT in detecting long-term changes but performs significantly worse in detecting short-term changes.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# 最適輸送を用いた副次的マルチモーダル情報を用いた表現認識

Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport ( http://arxiv.org/abs/2401.15489v3 )

ライセンス: Link先を確認
Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi, Marco Pedersoli, Alessandro Koerich, Simon Bacon, Eric Granger, (参考訳) 多モーダル表現認識のための深層学習モデルは、相補的および冗長な意味情報を学習できるため、制御された実験室環境において顕著な性能に達した。 しかし、これらのモデルは、主に訓練に使用されるモダリティの可用性と品質のために、荒野で苦労している。 実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。 特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。 複数の教師モデル(いずれもモダリティで訓練された)から共通の学生モデルに情報を蒸留するために、最先端知識蒸留(KD)法が提案されている。 これらの特権付きKD法は、通常、ポイント・ツー・ポイントマッチングを利用するが、特権付きモダリティを導入して形成された教師表現空間の構造情報をキャプチャする明確なメカニズムは持っていない。 実験は、Biovidデータセット(通常分類)の痛み推定と、Affwild2データセット(回帰)の覚醒値予測の2つの課題で実施された。 その結果,提案手法はこれらの問題に対して,最先端の特権的KD法より優れていることがわかった。 モジュラリティと融合アーキテクチャの多様性は、PKDOTがモダリティとモデルに依存しないことを示している。

Deep learning models for multimodal expression recognition have reached remarkable performance in controlled laboratory environments because of their ability to learn complementary and redundant semantic information. However, these models struggle in the wild, mainly because of the unavailability and quality of modalities used for training. In practice, only a subset of the training-time modalities may be available at test time. Learning with privileged information enables models to exploit data from additional modalities that are only available during training. State-of-the-art knowledge distillation (KD) methods have been proposed to distill information from multiple teacher models (each trained on a modality) to a common student model. These privileged KD methods typically utilize point-to-point matching, yet have no explicit mechanism to capture the structural information in the teacher representation space formed by introducing the privileged modality. Experiments were performed on two challenging problems - pain estimation on the Biovid dataset (ordinal classification) and arousal-valance prediction on the Affwild2 dataset (regression). Results show that our proposed method can outperform state-of-the-art privileged KD methods on these problems. The diversity among modalities and fusion architectures indicates that PKDOT is modality- and model-agnostic.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# 強化学習を用いた量子スクイーズ状態の生成戦略

A Strategy for Preparing Quantum Squeezed States Using Reinforcement Learning ( http://arxiv.org/abs/2401.16320v2 )

ライセンス: Link先を確認
X. L. Zhao, Y. M. Zhao, M. Li, T. T. Li, Q. Liu, S. Guo, X. X. Yi, (参考訳) 非古典的状態を生成するために,強化学習を工学的制御分野に適用する手法を提案する。 線形制御場を動的に制御するように設計した開集合スピンモデルに対するスピンスクイーズ状態の準備を応用によって例示する。 本発明の強化学習剤は、散逸及び脱落を特徴とする環境において、コヒーレントスピン状態から生じる制御パルスの時間的シーケンスを決定する。 一定の制御シナリオと比較して、このアプローチは集合的なスピンスクイーズと絡み合いを維持する様々な制御シーケンスを提供する。 制御パルスの高密度適用により,結果の性能が向上することが観察された。 しかし、制御アクションを追加することでパフォーマンスが少し向上する。 提案手法は,大規模システムに対する有効性の向上を実証する。 貯水池の熱励起は制御結果に有害である。 制御提案を実装するための有効な実験が提案されている。 連続制御問題と他の量子系の拡張について論じる。 強化学習モジュールの置換性も強調されている。 この研究は、他の量子系を操作するための応用の道を開いた。

We propose a scheme leveraging reinforcement learning to engineer control fields for generating non-classical states. It is exemplified by the application to prepare spin-squeezed states for an open collective spin model where a linear control field is designed to govern the dynamics. The reinforcement learning agent determines the temporal sequence of control pulses, commencing from a coherent spin state in an environment characterized by dissipation and dephasing. Compared to the constant control scenario, this approach provides various control sequences maintaining collective spin squeezing and entanglement. It is observed that denser application of the control pulses enhances the performanceof the outcomes. However, there is a minor enhancement in the performance by adding control actions. The proposed strategy demonstrates increased effectiveness for larger systems. Thermal excitations of the reservoir are detrimental to the control outcomes. Feasible experiments are suggested to implement the control proposal. The extension to continuous control problems and another quantum system are discussed. The replaceability of the reinforcement learning module is also emphasized. This research paves the way for its application in manipulating other quantum systems.
翻訳日:2024-04-30 23:55:37 公開日:2024-04-29
# 事実表現を用いたテキスト分類器の解説

Explaining Text Classifiers with Counterfactual Representations ( http://arxiv.org/abs/2402.00711v2 )

ライセンス: Link先を確認
Pirmin Lemberger, Antoine Saillenfest, (参考訳) 分類器のよく動機付けられた1つの説明法は、一つの分類的特徴を除いて全ての面における実観測と同一の仮説的事象である反事実を利用する。 しかし、そのような偽造は、ある属性値が必ずしも有望な現実世界の出来事と一致するとは限らないため、テキストに特定の課題をもたらす。 本稿では,この制限を回避したテキスト表現空間に介入することで,対物生成の簡易な手法を提案する。 我々は、我々の介入は最小限に破壊的であり、パールの因果推論の枠組みで定義された反事実と整合する理論上は健全であると主張する。 提案手法を検証するために,まず合成データセットを用いて実験を行い,次に現実的な反事実のデータセットを用いて実験を行った。 これにより、接地真理対物(明示的なテキスト介入によって得られる)に基づく分類器の予測と、表現空間の介入によって導かれる我々の対物との直接比較が可能になる。 最終的に、我々のカウンターファクトを分類器の説明とバイアス軽減の両方に活用できる実世界のシナリオを考察する。

One well motivated explanation method for classifiers leverages counterfactuals which are hypothetical events identical to real observations in all aspects except for one categorical feature. Constructing such counterfactual poses specific challenges for texts, however, as some attribute values may not necessarily align with plausible real-world events. In this paper we propose a simple method for generating counterfactuals by intervening in the space of text representations which bypasses this limitation. We argue that our interventions are minimally disruptive and that they are theoretically sound as they align with counterfactuals as defined in Pearl's causal inference framework. To validate our method, we conducted experiments first on a synthetic dataset and then on a realistic dataset of counterfactuals. This allows for a direct comparison between classifier predictions based on ground truth counterfactuals - obtained through explicit text interventions - and our counterfactuals, derived through interventions in the representation space. Eventually, we study a real world scenario where our counterfactuals can be leveraged both for explaining a classifier and for bias mitigation.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-29
# 言語モデルアライメントにおけるプロキシ・リワードの役割の再考

Rethinking the Role of Proxy Rewards in Language Model Alignment ( http://arxiv.org/abs/2402.03469v2 )

ライセンス: Link先を確認
Sungdong Kim, Minjoon Seo, (参考訳) 大規模言語モデル(LLM)を人的価値と整合させるために,プロキシ報酬モデリングによる人的フィードバックからの学習が研究されている。 しかし、プロキシ報酬モデル(RM)による信頼性の高いトレーニングを実現することは簡単な問題ではなく、その振る舞いはブラックボックスとして残った。 本稿では,White-box reward関数として解釈可能な特徴を合成することにより,LLMアライメントにおける代行報酬の役割を「リバース報酬工学」を用いて検討する。 強化学習(RL)において,代行報酬を用いたモデルを訓練した後,代行報酬信号と金報奨信号との単調な関係を達成し,基礎的真理(金)報奨信号の再現を目指す。 以上の結果から,金の報酬をうまくエミュレートするには,オープンエンドの質問に対して十分な長さの応答を生成するとともに,クローズドエンドの質問に対する応答の整合性を確保する必要があることが示唆された。 さらに、設計したホワイトボックス報酬を最適化するモデルにより、アライメントベンチマークにおいて強力なオープンソースRMと競合する性能を示す。 我々は、LLMアライメントのための単純だが強力な報酬ベースラインとしての可能性を強調し、人間のフィードバックデータセットやRMトレーニングは必要としない。 私たちのコードはhttps://github.com/naver-ai/rethinking-proxy-reward.comで公開されています。

Learning from human feedback via proxy reward modeling has been studied to align Large Language Models (LLMs) with human values. However, achieving reliable training through that proxy reward model (RM) is not a trivial problem, and its behavior remained as a black-box. In this paper, we study the role of proxy rewards in the LLM alignment via `reverse reward engineering' by composing interpretable features as a white-box reward function. We aim to replicate the ground truth (gold) reward signal by achieving a monotonic relationship between the proxy and gold reward signals after training the model using the proxy reward in reinforcement learning (RL). Our findings indicate that successfully emulating the gold reward requires generating responses that are relevant with enough length to open-ended questions, while also ensuring response consistency in closed-ended questions. Furthermore, resulting models optimizing our devised white-box reward show competitive performances with strong open-source RMs in alignment benchmarks. We highlight its potential usage as a simple but strong reward baseline for the LLM alignment, not requiring explicit human feedback dataset and RM training. Our code is available at https://github.com/naver-ai/rethinking-proxy-reward.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-29
# 3Doodle: 3Dストロークによるオブジェクトのコンパクト抽象化

3Doodle: Compact Abstraction of Objects with 3D Strokes ( http://arxiv.org/abs/2402.03690v2 )

ライセンス: Link先を確認
Changwoon Choi, Jaeah Lee, Jaesik Park, Young Min Kim, (参考訳) フリーハンドのスケッチは長い間、物体の特徴を伝えるための効率的な表現として機能してきたが、それらはしばしば主観的であり、現実的な表現からかなり逸脱している。 さらに、スケッチは任意の視点では一貫性がなく、3次元の形状を捉えるのが難しくなる。 対象オブジェクトのマルチビュー画像に対して記述的かつビュー一貫性のあるスケッチ画像を生成する3Doooleを提案する。 本手法は,3次元ストロークの集合が3次元構造情報を効率よく表現し,表示に一貫性のある2次元スケッチを描画できるという考えに基づいている。 ビューに依存しないコンポーネントとビューに依存しないコンポーネントの結合として、2Dスケッチを表現します。 3次元立方体Bエジエ曲線はビューに依存しない3次元特徴線を示すが、超四角形の輪郭は様々な視点の体積の滑らかな輪郭を表す。 我々のパイプラインは、3Dストロークプリミティブのパラメータを直接最適化し、知覚的損失を完全に微分可能な方法で最小化する。 結果として得られる3Dストロークのスパースセットは、様々な物体の本質的な3D特性形状を含む抽象スケッチとして表現することができる。 近年のスケッチ生成手法と比較して、3Doodleはオリジナル画像の概念を忠実に表現できることを示す。

While free-hand sketching has long served as an efficient representation to convey characteristics of an object, they are often subjective, deviating significantly from realistic representations. Moreover, sketches are not consistent for arbitrary viewpoints, making it hard to catch 3D shapes. We propose 3Dooole, generating descriptive and view-consistent sketch images given multi-view images of the target object. Our method is based on the idea that a set of 3D strokes can efficiently represent 3D structural information and render view-consistent 2D sketches. We express 2D sketches as a union of view-independent and view-dependent components. 3D cubic B ezier curves indicate view-independent 3D feature lines, while contours of superquadrics express a smooth outline of the volume of varying viewpoints. Our pipeline directly optimizes the parameters of 3D stroke primitives to minimize perceptual losses in a fully differentiable manner. The resulting sparse set of 3D strokes can be rendered as abstract sketches containing essential 3D characteristic shapes of various objects. We demonstrate that 3Doodle can faithfully express concepts of the original images compared with recent sketch generation approaches.
翻訳日:2024-04-30 23:45:39 公開日:2024-04-29
# 楽譜変換器:モノフォニック文字以外の音楽認識をエンドツーエンドで行う

Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription ( http://arxiv.org/abs/2402.07596v2 )

ライセンス: Link先を確認
Antonio Ríos-Vila, Jorge Calvo-Zaragoza, Thierry Paquet, (参考訳) OMR(State-of-the-the-the-art end-to-end Optical Music Recognition)は、主にポリフォニーのような複雑なスコアレイアウトを扱うためにモノフォニックの書き起こし技術を用いて行われてきた。 有効性にもかかわらず、これらのアプローチはスケーラビリティと制限に関連する課題を示唆している。 本稿では,モノフォニック戦略のみに頼らずに複雑な楽譜の書き起こしが可能な最初のエンドツーエンドOMRモデルであるシート・ミュージック・トランスフォーマーを提案する。 本モデルでは、入力画像から標準デジタル音楽符号化フォーマットの楽譜の書き起こしを予測するトランスフォーマーベースの画像列化フレームワークを用いている。 我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。 実験結果は, モデルの能力を示すだけでなく, 最先端の方法よりも優れており, エンドツーエンドのOMR転写の進歩に寄与している。

State-of-the-art end-to-end Optical Music Recognition (OMR) has, to date, primarily been carried out using monophonic transcription techniques to handle complex score layouts, such as polyphony, often by resorting to simplifications or specific adaptations. Despite their efficacy, these approaches imply challenges related to scalability and limitations. This paper presents the Sheet Music Transformer, the first end-to-end OMR model designed to transcribe complex musical scores without relying solely on monophonic strategies. Our model employs a Transformer-based image-to-sequence framework that predicts score transcriptions in a standard digital music encoding format from input images. Our model has been tested on two polyphonic music datasets and has proven capable of handling these intricate music structures effectively. The experimental outcomes not only indicate the competence of the model, but also show that it is better than the state-of-the-art methods, thus contributing to advancements in end-to-end OMR transcription.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# Walia-LLM:タスク特化および生成データセットの統合によるAmharic-LLaMAの強化

Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets ( http://arxiv.org/abs/2402.08015v5 )

ライセンス: Link先を確認
Israel Abebe Azime, Atnafu Lambebo Tonja, Tadesse Destaw Belay, Mitiku Yohannes Fuge, Aman Kassahun Wassie, Eyasu Shiferaw Jada, Yonas Chanie, Walelign Tewabe Sewunetie, Seid Muhie Yimam, (参考訳) 大規模言語モデル (LLM) は自然言語処理 (NLP) 研究において、人間の言語を理解・生成する上での卓越した性能のため、多くの注目を集めている。 しかし、リソースが利用できないため、低リソースの言語は残されたままである。 本研究では,Amharicの言語モデル性能を向上させるために,タスク固有および生成データセットを統合することで,LLaMA-2-Amharicモデルの強化に焦点をあてる。 我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。 微調整されたモデルは、異なるNLPタスクで有望な結果を示す。 我々は、これらのモデルに関する言語固有の研究を促進するために、データセット作成パイプライン、命令データセット、訓練済みモデル、評価アウトプットをオープンソース化した。

Large language models (LLMs) have received a lot of attention in natural language processing (NLP) research because of their exceptional performance in understanding and generating human languages. However, low-resource languages are left behind due to the unavailability of resources. In this work, we focus on enhancing the LLaMA-2-Amharic model by integrating task-specific and generative datasets to improve language model performance for Amharic. We compile an Amharic instruction fine-tuning dataset and fine-tuned LLaMA-2-Amharic model. The fine-tuned model shows promising results in different NLP tasks. We open-source our dataset creation pipeline, instruction datasets, trained models, and evaluation outputs to promote language-specific studies on these models.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# NISQ機器の騒音認識ユーティリティ最適化

Noise Aware Utility Optimization of NISQ Devices ( http://arxiv.org/abs/2402.08226v2 )

ライセンス: Link先を確認
Jean-Baptiste Waring, Christophe Pere, Sebastien Le Beux, (参考訳) 実用性の時代に入るためには、ノイズの多い中間スケール量子(NISQ)デバイスは、大きな量子ビット鎖の長距離絡み合いを可能にする必要がある。 しかし, 超伝導NISQデバイスとの接続が限られているため, 長距離エンタングルゲートが線形深さで実現されている。 さらに, 平均CNOTゲート密度の時間依存性劣化が観察された。 老化により、この現象はさらに絡み合い能力を低下させる。 私たちの目標は、実用性を達成するための現在の取り組みを支援し、現在のデバイスの実用寿命を拡張する機会を提供することです。 これを実現するために、ユーザが提供するCNOTと読み取りエラー要求を、回路の実行が可能な準拠のパーティションに変換する方法を提案する。 長さ50量子ビットのランダムなCNOT鎖の忠実度は最大52%向上し、10の増分でそれぞれ10から40の鎖が11.8%から47.7%改善した。

In order to enter the era of utility, noisy intermediate-scale quantum (NISQ) devices need to enable long-range entanglement of large qubit chains. However, due to the limited connectivity of superconducting NISQ devices, long-range entangling gates are realized in linear depth. Furthermore, a time-dependent degradation of the average CNOT gate fidelity is observed. Likely due to aging, this phenomenon further degrades entanglement capabilities. Our aim is to help in the current efforts to achieve utility and provide an opportunity to extend the utility lifespan of current devices --albeit by selecting fewer, high quality resources. To achieve this, we provide a method to transform user-provided CNOT and readout error requirements into a compliant partition onto which circuits can be executed. We demonstrate an improvement of up to 52% in fidelity for a random CNOT chain of length 50 qubits and consistent improvements between 11.8% and 47.7% for chains between 10 and 40 in varying in increments of 10, respectively.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# RBF-PINN:物理インフォームドニューラルネットワークにおける非フーリエ位置埋め込み

RBF-PINN: Non-Fourier Positional Embedding in Physics-Informed Neural Networks ( http://arxiv.org/abs/2402.08367v2 )

ライセンス: Link先を確認
Chengxi Zeng, Tilo Burghardt, Alberto M Gambaruto, (参考訳) 近年の物理情報ニューラルネットワーク(PINN)の変種は部分微分方程式の解法においてかなりの成功を収めているが、より広範なニューラルネットワーク研究から引き出された特徴写像の実証的な利点は概ね見過ごされている。 本研究では,特定の状況下で広く用いられているフーリエ型特徴写像の限界を強調し,条件付き正定基数基底関数の使用を提案する。 実験により, 様々な前方および逆問題に対するアプローチの有効性が示された。 本手法は座標に基づく入力ニューラルネットワークにシームレスに統合することができ,PINN研究の幅広い分野に寄与することができる。

While many recent Physics-Informed Neural Networks (PINNs) variants have had considerable success in solving Partial Differential Equations, the empirical benefits of feature mapping drawn from the broader Neural Representations research have been largely overlooked. We highlight the limitations of widely used Fourier-based feature mapping in certain situations and suggest the use of the conditionally positive definite Radial Basis Function. The empirical findings demonstrate the effectiveness of our approach across a variety of forward and inverse problem cases. Our method can be seamlessly integrated into coordinate-based input neural networks and contribute to the wider field of PINNs research.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# JeFaPaTo -- 点滅解析と顔の特徴抽出のための共同ツールボックス

JeFaPaTo -- A joint toolbox for blinking analysis and facial features extraction ( http://arxiv.org/abs/2402.08439v2 )

ライセンス: Link先を確認
Tim Büchner, Oliver Mothes, Orlando Guntinas-Lichius, Joachim Denzler, (参考訳) 顔の特徴や表情を分析することは、コンピュータビジョンにおいて複雑な作業である。 人間の顔は複雑で、大きな形、テクスチャ、外観のバリエーションがある。 医学的文脈では、通常と異なる顔の構造や動きは特に研究において重要であり、基礎となる状態を理解するために正確な分析を必要とする。 顔面神経によって神経を刺激される顔面筋肉のみが表情に責任を負うことを考えると、顔面麻痺は顔面運動に深刻な障害を引き起こす可能性がある。 興味のある領域の1つは、点滅に関わる微妙な動きである。 これは、まだ完全には理解されておらず、詳細な理解のために高分解能で時間特異的な分析を必要とする複雑な自然過程である。 しかし、重要な課題は、多くのコンピュータビジョン技術が自動抽出と分析のためにプログラミングスキルを必要としており、これらのスキルを持っていない医療専門家にはアクセスできないことである。 Jena Facial Palsy Toolbox (JeFaPaTo)は、このギャップを埋めるために開発された。 最先端のコンピュータビジョンアルゴリズムを使用し、プログラミングの専門知識を持たない人向けのユーザフレンドリーなインターフェースを提供する。 このツールボックスは、高度な顔分析を医療専門家にとってよりアクセスしやすくし、ワークフローへの統合を簡単にする。

Analyzing facial features and expressions is a complex task in computer vision. The human face is intricate, with significant shape, texture, and appearance variations. In medical contexts, facial structures and movements that differ from the norm are particularly important to study and require precise analysis to understand the underlying conditions. Given that solely the facial muscles, innervated by the facial nerve, are responsible for facial expressions, facial palsy can lead to severe impairments in facial movements. One affected area of interest is the subtle movements involved in blinking. It is an intricate spontaneous process that is not yet fully understood and needs high-resolution, time-specific analysis for detailed understanding. However, a significant challenge is that many computer vision techniques demand programming skills for automated extraction and analysis, making them less accessible to medical professionals who may not have these skills. The Jena Facial Palsy Toolbox (JeFaPaTo) has been developed to bridge this gap. It utilizes cutting-edge computer vision algorithms and offers a user-friendly interface for those without programming expertise. This toolbox makes advanced facial analysis more accessible to medical experts, simplifying integration into their workflow.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# 毎日のメンタルヘルスモニタリングのための差分私的フェデレーション伝達学習 : ストレス検出を事例として

Differential Private Federated Transfer Learning for Mental Health Monitoring in Everyday Settings: A Case Study on Stress Detection ( http://arxiv.org/abs/2402.10862v2 )

ライセンス: Link先を確認
Ziyu Wang, Zhongqi Yang, Iman Azimi, Amir M. Rahmani, (参考訳) 様々な人口層にまたがるメンタルヘルスの状況は、生活の質に悪影響を和らげるために効率的なモニタリングを必要とする。 メンタルヘルスモニタリングのためのデータ駆動手法の急増は、機密性のある健康データを扱う上でのプライバシー保護技術の重要性を浮き彫りにした。 メンタルヘルス監視のための連合学習の努力にもかかわらず、既存のアプローチは、特定のサイバー攻撃に対する脆弱性と、現実世界のアプリケーションにおけるデータ不足に苦慮している。 本稿では、メンタルヘルスモニタリングのための差分私的フェデレート・トランスファー学習フレームワークを導入し、データプライバシを高め、データ満足度を高める。 そこで我々は,(1)更新にノイズを導入して達成される差分プライバシー,(2)データ不均衡と不整合の問題に対処するために,事前学習されたユニバーサルモデルを用いて,フェデレーション学習を2つの重要な要素と統合した。 本研究では, ストレス検出のケーススタディとして, 縦断的研究による生理的, 文脈的データのデータセットを用いたフレームワークの評価を行った。 提案手法は,プライバシ保護を確保しつつ,精度が10%向上し,リコール率が21%向上することを示す。

Mental health conditions, prevalent across various demographics, necessitate efficient monitoring to mitigate their adverse impacts on life quality. The surge in data-driven methodologies for mental health monitoring has underscored the importance of privacy-preserving techniques in handling sensitive health data. Despite strides in federated learning for mental health monitoring, existing approaches struggle with vulnerabilities to certain cyber-attacks and data insufficiency in real-world applications. In this paper, we introduce a differential private federated transfer learning framework for mental health monitoring to enhance data privacy and enrich data sufficiency. To accomplish this, we integrate federated learning with two pivotal elements: (1) differential privacy, achieved by introducing noise into the updates, and (2) transfer learning, employing a pre-trained universal model to adeptly address issues of data imbalance and insufficiency. We evaluate the framework by a case study on stress detection, employing a dataset of physiological and contextual data from a longitudinal study. Our finding show that the proposed approach can attain a 10% boost in accuracy and a 21% enhancement in recall, while ensuring privacy protection.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# 深部強化学習に基づく計算流体力学におけるアクティブフロー制御のための最適並列化法

Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics ( http://arxiv.org/abs/2402.11515v4 )

ライセンス: Link先を確認
Wang Jia, Hang Xu, (参考訳) Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。 しかし、DRLモデルのトレーニングに伴う計算コストは、大きなパフォーマンスボトルネックを生じさせる。 この課題に対処し、高性能コンピューティングアーキテクチャの効率的なスケーリングを実現するために、DRLベースのアルゴリズムを並列設定で最適化することに焦点を当てた。 我々は、AFC問題に使用される既存の最先端DRLフレームワークを検証し、その効率ボトルネックについて議論する。 その後、フレームワーク全体を分解し、個々のコンポーネントの広範なスケーラビリティベンチマークを行うことで、様々なハイブリッド並列化構成を調査し、効率的な並列化戦略を提案する。 さらに、多環境DRLトレーニングにおける入出力(I/O)操作を洗練し、データ移動に伴う重大なオーバーヘッドに対処する。 最後に,一般のAFC問題に対して,フレームワーク全体に対してほぼ線形なスケーリングが得られる最適化されたフレームワークを実演する。 並列効率を約49%から約78%に向上させ,60コアで約47倍の高速化を実現した。 これらの知見は、DRLに基づくAFC研究のさらなる進歩に有用な知見をもたらすことが期待されている。

Deep Reinforcement Learning (DRL) has emerged as a promising approach for handling highly dynamic and nonlinear Active Flow Control (AFC) problems. However, the computational cost associated with training DRL models presents a significant performance bottleneck. To address this challenge and enable efficient scaling on high-performance computing architectures, this study focuses on optimizing DRL-based algorithms in parallel settings. We validate an existing state-of-the-art DRL framework used for AFC problems and discuss its efficiency bottlenecks. Subsequently, by deconstructing the overall framework and conducting extensive scalability benchmarks for individual components, we investigate various hybrid parallelization configurations and propose efficient parallelization strategies. Moreover, we refine input/output (I/O) operations in multi-environment DRL training to tackle critical overhead associated with data movement. Finally, we demonstrate the optimized framework for a typical AFC problem where near-linear scaling can be obtained for the overall framework. We achieve a significant boost in parallel efficiency from around 49% to approximately 78%, and the training process is accelerated by approximately 47 times using 60 CPU cores. These findings are expected to provide valuable insights for further advancements in DRL-based AFC studies.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# 単一コピーレベルでのマルチパラメータ量子推定におけるクラム・ラオ境界の飽和度

Saturability of the Quantum Cramér-Rao Bound in Multiparameter Quantum Estimation at the Single-Copy Level ( http://arxiv.org/abs/2402.11567v4 )

ライセンス: Link先を確認
Hendra I. Nurdin, (参考訳) 量子パラメータ推定における精度の究極的下界としての量子Cram\'{e}r-Rao界(QCRB)は、特別な場合やパラメータに関連付けられた対称対数微分(SLD)の完全あるいは平均可換性のような条件下では、マルチパラメータ設定においてのみ飽和することが知られている。 さらに、一般的な混合状態の場合、量子状態の無限に多くの同一のコピーに対する集合的な測定は、一般にQCRBに到達するために必要である。 重要かつ実験的に関連する単一コピーシナリオでは、一般混合状態のマルチパラメータ設定においてQCRBを飽和させるために必要な条件は、SLDにおけるいわゆる部分可換性条件である。 しかし、この条件が十分かどうかは不明である。 本稿では,一組の射影SLDの可換性と非線形偏微分方程式系に対するユニタリ解の存在という観点から,単写体におけるマルチパラメータQCRBの飽和性に関する必要十分条件を確立する。 部分可換性を暗示する新たな必要条件も得られ、他の条件とともに十分となる。 また、十分な条件が満たされると、QCRBが飽和した最適な測定値が射影的かつ明確に特徴づけられるように選択できる。 例として、この条件が満たされ、明確に検証できるマルチパラメータ量子状態の例を示す。

The quantum Cram\'{e}r-Rao bound (QCRB) as the ultimate lower bound for precision in quantum parameter estimation is only known to be saturable in the multiparameter setting in special cases and under conditions such as full or average commutavity of the symmetric logarithmic derivatives (SLDs) associated with the parameters. Moreover, for general mixed states, collective measurements over infinitely many identical copies of the quantum state are generally required to attain the QCRB. In the important and experimentally relevant single-copy scenario, a necessary condition for saturating the QCRB in the multiparameter setting for general mixed states is the so-called partial commutativity condition on the SLDs. However, it is not known if this condition is also sufficient. This paper establishes necessary and sufficient conditions for saturability of the multiparameter QCRB in the single-copy setting in terms of the commutativity of a set of projected SLDs and the existence of a unitary solution to a system of nonlinear partial differential equations. New necessary conditions that imply partial commutativity are also obtained, which together with another condition become sufficient. Moreover, when the sufficient conditions are satisfied an optimal measurement saturating the QCRB can be chosen to be projective and explicitly characterized. An example is developed to illustrate the case of a multiparameter quantum state where the conditions derived herein are satisfied and can be explicitly verified.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# 大規模言語モデルに対するFact-Checkingのための微調整変圧器のサプライズ効果

Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models ( http://arxiv.org/abs/2402.12147v2 )

ライセンス: Link先を確認
Vinay Setty, (参考訳) 本稿では,90以上の言語をカバーする実世界の文脈において,エンドツーエンドのファクトチェックパイプラインを確立する上での課題について検討する。 GPT-4, GPT-3.5-Turbo, Mistral-7bのような大規模言語モデル(LLM)よりも優れた性能が得られることを示す。 しかし, LLMは, 証拠検索のための質問分解などの生成タスクにおいて優れていることを示す。 広範囲な評価を通じて,多言語設定におけるファクトチェックのための微調整モデルの有効性と,数量を含む複雑なクレームを示す。

In this paper, we explore the challenges associated with establishing an end-to-end fact-checking pipeline in a real-world context, covering over 90 languages. Our real-world experimental benchmarks demonstrate that fine-tuning Transformer models specifically for fact-checking tasks, such as claim detection and veracity prediction, provide superior performance over large language models (LLMs) like GPT-4, GPT-3.5-Turbo, and Mistral-7b. However, we illustrate that LLMs excel in generative tasks such as question decomposition for evidence retrieval. Through extensive evaluation, we show the efficacy of fine-tuned models for fact-checking in a multilingual setting and complex claims that include numerical quantities.
翻訳日:2024-04-30 23:35:54 公開日:2024-04-29
# 役割に固執! 大規模言語モデルにおける個人的価値表現の文脈依存性と安定性

Stick to your Role! Context-dependence and Stability of Personal Values Expression in Large Language Models ( http://arxiv.org/abs/2402.14846v2 )

ライセンス: Link先を確認
Grgur Kovač, Rémy Portelas, Masataka Sawayama, Peter Ford Dominey, Pierre-Yves Oudeyer, (参考訳) ベンチマークや心理調査でLLM(Large Language Models)を研究する標準的な方法は、同様の最小限のコンテキスト(例えば複数の選択質問)から多くの異なるクエリを提供することである。 しかし、LLMの高度にコンテキストに依存した性質のため、そのような最小限のコンテキスト評価からの結論は、デプロイ中のモデルの振る舞い(多くの新しいコンテキストに露呈する)についてほとんど情報がないかもしれない。 我々は、文脈依存(特に価値安定性)は、LLMの特定の特性を研究し、LLMの比較の別の次元として(認知能力、知識、モデルサイズなど)使用されるべきであると論じる。 本稿では,標準的な心理質問紙(PVQ)と行動下流タスクを用いて,異なる文脈(異なる話題に関する模擬会話)における価値表現の安定性について事例研究を行った。 心理学的手法を用いて,集団(対人)レベルでのランク順の安定性,個人(対人)レベルでのIpsative stabilityについて検討した。 2つの設定(LLMに特定のペルソナをシミュレートするよう指示しない)、2つのシミュレートされた集団、そして3つの下流タスクについて検討する。 LLaMa-2 や Phi よりも混合系,ミストラル系, GPT-3.5 および Qwen 系の方が安定である。 これらの傾向の整合性は、いくつかのモデルが他のモデルよりも高い安定性を示し、導入した方法論ツールのセットで価値の安定性を推定できることを示している。 特定のペルソナをシミュレートするように指示されると、LLMは低いランク階安定性を示し、会話の長さによってさらに減少する。 これは、異なるペルソナをコヒーレントにシミュレートするLSMに関する将来の研究の必要性を強調している。 本稿は、その方向性の基本的なステップを提供し、我々の知る限り、LLMにおける価値の安定性に関する最初の研究である。

The standard way to study Large Language Models (LLMs) with benchmarks or psychology questionnaires is to provide many different queries from similar minimal contexts (e.g. multiple choice questions). However, due to LLMs' highly context-dependent nature, conclusions from such minimal-context evaluations may be little informative about the model's behavior in deployment (where it will be exposed to many new contexts). We argue that context-dependence (specifically, value stability) should be studied a specific property of LLMs and used as another dimension of LLM comparison (alongside others such as cognitive abilities, knowledge, or model size). We present a case-study on the stability of value expression over different contexts (simulated conversations on different topics) as measured using a standard psychology questionnaire (PVQ) and on behavioral downstream tasks. Reusing methods from psychology, we study Rank-order stability on the population (interpersonal) level, and Ipsative stability on the individual (intrapersonal) level. We consider two settings (with and without instructing LLMs to simulate particular personas), two simulated populations, and three downstream tasks. We observe consistent trends in the stability of models and model families - Mixtral, Mistral, GPT-3.5 and Qwen families are more stable than LLaMa-2 and Phi. The consistency of these trends implies that some models exhibit higher value-stability than others, and that value stability can be estimated with the set of introduced methodological tools. When instructed to simulate particular personas, LLMs exhibit low Rank-Order stability, which further diminishes with conversation length. This highlights the need for future research on LLMs that coherently simulate different personas. This paper provides a foundational step in that direction, and, to our knowledge, it is the first study of value stability in LLMs.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-29
# LDB: 実行時実行のステップバイステップ検証による大規模言語モデルデバッガ

LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step ( http://arxiv.org/abs/2402.16906v4 )

ライセンス: Link先を確認
Lily Zhong, Zilong Wang, Jingbo Shang, (参考訳) 大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。 ワンパスコード生成以外にも、近年の作業では、ユニットテストとプログラム検証器をLCMに統合して、生成されたプログラムを反復的に洗練している。 しかし、これらの研究は生成されたプログラムを識別不可能な実体とみなし、特に複雑な論理フローやデータ操作を含む場合、プログラムをデバッグするLLMには不足している。 対照的に、ヒューマン開発者がプログラムをデバッグする場合、通常はブレークポイントを設定し、実行時情報を選択的に検査する。 実行フローと中間変数はデバッグプロセスにおいて重要な役割を果たすが、コード生成に関する既存の文献では利用されていない。 本研究では,Large Language Model Debugger (LDB)を紹介した。LDMが実行時情報を用いて生成されたプログラムを洗練できる新しいデバッグフレームワークである。 具体的には、LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。 これにより、LCMは実行フロー全体においてより単純なコードユニットに集中でき、ブロックによってタスク記述ブロックに対する正当性を検証でき、潜在的なエラーを効率的に特定できる。 実験によると、LDBはHumanEval、MBPP、TransCoderベンチマークで最大9.8%のベースライン性能を継続的に向上し、様々なLLM選択のためのコードデバッグにおける新しい最先端のパフォーマンスをアーカイブしている。

Large language models (LLMs) are leading significant progress in code generation. Beyond one-pass code generation, recent works further integrate unit tests and program verifiers into LLMs to iteratively refine the generated programs. However, these works consider the generated programs as an indivisible entity, which falls short for LLMs in debugging the programs, especially when the programs contain complex logic flows and data operations. In contrast, when human developers debug programs, they typically set breakpoints and selectively examine runtime execution information. The execution flow and the intermediate variables play a crucial role in the debugging process, yet they are underutilized in the existing literature on code generation. In this study, we introduce Large Language Model Debugger (LDB), a novel debugging framework that enables LLMs to refine their generated programs with the runtime execution information. Specifically, LDB segments the programs into basic blocks and tracks the values of intermediate variables after each block throughout the runtime execution. This allows LLMs to concentrate on simpler code units within the overall execution flow, verify their correctness against the task description block by block, and efficiently pinpoint any potential errors. Experiments demonstrate that LDB consistently enhances the baseline performance by up to 9.8% across the HumanEval, MBPP, and TransCoder benchmarks, archiving new state-of-the-art performance in code debugging for various LLM selections.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-29
# 非線形スチールモーメントの地震応答予測のための物理インフォーム機械学習

Physics-Informed Machine Learning for Seismic Response Prediction OF Nonlinear Steel Moment Resisting Frame Structures ( http://arxiv.org/abs/2402.17992v3 )

ライセンス: Link先を確認
R. Bailey Bond, Pu Ren, Jerome F. Hajjar, Hao Sun, (参考訳) 機械学習(ML)手法を用いた構造メタモデリングへの関心が高まっている。 純粋なデータ駆動戦略は、モデルロバスト性、解釈可能性、および広範なデータへの依存性の制限に直面することが多い。 これらの課題に対処するために、非線形構造の地震応答をモデル化するために、科学的原理と物理法則をディープニューラルネットワークに統合する新しい物理インフォームド・機械学習(PiML)手法を提案する。 このアプローチは、MLモデルの解空間を、モデルオーダーの削減とウェーブレット分析による次元的削減、長期記憶(LSTM)ネットワーク、ニュートンの第2法則の3つの主要な特徴を通じて制約する。 次元性低減は構造系の冗長性に対処し、ウェーブレット解析によって重要な特徴を抽出しながら効率を高める。 LSTMネットワークは、正確な時系列予測のための時間的依存関係をキャプチャする。 運動方程式を操作することは、システムの非線形性を学習し、物理的に解釈可能な結果の中で解を閉じ込めるのに役立つ。 これらの属性は、スパースデータによるモデルトレーニング、精度の向上、解釈可能性、堅牢性を可能にする。 さらに, 設計安全CIデータベース[1]で利用可能な耐震荷重を受ける鉄筋コンクリートモーメントフレームのデータセットについて検討した。 結果として得られるメタモデルは、既存の物理誘導LSTMモデルよりも複雑なデータを処理し、他の非物理データ駆動ネットワークより優れている。

There is growing interest in using machine learning (ML) methods for structural metamodeling due to the substantial computational cost of traditional simulations. Purely data-driven strategies often face limitations in model robustness, interpretability, and dependency on extensive data. To address these challenges, this paper introduces a novel physics-informed machine learning (PiML) method that integrates scientific principles and physical laws into deep neural networks to model seismic responses of nonlinear structures. The approach constrains the ML model's solution space within known physical bounds through three main features: dimensionality reduction via combined model order reduction and wavelet analysis, long short-term memory (LSTM) networks, and Newton's second law. Dimensionality reduction addresses structural systems' redundancy and boosts efficiency while extracting essential features through wavelet analysis. LSTM networks capture temporal dependencies for accurate time-series predictions. Manipulating the equation of motion helps learn system nonlinearities and confines solutions within physically interpretable results. These attributes allow for model training with sparse data, enhancing accuracy, interpretability, and robustness. Furthermore, a dataset of archetype steel moment resistant frames under seismic loading, available in the DesignSafe-CI Database [1], is considered for evaluation. The resulting metamodel handles complex data better than existing physics-guided LSTM models and outperforms other non-physics data-driven networks.
翻訳日:2024-04-30 23:26:08 公開日:2024-04-29
# SynCode: 文法拡張によるLLM生成

SynCode: LLM Generation with Grammar Augmentation ( http://arxiv.org/abs/2403.01632v2 )

ライセンス: Link先を確認
Shubham Ugare, Tarun Suresh, Hangoo Kang, Sasa Misailovic, Gagandeep Singh, (参考訳) LLMは複雑なAIアプリケーションで広く使われている。 これらのアプリケーションは、システム内の他のコンポーネントと統合するために、特定のフォーマットに準拠するLLM出力の必要性を強調している。 通常、JSON、YAML、プログラミング言語のコードといったデータシリアライズフォーマットのフォーマットルールは、文脈自由文法(CFG)として表現される。 LLMの幻覚と信頼性の欠如により、特定の構文に従うようLLMに指示することがますます重要な課題となっている。 我々は,この課題に対処するために,LLMを用いた効率的で汎用的な構文デコーディングのための新しいフレームワークであるSynCodeを提案する。 SynCodeは形式言語のCFGを活用し、言語文法端末の離散有限オートマトン(DFA)に基づいて、オフラインで構築されたDFAマスクストアと呼ばれる効率的なルックアップテーブルを利用する。 正規言語のCFGが持つSynCodeの健全性と完全性を示し、無効なトークンを拒否しながら、構文的に有効なトークンを保持する能力を示す。 SynCodeは、JSON、Python、Go出力の生成に焦点を当てた実験によって証明されたように、CFGによって定義された任意の言語とシームレスに統合される。 SynCode for JSON生成の有効性を評価する実験により、SynCodeはすべての構文エラーを排除し、最先端のベースラインを大幅に上回ることを示した。 さらに、SynCodeが生成したPythonおよびGoコードの構文エラーの96.07%を大幅に削減し、LLM生成における構文精度の向上に大きく影響したことを示す。 私たちのコードはhttps://github.com/uiuc-focal-lab/syncodeで利用可能です。

LLMs are widely used in complex AI applications. These applications underscore the need for LLM outputs to adhere to a specific format, for their integration with other components in the systems. Typically the format rules e.g., for data serialization formats such as JSON, YAML, or Code in Programming Language are expressed as context-free grammar (CFG). Due to the hallucinations and unreliability of LLMs, instructing LLMs to adhere to specified syntax becomes an increasingly important challenge. We present SynCode, a novel framework for efficient and general syntactical decoding with LLMs, to address this challenge. SynCode leverages the CFG of a formal language, utilizing an offline-constructed efficient lookup table called DFA mask store based on the discrete finite automaton (DFA) of the language grammar terminals. We demonstrate SynCode's soundness and completeness given the CFG of the formal language, presenting its ability to retain syntactically valid tokens while rejecting invalid ones. SynCode seamlessly integrates with any language defined by CFG, as evidenced by experiments focusing on generating JSON, Python, and Go outputs. Our experiments evaluating the effectiveness of SynCode for JSON generation demonstrate that SynCode eliminates all syntax errors and significantly outperforms state-of-the-art baselines. Furthermore, our results underscore how SynCode significantly reduces 96.07% of syntax errors in generated Python and Go code, showcasing its substantial impact on enhancing syntactical precision in LLM generation. Our code is available at https://github.com/uiuc-focal-lab/syncode
翻訳日:2024-04-30 23:26:08 公開日:2024-04-29
# マルチモーダルな社会的相互作用のモデリング : 厳密な表現による新しい課題とベースライン

Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations ( http://arxiv.org/abs/2403.02090v3 )

ライセンス: Link先を確認
Sangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg, (参考訳) 言語と非言語の両方に関わる社会的相互作用を理解することは、社会的状況の効果的解釈に不可欠である。 しかし、それまでのマルチモーダルな社会的手がかりに関する研究は、主に個人の行動に焦点をあてたり、多人数環境における発話と整合しない全体的視覚表現に頼っていた。 その結果、多人数インタラクションの複雑なダイナミクスをモデル化することに制限が課せられる。 本稿では,複数の人物間の微粒化動態をモデル化する3つの課題について紹介する。 我々は、ソーシャル推論ゲーム設定におけるこれらの新たな課題をキュレートするために、広範なデータアノテーションに貢献している。 さらに,視覚的特徴とそれに対応する発話を同期させることにより,密集した言語・視覚的表現を活用する新しいマルチモーダルベースラインを提案する。 これは、社会的推論に関連する言語的・非言語的な手がかりを同時に捉えるのに役立つ。 実験は, きめ細かいソーシャルインタラクションをモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を示す。 プロジェクトウェブサイト:https://sangmin-git.github.io/projects/MMSI

Understanding social interactions involving both verbal and non-verbal cues is essential for effectively interpreting social situations. However, most prior works on multimodal social cues focus predominantly on single-person behaviors or rely on holistic visual representations that are not aligned to utterances in multi-party environments. Consequently, they are limited in modeling the intricate dynamics of multi-party interactions. In this paper, we introduce three new challenging tasks to model the fine-grained dynamics between multiple people: speaking target identification, pronoun coreference resolution, and mentioned player prediction. We contribute extensive data annotations to curate these new challenges in social deduction game settings. Furthermore, we propose a novel multimodal baseline that leverages densely aligned language-visual representations by synchronizing visual features with their corresponding utterances. This facilitates concurrently capturing verbal and non-verbal cues pertinent to social reasoning. Experiments demonstrate the effectiveness of the proposed approach with densely aligned multimodal representations in modeling fine-grained social interactions. Project website: https://sangmin-git.github.io/projects/MMSI.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# ProMoAI: 生成AIによるプロセスモデリング

ProMoAI: Process Modeling with Generative AI ( http://arxiv.org/abs/2403.04327v2 )

ライセンス: Link先を確認
Humam Kourani, Alessandro Berti, Daniel Schuster, Wil M. P. van der Aalst, (参考訳) ProMoAIは、Large Language Models(LLM)を活用して、テキスト記述からプロセスモデルを自動的に生成する新しいツールである。 複雑なプロセスモデルの自動生成に加えて、ProMoAIはプロセスモデルの最適化もサポートする。 生成したモデルに対するフィードバックを提供することで、ユーザはツールと対話することができる。 ProMoAIは、LLMを使用して、プロセスモデリングに対する新しいAI駆動のアプローチを提供し、プロセスモデリングの深い技術知識のないユーザへの参入障壁を著しく低減する。

ProMoAI is a novel tool that leverages Large Language Models (LLMs) to automatically generate process models from textual descriptions, incorporating advanced prompt engineering, error handling, and code generation techniques. Beyond automating the generation of complex process models, ProMoAI also supports process model optimization. Users can interact with the tool by providing feedback on the generated model, which is then used for refining the process model. ProMoAI utilizes the capabilities LLMs to offer a novel, AI-driven approach to process modeling, significantly reducing the barrier to entry for users without deep technical knowledge in process modeling.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# 時間CCSの強い優先順位と決定性

Strong Priority and Determinacy in Timed CCS ( http://arxiv.org/abs/2403.04618v2 )

ライセンス: Link先を確認
Luigi Liquori, Michael Mendler, (参考訳) プロセス代数の標準理論を優先して構築し、同期プログラミングの本質を捉えるために設計された「構成的還元」と呼ばれる新しいスケジューリング機構を同定する。 この評価戦略の特長は、共有メモリを用いたマルチキャスト同時通信において、決定性バイコンストラクションを実現することである。 クロックと優先順位によって拡張されたCCSの技術的な設定において、構成的還元のための共役性(confluence property)を多種多様な「コヒーレント(coherent)」プロセスで処理することが証明される。 ピボタビリティ(pivotability)と呼ばれるいくつかの制限の下では、コヒーレンスはプレフィックス、要約、並列合成、制限、隠蔽といった演算子によって保持される。 これはメモリと共有を許すため、優先順位のないCCSの古典的収束理論よりもはるかに大きなプロセスのクラスをカバーできる。

Building on the standard theory of process algebra with priorities, we identify a new scheduling mechanism, called "constructive reduction" which is designed to capture the essence of synchronous programming. The distinctive property of this evaluation strategy is to achieve determinacy-by-construction for multi-cast concurrent communication with shared memory. In the technical setting of CCS extended by clocks and priorities, we prove for a large class of "coherent" processes a confluence property for constructive reductions. We show that under some restrictions, called "pivotability", coherence is preserved by the operators of prefix, summation, parallel composition, restriction and hiding. Since this permits memory and sharing, we are able to cover a strictly larger class of processes compared to those in Milner's classical confluence theory for CCS without priorities.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# 超弱結合を超えた量子マスター方程式のベンチマーク

Benchmarking quantum master equations beyond ultraweak coupling ( http://arxiv.org/abs/2403.08320v2 )

ライセンス: Link先を確認
C. S. Tello Breuer, T. Becker, A. Eckardt, (参考訳) 最近、ネイサンとラドナーは、レッドフィールド方程式からゴリーニ-コサコフスキー-スダルシャン-リンドブラッドマスター方程式を導出した。 この主張は近似のレベルがレッドフィールド方程式のレベルと等しいというものである。 ここでは、減衰調和振動子の正確な解に対してネイサン・ラドナー方程式(NRE)をベンチマークし、その性能を時間依存のレッドフィールド方程式(RE)と比較する。 いずれの方程式がより良く動作するかは、考慮された体制に依存する。 NREは回転波近似に匹敵する結果をもたらすのに対し、短時間のダイナミクスは一般にREによってよりよく捉えられていることが判明した。 定常状態の場合、高温の制限下ではREは再び性能が良くなり、その解は超高温で正確な結果に近づく。 しかし、ここでもNR方程式は良い近似を構成する。 低温の限界では、NREはREよりも優れた近似を提供する。 強い結合のために、ここではREは非物理的挙動を予測することによって完全に失敗するかもしれない。

Recently, Nathan and Rudner derived a Gorini-Kossakowski-Sudarshan-Lindblad master equation from the Redfield equation. The claim is that the level of approximation is equal to that of the Redfield equation. Here we benchmark the Nathan-Rudner equation (NRE) against the exact solution of a damped harmonic oscillator and compare its performance to that of the time-dependent Redfield equation (RE). We find that which of the equations performs better depends on the regime considered. It turns out that the short-time dynamics is generally much better captured by the RE, whereas the NRE delivers results comparable to those of the rotating-wave approximation. For the steady state, in the high-temperature limit the RE again performs better and its solution approaches the exact result for ultrahigh temperatures. Nevertheless, here also the NR equation constitutes a good approximation. In the low-temperature limit, in turn, the NRE provides a better approximation than the RE. For too strong coupling, here the RE might even fail completely by predicting unphysical behaviour.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# メモリ効率スパース畳み込みを用いた自動運転車のリアルタイム3次元セマンティック占有予測

Real-time 3D semantic occupancy prediction for autonomous vehicles using memory-efficient sparse convolution ( http://arxiv.org/abs/2403.08748v2 )

ライセンス: Link先を確認
Samuel Sze, Lars Kunze, (参考訳) 自動運転車では、エゴ車の周囲の3D環境をリアルタイムで理解することが不可欠である。 幾何学的距離と意味オブジェクト情報をエンコードしながらシーンを表現するためのコンパクトな方法は、3Dセマンティック占有マップを経由する。 State of the art 3D mapping method leverageer with cross-attention mechanism to elevate 2D vision-centric camera features into the 3D domain。 しかし、これらの手法は、推論中の高い計算要求のため、リアルタイムアプリケーションにおいて重大な課題に遭遇する。 この制限は、GPUリソースをローカライズや計画といった他のタスクと共有する必要がある自動運転車において特に問題となる。 本稿では,正面2次元カメラ画像とLiDARスキャンから特徴を抽出し,スパース畳み込みネットワーク(Minkowski Engine)を用いて3次元セマンティック占有予測を行う手法を提案する。 自律運転シナリオの屋外シーンは本質的にスパースであるため、スパースコンボリューションの利用は特に適している。 スパースシーンの3次元シーン補完と3次元セマンティックセグメンテーションの問題を共同で解決することにより、自動運転車のリアルタイムアプリケーションに適した、より効率的な学習フレームワークを提供する。 また、nuScenesデータセット上での競合精度も示す。

In autonomous vehicles, understanding the surrounding 3D environment of the ego vehicle in real-time is essential. A compact way to represent scenes while encoding geometric distances and semantic object information is via 3D semantic occupancy maps. State of the art 3D mapping methods leverage transformers with cross-attention mechanisms to elevate 2D vision-centric camera features into the 3D domain. However, these methods encounter significant challenges in real-time applications due to their high computational demands during inference. This limitation is particularly problematic in autonomous vehicles, where GPU resources must be shared with other tasks such as localization and planning. In this paper, we introduce an approach that extracts features from front-view 2D camera images and LiDAR scans, then employs a sparse convolution network (Minkowski Engine), for 3D semantic occupancy prediction. Given that outdoor scenes in autonomous driving scenarios are inherently sparse, the utilization of sparse convolution is particularly apt. By jointly solving the problems of 3D scene completion of sparse scenes and 3D semantic segmentation, we provide a more efficient learning framework suitable for real-time applications in autonomous vehicles. We also demonstrate competitive accuracy on the nuScenes dataset.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# Bitcoinスマートコントラクトのコスト削減方法 - シンプルな最適化オフチェーンプロトコル

How To Save Fees in Bitcoin Smart Contracts: a Simple Optimistic Off-chain Protocol ( http://arxiv.org/abs/2403.09880v2 )

ライセンス: Link先を確認
Dario Maddaloni, Riccardo Marchesin, Roberto Zunino, (参考訳) 我々はBitcoinにおけるスマートコントラクトの実行を検討します。 そこで、すべてのコントラクトステップは、古いコントラクト状態を表すアウトプットに費やした新たなトランザクションをブロックチェーンに追加し、更新されたステートに対する新しいトランザクションを生成する。 この標準手順では、契約参加者は実行ステップ毎に取引手数料を支払う必要がある。 本稿では,Bitcoin契約の実行の大部分をオフチェーンで実行するプロトコルを紹介する。 すべての参加者がこのプロトコルに従えば、取引手数料を節約できる。 対照的に、敵の存在下では、誠実な参加者はなおも契約の正しい実行を強制することができる、と元のセマンティクスは述べている。

We consider the execution of smart contracts on Bitcoin. There, every contract step corresponds to appending to the blockchain a new transaction that spends the output representing the old contract state, creating a new one for the updated state. This standard procedure requires the contract participants to pay transaction fees for every execution step. In this paper, we introduce a protocol that moves most of the execution of a Bitcoin contract off-chain. When all participants follow this protocol, they are able to save on transaction fees. By contrast, in the presence of adversaries, any honest participant is still able to enforce the correct execution of the contract, according to its original semantics.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# TRG-Net:解釈可能で制御可能な降雨発電機

TRG-Net: An Interpretable and Controllable Rain Generator ( http://arxiv.org/abs/2403.09993v2 )

ライセンス: Link先を確認
Zhiqiang Pang, Hong Wang, Qi Xie, Deyu Meng, Zongben Xu, (参考訳) 雨水生成機構の探索とモデル化は,雨水画像処理モデルの訓練を容易にするために,ペアデータの拡張に不可欠である。 この課題に対して,本研究では,雨の基盤となる物理的発生機構を十分に考慮し,根本的降雨要因(形状,向き,長さ,幅,幅)を網羅的に学習する,新しい深層学習型降雨発生器を提案する。 その重要な点は、ジェネレータが雨の本質的な要素を精巧に設計し、従来の人工的な戦略のように予想される雨をシミュレートするだけでなく、深層学習のような複雑で多様な雨のイメージに微妙に適応することである。 フィルタパラメータ化手法を合理的に採用することにより,降雨要因に対してきめ細かな制御が可能な深層ネットワークを初めて実現し,データからこれらの因子の分布を学習することができる。 筆者らは, 提案した雨発生器による降雨が, 高品質であるだけでなく, 現状の降雨法と比較して, 降雨作業や下流作業に有効であることを実証した。 さらに, 分布内および分布外の両方を含むデータ拡張実験を行い, 分布内デラリニングおよびOOD一般化タスクにおいて, モデルが生成したサンプルの多様性を検証した。

Exploring and modeling rain generation mechanism is critical for augmenting paired data to ease training of rainy image processing models. Against this task, this study proposes a novel deep learning based rain generator, which fully takes the physical generation mechanism underlying rains into consideration and well encodes the learning of the fundamental rain factors (i.e., shape, orientation, length, width and sparsity) explicitly into the deep network. Its significance lies in that the generator not only elaborately design essential elements of the rain to simulate expected rains, like conventional artificial strategies, but also finely adapt to complicated and diverse practical rainy images, like deep learning methods. By rationally adopting filter parameterization technique, we first time achieve a deep network that is finely controllable with respect to rain factors and able to learn the distribution of these factors purely from data. Our unpaired generation experiments demonstrate that the rain generated by the proposed rain generator is not only of higher quality, but also more effective for deraining and downstream tasks compared to current state-of-the-art rain generation methods. Besides, the paired data augmentation experiments, including both in-distribution and out-of-distribution (OOD), further validate the diversity of samples generated by our model for in-distribution deraining and OOD generalization tasks.
翻訳日:2024-04-30 23:16:19 公開日:2024-04-29
# 検出されていない光子を用いたオフ軸ホログラフィーを用いた単フレーム伝送と位相イメージング

Single-frame transmission and phase imaging using off-axis holography with undetected photons ( http://arxiv.org/abs/2403.13389v2 )

ライセンス: Link先を確認
Emma Pearce, Osian Wolley, Simon P. Mekhail, Thomas Gregory, Nathan R. Gemmell, Rupert F. Oulton, Alex S. Clark, Chris C. Phillips, Miles J. Padgett, (参考訳) 検出されていない光子によるイメージングは非線形干渉法に依存し、赤外線プローブビームから空間像を抽出し、検出し易い可視光線の干渉パターンで明らかにする。 通常、位相シフト技術を用いて伝送と位相画像を抽出し、複数のフレームから干渉電図を合成する。 ここでは、オフ軸デジタルホログラフィーにより、単一のインターフェログラムから赤外波長の透過と位相の両方の画像を再構成し、その結果、可視光に記録された単一のフレームを再現できることを示す。 これにより、位相ステップや複数取得の必要がなくなるため、低フラックスでの長時間の取得や高フラックスでのビデオレートイメージングが可能な画像の総計測時間が大幅に短縮される。 この単一フレーム取得技術により、信号対雑音比が1.78\,\pm\,0.06$/秒で物体の透過画像を再構成し、赤外線のダイナミックシーンを33フレーム/秒で記録することができる。

Imaging with undetected photons relies upon nonlinear interferometry to extract the spatial image from an infrared probe beam and reveal it in the interference pattern of an easier-to-detect visible beam. Typically, the transmission and phase images are extracted using phase-shifting techniques and combining interferograms from multiple frames. Here we show that off-axis digital holography enables reconstruction of both transmission and phase images at the infrared wavelength from a single interferogram, and hence a single frame, recorded in the visible. This eliminates the need for phase stepping and multiple acquisitions, thereby greatly reducing total measurement time for imaging with long acquisition times at low flux or enabling video-rate imaging at higher flux. With this single-frame acquisition technique, we are able to reconstruct transmission images of an object in the infrared beam with a signal-to-noise ratio of $1.78\,\pm\,0.06$ at 10 frames per second, and record a dynamic scene in the infrared beam at 33 frames per second.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# 大規模モデルのためのパラメータ効率の良いファインチューニング:包括的調査

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey ( http://arxiv.org/abs/2403.14608v5 )

ライセンス: Link先を確認
Zeyu Han, Chao Gao, Jinyang Liu, Jeff Zhang, Sai Qian Zhang, (参考訳) 大規模モデルは、複数のアプリケーション分野における画期的な進歩を表しており、様々なタスクにおける顕著な達成を可能にしている。 しかし、その前例のない規模には計算コストがかなり伴う。 これらのモデルはしばしば数十億のパラメータで構成され、実行には膨大な量の計算資源を必要とする。 特に、拡張スケールと計算要求は、特定の下流タスク、特に計算能力に制約されたハードウェアプラットフォームをカスタマイズする際に大きな課題を生じさせる。 パラメータ効率の良いファインチューニング(PEFT)は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 特にPEFTは、訓練済みの大規模モデルのパラメータを調整して特定のタスクに適応させ、導入された追加のパラメータの数や計算リソースを最小化するプロセスを指す。 これらのモデルをスクラッチから微調整することは、計算コストが高く、リソース集約的であり、サポートするシステムプラットフォーム設計において大きな課題を生じさせるため、大きな言語モデルと高いパラメータ数を扱う場合、このアプローチは特に重要である。 本稿では,様々なPEFTアルゴリズムの総合的な研究を行い,その性能と計算オーバーヘッドについて検討する。 さらに,異なるPEFTアルゴリズムを用いて開発されたアプリケーションの概要を述べるとともに,PEFTの計算コストを軽減するための一般的な手法について議論する。 アルゴリズムの観点に加えて,様々な実世界のシステム設計を概観し,異なるPEFTアルゴリズムによる実装コストについて検討する。 この調査は、PEFTアルゴリズムとシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。

Large models represent a groundbreaking advancement in multiple application fields, enabling remarkable achievements across various tasks. However, their unprecedented scale comes with significant computational costs. These models, often consisting of billions of parameters, require vast amounts of computational resources for execution. Especially, the expansive scale and computational demands pose considerable challenges when customizing them for particular downstream tasks, particularly over the hardware platforms constrained by computational capabilities. Parameter Efficient Fine-Tuning (PEFT) provides a practical solution by efficiently adapt the large models over the various downstream tasks. In particular, PEFT refers to the process of adjusting the parameters of a pre-trained large models to adapt it to a specific task while minimizing the number of additional parameters introduced or computational resources required. This approach is particularly important when dealing with large language models with high parameter counts, as fine-tuning these models from scratch can be computationally expensive and resource-intensive, posing considerable challenges in the supporting system platform design. In this survey, we present comprehensive studies of various PEFT algorithms, examining their performance and computational overhead. Moreover, we provide an overview of applications developed using different PEFT algorithms and discuss common techniques employed to mitigate computation costs for PEFT. In addition to the algorithmic perspective, we overview various real-world system designs to investigate the implementation costs associated with different PEFT algorithms. This survey serves as an indispensable resource for researchers aiming to understand both the PEFT algorithm and its system implementation, offering detailed insights into recent advancements and practical applications.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# 解釈およびバランスの取れた分類規則を学習するためのMaxSATに基づくインクリメンタルモデル

An Incremental MaxSAT-based Model to Learn Interpretable and Balanced Classification Rules ( http://arxiv.org/abs/2403.16418v2 )

ライセンス: Link先を確認
Antônio Carlos Souza Ferreira Júnior, Thiago Alves Rocha, (参考訳) 機械学習の分野での進歩は、精度の高い予測を伴う幅広い問題に効果的に対処する多くのアプリケーションの開発に繋がった。 しかし、場合によっては精度だけでは不十分である。 多くの現実世界の問題は、予測の背後にある説明と解釈可能性も要求する。 最も一般的な解釈可能なモデルの1つは分類規則である。 本研究の目的は,IMLIB と呼ばれる MaxSAT に基づく解釈可能かつバランスの取れたルールを学習するための漸進的モデルを提案することである。 この新モデルは2つのアプローチに基づいており、1つはSAT、もう1つはMaxSATをベースとしている。 SATに基づくものは、生成された各ルールのサイズを制限し、それらのバランスをとることができる。 このようなルールの集合は、大きなルールと小さなルールの混合よりも理解しやすいように思われる。 MaxSATをベースとしたアプローチは、IMLIと呼ばれ、データセットにモデルを漸進的に適用することで一連のルールを学習するパフォーマンスを向上させるテクニックを提供する。 最後に、IMLIBとIMLIは多様なデータベースを用いて比較される。 IMLIBは精度の観点からIMLIに匹敵する結果を得た。

The increasing advancements in the field of machine learning have led to the development of numerous applications that effectively address a wide range of problems with accurate predictions. However, in certain cases, accuracy alone may not be sufficient. Many real-world problems also demand explanations and interpretability behind the predictions. One of the most popular interpretable models that are classification rules. This work aims to propose an incremental model for learning interpretable and balanced rules based on MaxSAT, called IMLIB. This new model was based on two other approaches, one based on SAT and the other on MaxSAT. The one based on SAT limits the size of each generated rule, making it possible to balance them. We suggest that such a set of rules seem more natural to be understood compared to a mixture of large and small rules. The approach based on MaxSAT, called IMLI, presents a technique to increase performance that involves learning a set of rules by incrementally applying the model in a dataset. Finally, IMLIB and IMLI are compared using diverse databases. IMLIB obtained results comparable to IMLI in terms of accuracy, generating more balanced rules with smaller sizes.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# 対物摂動による実証における接地言語計画

Grounding Language Plans in Demonstrations Through Counterfactual Perturbations ( http://arxiv.org/abs/2403.17124v2 )

ライセンス: Link先を確認
Yanwei Wang, Tsun-Hsuan Wang, Jiayuan Mao, Michael Hagenow, Julie Shah, (参考訳) 物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。 従来の研究は、LLMを記号空間の計画に直接活用することに重点を置いていたが、この研究は、多段階のデモにおいて暗黙的なタスク構造と制約の探索を誘導するためにLLMを用いている。 具体的には、特定の動作制約によってロボットの構成をグループ化するモードファミリーの概念を、LLMの高レベル言語表現とロボットの低レベル物理軌道の抽象層として機能させる、という操作計画の文献から借用する。 人工摂動でいくつかの人間のデモをリプレイすることで、実行がさらに成功し、タスクを失敗する反事実とともに、デモの状態空間のカバレッジを生成します。 我々の説明に基づく学習フレームワークは、終端から終端までの微分可能なニューラルネットワークをトレーニングし、失敗から軌道をうまく予測し、副産物として、高密度なラベル付けをせずにモードファミリ内の低レベル状態とイメージを基底とする分類器を学習する。 学習された基底分類器は、解釈可能な方法で言語プランを物理領域のリアクティブポリシーに変換するためにさらに使用できる。 提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。 ウェブサイト:https://yanweiw.github.io/glide

Grounding the common-sense reasoning of Large Language Models (LLMs) in physical domains remains a pivotal yet unsolved problem for embodied AI. Whereas prior works have focused on leveraging LLMs directly for planning in symbolic spaces, this work uses LLMs to guide the search of task structures and constraints implicit in multi-step demonstrations. Specifically, we borrow from manipulation planning literature the concept of mode families, which group robot configurations by specific motion constraints, to serve as an abstraction layer between the high-level language representations of an LLM and the low-level physical trajectories of a robot. By replaying a few human demonstrations with synthetic perturbations, we generate coverage over the demonstrations' state space with additional successful executions as well as counterfactuals that fail the task. Our explanation-based learning framework trains an end-to-end differentiable neural network to predict successful trajectories from failures and as a by-product learns classifiers that ground low-level states and images in mode families without dense labeling. The learned grounding classifiers can further be used to translate language plans into reactive policies in the physical domain in an interpretable manner. We show our approach improves the interpretability and reactivity of imitation learning through 2D navigation and simulated and real robot manipulation tasks. Website: https://yanweiw.github.io/glide
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# 変分量子アルゴリズムにおける整数線形不等式の効果的な埋め込み

Effective Embedding of Integer Linear Inequalities for Variational Quantum Algorithms ( http://arxiv.org/abs/2403.18395v2 )

ライセンス: Link先を確認
Maximilian Hess, Lilly Palackal, Abhishek Awasthi, Karen Wintersperger, (参考訳) 変分量子アルゴリズムでは、通常、制約はペナルティ項によって問題対象に追加される。 線形不等式制約に対して、この手順は追加のスラック量子ビットを必要とする。 これらの余分な量子ビットは、検索スペースを爆破し、古典的なオプティマイザによってナビゲートされるパラメータのランドスケープを複雑にする傾向がある。 本研究では,これらの欠点を伴わない量子アルゴリズムの線形不等式をモデル化するためのアプローチについて検討する。 具体的には、スラック量子ビットを完全に省略し、パラメータチューニング中に古典的に不等式を評価することを提案する。 我々は,QAOA法およびトロッター化断熱進化試験を行い,実験結果を示した。 ベンチマーク問題として、我々はマルチクナップサック問題の異なる事例について考察する。 その結果,回路ハミルトニアンからスラックビットを除去し,期待値のみを考慮すれば,標準手法よりも解の質が向上することがわかった。 テストは26キュービットまでの問題サイズを用いて実施されている。 本手法は, 線形不等式制約のある任意の問題に適用可能であり, 分散量子コンピューティングのディジタル化にも適している。

In variational quantum algorithms, constraints are usually added to the problem objective via penalty terms. For linear inequality constraints, this procedure requires additional slack qubits. Those extra qubits tend to blow up the search space and complicate the parameter landscapes to be navigated by the classical optimizers. In this work, we explore approaches to model linear inequalities for quantum algorithms without these drawbacks. More concretely, our main suggestion is to omit the slack qubits completely and evaluate the inequality classically during parameter tuning. We test our methods on QAOA as well as on Trotterized adiabatic evolution, and present empirical results. As a benchmark problem, we consider different instances of the multi-knapsack problem. Our results show that removing the slack bits from the circuit Hamiltonian and considering them only for the expectation value yields better solution quality than the standard approach. The tests have been carried out using problem sizes up to 26 qubits. Our methods can in principle be applied to any problem with linear inequality constraints, and are suitable for variational as well as digitized versions of adiabatic quantum computing.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# 量子機械学習のための光コーンの特徴選択

Light-cone feature selection for quantum machine learning ( http://arxiv.org/abs/2403.18733v2 )

ライセンス: Link先を確認
Yudai Suzuki, Rei Sakuma, Hideaki Kawaguchi, (参考訳) 特徴選択は、古典的な機械学習において訓練されたモデルの予測性能と解釈可能性を改善する上で重要な役割を果たす。 一方、従来の特徴選択のユーザビリティは量子機械学習タスクに限られる可能性があり、この技術は古典的なデータタスクに量子回路を埋め込むための明確な解釈を提供しておらず、より重要なのは量子データタスクには適用できないことである。 本研究では,量子機械学習に着目した特徴選択手法を提案する。 我々のスキームは、量子モデルの光錐(すなわち部分空間)を特徴として扱い、対応する局所量子カーネルのトレーニングを通じて関連するものを選択する。 1)古典的な入力の特徴選択,(2)データ埋め込みのための回路アーキテクチャ探索,(3)量子機械学習モデルの圧縮,(4)量子データのための部分空間選択,である。 提案するフレームワークは、量子機械学習の実践的なタスクへの応用への道を開くものだ。 また、このテクニックは、量子機械学習タスクが本当に量子性を必要としているかどうかを実際にテストするために使用することができる。

Feature selection plays an essential role in improving the predictive performance and interpretability of trained models in classical machine learning. On the other hand, the usability of conventional feature selection could be limited for quantum machine learning tasks; the technique might not provide a clear interpretation on embedding quantum circuits for classical data tasks and, more importantly, is not applicable to quantum data tasks. In this work, we propose a feature selection method with a specific focus on quantum machine learning. Our scheme treats the light-cones (i.e., subspace) of quantum models as features and then select relevant ones through training of the corresponding local quantum kernels. We numerically demonstrate its versatility for four different applications using toy tasks: (1) feature selection of classical inputs, (2) circuit architecture search for data embedding, (3) compression of quantum machine learning models and (4) subspace selection for quantum data. The proposed framework paves the way towards applications of quantum machine learning to practical tasks. Also, this technique could be used to practically test if the quantum machine learning tasks really need quantumness, while it is beyond the scope of this work.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# 視覚変換器を用いたX線画像における不正物体検出

Illicit object detection in X-ray images using Vision Transformers ( http://arxiv.org/abs/2403.19043v2 )

ライセンス: Link先を確認
Jorgen Cani, Ioannis Mademlis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos, (参考訳) Illicitオブジェクト検出は、空港、駅、地下鉄、港など、様々な高セキュリティの場所で実施される重要なタスクである。 1時間に何千ものX線画像を調べるという、連続的で退屈な作業は、精神的に課税される可能性がある。 このようにして、ディープニューラルネットワーク(DNN)は、X線画像解析プロセスの自動化、効率の向上、セキュリティ担当者の検査負担軽減に使用することができる。 関連する文献で一般的に使用されるニューラルネットワークは、畳み込みニューラルネットワーク(CNN)であり、視覚変換器(ViT)はほとんど使われない。 このギャップに対処するため,本研究では,X線画像の不正な項目検出において,関連するViTアーキテクチャを包括的に評価する。 本研究では、SWINやNextViTのようなトランスフォーマーとハイブリッドのバックボーンの両方と、DINOやRT-DETRのような検出器を利用する。 その結果、低データ状態におけるDINOトランスフォーマー検出器の顕著な精度、YOLOv8の顕著なリアルタイム性能、ハイブリッドNextViTバックボーンの有効性が示された。

Illicit object detection is a critical task performed at various high-security locations, including airports, train stations, subways, and ports. The continuous and tedious work of examining thousands of X-ray images per hour can be mentally taxing. Thus, Deep Neural Networks (DNNs) can be used to automate the X-ray image analysis process, improve efficiency and alleviate the security officers' inspection burden. The neural architectures typically utilized in relevant literature are Convolutional Neural Networks (CNNs), with Vision Transformers (ViTs) rarely employed. In order to address this gap, this paper conducts a comprehensive evaluation of relevant ViT architectures on illicit item detection in X-ray images. This study utilizes both Transformer and hybrid backbones, such as SWIN and NextViT, and detectors, such as DINO and RT-DETR. The results demonstrate the remarkable accuracy of the DINO Transformer detector in the low-data regime, the impressive real-time performance of YOLOv8, and the effectiveness of the hybrid NextViT backbone.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# Slowly Varying Sequencesによる安定機械学習モデルの訓練に向けて

Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences ( http://arxiv.org/abs/2403.19871v3 )

ライセンス: Link先を確認
Dimitris Bertsimas, Vassilis Digalakis Jr, Yu Ma, Phevos Paschalidis, (参考訳) 機械学習モデル(ML)の新たなバッチが利用可能になったときのリトレーニングは、現実世界のパイプラインにおいて重要なタスクである。 既存の手法は、反復を繰り返すモデルの安定性を考慮せずに、各バッチの最高のパフォーマンスモデルを見つけるための欲求的なアプローチに重点を置いている。 本研究では,再学習を繰り返して安定なMLモデルのシーケンスを見つける手法を提案する。 我々は,パレート最適モデル(予測電力-安定トレードオフの観点から)の復元が保証される混合整数最適化アルゴリズムと,実際によく動作する効率的な多項式時間アルゴリズムを開発する。 本手法は,最適化問題に直接組み込むことができるカスタム定義距離メトリクスを使用することにより,一貫した分析的洞察(解釈可能性のモデル化,実装の容易さ,ユーザとの信頼の促進)を維持することに焦点を当てる。 本手法は,実世界のケーススタディにおいて,小型で制御可能なモデル性能の犠牲を伴って,厳格に訓練されたモデルよりも強い安定性を示す。 SHAPの特徴を重要視することにより、再学習イテレーション間で分析的洞察が一貫性があることが示される。

Retraining machine learning models (ML) when new batches of data become available is an important task in real-world pipelines. Existing methods focus largely on greedy approaches to find the best-performing model for each batch, without considering the stability of the model's structure across retraining iterations. In this study, we propose a methodology for finding sequences of ML models that are stable across retraining iterations. We develop a mixed-integer optimization algorithm that is guaranteed to recover Pareto optimal models (in terms of the predictive power-stability trade-off) and an efficient polynomial-time algorithm that performs well in practice. Our method focuses on retaining consistent analytical insights -- which is important to model interpretability, ease of implementation, and fostering trust with users -- by using custom-defined distance metrics that can be directly incorporated into the optimization problem. Importantly, our method shows stronger stability than greedily trained models with a small, controllable sacrifice in model performance in a real-world case study. Using SHAP feature importance, we show that analytical insights are consistent across retraining iterations.
翻訳日:2024-04-30 23:05:49 公開日:2024-04-29
# マルチ制御量子ゲートの効率的な実装

Efficient Implementation of Multi-Controlled Quantum Gates ( http://arxiv.org/abs/2404.02279v2 )

ライセンス: Link先を確認
Ben Zindorf, Sougato Bose, (参考訳) 本稿では,最先端手法と比較してコストを大幅に削減できるマルチコントロール量子ゲートの実装について述べる。 ターゲット qubit に適用される演算子は、ユニタリで特別なユニタリ、または Pauli X 演算子(Multi-Controlled Toffoli)である。 必要となるアンシラ量子ビット数は、既知の線形コスト分解と同様に1より大きい。 任意のターゲット量子ビットに対してメソッドを拡張し、追加のアンシラ量子ビットが利用可能であれば、さらなるコスト削減を提供する。 各タイプのマルチコントロールゲートに対して、制限のない(すべて)接続と線形アレスト近傍の実装を提供する。 すべての手法はクリフォード+T(フォールトトレラント)集合からのゲートの線形コストを使用する。 線形アレスト近傍アーキテクチャでは、ゲートが適用されるキュービットの位置に関わらず、回路のコストと深さは線形にスケールする。 提案手法は,多くの量子アルゴリズムのコンパイルプロセスを直接改善し,最適化回路を提供する。

We present an implementation of multi-controlled quantum gates which provides significant reductions of cost compared to state-of-the-art methods. The operator applied on the target qubit is a unitary, special unitary, or the Pauli X operator (Multi-Controlled Toffoli). The required number of ancilla qubits is no larger than one, similarly to known linear cost decompositions. We extend our methods for any number of target qubits, and provide further cost reductions if additional ancilla qubits are available. For each type of multi-controlled gate, we provide implementations for unrestricted (all-to-all) connectivity and for linear-nearest-neighbor. All of the methods use a linear cost of gates from the Clifford+T (fault-tolerant) set. In the context of linear-nearest-neighbor architecture, the cost and depth of our circuits scale linearly irrespective of the position of the qubits on which the gate is applied. Our methods directly improve the compilation process of many quantum algorithms, providing optimized circuits, which will result in a large reduction of errors.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-29
# 固有プルーニング

Eigenpruning ( http://arxiv.org/abs/2404.03147v2 )

ライセンス: Link先を確認
Tomás Vergara-Browne, Álvaro Soto, Akiko Aizawa, (参考訳) 固有プルーニング(eigenpruning)は、LLMの重み行列から特異値を取り除き、特定のタスクの性能を向上させる手法である。 この方法は、特定のタスクを解決するモデルのサブネットワークを自動的に見つけるために設計された解釈可能性メソッドにインスパイアされている。 実験では, プルーンドモデルでは, 重量行列のプルーニングに最小限の計算しか必要とせず, 元のモデルよりも大きなマージンで性能が向上した。 整数乗算における小さな合成タスクの場合、Phi-2モデルはテストセットの精度を13.75%から97.50%に向上させることができる。 興味深いことに、これらの結果はタスクを効果的に解決できる計算経路の存在を示すものと思われるが、元のモデルでは使われていなかった。 最後に、実装を公開します。

We introduce eigenpruning, a method that removes singular values from weight matrices in an LLM to improve its performance in a particular task. This method is inspired by interpretability methods designed to automatically find subnetworks of a model which solve a specific task. In our tests, the pruned model outperforms the original model by a large margin, while only requiring minimal computation to prune the weight matrices. In the case of a small synthetic task in integer multiplication, the Phi-2 model can improve its accuracy in the test set from 13.75% to 97.50%. Interestingly, these results seem to indicate the existence of a computation path that can solve the task very effectively, but it was not being used by the original model. Finally, we publicly release our implementation.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-29
# バイパルタイト量子状態の単位不変特性の局所試験

Local Test for Unitarily Invariant Properties of Bipartite Quantum States ( http://arxiv.org/abs/2404.04599v2 )

ライセンス: Link先を確認
Kean Chen, Qisheng Wang, Zhicheng Zhang, (参考訳) 両部量子状態に対する局所テストのパワーについて検討する。 我々の中心的な結果は、二部体の純粋な状態の性質に対して、ある部分におけるユニタリな不変性は、(すべてのグローバルテスタよりも)最適な(グローバルテスタよりも)ローカルテスタがもう一方の部分にのみ作用することを意味します。 このことは、絡み合いスペクトル(例えばシュミット係数)の標準局所検定器であり、精製された試料は混合状態の物性試験において有利ではないことを示唆している。 応用として、新しいサンプルローバウンド, eg : - 最初の一般ローバウンド$\Omega(r/\epsilon^2)$を示し、二部分状態のシュミット階数が少なくとも$r$か$\epsilon$-farであるかどうかを検証し、モンタナロとデ・ウルフ(ToC 2016)で提起されたオープンな質問に着目する。 A lower bound $\Omega((\sqrt n+\sqrt r)\cdot\sqrt r/\epsilon^2)$ for testing for a $n$-partite state is a matrix product state of bond dimension $r$ or $\epsilon$-far, improve the prior lower bound $\Omega(\sqrt n/\epsilon^2) by Soleimanifar and Wright (SODA 2022) and $\Omega(\sqrt r)$ by Aaronson et al (ITCS 2024)。 さらに、完全完全性が必要な場合、$r$と$\epsilon$に関して、一致する下界$\Omega(r^2/\epsilon^2)$を提供する。 - 一致する下界$\Omega(d/\epsilon^2)$$$d$次元二部分状態が最大絡み合うか$\epsilon$-farかをテストすると、オドネルとライトのアルゴリズム(STOC 2015)がこのタスクに最適であることを示す。 A query lower bound $\tilde\Omega(\sqrt{d/\Delta})$ for the $d$-dimensional entanglement entropy problem with gap $\Delta$, improve the previous best $\Omega(\sqrt[4]{d})$ by She and Yuen (ITCS 2023) and $\tilde\Omega(1/\sqrt\Delta)$ by Wang and Zhang (2023) and Weggemans (2024)。 さらに、テスト状態が混合された場合、中心的な結果を拡張できる: 片道LOCCは最適なテスターを実現するのに十分である。

We study the power of local test for bipartite quantum states. Our central result is that, for properties of bipartite pure states, unitary invariance on one part implies an optimal (over all global testers) local tester acting only on the other part. This suggests a canonical local tester for entanglement spectra (i.e., Schmidt coefficients), and reveals that purified samples offer no advantage in property testing of mixed states. As applications, we show new sample lower bounds, e.g.: - The first general lower bound $\Omega(r/\epsilon^2)$ for testing whether the Schmidt rank of a bipartite state is at most $r$ or $\epsilon$-far, settling an open question raised in Montanaro and de Wolf (ToC 2016). - A lower bound $\Omega((\sqrt n+\sqrt r)\cdot\sqrt r/\epsilon^2)$ for testing whether an $n$-partite state is a matrix product state of bond dimension $r$ or $\epsilon$-far, improving the prior lower bound $\Omega(\sqrt n/\epsilon^2)$ by Soleimanifar and Wright (SODA 2022) and $\Omega(\sqrt r)$ by Aaronson et al. (ITCS 2024). Further, when perfect completeness is required, we provide a matching lower bound $\Omega(r^2/\epsilon^2)$ with respect to $r$ and $\epsilon$. - A matching lower bound $\Omega(d/\epsilon^2)$ for testing whether a $d$-dimensional bipartite state is maximally entangled or $\epsilon$-far, showing that the algorithm of O'Donnell and Wright (STOC 2015) is optimal for this task. Beyond sample complexity, we also contribute new query lower bounds: - A query lower bound $\tilde\Omega(\sqrt{d/\Delta})$ for the $d$-dimensional entanglement entropy problem with gap $\Delta$, improving the prior best $\Omega(\sqrt[4]{d})$ by She and Yuen (ITCS 2023) and $\tilde\Omega(1/\sqrt\Delta)$ by Wang and Zhang (2023) and Weggemans (2024). Further, our central result can be extended when the tested state is mixed: one-way LOCC is sufficient to realize the optimal tester.
翻訳日:2024-04-30 22:56:04 公開日:2024-04-29
# LIPT:遅延対応画像処理変換器

LIPT: Latency-aware Image Processing Transformer ( http://arxiv.org/abs/2404.06075v2 )

ライセンス: Link先を確認
Junbo Qiao, Wei Li, Haizhen Xie, Hanting Chen, Yunshuai Zhou, Zhijun Tu, Jie Hu, Shaohui Lin, (参考訳) Transformerは画像処理の分野でトレンドをリードしている。 既存の軽量画像処理変換器が達成した大きな成功にもかかわらず、実際の推論アクセラレーションよりもFLOPやパラメータ削減に最適化されている。 本稿では、LIPTと呼ばれる遅延対応画像処理変換器を提案する。 我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。 具体的には,非揮発性スパースマスキング・セルフアテンション (NVSM-SA) を提案する。 さらに、LIPTブロック再パラメータ化を快適にするために、高周波数再パラメータ化モジュール(HRM)を提案する。 複数の画像処理タスク(例えば、画像スーパーレゾリューション(SR)、JPEGアーティファクトリダクション、画像デノイング)に対する大規模な実験は、遅延とPSNRの両方においてLIPTの優位性を示す。 LIPTは、複数の画像SRベンチマークで最先端のパフォーマンスでリアルタイムGPU推論を実現する。

Transformer is leading a trend in the field of image processing. Despite the great success that existing lightweight image processing transformers have achieved, they are tailored to FLOPs or parameters reduction, rather than practical inference acceleration. In this paper, we present a latency-aware image processing transformer, termed LIPT. We devise the low-latency proportion LIPT block that substitutes memory-intensive operators with the combination of self-attention and convolutions to achieve practical speedup. Specifically, we propose a novel non-volatile sparse masking self-attention (NVSM-SA) that utilizes a pre-computing sparse mask to capture contextual information from a larger window with no extra computation overload. Besides, a high-frequency reparameterization module (HRM) is proposed to make LIPT block reparameterization friendly, which improves the model's detail reconstruction capability. Extensive experiments on multiple image processing tasks (e.g., image super-resolution (SR), JPEG artifact reduction, and image denoising) demonstrate the superiority of LIPT on both latency and PSNR. LIPT achieves real-time GPU inference with state-of-the-art performance on multiple image SR benchmarks.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-29
# インセンティブ・セキュリティによる学習の証明

Proof-of-Learning with Incentive Security ( http://arxiv.org/abs/2404.09005v2 )

ライセンス: Link先を確認
Zishuo Zhao, Zhixuan Fang, Xuechao Wang, Xi Chen, Yuan Zhou, (参考訳) ほとんどの並行ブロックチェーンシステムは、分散コンセンサスとセキュリティ保証のためのProof-of-Work(PoW)あるいはProof-of-Stake(PoS)メカニズムに大きく依存しています。 しかし、計算集約的かつ無意味なタスクから生じる実質的なエネルギー支出は、従来のPoWアプローチにまつわるかなりの懸念を引き起こしている。 これらの問題に対処するために、PoUW(Proof-of-Useful-Work)のパラダイムは、PoWとして実践的な重要性の課題を取り入れ、具体的な価値でエネルギー消費を付与することを目指している。 従来のPoL(Proof of Learning)では,PuUW課題としての深層学習モデルトレーニングSGDタスクの利用が検討されているが,近年の研究では,敵対的攻撃に対する脆弱性と,ビザンチンセキュアなPoL機構の構築における理論的難しさが明らかにされている。 本稿では、計算効率、証明可能なインセンティブ-セキュリティ保証、制御容易な難易度を有するPoL機構を設計するための既存の難しさを回避し、合理的なプローバーに率直に行動を促すインセンティブ-セキュリティの概念を紹介する。 特に、我々の仕事は、Jia et al [2021]の最近の研究に対する2つの攻撃に対して安全であり、計算オーバーヘッドを$\Theta(1)$から$O(\frac{\log E}{E})$に改善する。 さらに、最近の研究では、信頼性のある問題提供者と検証者が想定されているが、我々の設計では、問題提供者が信頼されていない場合でも、フロントエンドのインセンティブ・セキュリティを保証し、検証者のジレンマを回避できるインセンティブ・セキュリティも保証している。 MLトレーニングを証明可能な保証付きブロックチェーンコンセンサスメカニズムに組み込むことで、私たちの研究は、ブロックチェーンシステムに対するエコフレンドリなソリューションを提案するだけでなく、新たなAI時代における、完全に分散化されたコンピューティングパワー市場の提案も提供します。

Most concurrent blockchain systems rely heavily on the Proof-of-Work (PoW) or Proof-of-Stake (PoS) mechanisms for decentralized consensus and security assurance. However, the substantial energy expenditure stemming from computationally intensive yet meaningless tasks has raised considerable concerns surrounding traditional PoW approaches, The PoS mechanism, while free of energy consumption, is subject to security and economic issues. Addressing these issues, the paradigm of Proof-of-Useful-Work (PoUW) seeks to employ challenges of practical significance as PoW, thereby imbuing energy consumption with tangible value. While previous efforts in Proof of Learning (PoL) explored the utilization of deep learning model training SGD tasks as PoUW challenges, recent research has revealed its vulnerabilities to adversarial attacks and the theoretical hardness in crafting a byzantine-secure PoL mechanism. In this paper, we introduce the concept of incentive-security that incentivizes rational provers to behave honestly for their best interest, bypassing the existing hardness to design a PoL mechanism with computational efficiency, a provable incentive-security guarantee and controllable difficulty. Particularly, our work is secure against two attacks to the recent work of Jia et al. [2021], and also improves the computational overhead from $\Theta(1)$ to $O(\frac{\log E}{E})$. Furthermore, while most recent research assumes trusted problem providers and verifiers, our design also guarantees frontend incentive-security even when problem providers are untrusted, and verifier incentive-security that bypasses the Verifier's Dilemma. By incorporating ML training into blockchain consensus mechanisms with provable guarantees, our research not only proposes an eco-friendly solution to blockchain systems, but also provides a proposal for a completely decentralized computing power market in the new AI age.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-29
# TransformerFAM: フィードバックの注意は動作メモリである

TransformerFAM: Feedback attention is working memory ( http://arxiv.org/abs/2404.09173v2 )

ライセンス: Link先を確認
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar, (参考訳) トランスフォーマーはディープラーニングに革命をもたらしたが、その二次的な注意の複雑さは、無限に長い入力を処理する能力を妨げている。 本稿では,フィードバックループを利用する新しいトランスフォーマーアーキテクチャであるFAMを提案する。 この設計により、Transformer内のワーキングメモリの出現が促進され、無限に長いシーケンスを処理できるようになる。 TransformerFAMは追加の重みを必要とせず、事前訓練されたモデルとのシームレスな統合を可能にする。 実験の結果,TransformerFAMは,多種多様なモデルサイズ(1B,8B,24B)にわたる長文タスクにおいて,Transformerのパフォーマンスを著しく向上することがわかった。 これらの結果から,Large Language Models (LLM) を無限長のシーケンスに拡張する可能性が示された。

While Transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose Feedback Attention Memory (FAM), a novel Transformer architecture that leverages a feedback loop to enable the network to attend to its own latent representations. This design fosters the emergence of working memory within the Transformer, allowing it to process indefinitely long sequences. TransformerFAM requires no additional weights, enabling seamless integration with pre-trained models. Our experiments show that TransformerFAM significantly improves Transformer performance on long-context tasks across various model sizes (1B, 8B, and 24B). These results showcase the potential to empower Large Language Models (LLMs) to process sequences of unlimited length.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-29
# ジェネレーティブ人工知能のための法的リスク分類法

A Legal Risk Taxonomy for Generative Artificial Intelligence ( http://arxiv.org/abs/2404.09479v2 )

ライセンス: Link先を確認
David Atkinson, Jacob Morrison, (参考訳) 本稿では,ジェネレーションAI(GenAI)にかかわる法的リスクの分類を,複雑な法的概念を分解し,GenAIモデルの開発と展開における潜在的な法的課題の共通理解を提供する。 本手法は,(1)既存の訴訟において提起された法的主張を検証し,(2)将来の訴訟において提起される合理的な法的主張を評価することに基づく。 まず、著名なGenAI企業に対する22件の訴訟を特定し、各訴訟の主張を一致させた。 そこから我々は、これらの訴訟で少なくとも4回引用される7つの主張を、今後のGenAI訴訟の最も可能性の高い主張として特定した。 これら7つのクレームそれぞれについて、クレームの要素(原告が証明しなければならないこと)を記述し、GenAIにどのように適用されるかの例を示す。 次に、我々は、より投機的と思われる他の30の主張を特定した。なぜなら、それは4件未満の訴訟に含まれているか、まだ提出されていないためである。 我々はさらに、30件の請求を、GenAIモデルの事前デプロイに関連する可能性が高い19件と、GenAIモデルの後デプロイに関連する可能性が高い11件に分けました。 これらのクレームのそれぞれについて、原告がGenAIの開発と展開における法的リスクを決定するのに役立てるであろう主張の要素と潜在的な改善について述べる。 最後に、GenAI技術の新規性に注目して論文を閉じ、さらなる研究を進めるための論文の分類学へのいくつかの応用を提案する。

For the first time, this paper presents a taxonomy of legal risks associated with generative AI (GenAI) by breaking down complex legal concepts to provide a common understanding of potential legal challenges for developing and deploying GenAI models. The methodology is based on (1) examining the legal claims that have been filed in existing lawsuits and (2) evaluating the reasonably foreseeable legal claims that may be filed in future lawsuits. First, we identified 22 lawsuits against prominent GenAI entities and tallied the claims of each lawsuit. From there, we identified seven claims that are cited at least four times across these lawsuits as the most likely claims for future GenAI lawsuits. For each of these seven claims, we describe the elements of the claim (what the plaintiff must prove to prevail) and provide an example of how it may apply to GenAI. Next, we identified 30 other potential claims that we consider to be more speculative, because they have been included in fewer than four lawsuits or have yet to be filed. We further separated those 30 claims into 19 that are most likely to be made in relation to pre-deployment of GenAI models and 11 that are more likely to be made in connection with post-deployment of GenAI models since the legal risks will vary between entities that create versus deploy them. For each of these claims, we describe the elements of the claim and the potential remedies that plaintiffs may seek to help entities determine their legal risks in developing or deploying GenAI. Lastly, we close the paper by noting the novelty of GenAI technology and propose some applications for the paper's taxonomy in driving further research.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-29
# WiTUnet:CNNとTransformerを統合したU字型アーキテクチャ

WiTUnet: A U-Shaped Architecture Integrating CNN and Transformer for Improved Feature Alignment and Local Information Fusion ( http://arxiv.org/abs/2404.09533v2 )

ライセンス: Link先を確認
Bin Wang, Fei Deng, Peifan Jiang, Shuang Wang, Xiao Han, Zhixuan Zhang, (参考訳) 低線量CT(LDCT)は,画像ノイズが増大し診断精度に影響を及ぼす可能性がありながら,標準CTと比較して放射線線量が少ないことから,医用画像診断において選択される技術となっている。 これを解決するために、先進的なディープラーニングベースのLDCT復調アルゴリズムが開発され、主に畳み込みニューラルネットワーク(CNN)や、Unetアーキテクチャを使ったTransformer Networksが使用されている。 このアーキテクチャは、スキップ接続を介してエンコーダとデコーダから特徴マップを統合することで、画像のディテールを向上させる。 しかし、現在の手法はUnetアーキテクチャ自体の強化を見落とし、代わりにエンコーダとデコーダ構造を最適化することに重点を置いている。 本稿では,従来のスキップ接続ではなく,ネストされた高密度スキップ経路を利用する新しいLDCT画像デノナイズ手法であるWiTUnetを紹介する。 WiTUnetはまた、ウィンドウ化されたトランスフォーマー構造を組み込んで、小さな非重複セグメントで画像を処理し、計算負荷を削減している。 さらに、エンコーダとデコーダの両方にローカルイメージ知覚拡張(LiPe)モジュールを統合することで、トランスフォーマーの標準多層パーセプトロン(MLP)を置き換えることで、ローカル特徴のキャプチャと表現が強化される。 広範にわたる実験的比較により、Pak Signal-to-Noise Ratio (PSNR)、Structure similarity (SSIM)、Root Mean Square Error (RMSE)といった重要な指標において、既存の手法よりも優れた性能を示し、ノイズ除去と画像品質を著しく向上させた。

Low-dose computed tomography (LDCT) has become the technology of choice for diagnostic medical imaging, given its lower radiation dose compared to standard CT, despite increasing image noise and potentially affecting diagnostic accuracy. To address this, advanced deep learning-based LDCT denoising algorithms have been developed, primarily using Convolutional Neural Networks (CNNs) or Transformer Networks with the Unet architecture. This architecture enhances image detail by integrating feature maps from the encoder and decoder via skip connections. However, current methods often overlook enhancements to the Unet architecture itself, focusing instead on optimizing encoder and decoder structures. This approach can be problematic due to the significant differences in feature map characteristics between the encoder and decoder, where simple fusion strategies may not effectively reconstruct images.In this paper, we introduce WiTUnet, a novel LDCT image denoising method that utilizes nested, dense skip pathways instead of traditional skip connections to improve feature integration. WiTUnet also incorporates a windowed Transformer structure to process images in smaller, non-overlapping segments, reducing computational load. Additionally, the integration of a Local Image Perception Enhancement (LiPe) module in both the encoder and decoder replaces the standard multi-layer perceptron (MLP) in Transformers, enhancing local feature capture and representation. Through extensive experimental comparisons, WiTUnet has demonstrated superior performance over existing methods in key metrics such as Peak Signal-to-Noise Ratio (PSNR), Structural Similarity (SSIM), and Root Mean Square Error (RMSE), significantly improving noise removal and image quality.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-29
# Dual Randomized Smoothing によるロバスト性認定のための次元曲線の修正

Mitigating the Curse of Dimensionality for Certified Robustness via Dual Randomized Smoothing ( http://arxiv.org/abs/2404.09586v2 )

ライセンス: Link先を確認
Song Xia, Yu Yi, Xudong Jiang, Henghui Ding, (参考訳) Randomized Smoothing (RS) は、任意の画像分類器に確証のあるロバスト性を与えるための有望な手法であることが証明されている。 しかし、高次元等方性ガウスノイズに固有のかなりの不確実性は、RSに次元性の呪いを課す。 具体的には、RS によって与えられる証明されたロバストネス半径 ${\ell_2}$ の上界は、入力次元 $d$ の膨張とともに減少傾向を示し、比例的に 1/\sqrt{d}$ の速度で減少する。 本稿では,低次元空間における双対平滑化の利用を通じて,高次元入力に対して${\ell_2}$認証ロバスト性を提供することの実現可能性について検討する。 提案したDual Randomized Smoothing (DRS)は、入力イメージを2つのサブイメージにダウンサンプルし、下位次元で2つのサブイメージを滑らかにする。 理論的には、DRSが元の入力に対して厳密な${\ell_2}$証明されたロバストネス半径を保証し、DRSが${\ell_2}$ロバストネス半径の上位境界に達することを証明し、$m+n=d$で$(1/\sqrt m + 1/\sqrt n )$で比例的に減少することを示す。 CIFAR-10 と ImageNet のデータセット上での RS の信頼性向上を${\ell_2}$ の証明されたロバストネスベースラインが得られた。 コードはhttps://github.com/xiasong0501/DRSで入手できる。

Randomized Smoothing (RS) has been proven a promising method for endowing an arbitrary image classifier with certified robustness. However, the substantial uncertainty inherent in the high-dimensional isotropic Gaussian noise imposes the curse of dimensionality on RS. Specifically, the upper bound of ${\ell_2}$ certified robustness radius provided by RS exhibits a diminishing trend with the expansion of the input dimension $d$, proportionally decreasing at a rate of $1/\sqrt{d}$. This paper explores the feasibility of providing ${\ell_2}$ certified robustness for high-dimensional input through the utilization of dual smoothing in the lower-dimensional space. The proposed Dual Randomized Smoothing (DRS) down-samples the input image into two sub-images and smooths the two sub-images in lower dimensions. Theoretically, we prove that DRS guarantees a tight ${\ell_2}$ certified robustness radius for the original input and reveal that DRS attains a superior upper bound on the ${\ell_2}$ robustness radius, which decreases proportionally at a rate of $(1/\sqrt m + 1/\sqrt n )$ with $m+n=d$. Extensive experiments demonstrate the generalizability and effectiveness of DRS, which exhibits a notable capability to integrate with established methodologies, yielding substantial improvements in both accuracy and ${\ell_2}$ certified robustness baselines of RS on the CIFAR-10 and ImageNet datasets. Code is available at https://github.com/xiasong0501/DRS.
翻訳日:2024-04-30 22:46:19 公開日:2024-04-29
# 機械学習の原子間ポテンシャルにおけるアルケミカル自由度の補間と微分

Interpolation and differentiation of alchemical degrees of freedom in machine learning interatomic potentials ( http://arxiv.org/abs/2404.10746v2 )

ライセンス: Link先を確認
Juno Nam, Rafael Gómez-Bombarelli, (参考訳) 機械学習の原子間ポテンシャル(MLIP)は、現代の原子論シミュレーションの成果となり、最近、大規模なデータセットで事前訓練された普遍的なMLIPが、驚くほどの精度と一般化性を示している。 しかし、MLIPの計算コストは、大きなシミュレーションセルを必要とする化学的に乱れたシステムやサンプル集約的な統計手法に適用可能であることを制限している。 本稿では, グラフニューラルネットワークMLIPが離散要素を実数値テンソルとして表現するという事実を利用して, 原子論的材料シミュレーションにおける連続的かつ微分可能なアルケミカル自由度の利用を報告する。 提案手法では, MLIPのメッセージパッシング機構や読み出し機構の変更とともに, 入力グラフに対応する重みを持つアルケミカル原子を導入し, 材料の組成状態間のスムーズな補間を可能にする。 MLIPのエンドツーエンドの微分可能性により、構成重みに対するエネルギー勾配の効率的な計算が可能となる。 これらの勾配を利用して, 固体溶液の組成を目的のマクロ特性に最適化し, アルケミカル自由エネルギーシミュレーションを行い, 空孔形成と組成変化の自由エネルギーを定量化する手法を提案する。 このアプローチは、構成障害のモデリングにおける普遍的なMLIPの能力を拡張し、複雑な材料システムの位相安定性を特徴づける手段を提供する。

Machine learning interatomic potentials (MLIPs) have become a workhorse of modern atomistic simulations, and recently published universal MLIPs, pre-trained on large datasets, have demonstrated remarkable accuracy and generalizability. However, the computational cost of MLIPs limits their applicability to chemically disordered systems requiring large simulation cells or to sample-intensive statistical methods. Here, we report the use of continuous and differentiable alchemical degrees of freedom in atomistic materials simulations, exploiting the fact that graph neural network MLIPs represent discrete elements as real-valued tensors. The proposed method introduces alchemical atoms with corresponding weights into the input graph, alongside modifications to the message-passing and readout mechanisms of MLIPs, and allows smooth interpolation between the compositional states of materials. The end-to-end differentiability of MLIPs enables efficient calculation of the gradient of energy with respect to the compositional weights. Leveraging these gradients, we propose methodologies for optimizing the composition of solid solutions towards target macroscopic properties and conducting alchemical free energy simulations to quantify the free energy of vacancy formation and composition changes. The approach offers an avenue for extending the capabilities of universal MLIPs in the modeling of compositional disorder and characterizing the phase stabilities of complex materials systems.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-29
# カーネル・オペレーター・ラーニングによる流行の学習 -モデリングから最適制御へ-

Learning epidemic trajectories through Kernel Operator Learning: from modelling to optimal control ( http://arxiv.org/abs/2404.11130v2 )

ライセンス: Link先を確認
Giovanni Ziarelli, Nicola Parolini, Marco Verani, (参考訳) 感染性病原体が受容可能な個体群に広まり始めるため、数学的モデルは、具体的な実施や単なる相談が可能な、信頼性の高い予測とシナリオ分析を政策立案者に提供することができる。 これらの複雑な疫学シナリオにおいて、機械学習アーキテクチャは、古典的な構成モデルに典型的な特定のモデル選択とパラメータキャリブレーションを回避したデータ駆動モデルを直接再構築するため、重要な役割を果たす。 本稿では,感染発生時の人口動態を再構築するためのカーネル・オペレーター・ラーニング(KOL)の有効性について論じる。 特に, KOL-m と KOL-$\partial$ という2つの代理モデルを導入する。 さらに,ニューラルタンジェントカーネルを含む異なるカーネルを持つ2つのアプローチの一般化性能を評価し,従来のニューラルネットワークモデル学習法と比較した。 合成・半現実的データを用いて,提案手法が高速かつ堅牢な予測とシナリオ分析を実現するのにどのように適しているか,そして,これらの手法が,特定のパフォーマンス対策に関して最適な介入戦略を決定するのにいかに競争的であるかを示す。

Since infectious pathogens start spreading into a susceptible population, mathematical models can provide policy makers with reliable forecasts and scenario analyses, which can be concretely implemented or solely consulted. In these complex epidemiological scenarios, machine learning architectures can play an important role, since they directly reconstruct data-driven models circumventing the specific modelling choices and the parameter calibration, typical of classical compartmental models. In this work, we discuss the efficacy of Kernel Operator Learning (KOL) to reconstruct population dynamics during epidemic outbreaks, where the transmission rate is ruled by an input strategy. In particular, we introduce two surrogate models, named KOL-m and KOL-$\partial$, which reconstruct in two different ways the evolution of the epidemics. Moreover, we evaluate the generalization performances of the two approaches with different kernels, including the Neural Tangent Kernels, and compare them with a classical neural network model learning method. Employing synthetic but semi-realistic data, we show how the two introduced approaches are suitable for realizing fast and robust forecasts and scenario analyses, and how these approaches are competitive for determining optimal intervention strategies with respect to specific performance measures.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-29
# ステップ・アウェアとレイヤー・アウェア・プロンプトによる安定拡散による高現実的な芸術的スタイルの伝達に向けて

Towards Highly Realistic Artistic Style Transfer via Stable Diffusion with Step-aware and Layer-aware Prompt ( http://arxiv.org/abs/2404.11474v2 )

ライセンス: Link先を確認
Zhanjie Zhang, Quanwei Zhang, Huaizhong Lin, Wei Xing, Juncheng Mo, Shuaicheng Huang, Jinheng Xie, Guangyuan Li, Junsheng Luan, Lei Zhao, Dalong Zhang, Lixia Chen, (参考訳) 芸術的スタイルの転送は、学習した芸術的スタイルを任意のコンテンツイメージに転送することを目的としており、芸術的なスタイル化されたイメージを生成する。 既存の生成的対向的ネットワークベースの手法は、非常にリアルなスタイリングされたイメージを生成できず、常に明らかなアーティファクトや不調和なパターンを導入します。 近年,大規模な事前学習拡散モデルが,高度にリアルな芸術的スタイリング画像を生成する新たな方法を生み出している。 しかし、拡散モデルに基づく手法は、通常、入力されたコンテンツ画像のコンテンツ構造をうまく保存することができず、望ましくないコンテンツ構造やスタイルパターンを導入している。 上記の問題に対処するために,LSASTと呼ばれる,事前学習した拡散型芸術的スタイル転送手法を提案する。 具体的には、学習可能なプロンプトの集合であるステップ認識とレイヤ認識のPrompt Spaceを導入し、アート作品のコレクションからスタイル情報を学習し、入力画像のコンテンツ構造とスタイルパターンを動的に調整する。 本研究では,プロンプト空間を学習するために,ステップウェアとレイヤアウェアのPrompt Inversionと呼ばれる新しいインバージョン手法を提案する。 さらに,私たちのLSASTに事前学習したControlNet条件分岐を注入することで,コンテント構造を維持するためのフレームワークの能力をさらに向上する。 大規模な実験により,提案手法は最先端の芸術的スタイル伝達法よりも,よりリアルな芸術的スタイル化画像を生成することができることが示された。

Artistic style transfer aims to transfer the learned artistic style onto an arbitrary content image, generating artistic stylized images. Existing generative adversarial network-based methods fail to generate highly realistic stylized images and always introduce obvious artifacts and disharmonious patterns. Recently, large-scale pre-trained diffusion models opened up a new way for generating highly realistic artistic stylized images. However, diffusion model-based methods generally fail to preserve the content structure of input content images well, introducing some undesired content structure and style patterns. To address the above problems, we propose a novel pre-trained diffusion-based artistic style transfer method, called LSAST, which can generate highly realistic artistic stylized images while preserving the content structure of input content images well, without bringing obvious artifacts and disharmonious style patterns. Specifically, we introduce a Step-aware and Layer-aware Prompt Space, a set of learnable prompts, which can learn the style information from the collection of artworks and dynamically adjusts the input images' content structure and style pattern. To train our prompt space, we propose a novel inversion method, called Step-ware and Layer-aware Prompt Inversion, which allows the prompt space to learn the style information of the artworks collection. In addition, we inject a pre-trained conditional branch of ControlNet into our LSAST, which further improved our framework's ability to maintain content structure. Extensive experiments demonstrate that our proposed method can generate more highly realistic artistic stylized images than the state-of-the-art artistic style transfer methods.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-29
# 複素平面におけるリング構造:非エルミート運動エッジのフィンガープリント

Ring Structure in the Complex Plane: A Fingerprint of non-Hermitian Mobility Edge ( http://arxiv.org/abs/2404.12266v2 )

ライセンス: Link先を確認
Shan-Zhong Li, Zhi Li, (参考訳) アビラの大域的理論により、非エルミート移動エッジが複素平面の環構造を取ることを解析的に明らかにし、これを「運動環」と呼ぶ。 モビリティ環の普遍性は、エルミート極限、$PT$対称性保護、$PT$対称性保護、および$PT$対称性保護によってチェックおよび支持されている。 さらに、移動環と準周期的強度の進化について検討し、非エルミート系では複数の移動環構造が現れることを見出した。 エルミートの場合の多重モビリティエッジに対する相互参照により、最大モビリティリング数の表現を与える。 最後に、アビラの大域的定理と自己双対法の結果を比較することにより、自己双対関係が非エルミート系における臨界点を計算するのに独自の限界を持つことを示す。 私たちが知っているように、一般非エルミート系は複素スペクトルを持ち、非エルミートモビリティエッジは複素平面において環構造を示すことができると決定する。

By Avila's global theory, we analytically reveal that the non-Hermitian mobility edge will take on a ring structure in the complex plane, which we name as "mobility ring". The universality of mobility ring has been checked and supported by the Hermitian limit, $PT$-symmetry protection and without $PT$-symmetry cases. Further, we study the evolution of mobility ring versus quasiperiodic strength, and find that in the non-Hermitian system, there will appear multiple mobility ring structures. With cross-reference to the multiple mobility edges in Hermitian case, we give the expression of the maximum number of mobility rings. Finally, by comparing the results of Avila's global theorem and self-duality method, we show that self-duality relation has its own limitations in calculating the critical point in non-Hermitian systems. As we know, the general non-Hermitian system has a complex spectrum, which determines that the non-Hermitian mobility edge can but exhibit a ring structure in the complex plane.
翻訳日:2024-04-30 22:36:34 公開日:2024-04-29
# CVPR2024 NICE Image Captioning Challengeの解法

The Solution for the CVPR2024 NICE Image Captioning Challenge ( http://arxiv.org/abs/2404.12739v2 )

ライセンス: Link先を確認
Longfei Huang, Shupeng Zhong, Xiangyu Wu, Ruoxuan Li, (参考訳) 本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。 NICE 2023データセットとは対照的に、この課題には、キャプションスタイルとコンテンツに大きな違いがある人間による新しいアノテーションが含まれる。 そこで我々は,画像キャプションの検索向上とキャプショングレーディング手法により,画像キャプションを効果的に強化する。 データレベルでは、画像キャプションモデルによって生成された高品質なキャプションをトレーニングデータとして利用し、テキストスタイルのギャップに対処する。 モデルレベルでは、画像キャプションタスクを実行するためにOFA(手作りテンプレートに基づく大規模視覚言語事前学習モデル)を用いる。 次に,画像キャプションモデルによって生成された高品質なキャプションデータのキャプションレベル戦略を提案し,それをテンプレートに組み込むことで,検索拡張プロンプトに基づいて,より高い品質,よりマッチング,セマンティックに充実したキャプションを生成する。 CIDErのスコアは234.11である。

This report introduces a solution to the Topic 1 Zero-shot Image Captioning of 2024 NICE : New frontiers for zero-shot Image Captioning Evaluation. In contrast to NICE 2023 datasets, this challenge involves new annotations by humans with significant differences in caption style and content. Therefore, we enhance image captions effectively through retrieval augmentation and caption grading methods. At the data level, we utilize high-quality captions generated by image caption models as training data to address the gap in text styles. At the model level, we employ OFA (a large-scale visual-language pre-training model based on handcrafted templates) to perform the image captioning task. Subsequently, we propose caption-level strategy for the high-quality caption data generated by the image caption models and integrate them with retrieval augmentation strategy into the template to compel the model to generate higher quality, more matching, and semantically enriched captions based on the retrieval augmentation prompts. Our approach achieves a CIDEr score of 234.11.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-29
# ネットワークのための大規模言語モデル:ワークフロー、進歩、課題

Large Language Models for Networking: Workflow, Advances and Challenges ( http://arxiv.org/abs/2404.12901v2 )

ライセンス: Link先を確認
Chang Liu, Xiaohui Xie, Xinggong Zhang, Yong Cui, (参考訳) ネットワーク分野の特徴は、ネットワーク設計、構成、診断、セキュリティなど、ネットワークタスクを達成するために広範な専門知識を必要とする、高い複雑さと迅速なイテレーションである。 これらのタスクの本質的な複雑さは、ネットワーク技術やプロトコルの絶えず変化する状況と相まって、従来の機械学習ベースの手法にとって大きなハードルとなっている。 これらの手法は、広範なラベル付きデータ、ドメイン固有の機能エンジニアリング、新しいシナリオに適応するための頻繁な再トレーニングを必要とするため、ネットワークにおける複雑なタスクの一般化と自動化に苦慮することが多い。 しかし、近年の大規模言語モデル(LLM)の出現は、これらの課題に対処する新たな可能性の波を引き起こしている。 LLMは自然言語理解、生成、推論において顕著な能力を示した。 これらのモデルは、広範なデータに基づいてトレーニングされ、ネットワーク領域の恩恵を受けることができる。 ネットワーク領域におけるLLMの適用についてはすでに検討しており、有望な結果が示されている。 近年の進歩を振り返って,LLMをネットワークに適用する際の基本的なプロセスを記述するための抽象的なワークフローを提案する。 既存の作業のハイライトをカテゴリ別に紹介し、ワークフローのさまざまな段階でどのように動作するのかを詳細に説明します。 さらに、直面した課題を掘り下げ、潜在的な解決策について議論し、今後の研究の展望を概説する。 我々は,本調査が研究者や実践者に洞察を与え,この学際的な研究分野の発展を促進することを願っている。

The networking field is characterized by its high complexity and rapid iteration, requiring extensive expertise to accomplish network tasks, ranging from network design, configuration, diagnosis and security. The inherent complexity of these tasks, coupled with the ever-changing landscape of networking technologies and protocols, poses significant hurdles for traditional machine learning-based methods. These methods often struggle to generalize and automate complex tasks in networking, as they require extensive labeled data, domain-specific feature engineering, and frequent retraining to adapt to new scenarios. However, the recent emergence of large language models (LLMs) has sparked a new wave of possibilities in addressing these challenges. LLMs have demonstrated remarkable capabilities in natural language understanding, generation, and reasoning. These models, trained on extensive data, can benefit the networking domain. Some efforts have already explored the application of LLMs in the networking domain and revealed promising results. By reviewing recent advances, we present an abstract workflow to describe the fundamental process involved in applying LLM for Networking. We introduce the highlights of existing works by category and explain in detail how they operate at different stages of the workflow. Furthermore, we delve into the challenges encountered, discuss potential solutions, and outline future research prospects. We hope that this survey will provide insight for researchers and practitioners, promoting the development of this interdisciplinary research field.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-29
# SPGNN: グラフ畳み込みとプールによる有能なサブグラフパターン認識

SPGNN: Recognizing Salient Subgraph Patterns via Enhanced Graph Convolution and Pooling ( http://arxiv.org/abs/2404.13655v2 )

ライセンス: Link先を確認
Zehao Dong, Muhan Zhang, Yixin Chen, (参考訳) グラフニューラルネットワーク(GNN)は、グラフやネットワークのような非ユークリッドデータ上での機械学習の分野に革命をもたらした。 GNNは、近隣の集約を通じてノード表現学習を効果的に実装し、多くのグラフ関連タスクにおいて印象的な結果を得る。 しかし、ほとんどの近傍アグリゲーションアプローチは和に基づくものであり、情報的グラフ構造を符号化するのに十分な表現力を持たない可能性があるため、問題となることがある。 さらに、グラフプーリングモジュールは、グラフ学習、特にグラフ分類のタスクにおいても極めて重要であるが、グラフダウンサンプリング機構の研究は限られている。 上記の課題に対処するために,非同型部分グラフを識別する際の識別力を最大化するために,ノード表現をインジェクション的に更新する連結型グラフ畳み込み機構を提案する。 さらに,WL-SortPoolと呼ばれるグラフプーリングモジュールを設計し,重要なサブグラフパターンをディープラーニングで学習する。 WL-SortPool層はノード表現(すなわち連続的なWL色)をソートし、分類のために異なる深さのサブツリーの相対的重要性を個別に学習する。 本稿ではこれらの拡張を取り入れた新しいサブグラフパターンGNN(SPGNN)アーキテクチャを提案する。 提案するSPGNNアーキテクチャを,多くのグラフ分類ベンチマークで検証する。 実験の結果,提案手法は最先端のグラフカーネルや他のGNNアプローチで高い競争力を発揮することが示された。

Graph neural networks (GNNs) have revolutionized the field of machine learning on non-Euclidean data such as graphs and networks. GNNs effectively implement node representation learning through neighborhood aggregation and achieve impressive results in many graph-related tasks. However, most neighborhood aggregation approaches are summation-based, which can be problematic as they may not be sufficiently expressive to encode informative graph structures. Furthermore, though the graph pooling module is also of vital importance for graph learning, especially for the task of graph classification, research on graph down-sampling mechanisms is rather limited. To address the above challenges, we propose a concatenation-based graph convolution mechanism that injectively updates node representations to maximize the discriminative power in distinguishing non-isomorphic subgraphs. In addition, we design a novel graph pooling module, called WL-SortPool, to learn important subgraph patterns in a deep-learning manner. WL-SortPool layer-wise sorts node representations (i.e. continuous WL colors) to separately learn the relative importance of subtrees with different depths for the purpose of classification, thus better characterizing the complex graph topology and rich information encoded in the graph. We propose a novel Subgraph Pattern GNN (SPGNN) architecture that incorporates these enhancements. We test the proposed SPGNN architecture on many graph classification benchmarks. Experimental results show that our method can achieve highly competitive results with state-of-the-art graph kernels and other GNN approaches.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-29
# ブロック符号化量子最適化器による組合せ最適化問題の解法

Solving Combinatorial Optimization Problems with a Block Encoding Quantum Optimizer ( http://arxiv.org/abs/2404.14054v2 )

ライセンス: Link先を確認
Adelina Bärligea, Benedikt Poggel, Jeanette Miriam Lorenz, (参考訳) 組合せ最適化問題に対する短期的な量子優位性を達成するために、量子近似最適化アルゴリズム (QAOA) と変分量子固有解法 (VQE) が重要な方法であるが、その実用性は未だ不明である。 したがって、代替変分量子アルゴリズムを開発し、評価する必要がある。 本研究では,ブロックエンコーディング量子最適化器 (BENQO) について検討した。 BENQOは離散最適化問題に普遍的に適用できるように設計されている。 最大カットを超えて, BENQOの実績を, より実践的な意味を持つトラベリングセールスパーソン問題という文脈で評価する。 以上の結果から,BENQOはQAOAよりも有意に優れた性能を示し,VQEと各種のパフォーマンス指標を比較検討した。 我々は、BENQOは将来有望なハイブリッド量子古典アルゴリズムであり、その潜在能力をさらに研究し、最適化する必要があると結論付けた。

In the pursuit of achieving near-term quantum advantage for combinatorial optimization problems, the Quantum Approximate Optimization Algorithm (QAOA) and the Variational Quantum Eigensolver (VQE) are the primary methods of interest, but their practical effectiveness remains uncertain. Therefore, there is a persistent need to develop and evaluate alternative variational quantum algorithms. This study presents an investigation of the Block ENcoding Quantum Optimizer (BENQO), a hybrid quantum solver that uses block encoding to represent the cost function. BENQO is designed to be universally applicable across discrete optimization problems. Beyond Maximum Cut, we evaluate BENQO's performance in the context of the Traveling Salesperson Problem, which is of greater practical relevance. Our findings confirm that BENQO performs significantly better than QAOA and competes with VQE across a variety of performance metrics. We conclude that BENQO is a promising novel hybrid quantum-classical algorithm that should be further investigated and optimized to realize its full potential.
翻訳日:2024-04-30 20:39:22 公開日:2024-04-29
# 協調的共進化による進化的強化学習

Evolutionary Reinforcement Learning via Cooperative Coevolution ( http://arxiv.org/abs/2404.14763v2 )

ライセンス: Link先を確認
Chengpeng Hu, Jialin Liu, Xin Yao, (参考訳) 近年,様々な領域で進化的強化学習が注目されている。 進化的強化学習は、効率の良い探索を通じて行動ポリシーを改善するために収集された経験を活用する。 しかし、遺伝的演算子のスケーラビリティの低さは、高次元ニューラルネットワークの最適化の効率を制限している。 そこで本研究では,CoERL(Coevolutionary reinforcement learning)アルゴリズムを提案する。 協調的共進化にインスパイアされたCoERLは、ポリシー最適化問題を複数のサブプロブレムに周期的かつ適応的に分解し、サブプロブレムごとにニューラルネットワークの集団を進化させる。 遺伝子操作子を使う代わりに、CoERLはポリシーを更新するために部分的な勾配を直接検索する。 部分勾配による更新政策は、親の行動空間と子孫間の一貫性を維持する。 住民が収集した経験は政策全体を改善するために使われ、サンプリング効率が向上する。 6つのベンチマークロコモーションタスクの実験は、CoERLが7つの最先端アルゴリズムとベースラインを上回っていることを示している。 アブレーション研究は、CoERLのコア成分のユニークな寄与を検証する。

Recently, evolutionary reinforcement learning has obtained much attention in various domains. Maintaining a population of actors, evolutionary reinforcement learning utilises the collected experiences to improve the behaviour policy through efficient exploration. However, the poor scalability of genetic operators limits the efficiency of optimising high-dimensional neural networks. To address this issue, this paper proposes a novel cooperative coevolutionary reinforcement learning (CoERL) algorithm. Inspired by cooperative coevolution, CoERL periodically and adaptively decomposes the policy optimisation problem into multiple subproblems and evolves a population of neural networks for each of the subproblems. Instead of using genetic operators, CoERL directly searches for partial gradients to update the policy. Updating policy with partial gradients maintains consistency between the behaviour spaces of parents and offspring across generations. The experiences collected by the population are then used to improve the entire policy, which enhances the sampling efficiency. Experiments on six benchmark locomotion tasks demonstrate that CoERL outperforms seven state-of-the-art algorithms and baselines. Ablation study verifies the unique contribution of CoERL's core ingredients.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-29
# トライアル・アンド・エラーを超えて: モデレーション介入後のユーザ停止を予測する

Beyond Trial-and-Error: Predicting User Abandonment After a Moderation Intervention ( http://arxiv.org/abs/2404.14846v2 )

ライセンス: Link先を確認
Benedetta Tessa, Lorenzo Cima, Amaury Trujillo, Marco Avvenuti, Stefano Cresci, (参考訳) 現在のコンテンツモデレーションのプラクティスは、トライアル・アンド・エラーのアプローチに従っている。 しかし、介入の効果を事前に見積もることによって、モデレーターは適用前に自分の行動を計画する前例のない機会を得ることができる。 本稿では,この目標に向けた第一歩として,モデレーション介入の効果を予測する新しい課題を提案する。 Reddit上の大規模なオンラインコミュニティの禁止に対する16,540人のユーザの反応を調査し、介入後にプラットフォームを放棄するであろうユーザを特定するためにバイナリ分類器のセットをトレーニングします。 138万の投稿のデータセットを利用して、ユーザの活動、毒性、関係、書き込みスタイルに関する情報を伝達する、大規模で多様な142のフィーチャのセットを計算します。 その結果,マイクロF1=0.800,マクロF1=0.676が達成された。 このモデルは,これまで見つからなかったコミュニティのユーザに対して,堅牢な一般化性を示す。 さらに,アクティビティの特徴を最も情報に富む予測因子として認識し,それに続いてリレーショナルおよび毒性の特徴を呈し,書き込みスタイルの特徴は限られた有用性を示す。 本研究は,モデレーターの動作を計画するための知的ツールを用いたモデレーターの活用を目的とした,モデレーターによるコンテンツモデレーションにおける新たな研究方向の道を開くことによる,モデレーターの介入効果の予測の可能性を示すものである。

Current content moderation practices follow the trial-and-error approach, meaning that moderators apply sequences of interventions until they obtain the desired outcome. However, being able to preemptively estimate the effects of an intervention would allow moderators the unprecedented opportunity to plan their actions ahead of application. As a first step towards this goal, here we propose and tackle the novel task of predicting the effect of a moderation intervention. We study the reactions of 16,540 users to a massive ban of online communities on Reddit, training a set of binary classifiers to identify those users who would abandon the platform after the intervention - a problem of great practical relevance. We leverage a dataset of 13.8M posts to compute a large and diverse set of 142 features, which convey information about the activity, toxicity, relations, and writing style of the users. We obtain promising results, with the best-performing model achieving micro F1 = 0.800 and macro F1 = 0.676. Our model demonstrates robust generalizability when applied to users from previously unseen communities. Furthermore, we identify activity features as the most informative predictors, followed by relational and toxicity features, while writing style features exhibit limited utility. Our results demonstrate the feasibility of predicting the effects of a moderation intervention, paving the way for a new research direction in predictive content moderation aimed at empowering moderators with intelligent tools to plan ahead their actions.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-29
# 小児脳腫瘍切除 : CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsを中心に

The Brain Tumor Segmentation in Pediatrics (BraTS-PEDs) Challenge: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2404.15009v3 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Deep Gandhi, Xinyang Liu, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Anurag Gottipati, Debanjan Haldar, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Neda Khalili, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Mariana Sanchez-Montano, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Spyridon Bakas, Adam Resnick, Brian Rood, Arastoo Vossough, Marius George Linguraru, (参考訳) 中枢神経系の小児腫瘍は、小児におけるがん関連死の最も一般的な原因である。 小児の高次グリオーマの生存率は20%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsの課題は、小児脳腫瘍に焦点をあて、小児神経腫瘍学および臨床治験に特化した複数の国際コンソーシアムにまたがるデータを収集することである。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDsチャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍を持つ子供のケアを加速させる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs challenge, focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-29
# CT-GLIP:3Dグラウンドド言語--CTスキャンによる事前訓練と全身性シナリオに対する放射線検査報告

CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios ( http://arxiv.org/abs/2404.15272v3 )

ライセンス: Link先を確認
Jingyang Lin, Yingda Xia, Jianpeng Zhang, Ke Yan, Le Lu, Jiebo Luo, Ling Zhang, (参考訳) Medical Vision-Language Pretraining (Med-VLP)は、医用画像からの視覚コンテンツと関連するテキスト記述との関連性を確立する。 既存のMed-VLP法は主に1つの身体部分、特に胸部X線を描いた2D画像に焦点を当てている。 本稿では,Med-VLPの範囲を,CT画像とレポートのマルチモーダルデータセットを用いて,特に全身シナリオを対象とする3次元画像に拡張する。 2Dと比較すると、3D VLPは3D画像において非常にスペーサー表現から重要な意味を効果的に捉えるのに必要である。 本稿では,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を提案する。 さらに,多種多様なコントラッシブペアによるコントラスト学習を増強する異常辞書を開発した。 本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。 CT-GLIPの成績は,7臓器で最も頻度の高い16症例を対象に,1,130例の別検体で検証した。 実験の結果、CNNとViTアーキテクチャの両方を用いて、ゼロショットおよび微調整シナリオにおける標準CLIPフレームワークよりも優れた性能を示した。

Medical Vision-Language Pretraining (Med-VLP) establishes a connection between visual content from medical images and the relevant textual descriptions. Existing Med-VLP methods primarily focus on 2D images depicting a single body part, notably chest X-rays. In this paper, we extend the scope of Med-VLP to encompass 3D images, specifically targeting full-body scenarios, by using a multimodal dataset of CT images and reports. Compared with the 2D counterpart, 3D VLP is required to effectively capture essential semantics from significantly sparser representation in 3D imaging. In this paper, we introduce CT-GLIP (Grounded Language-Image Pretraining with CT scans), a novel method that constructs organ-level image-text pairs to enhance multimodal contrastive learning, aligning grounded visual features with precise diagnostic text. Additionally, we developed an abnormality dictionary to augment contrastive learning with diverse contrastive pairs. Our method, trained on a multimodal CT dataset comprising 44,011 organ-level vision-text pairs from 17,702 patients across 104 organs, demonstrates it can identify organs and abnormalities in a zero-shot manner using natural languages. The performance of CT-GLIP is validated on a separate test set of 1,130 patients, focusing on the 16 most frequent abnormalities across 7 organs. The experimental results show our model's superior performance over the standard CLIP framework across zero-shot and fine-tuning scenarios, using both CNN and ViT architectures.
翻訳日:2024-04-30 20:29:37 公開日:2024-04-29
# ファウンデーションモデルによるフェデレーションラーニングの進展とオープンチャレンジ

Advances and Open Challenges in Federated Learning with Foundation Models ( http://arxiv.org/abs/2404.15381v2 )

ライセンス: Link先を確認
Chao Ren, Han Yu, Hongyi Peng, Xiaoli Tang, Anran Li, Yulan Gao, Alysa Ziying Tan, Bo Zhao, Xiaoxiao Li, Zengxiang Li, Qiang Yang, (参考訳) ファンデーションモデル(FM)とフェデレートラーニング(FL)の統合は、プライバシ、データ分散化、計算効率に関する懸念に対処しながら、強化された能力を提供する人工知能(AI)において、変革的なパラダイムを提供する。 本稿では,フェデレーション・ファンデーション・モデル (FedFM) の新興分野を包括的に調査し,そのシナジスティックな関係を解明し,基礎モデルの発展に向け,FL研究分野が集中する必要がある新たな方法論,課題,今後の方向性を探求する。 モデルトレーニング、アグリゲーション、信頼性、インセンティブ化のための既存のFedFMアプローチを分類し、体系的な多層分類を提案する。 FLの計算要求の複雑さへの対処、プライバシーの考慮、コントリビューション評価、通信効率など、主な課題について詳しく論じる。 さらに、FLによるトレーニング/微調整FMに固有の通信、スケーラビリティ、セキュリティの複雑な課題について検討し、トレーニング、推論、最適化、データ暗号化プロセスに革命をもたらす量子コンピューティングの可能性を強調した。 この調査は、FedFMにおけるイノベーションを促進するためのさらなる研究の重要性を強調し、信頼できるソリューションを開発する必要性を強調している。 これは、この学際的で急速に進歩する分野に貢献することに興味を持つ研究者や実践者のための基礎的なガイドとして機能する。

The integration of Foundation Models (FMs) with Federated Learning (FL) presents a transformative paradigm in Artificial Intelligence (AI), offering enhanced capabilities while addressing concerns of privacy, data decentralization, and computational efficiency. This paper provides a comprehensive survey of the emerging field of Federated Foundation Models (FedFM), elucidating their synergistic relationship and exploring novel methodologies, challenges, and future directions that the FL research field needs to focus on in order to thrive in the age of foundation models. A systematic multi-tiered taxonomy is proposed, categorizing existing FedFM approaches for model training, aggregation, trustworthiness, and incentivization. Key challenges, including how to enable FL to deal with high complexity of computational demands, privacy considerations, contribution evaluation, and communication efficiency, are thoroughly discussed. Moreover, the paper explores the intricate challenges of communication, scalability and security inherent in training/fine-tuning FMs via FL, highlighting the potential of quantum computing to revolutionize the training, inference, optimization and data encryption processes. This survey underscores the importance of further research to propel innovation in FedFM, emphasizing the need for developing trustworthy solutions. It serves as a foundational guide for researchers and practitioners interested in contributing to this interdisciplinary and rapidly advancing field.
翻訳日:2024-04-30 20:29:36 公開日:2024-04-29
# マルチユニットオークション設計のための人工知能

Artificial Intelligence for Multi-Unit Auction design ( http://arxiv.org/abs/2404.15633v2 )

ライセンス: Link先を確認
Peyman Khezr, Kendall Taylor, (参考訳) マルチユニットオークションにおける入札行動を理解することは、研究者にとって現在進行中の課題である。 広く使われているにもかかわらず、入札行動、収益ランキング、そして一般的な多ユニットオークションの効率に関する理論的洞察は限られている。 本稿では,人工知能,特に強化学習をモデル自由学習手法として活用し,実際に使用されている3つの著名なマルチユニットオークションにおける入札をシミュレートする。 マルチユニットオークションにおいて,学習と入札に適した6つのアルゴリズムを導入し,実例を用いて比較する。 本稿では,人工知能を用いたオークションデザインの重要性,特にマルチユニットオークションの設計の強化について述べる。

Understanding bidding behavior in multi-unit auctions remains an ongoing challenge for researchers. Despite their widespread use, theoretical insights into the bidding behavior, revenue ranking, and efficiency of commonly used multi-unit auctions are limited. This paper utilizes artificial intelligence, specifically reinforcement learning, as a model free learning approach to simulate bidding in three prominent multi-unit auctions employed in practice. We introduce six algorithms that are suitable for learning and bidding in multi-unit auctions and compare them using an illustrative example. This paper underscores the significance of using artificial intelligence in auction design, particularly in enhancing the design of multi-unit auctions.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-29
# リアルタイムセマンティックセグメンテーションのための多目的最適化ベンチマークテストスイート

A Multi-objective Optimization Benchmark Test Suite for Real-time Semantic Segmentation ( http://arxiv.org/abs/2404.16266v2 )

ライセンス: Link先を確認
Yifan Zhao, Zhenyu Liang, Zhichao Lu, Ran Cheng, (参考訳) 自動機械学習における課題の1つとして、ハードウェア対応ニューラルアーキテクチャサーチ(HW-NAS)タスクは、ブラックボックスマルチオブジェクト最適化問題(MOP)として扱うことができる。 HW-NASの重要な応用はリアルタイムセマンティックセグメンテーションであり、自律運転シナリオにおいて重要な役割を果たす。 リアルタイムセマンティックセグメンテーションのためのHW-NASは、本質的にモデル精度、推論速度、ハードウェア固有の考慮など、複数の最適化目標のバランスをとる必要がある。 その重要性にもかかわらず、ベンチマークは、多目的最適化のような難しいタスクをフレーム化するためにまだ開発されていない。 このギャップを埋めるため、リアルタイムセマンティックセグメンテーションのためのHW-NASのタスクを標準のMOPに変換するための調整されたストリームラインを導入する。 ストリームライン上に構築したベンチマークテストスイートであるCitySeg/MOPは,Cityscapesデータセットから派生した15のMOPから構成される。 CitySeg/MOPテストスイートはEvoXBenchプラットフォームに統合され、様々なプログラミング言語(例えば、PythonやMATLAB)とシームレスにインターフェースを提供し、即時適合性の評価を行う。 様々な多目的進化アルゴリズムを用いてCitySeg/MOPテストスイートを総合的に評価し,その汎用性と実用性を示した。 ソースコードはhttps://github.com/EMI-Group/evoxbench.comで入手できる。

As one of the emerging challenges in Automated Machine Learning, the Hardware-aware Neural Architecture Search (HW-NAS) tasks can be treated as black-box multi-objective optimization problems (MOPs). An important application of HW-NAS is real-time semantic segmentation, which plays a pivotal role in autonomous driving scenarios. The HW-NAS for real-time semantic segmentation inherently needs to balance multiple optimization objectives, including model accuracy, inference speed, and hardware-specific considerations. Despite its importance, benchmarks have yet to be developed to frame such a challenging task as multi-objective optimization. To bridge the gap, we introduce a tailored streamline to transform the task of HW-NAS for real-time semantic segmentation into standard MOPs. Building upon the streamline, we present a benchmark test suite, CitySeg/MOP, comprising fifteen MOPs derived from the Cityscapes dataset. The CitySeg/MOP test suite is integrated into the EvoXBench platform to provide seamless interfaces with various programming languages (e.g., Python and MATLAB) for instant fitness evaluations. We comprehensively assessed the CitySeg/MOP test suite on various multi-objective evolutionary algorithms, showcasing its versatility and practicality. Source codes are available at https://github.com/EMI-Group/evoxbench.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-29
# 汎用ゼロショット学習のためのデュアルエキスパート蒸留ネットワーク

Dual Expert Distillation Network for Generalized Zero-Shot Learning ( http://arxiv.org/abs/2404.16348v2 )

ライセンス: Link先を確認
Zhijie Rao, Jingcai Guo, Xiaocheng Lu, Jingming Liang, Jie Zhang, Haozhao Wang, Kang Wei, Xiaofeng Cao, (参考訳) ゼロショット学習は、ニュアンス付き1対1の視覚属性相関をモデル化することで、常に顕著な進歩をもたらした。 既存の研究では、サンプル領域とサブ属性を整列・相関する一様マッピング関数を精錬し、二つの重要な問題を無視している。 1) 属性の固有の非対称性,及び 2)未利用チャンネル情報。 本稿では,2人の専門家がそれぞれ粗くきめ細かな視覚属性モデリングを専門とするDEDN(Dual Expert Distillation Network)という,シンプルで効果的なアプローチを導入することで,これらの課題に対処する。 具体的には、ある粗い専門家、すなわち cExp は、次元をまたいだ視覚-属性の類似度を調整するための完全な知覚スコープを持ち、さらに別の優れた専門家、すなわち fExp は複数の特別なサブネットワークで構成され、それぞれが独占的な属性セットに対応している。 2人の専門家が互いに協力して蒸留し、トレーニング中に相互合意に達する。 一方,DEDNには新たに設計されたバックボーンネットワークであるDual Attention Network(DAN)が組み込まれている。 さまざまなベンチマークデータセットの実験は、新しい最先端を示す。

Zero-shot learning has consistently yielded remarkable progress via modeling nuanced one-to-one visual-attribute correlation. Existing studies resort to refining a uniform mapping function to align and correlate the sample regions and subattributes, ignoring two crucial issues: 1) the inherent asymmetry of attributes; and 2) the unutilized channel information. This paper addresses these issues by introducing a simple yet effective approach, dubbed Dual Expert Distillation Network (DEDN), where two experts are dedicated to coarse- and fine-grained visual-attribute modeling, respectively. Concretely, one coarse expert, namely cExp, has a complete perceptual scope to coordinate visual-attribute similarity metrics across dimensions, and moreover, another fine expert, namely fExp, consists of multiple specialized subnetworks, each corresponds to an exclusive set of attributes. Two experts cooperatively distill from each other to reach a mutual agreement during training. Meanwhile, we further equip DEDN with a newly designed backbone network, i.e., Dual Attention Network (DAN), which incorporates both region and channel attention information to fully exploit and leverage visual semantic knowledge. Experiments on various benchmark datasets indicate a new state-of-the-art.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-29
# 拡散モデルを用いたFew-Shot画像合成のための条件分布モデル

Conditional Distribution Modelling for Few-Shot Image Synthesis with Diffusion Models ( http://arxiv.org/abs/2404.16556v2 )

ライセンス: Link先を確認
Parul Gupta, Munawar Hayat, Abhinav Dhall, Thanh-Toan Do, (参考訳) 少ないショット画像合成は、いくつかの例画像のみを使用して、斬新なカテゴリの多彩で現実的な画像を生成する。 この方向の最近の試みは印象的な成果を上げているが、既存のアプローチは、生成した画像の多様性を制限する新しい画像を生成するために、テスト時に利用可能ないくつかの新しいサンプルにのみ依存している。 この制限を克服するために,ディフュージョンモデルを利用した数ショット画像生成のための条件分散モデリング(CDM)を提案する。 拡散過程の条件付けに使用される潜伏空間の分布をモデル化することにより、CDMはトレーニングデータの学習統計を利用して、目に見えないクラス分布をよりよく近似し、少数のショットサンプルによって生じるバイアスを除去する。 同時に、近似された未知のクラス分布をさらに改善し、生成したサンプルが未知のクラスに忠実であることを保証する、新しい反転に基づく最適化戦略を考案する。 4つのベンチマークデータセットによる実験結果から,提案したCDMの有効性が示された。

Few-shot image synthesis entails generating diverse and realistic images of novel categories using only a few example images. While multiple recent efforts in this direction have achieved impressive results, the existing approaches are dependent only upon the few novel samples available at test time in order to generate new images, which restricts the diversity of the generated images. To overcome this limitation, we propose Conditional Distribution Modelling (CDM) -- a framework which effectively utilizes Diffusion models for few-shot image generation. By modelling the distribution of the latent space used to condition a Diffusion process, CDM leverages the learnt statistics of the training data to get a better approximation of the unseen class distribution, thereby removing the bias arising due to limited number of few shot samples. Simultaneously, we devise a novel inversion based optimization strategy that further improves the approximated unseen class distribution, and ensures the fidelity of the generated samples to the unseen class. The experimental results on four benchmark datasets demonstrate the effectiveness of our proposed CDM for few-shot generation.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-29
# MuseumMaker: 破滅的な忘れ物のない継続的スタイルのカスタマイズ

MuseumMaker: Continual Style Customization without Catastrophic Forgetting ( http://arxiv.org/abs/2404.16612v2 )

ライセンス: Link先を確認
Chenxi Liu, Gan Sun, Wenqi Liang, Jiahua Dong, Can Qin, Yang Cong, (参考訳) 適切なテキストプロンプトを持つ事前訓練された大型テキスト・ツー・イメージ(T2I)モデルは、カスタマイズされた画像生成分野への関心が高まっている。 しかし、悲惨な忘れ物問題により、学習スタイル間の満足度を維持しつつ、新しいユーザ提供スタイルを継続的に合成することが困難になる。 本稿では,無期限にカスタマイズされたスタイルの集合を追従して画像の合成を可能にする手法であるMuseumMakerを提案し,これらの創造的な芸術作品を博物館として徐々に蓄積する。 新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。 これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。 過去の学習スタイル間の破滅的な忘れを解消するため,モデル更新の方向を最適化する共有LoRAモジュールの二重正規化を考案した。 一方,歴史的知識を過去のスタイルからさらに保存し,LoRAの限られた表現可能性に対処するために,ユニークなトークン埋め込みを学習して新しいスタイルを示すタスクワイドトークン学習モジュールを検討する。 新しいユーザ提供スタイルが登場するにつれて、MuseumMakerは学習スタイルの詳細を維持しながら、新しいスタイルのニュアンスをキャプチャすることができます。 多様なスタイルのデータセットによる実験結果から,提案手法の有効性を検証し,その堅牢性と汎用性を示す。

Pre-trained large text-to-image (T2I) models with an appropriate text prompt has attracted growing interests in customized images generation field. However, catastrophic forgetting issue make it hard to continually synthesize new user-provided styles while retaining the satisfying results amongst learned styles. In this paper, we propose MuseumMaker, a method that enables the synthesis of images by following a set of customized styles in a never-end manner, and gradually accumulate these creative artistic works as a Museum. When facing with a new customization style, we develop a style distillation loss module to extract and learn the styles of the training data for new image generation. It can minimize the learning biases caused by content of new training images, and address the catastrophic overfitting issue induced by few-shot images. To deal with catastrophic forgetting amongst past learned styles, we devise a dual regularization for shared-LoRA module to optimize the direction of model update, which could regularize the diffusion model from both weight and feature aspects, respectively. Meanwhile, to further preserve historical knowledge from past styles and address the limited representability of LoRA, we consider a task-wise token learning module where a unique token embedding is learned to denote a new style. As any new user-provided style come, our MuseumMaker can capture the nuances of the new styles while maintaining the details of learned styles. Experimental results on diverse style datasets validate the effectiveness of our proposed MuseumMaker method, showcasing its robustness and versatility across various scenarios.
翻訳日:2024-04-30 20:19:52 公開日:2024-04-29
# Make-it-Real:3Dオブジェクトをリアル素材で描ける大規模マルチモーダルモデル

Make-it-Real: Unleashing Large Multimodal Model's Ability for Painting 3D Objects with Realistic Materials ( http://arxiv.org/abs/2404.16829v2 )

ライセンス: Link先を確認
Ye Fang, Zeyi Sun, Tong Wu, Jiaqi Wang, Ziwei Liu, Gordon Wetzstein, Dahua Lin, (参考訳) 物理的に現実的な材料は、様々な用途や照明条件にまたがる3Dアセットの現実性を高める上で重要である。 しかし、既存の3Dアセットや生成モデルは、しばしば真の材料特性を欠いている。 グラフィックソフトウェアを用いた教材のマニュアル割り当ては面倒で時間を要する作業である。 本稿では,MLLM(Make-it-Real:Make-it-Real:)の進歩,特にGPT-4Vを利用した新しいアプローチを提案する。 1) GPT-4Vは, 資料を効果的に認識し, 記述し, 詳細な資料ライブラリの構築を可能にすることを実証する。 2)視覚的手がかりと階層的テキストプロンプトを組み合わせることで,GPT-4Vは材料を3Dオブジェクトの対応するコンポーネントと正確に識別・整合する。 3) 正マッチした材料は, 元の拡散マップに従って新たなSVBRDF材料生成の基準として細心の注意を払って適用され, 視覚的信頼性が著しく向上した。 Make-it-Realは、3Dコンテンツ作成ワークフローに合理化された統合を提供する。

Physically realistic materials are pivotal in augmenting the realism of 3D assets across various applications and lighting conditions. However, existing 3D assets and generative models often lack authentic material properties. Manual assignment of materials using graphic software is a tedious and time-consuming task. In this paper, we exploit advancements in Multimodal Large Language Models (MLLMs), particularly GPT-4V, to present a novel approach, Make-it-Real: 1) We demonstrate that GPT-4V can effectively recognize and describe materials, allowing the construction of a detailed material library. 2) Utilizing a combination of visual cues and hierarchical text prompts, GPT-4V precisely identifies and aligns materials with the corresponding components of 3D objects. 3) The correctly matched materials are then meticulously applied as reference for the new SVBRDF material generation according to the original diffuse map, significantly enhancing their visual authenticity. Make-it-Real offers a streamlined integration into the 3D content creation workflow, showcasing its utility as an essential tool for developers of 3D assets.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-29
# 言葉のナンセンス:大言語モデルによる敵対的ギバーリッシュ入力の理解

Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs ( http://arxiv.org/abs/2404.17120v2 )

ライセンス: Link先を確認
Valeriia Cherepanova, James Zou, (参考訳) 大規模言語モデル(LLM)は、人間の言語を理解する能力に優れていますが、私たちにとってジブベリと思える独自の言語も理解していますか? 本研究は,LLMにおけるそのような行動のメカニズムを明らかにすることを目的として,この問題を掘り下げるものである。 我々は、Greedy Coordinate Gradient Optimizationrを用いて、LLMを強制的に非感覚的な入力からコヒーレントな応答を生成するプロンプトを作成する。 我々はこれらの入力をLM Babelと呼び、これらのプロンプトによって操作されるLSMの挙動を体系的に研究する。 操作効率は対象のテキストの長さとパープレキシティに依存しており、バベルプロンプトは自然のプロンプトよりも小さい損失最小値に置かれることが多い。 さらに,Babelプロンプトの構造について検討し,その堅牢性を評価する。 特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。

Large language models (LLMs) exhibit excellent ability to understand human languages, but do they also understand their own language that appears gibberish to us? In this work we delve into this question, aiming to uncover the mechanisms underlying such behavior in LLMs. We employ the Greedy Coordinate Gradient optimizer to craft prompts that compel LLMs to generate coherent responses from seemingly nonsensical inputs. We call these inputs LM Babel and this work systematically studies the behavior of LLMs manipulated by these prompts. We find that the manipulation efficiency depends on the target text's length and perplexity, with the Babel prompts often located in lower loss minima compared to natural prompts. We further examine the structure of the Babel prompts and evaluate their robustness. Notably, we find that guiding the model to generate harmful texts is not more difficult than into generating benign texts, suggesting lack of alignment for out-of-distribution prompts.
翻訳日:2024-04-30 20:10:08 公開日:2024-04-29
# G-Refine: テキスト・ツー・イメージ・ジェネレーションのための一般的な品質リファインダー

G-Refine: A General Quality Refiner for Text-to-Image Generation ( http://arxiv.org/abs/2404.18343v1 )

ライセンス: Link先を確認
Chunyi Li, Haoning Wu, Hongkun Hao, Zicheng Zhang, Tengchaun Kou, Chaofeng Chen, Lei Bai, Xiaohong Liu, Weisi Lin, Guangtao Zhai, (参考訳) テキスト・ツー・イメージ(T2I)モデルの進化により、AIGI(AI-Generated Images)の品質欠陥は、広く採用される上で大きな障壁となる。 知覚とアライメントの両面で、既存のモデルは常に高品質な結果を保証することはできない。 この制限を緩和するために,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った一般画像品質精細機であるG-Refineを導入する。 このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。 HVS(Human Visual System)と構文木(Synthetic Tree)のメカニズムに基づいて、最初の2つのインジケータは、それぞれ知覚とアライメントの欠陥を識別でき、最後のモジュールは、目標とする品質向上を適用することができる。 大規模な実験により、G-Refine後のAIGIは、代替最適化手法と比較すると、4つのデータベースで10以上の品質指標でパフォーマンスが向上することが明らかになった。 この改良は、現代のT2Iモデルの実用化に大きく貢献し、より広範な採用への道を開いた。 コードはhttps://github.com/Q-Future/Q-Refine.comでリリースされる。

With the evolution of Text-to-Image (T2I) models, the quality defects of AI-Generated Images (AIGIs) pose a significant barrier to their widespread adoption. In terms of both perception and alignment, existing models cannot always guarantee high-quality results. To mitigate this limitation, we introduce G-Refine, a general image quality refiner designed to enhance low-quality images without compromising the integrity of high-quality ones. The model is composed of three interconnected modules: a perception quality indicator, an alignment quality indicator, and a general quality enhancement module. Based on the mechanisms of the Human Visual System (HVS) and syntax trees, the first two indicators can respectively identify the perception and alignment deficiencies, and the last module can apply targeted quality enhancement accordingly. Extensive experimentation reveals that when compared to alternative optimization methods, AIGIs after G-Refine outperform in 10+ quality metrics across 4 databases. This improvement significantly contributes to the practical application of contemporary T2I models, paving the way for their broader adoption. The code will be released on https://github.com/Q-Future/Q-Refine.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# L-DIT:動作ダイナミクスブロックチェーン上のASOのライブ検出性、識別性、追跡性のためのdApp

L-DIT: A dApp for Live Detectability, Identifiability and Trackability for ASOs on the Behavioral Dynamics Blockchain ( http://arxiv.org/abs/2404.18350v1 )

ライセンス: Link先を確認
Anirban Chowdhury, Yasir Latif, Ivan Aksenov, Moriba K. Jah, Samya Bagchi, (参考訳) 宇宙空間オブジェクト(ASO)の数が増加するにつれて、宇宙の安全、セキュリティ、持続可能性(S3)の確保が急務である。 現在、軌道上の全てのASOの安全性、安全性、持続可能性の定量化に有効な方法は存在しない。 スペース・サステナビリティ・レーティング(SSR)のような既存の手法は、サステナビリティ・レーティングを提供するために個人情報をボランティアに頼っている。 しかし、そのようなセンシティブなデータの必要性は、空間エンティティの採用の障壁となるかもしれない。 ASOを効果的に比較するためには、すべてのASOに対して、遡及的にも、評価機構を適用して、1つのASOの持続性を評価する必要がある。 最後に、地政学的境界線とアライメントは、宇宙の安全性、セキュリティ、持続可能性を制限するボランティア格付けシステムにおいて決定的かつ制限的な役割を担っている。 この作業では、Behavimental Dynamicsブロックチェーン(BDB)上に構築された分散アプリ(dApp)を通じて、Live Detectability、Identifiability、Trackability(L-DIT)のスコアを提示する。 BDBチェーンは、複数のソースから検証されたクロスチェックされたASOデータを提供する空間状況認識(SSA)チェーンである。 このBDBからのコンセンサスに基づく情報と、データへの無許可アクセスのユニークな組み合わせにより、ここで提示されたDITスコアリングメソッドは、すべてのASOに適用できる。 基盤となるBDBチェーンは、さまざまなオープン(かつ、利用可能であればクローズド)ソースからSSAデータを収集、フィルタし、検証する一方で、L-DIT dAppは、そのチェーンからのデータを消費して、オペレータ、製造者、所有者の持続可能性プラクティスに寄与できるL-DITスコアを提供する。 我々のdAppは、すべてのASOにデータを提供し、その持続可能性スコアを、地政学的アライメントに関係なく他のASOと比較し、宇宙保険業者のようなエンティティにビジネス価値を提供し、コンプライアンスの検証と実施を可能にします。

As the number of Anthropogenic Space Objects (ASOs) grows, there is an urgent need to ensure space safety, security, and sustainability (S3) for long-term space use. Currently, no globally effective method can quantify the safety, security, and Sustainability of all ASOs in orbit. Existing methods such as the Space Sustainability Rating (SSR) rely on volunteering private information to provide sustainability ratings. However, the need for such sensitive data might prove to be a barrier to adoption for space entities. For effective comparison of ASOs, the rating mechanism should apply to all ASOs, even retroactively, so that the sustainability of a single ASO can be assessed holistically. Lastly, geopolitical boundaries and alignments play a crucial and limiting role in a volunteered rating system, limiting the space safety, security, and sustainability. This work presents a Live Detectability, Identifiability, and Trackability (L-DIT) score through a distributed app (dApp) built on top of the Behavioral Dynamics blockchain (BDB). The BDB chain is a space situational awareness (SSA) chain that provides verified and cross-checked ASO data from multiple sources. This unique combination of consensus-based information from BDB and permissionless access to data allows the DIT scoring method presented here to be applied to all ASOs. While the underlying BDB chain collects, filters, and validates SSA data from various open (and closed if available) sources, the L-DIT dApp consumes the data from the chain to provide L-DIT score that can contribute towards an operator's, manufacturer's, or owner's sustainability practices. Our dApp provides data for all ASOs, allowing their sustainability score to be compared against other ASOs, regardless of geopolitical alignments, providing business value to entities such as space insurance providers and enabling compliance validation and enforcement.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# 深層学習に基づく表情データのポストホックと多様体による説明

Post-hoc and manifold explanations analysis of facial expression data based on deep learning ( http://arxiv.org/abs/2404.18352v1 )

ライセンス: Link先を確認
Yang Xiao, (参考訳) ヒトの複雑な情報処理システムは、客観的かつ主観的な評価を多く生み出し、最先端の理論的な価値を持つ人間の認知産物を探索する。 近年、生物学的脳機構にインスパイアされたディープラーニング技術は、心理学的・認知科学的研究、特に顔データの記憶と認識において大きな進歩を遂げている。 本稿では、ニューラルネットワークが表情データを処理し、保存し、それらのデータを人間によって生成される様々な心理的属性に関連付ける方法について実験的研究を通して検討する。 研究者たちはディープラーニングモデルVGG16を利用して、ニューラルネットワークが顔データの主要な特徴を学習し、再現し、画像記憶を保存できることを実証した。 さらに、実験結果は、人間の感情や認知過程を理解するためのディープラーニングモデルの可能性を明らかにし、非ユークリッド空間の観点から認知的製品や心理的属性の多様体的解釈を確立し、AIの説明可能性を高めるための新たな洞察を提供する。 この研究は、心理学分野におけるAI技術の応用を前進させるだけでなく、AIの情報処理に関する新たな心理的理論的理解も提供する。 コードはここにある。 https://github.com/NKUShaw/Psychoinformatics。

The complex information processing system of humans generates a lot of objective and subjective evaluations, making the exploration of human cognitive products of great cutting-edge theoretical value. In recent years, deep learning technologies, which are inspired by biological brain mechanisms, have made significant strides in the application of psychological or cognitive scientific research, particularly in the memorization and recognition of facial data. This paper investigates through experimental research how neural networks process and store facial expression data and associate these data with a range of psychological attributes produced by humans. Researchers utilized deep learning model VGG16, demonstrating that neural networks can learn and reproduce key features of facial data, thereby storing image memories. Moreover, the experimental results reveal the potential of deep learning models in understanding human emotions and cognitive processes and establish a manifold visualization interpretation of cognitive products or psychological attributes from a non-Euclidean space perspective, offering new insights into enhancing the explainability of AI. This study not only advances the application of AI technology in the field of psychology but also provides a new psychological theoretical understanding the information processing of the AI. The code is available in here: https://github.com/NKUShaw/Psychoinformatics.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# ニュートラル・プロンプトは安全でないコードを生成するか?FormAI-v2データセット:大規模言語モデルで生成されたコードにおける脆弱性の回避

Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models ( http://arxiv.org/abs/2404.18353v1 )

ライセンス: Link先を確認
Norbert Tihanyi, Tamas Bisztray, Mohamed Amine Ferrag, Ridhi Jain, Lucas C. Cordeiro, (参考訳) 本研究は、中性ゼロショットプロンプトを用いて単純なCプログラムを書く際に、その脆弱性の発生率を解析し、最先端の大規模言語モデル(LLM)の比較分析を行う。 具体的な指示なしにこれらのモデルが生成するコードのセキュリティ特性に関する文献の重大なギャップに対処する。 N. Tihanyi らは PROMISE '23 で FormAI データセットを導入し、112,000 GPT-3.5 生成 C プログラムが含まれ、51.24% 以上が脆弱性であると確認した。 我々は,GoogleのGEMINI-proやOpenAIのGPT-4,TIIの180億パラメータFalconといった堅牢なモデルを含む,265,000のコンパイル可能なCプログラムからなるFormAI-v2データセットを,Metaの13億パラメータのCodeLLama2や他のコンパクトなモデルに導入することによって,その作業を拡大する。 データセットの各プログラムは、ソースコードで検出された脆弱性に基づいてラベル付けされ、効率的なSMTベースのContext-Bounded Model Checker(ESBMC)を使用して形式検証される。 この手法は、反例を提供することで偽陽性を排除し、検証処理を完了して偽陰性を排除する。 我々の研究では、生成されたプログラムの少なくとも63.47%が脆弱であることが判明した。 モデル間の差は小さいが、いずれも若干の違いのある類似のコーディングエラーを表示するためである。 我々の研究は、LCMがコード生成に有望な機能を提供する一方で、プロダクション環境にアウトプットをデプロイするにはリスク評価と検証が必要であることを強調している。

This study provides a comparative analysis of state-of-the-art large language models (LLMs), analyzing how likely they generate vulnerabilities when writing simple C programs using a neutral zero-shot prompt. We address a significant gap in the literature concerning the security properties of code produced by these models without specific directives. N. Tihanyi et al. introduced the FormAI dataset at PROMISE '23, containing 112,000 GPT-3.5-generated C programs, with over 51.24% identified as vulnerable. We expand that work by introducing the FormAI-v2 dataset comprising 265,000 compilable C programs generated using various LLMs, including robust models such as Google's GEMINI-pro, OpenAI's GPT-4, and TII's 180 billion-parameter Falcon, to Meta's specialized 13 billion-parameter CodeLLama2 and various other compact models. Each program in the dataset is labelled based on the vulnerabilities detected in its source code through formal verification using the Efficient SMT-based Context-Bounded Model Checker (ESBMC). This technique eliminates false positives by delivering a counterexample and ensures the exclusion of false negatives by completing the verification process. Our study reveals that at least 63.47% of the generated programs are vulnerable. The differences between the models are minor, as they all display similar coding errors with slight variations. Our research highlights that while LLMs offer promising capabilities for code generation, deploying their output in a production environment requires risk assessment and validation.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# FoundaBench: 大規模言語モデルの中国語基本知識能力の評価

FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models ( http://arxiv.org/abs/2404.18359v1 )

ライセンス: Link先を確認
Wei Li, Ren Ma, Jiang Wu, Chenya Gu, Jiahui Peng, Jinyang Len, Songyang Zhang, Hang Yan, Dahua Lin, Conghui He, (参考訳) 大型言語モデル (LLMs) の急成長する分野において、基礎知識の評価は、特に中国語や文化に合わせたモデルにとって重要な課題である。 本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。 FoundaBenchは、常識やK-12の教科にまたがる多様な3354の質問を包含しており、日常的・学術的な知識の広さと深さを巧みに反映している。 本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。 以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。 FoundaBenchの評価から得られた洞察は、LLMの基本的な知識を理解するための新しい標準を設定し、この分野における将来の進歩のための堅牢なフレームワークを提供する。

In the burgeoning field of large language models (LLMs), the assessment of fundamental knowledge remains a critical challenge, particularly for models tailored to Chinese language and culture. This paper introduces FoundaBench, a pioneering benchmark designed to rigorously evaluate the fundamental knowledge capabilities of Chinese LLMs. FoundaBench encompasses a diverse array of 3354 multiple-choice questions across common sense and K-12 educational subjects, meticulously curated to reflect the breadth and depth of everyday and academic knowledge. We present an extensive evaluation of 12 state-of-the-art LLMs using FoundaBench, employing both traditional assessment methods and our CircularEval protocol to mitigate potential biases in model responses. Our results highlight the superior performance of models pre-trained on Chinese corpora, and reveal a significant disparity between models' reasoning and memory recall capabilities. The insights gleaned from FoundaBench evaluations set a new standard for understanding the fundamental knowledge of LLMs, providing a robust framework for future advancements in the field.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# マイクログリッド経済分散のための物理インフォームド畳み込みニューラルネットワーク

Physics-informed Convolutional Neural Network for Microgrid Economic Dispatch ( http://arxiv.org/abs/2404.18362v1 )

ライセンス: Link先を確認
Xiaoyu Ge, Javad Khazaei, (参考訳) 再生可能エネルギーの変動と電力需要の予測不可能さは、マイクログリッド内の資産のリアルタイム・エコノミック・ディスパッチ(ED)の必要性を生んでいる。 しかし,数値最適化問題をリアルタイムに解くことは極めて困難である。 本研究では,これらの課題に対処するために,ディープラーニングに基づく畳み込みニューラルネットワーク(CNN)を提案する。 従来の手法と比較して、CNNはより効率的で、信頼性が高く、不確実性を扱う場合の応答時間が短い。 CNNは有望な結果を示しているが、データから説明可能な知識を抽出していない。 この制限に対処するため、ED問題の制約をCNNトレーニングに組み込むことで、物理に着想を得たCNNモデルを開発した。 提案手法は,数値最適化手法の精度を損なうことなく,マイクログリッドのリアルタイム経済展開を著しく加速させることができる。 従来の数値最適化手法と比較して,マイクログリッド資源をリアルタイムに最適に割り当てるためのデータ駆動手法の有効性を検証した。

The variability of renewable energy generation and the unpredictability of electricity demand create a need for real-time economic dispatch (ED) of assets in microgrids. However, solving numerical optimization problems in real-time can be incredibly challenging. This study proposes using a convolutional neural network (CNN) based on deep learning to address these challenges. Compared to traditional methods, CNN is more efficient, delivers more dependable results, and has a shorter response time when dealing with uncertainties. While CNN has shown promising results, it does not extract explainable knowledge from the data. To address this limitation, a physics-inspired CNN model is developed by incorporating constraints of the ED problem into the CNN training to ensure that the model follows physical laws while fitting the data. The proposed method can significantly accelerate real-time economic dispatch of microgrids without compromising the accuracy of numerical optimization techniques. The effectiveness of the proposed data-driven approach for optimal allocation of microgrid resources in real-time is verified through a comprehensive comparison with conventional numerical optimization approaches.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# 安全を保っているのはセキュリティチームである":ドライバーと組織的セキュリティ意識の目標を分解する

"What Keeps People Secure is That They Met The Security Team": Deconstructing Drivers And Goals of Organizational Security Awareness ( http://arxiv.org/abs/2404.18365v1 )

ライセンス: Link先を確認
Jonas Hielscher, Simon Parkin, (参考訳) 組織におけるセキュリティ意識のキャンペーンは、毎年何十億ドルもの費用がかかる。 従業員の間では、一定のセキュリティ行動の確保に焦点が当てられている。 表面的には、これは組織のセキュリティに対するユーザ中心の視点を意味する。 それにもかかわらず、セキュリティの認識マネージャが何をするか、それをどう判断するかという基礎は明確ではない。 我々は,ヨーロッパ諸国のさまざまな国,国際企業,数千人の従業員を対象に,フルタイムのセキュリティ意識管理担当者とn=15の半構造化インタビューを行った。 テーマ分析を通じて、意識管理の成功は、改善の可能性を秘めつつも脆弱であり、様々な制約があり、ミスマッチしたドライバーとセキュリティ意識のための目標があり、どのように構造化され、提供され、測定され、改善されるかに影響する。 セキュリティの意識は,安全行動に関するメッセージと,従業員とのつながりの2つに分かれており,意識管理担当者が重要とみなす措置の認識が欠如している。 我々は、成功の代替指標や、従業員に対するセキュリティのユーザビリティ擁護など、今後の方向性について論じる。

Security awareness campaigns in organizations now collectively cost billions of dollars annually. There is increasing focus on ensuring certain security behaviors among employees. On the surface, this would imply a user-centered view of security in organizations. Despite this, the basis of what security awareness managers do and what decides this are unclear. We conducted n=15 semi-structured interviews with full-time security awareness managers, with experience across various national and international companies in European countries, with thousands of employees. Through thematic analysis, we identify that success in awareness management is fragile while having the potential to improve; there are a range of restrictions, and mismatched drivers and goals for security awareness, affecting how it is structured, delivered, measured, and improved. We find that security awareness as a practice is underspecified, and split between messaging around secure behaviors and connecting to employees, with a lack of recognition for the measures that awareness managers regard as important. We discuss ways forward, including alternative indicators of success, and security usability advocacy for employees.
翻訳日:2024-04-30 15:06:26 公開日:2024-04-29
# 格子外科用SATスカルペル:表面コードフォールトトレラント量子コンピューティングのためのサブルーチンの表現と合成

A SAT Scalpel for Lattice Surgery: Representation and Synthesis of Subroutines for Surface-Code Fault-Tolerant Quantum Computing ( http://arxiv.org/abs/2404.18369v1 )

ライセンス: Link先を確認
Daniel Bochen Tan, Murphy Yuezhen Niu, Craig Gidney, (参考訳) 大規模量子コンピューティングには量子エラー補正が必要である。 有望な量子誤り訂正符号は表面符号である。 このコードに対して、フォールトトレラント量子コンピューティング(FTQC)は格子手術、すなわちコードのパッチの分割とマージによって行うことができる。 格子型サブルーチン(LaS)の頻繁な使用を考えると,FTQCの時空容積を最小化するために,それらの設計を最適化することが重要である。 本研究では,LaSを表す変数と,これらの変数の制約を定義する。 この定式化を利用して、LaSの合成器LaSsynthを開発し、LaSの構成問題をSATインスタンスにエンコードし、SATソルバに解を求める。 ベースライン設計から始めると、時空体積を縮めた解法を徐々に呼び出すことができ、よりコンパクトな設計を導出できる。 我々の基礎的な定式化とSATソルバの使用により、LaSynthは設計空間を徹底的に探索し、最適設計を容積で得ることができる。 例えば、FTQCのボトルネックである15-to-1 T-factoryの2つの最先端の人間設計に対して、それぞれ8%と18%のボリューム削減を実現している。

Quantum error correction is necessary for large-scale quantum computing. A promising quantum error correcting code is the surface code. For this code, fault-tolerant quantum computing (FTQC) can be performed via lattice surgery, i.e., splitting and merging patches of code. Given the frequent use of certain lattice-surgery subroutines (LaS), it becomes crucial to optimize their design in order to minimize the overall spacetime volume of FTQC. In this study, we define the variables to represent LaS and the constraints on these variables. Leveraging this formulation, we develop a synthesizer for LaS, LaSsynth, that encodes a LaS construction problem into a SAT instance, subsequently querying SAT solvers for a solution. Starting from a baseline design, we can gradually invoke the solver with shrinking spacetime volume to derive more compact designs. Due to our foundational formulation and the use of SAT solvers, LaSsynth can exhaustively explore the design space, yielding optimal designs in volume. For example, it achieves 8% and 18% volume reduction respectively over two states-of-the-art human designs for the 15-to-1 T-factory, a bottleneck in FTQC.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# QANA:ゼロショットキーポイント分析のためのLCMに基づく質問生成とネットワーク分析

QANA: LLM-based Question Generation and Network Analysis for Zero-shot Key Point Analysis and Beyond ( http://arxiv.org/abs/2404.18371v1 )

ライセンス: Link先を確認
Tomoki Fukuma, Koki Noda, Toshihide Ubukata Kousuke Hoso, Yoshiharu Ichikawa, Kyosuke Kambe, Yu Masubuch, Fujio Toriumi, (参考訳) ソーシャルメディアの普及により、情報過剰や意見マイニングへの関心が高まっている。 本稿では,Large Language Models (LLMs) を利用した新たな意見マイニングフレームワークである「クエスト・アンサーリング・ネットワーク・アナリティクス(QANA)」を提案する。 我々は,質問生成スタイル,LLM選択,組込みモデルの選択が構築されたQAネットワークの品質に与える影響を,注釈付きキーポイント分析データセットと比較することにより検討した。 QANAは、キーポイントマッチングタスクのゼロショット方式で従来の最先端教師付きモデルに匹敵する性能を達成し、計算コストを2次から線形に削減する。 キーポイント生成では、PageRankや度合いの高い質問が手動で注釈付けされたキーポイントとうまく一致します。 特に、QANAにより、分析者は集中度尺度の選択に応じて、様々な側面からキーポイントの重要性を評価することができる。 QANAの主な貢献は、幅広い視点からキーポイントを抽出する柔軟性であり、意見マイニングの品質と公平性を高めている。

The proliferation of social media has led to information overload and increased interest in opinion mining. We propose "Question-Answering Network Analysis" (QANA), a novel opinion mining framework that utilizes Large Language Models (LLMs) to generate questions from users' comments, constructs a bipartite graph based on the comments' answerability to the questions, and applies centrality measures to examine the importance of opinions. We investigate the impact of question generation styles, LLM selections, and the choice of embedding model on the quality of the constructed QA networks by comparing them with annotated Key Point Analysis datasets. QANA achieves comparable performance to previous state-of-the-art supervised models in a zero-shot manner for Key Point Matching task, also reducing the computational cost from quadratic to linear. For Key Point Generation, questions with high PageRank or degree centrality align well with manually annotated key points. Notably, QANA enables analysts to assess the importance of key points from various aspects according to their selection of centrality measure. QANA's primary contribution lies in its flexibility to extract key points from a wide range of perspectives, which enhances the quality and impartiality of opinion mining.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# ニューラルネットワークにおける物体登録

Object Registration in Neural Fields ( http://arxiv.org/abs/2404.18381v1 )

ライセンス: Link先を確認
David Hall, Stephen Hausler, Sutharsan Mahendren, Peyman Moghadam, (参考訳) ニューラルフィールドは、3次元幾何学と外観の連続的なシーン表現を提供する。 ロボット工学におけるニューラルネットワークのユニークなユースケースをアンロックする機能のひとつに、オブジェクト6-DoF登録がある。 本稿では,最近のReg-NFニューラルフィールド登録法とその使用事例をロボット工学の文脈で拡張分析する。 本稿では、シーン内における既知の物体の6-DoFポーズを決定するシナリオを、シーンとオブジェクトのニューラルフィールドモデルを用いて示す。 本研究では、不完全なモデル化シーン内のオブジェクトをよりよく表現し、オブジェクトのニューラルフィールドモデルをシーンに置換することで新しいシーンを生成する方法を示す。

Neural fields provide a continuous scene representation of 3D geometry and appearance in a way which has great promise for robotics applications. One functionality that unlocks unique use-cases for neural fields in robotics is object 6-DoF registration. In this paper, we provide an expanded analysis of the recent Reg-NF neural field registration method and its use-cases within a robotics context. We showcase the scenario of determining the 6-DoF pose of known objects within a scene using scene and object neural field models. We show how this may be used to better represent objects within imperfectly modelled scenes and generate new scenes by substituting object neural field models into the scene.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# プリミズ除去による微粒LDMによる物理推論の限界探索

Exploring the Limits of Fine-grained LLM-based Physics Inference via Premise Removal Interventions ( http://arxiv.org/abs/2404.18384v1 )

ライセンス: Link先を確認
Jordan Meadows, Tamsin James, Andre Freitas, (参考訳) 言語モデルは複雑で詳細な数学的推論を行う際に幻覚を与える。 物理学は、物理的な文脈が複雑な意味論を満たすために必要な記号(\textit{e g ,} 単位、テンソル順序)の使用を付与する数学的推論能力を評価するためのリッチな領域を提供する。 本研究では,複数の表記と物理サブドメインを含むキュレートされたデータセットを用いて,言語モデル(LM)の数学的および物理的推論を行う能力を評価する。 合成インコンテクスト例を用いてゼロショットスコアを改良し, 支持施設の進行省略による摂動強度による導出品質の非線形劣化を実証した。 この設定では、このモデルの数学的推論は物理学にインフォームドされていないことが分かり、物理的文脈は逆エンジニアリングの解を好んで無視される。

Language models can hallucinate when performing complex and detailed mathematical reasoning. Physics provides a rich domain for assessing mathematical reasoning capabilities where physical context imbues the use of symbols which needs to satisfy complex semantics (\textit{e.g.,} units, tensorial order), leading to instances where inference may be algebraically coherent, yet unphysical. In this work, we assess the ability of Language Models (LMs) to perform fine-grained mathematical and physical reasoning using a curated dataset encompassing multiple notations and Physics subdomains. We improve zero-shot scores using synthetic in-context examples, and demonstrate non-linear degradation of derivation quality with perturbation strength via the progressive omission of supporting premises. We find that the models' mathematical reasoning is not physics-informed in this setting, where physical context is predominantly ignored in favour of reverse-engineering solutions.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# Equivalence: インタラクティブなインスタレーション設計手法によるコンセプトアートから見た画像生成AIによるアーティストの役割の分析

Equivalence: An analysis of artists' roles with Image Generative AI from Conceptual Art perspective through an interactive installation design practice ( http://arxiv.org/abs/2404.18385v1 )

ライセンス: Link先を確認
Yixuan Li, Dan C. Baciu, Marcos Novak, George Legrady, (参考訳) 過去1年間で、高度なテキストから画像生成AIモデルの出現は、アートの世界に大きな影響を与え、創造性という伝統的な概念とアーティストの役割に挑戦してきた。 本研究では5Pモデル(Purpose, People, Process, Product, Press)を用いて,Rhodesの創造的フレームワークを用いて,コンセプトアートと画像生成AIの背景にある芸術的プロセスを比較する。 この枠組みを実証するために、ユーザ音声入力を安定拡散法とNLPアルゴリズムに基づいて連続的に進化する絵画に変換するマルチスクリーンインタラクティブなインスタレーションである"Equivalence"という実用的なケーススタディを開発した。 本研究は,包括的分析とケーススタディを通じて,アーティストの役割の理解を深め,画像生成AIによって作成されたアートに固有の創造的側面に対する深い評価を促進することを目的としている。

Over the past year, the emergence of advanced text-to-image Generative AI models has significantly impacted the art world, challenging traditional notions of creativity and the role of artists. This study explores how artists interact with these technologies, using a 5P model (Purpose, People, Process, Product, and Press) based on Rhodes' creativity framework to compare the artistic processes behind Conceptual Art and Image Generative AI. To exemplify this framework, a practical case study titled "Equivalence", a multi-screen interactive installation that converts users' speech input into continuously evolving paintings developed based on Stable Diffusion and NLP algorithms, was developed. Through comprehensive analysis and the case study, this work aims to broaden our understanding of artists' roles and foster a deeper appreciation for the creative aspects inherent in artwork created with Image Generative AI.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# 強相関量子不純物の純状態における量子絡み合い

Quantum entanglement in a pure state of strongly correlated quantum impurity systems ( http://arxiv.org/abs/2404.18387v1 )

ライセンス: Link先を確認
Yunori Nishikawa, Tomoki Yoshioka, (参考訳) 我々は,多レベル近藤効果やイテリアシーとローカライゼーションの双対性など,興味深い性質を示す状態に対する強い相関の量子不純物系の量子絡み合いを考える。 そこで我々は,このシステムから任意に選択された1つないし2つの量子不純物からなるシステムをサブシステムとして構築し,その環境システムとの量子絡みについて検討した。 我々は、上述したサブシステムに対する純粋興味状態の低減と、絡み合いエントロピー、相互情報、相対エントロピーなどの量子情報量の定式化を行う。 我々は、最も基本的な近藤効果を示す単一不純物アンダーソンモデルに適用し、そこでの近藤効果に関する新たな知見を得る。 以上の結果から, 種々の量子不純物系における純状態の量子絡み合いの解明が期待できると考えられる。

We consider quantum entanglement in strongly correlated quantum impurity systems for states manifesting interesting properties such as multi-level Kondo effect and dual nature between itineracy and localization etc.. For this purpose, we set up a system consisting of one or two quantum impurities arbitrarily selected from the system as a subsystem, and investigate quantum entanglement with its environmental system. We reduce the pure state of interest as described above to the subsystem, and formulate quantum informative quantities such as entanglement entropy, mutual information and relative entropy. We apply them to the single impurity Anderson model where the most basic Kondo effect is manifested, and obtain new insights into the Kondo effect there. The obtained results suggest that the method proposed here is promising for elucidating the quantum entanglement of pure states in various quantum impurity systems.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# SPECIAL: セキュアなコラボレーション分析を支援するシンプシス

SPECIAL: Synopsis Assisted Secure Collaborative Analytics ( http://arxiv.org/abs/2404.18388v1 )

ライセンス: Link先を確認
Chenghong Wang, Lina Qiu, Johes Bater, Yukui Luo, (参考訳) セキュアコラボレーティブ・アナリティクス(SCA)は、直接データ共有が実現不可能な場合でも、複数の所有者のデータにわたる分析SQLクエリの処理を可能にする。 強力なプライバシには不可欠ですが、従来のSCAにおけるデータ公開プリミティブからの大きなオーバーヘッドは、その実践的採用を妨げるものになっています。 差分プライバシー(DP)下での制御された漏洩を許可する最近のSCA変種は、プライバシと効率のバランスが良くなっている。 しかしそれらは、潜在的にバウンドのないプライバシ損失、最適化されたクエリ計画、損失のある処理など、大きな課題に直面している。 これらの課題に対処するため、私たちは、バウンデッドプライバシ損失、高度なクエリ計画、ロスレス処理を同時に保証する最初のSCAシステムであるSPECIALを紹介します。 SPECIALは、新しいシナプス支援セキュアな処理モデルを採用しており、オーナーデータからプライベートなシナプス(テーブル統計)を取得するために1回のプライバシコストが費やされている。 これらのシナプスにより、SPECIALはセキュアな操作(例えば、フィルタ、ジョイン)と、追加のプライバシーを失うことなく暗号化されたデータをインデックス化するための(競合)サイズを見積もることができる。 重要なことに、これらの見積もりとインデックスは実行前に準備でき、効率的なクエリ計画と正確なコスト見積を容易にする。 さらに、一方のノイズ機構と私的上界手法を用いることで、SPECIALは複雑なクエリ(例えばマルチジョイント)に対して厳密なロスレス処理を保証する。 包括的なベンチマークにより、SPECIALは最先端のSCAを著しく上回り、クエリ時間が最大80倍、複雑なクエリのメモリが900倍以上であることを示す。 さらに、継続処理下でのプライバシ損失も最大89倍に削減できる。

Secure collaborative analytics (SCA) enable the processing of analytical SQL queries across multiple owners' data, even when direct data sharing is not feasible. Although essential for strong privacy, the large overhead from data-oblivious primitives in traditional SCA has hindered its practical adoption. Recent SCA variants that permit controlled leakages under differential privacy (DP) show a better balance between privacy and efficiency. However, they still face significant challenges, such as potentially unbounded privacy loss, suboptimal query planning, and lossy processing. To address these challenges, we introduce SPECIAL, the first SCA system that simultaneously ensures bounded privacy loss, advanced query planning, and lossless processing. SPECIAL employs a novel synopsis-assisted secure processing model, where a one-time privacy cost is spent to acquire private synopses (table statistics) from owner data. These synopses then allow SPECIAL to estimate (compaction) sizes for secure operations (e.g., filter, join) and index encrypted data without extra privacy loss. Crucially, these estimates and indexes can be prepared before runtime, thereby facilitating efficient query planning and accurate cost estimations. Moreover, by using one-sided noise mechanisms and private upper bound techniques, SPECIAL ensures strict lossless processing for complex queries (e.g., multi-join). Through a comprehensive benchmark, we show that SPECIAL significantly outperforms cutting-edge SCAs, with up to 80X faster query times and over 900X smaller memory for complex queries. Moreover, it also achieves up to an 89X reduction in privacy loss under continual processing.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# アマチュア望遠鏡画像による3次元衛星の再構成

Reconstructing Satellites in 3D from Amateur Telescope Images ( http://arxiv.org/abs/2404.18394v1 )

ライセンス: Link先を確認
Zhiming Chang, Boyang Liu, Yifei Xia, Youming Guo, Boxin Shi, He Sun, (参考訳) 本稿では、小型アマチュア望遠鏡で撮影した映像を利用して、低地球軌道上の衛星の3次元再構成のための枠組みを提案する。 これらの望遠鏡から得られたビデオデータは、激しい動きのぼかし、大気の乱流、広汎な背景光汚染、焦点距離の延長、観測視点の制約など、標準的な3D再構成作業のデータと大きく異なる。 これらの課題に対処するために、我々はディープラーニングに基づく画像復元、特徴点抽出、カメラポーズの初期化を含む包括的な事前処理ワークフローから始める。 本稿では, 3次元モデル再構築のための改良された3次元ガウススプレイティングアルゴリズムの適用を続行する。 本手法は3次元ガウス訓練とポーズ推定を同時に行うことをサポートし, 疎度でノイズの多いデータから複雑な3次元点雲のロバストな生成を可能にする。 この手順は、衛星の幾何的制約に関するこれまでの知識と矛盾するノイズを除去するために設計された後編集フェーズによってさらに強化される。 我々は,中国の宇宙ステーションの合成データセットと実際の観測データを用いて,地上観測から3次元空間オブジェクトを再構築する既存の手法に対する大きな優位性を示す。

This paper proposes a framework for the 3D reconstruction of satellites in low-Earth orbit, utilizing videos captured by small amateur telescopes. The video data obtained from these telescopes differ significantly from data for standard 3D reconstruction tasks, characterized by intense motion blur, atmospheric turbulence, pervasive background light pollution, extended focal length and constrained observational perspectives. To address these challenges, our approach begins with a comprehensive pre-processing workflow that encompasses deep learning-based image restoration, feature point extraction and camera pose initialization. We proceed with the application of an improved 3D Gaussian splatting algorithm for reconstructing the 3D model. Our technique supports simultaneous 3D Gaussian training and pose estimation, enabling the robust generation of intricate 3D point clouds from sparse, noisy data. The procedure is further bolstered by a post-editing phase designed to eliminate noise points inconsistent with our prior knowledge of a satellite's geometric constraints. We validate our approach using both synthetic datasets and actual observations of China's Space Station, showcasing its significant advantages over existing methods in reconstructing 3D space objects from ground-based observations.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# DRAMプロファイラ:実験的なDRAMローハマー脆弱性プロファイリング機構

DRAM-Profiler: An Experimental DRAM RowHammer Vulnerability Profiling Mechanism ( http://arxiv.org/abs/2404.18396v1 )

ライセンス: Link先を確認
Ranyang Zhou, Jacqueline T. Liu, Nakul Kochar, Sabbir Ahmed, Adnan Siraj Rakin, Shaahin Angizi, (参考訳) RowHammer氏は、潜在的に先駆的な例として、回路レベルでの障害メカニズムがシステム内の重大な、そして広範囲にわたるセキュリティ脆弱性をいかに生み出すかを示している。 以前の調査では、静的脅威モデルフレームワーク内のRowHammer攻撃にアプローチしていた。 それでも、よりニュアンスでダイナミックなモデルにおける考慮を保証します。 本稿では、メモリセルを異なるセキュリティレベルに分類する革新的なテストベクトルを利用するDRAM-Profilerと呼ばれる低オーバーヘッドDRAM RowHammer脆弱性プロファイリング手法を提案する。 提案したテストベクターは,アタック前の攻撃者と被害者行の空間的相関を意図的に弱め,マッピングフェーズにおけるRowHammer脆弱性の軽減を支援する。 このようなプロファイリングが我々の知識に与える影響を実証する以前の研究はないが、本研究では、128の商用DDR4 DRAM製品について方法論的に評価する。 その結果、RowHammer攻撃のタイプと量において、異なるメーカーのチップ間で大きなばらつきがあることが判明した。

RowHammer stands out as a prominent example, potentially the pioneering one, showcasing how a failure mechanism at the circuit level can give rise to a significant and pervasive security vulnerability within systems. Prior research has approached RowHammer attacks within a static threat model framework. Nonetheless, it warrants consideration within a more nuanced and dynamic model. This paper presents a low-overhead DRAM RowHammer vulnerability profiling technique termed DRAM-Profiler, which utilizes innovative test vectors for categorizing memory cells into distinct security levels. The proposed test vectors intentionally weaken the spatial correlation between the aggressors and victim rows before an attack for evaluation, thus aiding designers in mitigating RowHammer vulnerabilities in the mapping phase. While there has been no previous research showcasing the impact of such profiling to our knowledge, our study methodically assesses 128 commercial DDR4 DRAM products. The results uncover the significant variability among chips from different manufacturers in the type and quantity of RowHammer attacks that can be exploited by adversaries.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# ViOCRVQA:ベトナム語テキストのイメージ理解による視覚質問応答のためのベンチマークデータセットと視覚リーダ

ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images ( http://arxiv.org/abs/2404.18397v1 )

ライセンス: Link先を確認
Huy Quang Pham, Thang Kien-Bao Nguyen, Quan Van Nguyen, Dan Quang Tran, Nghia Hieu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, (参考訳) 光文字認識 - 視覚質問応答(OCR-VQA)は、近年英語で顕著に発達した画像に含まれるテキスト情報に答えるタスクである。 しかし、ベトナム語などの低資源言語では、この課題について限定的な研究がなされている。 この目的のために,28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。 このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。 ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセット上で実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。 さらに、テストセットのF1スコアで0.4116、0.6990を達成したVisionReaderという新しいアプローチを導入する。 その結果、OCRシステムはVOCRVQAデータセット上のVQAモデルにおいて非常に重要な役割を果たすことがわかった。 さらに、画像内のオブジェクトはモデルの性能を向上させる役割も果たします。 ベトナムのOCR-VQAタスクのさらなる研究のために、当社のデータセットへのリンク(https://github.com/qhnhynmm/ViOCRVQA.git)をオープンにしています。

Optical Character Recognition - Visual Question Answering (OCR-VQA) is the task of answering text information contained in images that have just been significantly developed in the English language in recent years. However, there are limited studies of this task in low-resource languages such as Vietnamese. To this end, we introduce a novel dataset, ViOCRVQA (Vietnamese Optical Character Recognition - Visual Question Answering dataset), consisting of 28,000+ images and 120,000+ question-answer pairs. In this dataset, all the images contain text and questions about the information relevant to the text in the images. We deploy ideas from state-of-the-art methods proposed for English to conduct experiments on our dataset, revealing the challenges and difficulties inherent in a Vietnamese dataset. Furthermore, we introduce a novel approach, called VisionReader, which achieved 0.4116 in EM and 0.6990 in the F1-score on the test set. Through the results, we found that the OCR system plays a very important role in VQA models on the ViOCRVQA dataset. In addition, the objects in the image also play a role in improving model performance. We open access to our dataset at link (https://github.com/qhnhynmm/ViOCRVQA.git) for further research in OCR-VQA task in Vietnamese.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# MM-TTS:マルチモーダル・プロンプトによる感情テキスト音声合成のための統一フレームワーク

MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis ( http://arxiv.org/abs/2404.18398v1 )

ライセンス: Link先を確認
Xiang Li, Zhi-Qi Cheng, Jun-Yan He, Xiaojiang Peng, Alexander G. Hauptmann, (参考訳) E-TTS(Emotional Text-to-Speech)合成は近年,人間とコンピュータの相互作用を高める可能性から注目されている。 しかしながら、現在のE-TTSアプローチは、主に過度に単純化された感情ラベルや単一モダリティ入力に依存する、人間の感情の複雑さを捉えるのに苦労することが多い。 これらの制約に対処するため,多モーダル・感情テキスト・トゥ・スポーチ・システム (MM-TTS, Multimodal Emotional Text-to-Speech System) を提案する。 MM-TTSは,(1)感情適応モジュール (EP-Align, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Embedding-induced TTS, Emotion Embedding-induced TTS) の2つの重要な構成要素から構成される。 多様なデータセットにわたる広範囲な評価は、従来のE-TTSモデルと比較してMM-TTSの優れた性能を示す。 Word Error Rate (WER) と character Error Rate (CER) を含む客観的な指標は、それぞれ7.35%と3.07%のスコアを達成し、ESDデータセットに大きな改善が見られた。 主観評価は、MM-TTSが人間の音声に匹敵する感情的忠実さと自然さを持つ音声を生成することをさらに証明する。 私たちのコードと事前訓練されたモデルはhttps://anonymous.4open.science/r/MMTTS-D214で公開されています。

Emotional Text-to-Speech (E-TTS) synthesis has gained significant attention in recent years due to its potential to enhance human-computer interaction. However, current E-TTS approaches often struggle to capture the complexity of human emotions, primarily relying on oversimplified emotional labels or single-modality inputs. To address these limitations, we propose the Multimodal Emotional Text-to-Speech System (MM-TTS), a unified framework that leverages emotional cues from multiple modalities to generate highly expressive and emotionally resonant speech. MM-TTS consists of two key components: (1) the Emotion Prompt Alignment Module (EP-Align), which employs contrastive learning to align emotional features across text, audio, and visual modalities, ensuring a coherent fusion of multimodal information; and (2) the Emotion Embedding-Induced TTS (EMI-TTS), which integrates the aligned emotional embeddings with state-of-the-art TTS models to synthesize speech that accurately reflects the intended emotions. Extensive evaluations across diverse datasets demonstrate the superior performance of MM-TTS compared to traditional E-TTS models. Objective metrics, including Word Error Rate (WER) and Character Error Rate (CER), show significant improvements on ESD dataset, with MM-TTS achieving scores of 7.35% and 3.07%, respectively. Subjective assessments further validate that MM-TTS generates speech with emotional fidelity and naturalness comparable to human speech. Our code and pre-trained models are publicly available at https://anonymous.4open.science/r/MMTTS-D214
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# セマンティックライン複合検出器

Semantic Line Combination Detector ( http://arxiv.org/abs/2404.18399v1 )

ライセンス: Link先を確認
Jinwon Ko, Dongkwon Jin, Chang-Su Kim, (参考訳) 本稿では,セマンティック・ライン・コンビネーション・ディテクター (SLCD) と呼ばれる,セマンティック・ラインの最適組み合わせを求める新しいアルゴリズムを提案する。 各ラインの組み合わせで全てのラインを一度に処理し、ライン全体の調和を評価する。 まず、信頼された線から様々な線の組み合わせを生成する。 次に,各行の組み合わせのスコアを推定し,最適なスコアを決定する。 実験により,提案したSLCDは,様々なデータセット上で既存の意味線検出器よりも優れた性能を示した。 さらに, 点検出, 対称軸検出, 合成画像検索の3つの視覚タスクに対して, SLCDを効果的に適用できることが示唆された。 私たちのコードはhttps://github.com/Jinwon-Ko/SLCD.comで公開されています。

A novel algorithm, called semantic line combination detector (SLCD), to find an optimal combination of semantic lines is proposed in this paper. It processes all lines in each line combination at once to assess the overall harmony of the lines. First, we generate various line combinations from reliable lines. Second, we estimate the score of each line combination and determine the best one. Experimental results demonstrate that the proposed SLCD outperforms existing semantic line detectors on various datasets. Moreover, it is shown that SLCD can be applied effectively to three vision tasks of vanishing point detection, symmetry axis detection, and composition-based image retrieval. Our codes are available at https://github.com/Jinwon-Ko/SLCD.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# LLM-SR: 大規模言語モデルを用いたプログラミングによる科学的方程式発見

LLM-SR: Scientific Equation Discovery via Programming with Large Language Models ( http://arxiv.org/abs/2404.18400v1 )

ライセンス: Link先を確認
Parshin Shojaee, Kazem Meidani, Shashank Gupta, Amir Barati Farimani, Chandan K Reddy, (参考訳) 数学の方程式は、様々な科学分野にわたる複雑な自然現象を記述するのに不合理に有効である。 しかし、そのような洞察に富んだ方程式をデータから発見することは、非常に高次元の組合せと非線形の仮説空間をナビゲートする必要があるため、大きな課題となる。 従来の方程式発見の方法は、データのみから方程式を抽出することに集中しており、しばしば科学者が通常依存する豊富なドメイン固有の事前知識を無視している。 このギャップを埋めるために,LLM(Large Language Models)の広範な科学的知識とロバストなコード生成能力を活用して,データから科学的方程式を効率的に発見する,新たなアプローチ LLM-SR を導入する。 具体的には、LLM-SRは方程式を数学的演算子とプログラムとして扱い、LLMの科学的先行と方程式プログラムの進化的探索を組み合わせている。 LLMは、その物理的理解から引き出された新しい方程式スケルトンを反復的に提案し、スケルトンパラメータを推定するためにデータに対して最適化する。 LLM-SRは3つの科学的領域にまたがって有効性を示し、そこでは、確立された方程式発見ベースラインと比較して、ドメイン内およびドメイン外データに著しく適合する物理的に正確な方程式を発見する。

Mathematical equations have been unreasonably effective in describing complex natural phenomena across various scientific disciplines. However, discovering such insightful equations from data presents significant challenges due to the necessity of navigating extremely high-dimensional combinatorial and nonlinear hypothesis spaces. Traditional methods of equation discovery largely focus on extracting equations from data alone, often neglecting the rich domain-specific prior knowledge that scientists typically depend on. To bridge this gap, we introduce LLM-SR, a novel approach that leverages the extensive scientific knowledge and robust code generation capabilities of Large Language Models (LLMs) to discover scientific equations from data in an efficient manner. Specifically, LLM-SR treats equations as programs with mathematical operators and combines LLMs' scientific priors with evolutionary search over equation programs. The LLM iteratively proposes new equation skeletons, drawing from its physical understanding, which are then optimized against data to estimate skeleton parameters. We demonstrate LLM-SR's effectiveness across three diverse scientific domains, where it discovers physically accurate equations that provide significantly better fits to in-domain and out-of-domain data compared to the well-established equation discovery baselines
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# ハイパースペクトル画像分類のための分光・空間マンバ

Spectral-Spatial Mamba for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.18401v1 )

ライセンス: Link先を確認
Lingbo Huang, Yushi Chen, Xin He, (参考訳) 近年,ハイパースペクトル画像(HSI)分類におけるディープラーニングモデルの性能が向上している。 多くの深層モデルの中で、Transformerは徐々に、HSIにおける空間スペクトルの特徴の長距離依存性のモデリングにおける卓越性に関心を惹きつけてきた。 しかし、Transformerは、他のモデルよりも重く、したがってHSI処理に限られる自己保持機構のため、2次計算複雑性の問題を抱えている。 幸いなことに、最近登場した状態空間モデルベースのMambaは、トランスフォーマーのモデリング能力を実現しつつ、計算効率が優れている。 そこで本稿では,MambaをHSI分類に適用する予備的な試みを行い,スペクトル空間マンバ(SS-Mamba)を提案する。 具体的には、提案されたSS-マンバは、主にスペクトル空間トークン生成モジュールと、いくつかの重ねられたスペクトル空間マンバブロックから構成される。 まず、トークン生成モジュールは任意のHSI立方体を、空間およびスペクトルトークンをシーケンスとして変換する。 そしてこれらのトークンは、スタック化されたスペクトル空間マンバブロック(SS-MB)に送られる。 各SS-MBブロックは2つの基本マンバブロックとスペクトル空間的特徴拡張モジュールから構成される。 空間トークンとスペクトルトークンはそれぞれ2つの基本マンバブロックによって別々に処理される。 さらに、この機能拡張モジュールは、HSIサンプルの中心領域情報を用いて、空間トークンとスペクトルトークンを変調する。 このように、スペクトルトークンと空間トークンは互いに協調し、各ブロック内で情報融合を実現する。 広く利用されているHSIデータセットを用いた実験結果から,提案手法は最先端の手法と比較して,競争力のある結果が得られることがわかった。 Mambaベースの手法は、HSI分類のための新しいウィンドウを開く。

Recently, deep learning models have achieved excellent performance in hyperspectral image (HSI) classification. Among the many deep models, Transformer has gradually attracted interest for its excellence in modeling the long-range dependencies of spatial-spectral features in HSI. However, Transformer has the problem of quadratic computational complexity due to the self-attention mechanism, which is heavier than other models and thus has limited adoption in HSI processing. Fortunately, the recently emerging state space model-based Mamba shows great computational efficiency while achieving the modeling power of Transformers. Therefore, in this paper, we make a preliminary attempt to apply the Mamba to HSI classification, leading to the proposed spectral-spatial Mamba (SS-Mamba). Specifically, the proposed SS-Mamba mainly consists of spectral-spatial token generation module and several stacked spectral-spatial Mamba blocks. Firstly, the token generation module converts any given HSI cube to spatial and spectral tokens as sequences. And then these tokens are sent to stacked spectral-spatial mamba blocks (SS-MB). Each SS-MB block consists of two basic mamba blocks and a spectral-spatial feature enhancement module. The spatial and spectral tokens are processed separately by the two basic mamba blocks, respectively. Besides, the feature enhancement module modulates spatial and spectral tokens using HSI sample's center region information. In this way, the spectral and spatial tokens cooperate with each other and achieve information fusion within each block. The experimental results conducted on widely used HSI datasets reveal that the proposed model achieves competitive results compared with the state-of-the-art methods. The Mamba-based method opens a new window for HSI classification.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# 双方向キラル量子導波管-QED系における複数接続点を持つ2つの巨大原子の絡み合い増強

Entanglement enhancement of two giant atoms with multiple connection points in bidirectional-chiral quantum waveguide-QED system ( http://arxiv.org/abs/2404.18402v1 )

ライセンス: Link先を確認
Jie Liu, Yue Cai, Kang-Jie Ma, Lei Tan, Wu-Ming Liu, (参考訳) 本研究では,2つの巨大原子の初期状態が$|e_a,g_b\rangle$である1次元双方向カイラル導波管量子電磁力学(QED)系における2つの巨大原子の絡み合いの発生について検討する。 ここで、各ジャイアント原子は3つの接続点を通して導波路に結合し、構成は、ジャイアント原子と導波路との間の結合点の配置に基づいて5つのタイプに分けられる。 非キラルおよびキラルカップリングケースにおける各構成内の絡み合い生成過程について検討した。 位相シフトを調整するか、異なる構成を選択することで、絡み合いを必要に応じて制御できることが実証された。 非キラルカップリングでは、各構成の絡み合いは、暗黒状態の存在に起因する安定した状態特性を示す。 さらに、巨大原子と双方向導波路との間の結合点の数を増やすことにより、一定の構成でより多くの位相シフトで定常な絡み合いが得られることが判明した。 キラルカップリングの場合、非キラルカップリングの場合と比較してエンタングルメントは最大で強化される。 特に完全に編まれた構成では、収束はそのピーク値1に達し、キラリティに対して堅牢である。 さらに、原子間絡み合いの進化に対する原子初期状態の影響を示す。 提案手法は,巨大原子導波路-QED系のキラル量子ネットワークにおける絡み合い生成に利用でき,量子ネットワークや量子通信にも応用できる。

We study the entanglement generation of two giant atoms within a one-dimensional bidirectional-chiral waveguide quantum electrodynamics (QED) system, where the initial state of the two giant atoms are $|e_a,g_b\rangle $. Here, each giant atom is coupled to the waveguide through three connection points, with the configurations divided into five types based on the arrangement of coupling points between the giant atoms and the waveguide: separate, fully braided, partially braided, fully nested, and partially nested. We explore the entanglement generation process within each configuration in both nonchiral and chiral coupling cases. It is demonstrated that entanglement can be controlled as needed by either adjusting the phase shift or selecting different configurations. For nonchiral coupling, the entanglement of each configuration exhibits steady state properties attributable to the presence of dark state. In addition, we find that steady-state entanglement can be obtained at more phase shifts in certain configurations by increasing the number of coupling points between the giant atoms and the bidirectional waveguide. In the case of chiral coupling, the entanglement is maximally enhanced compared to the one of nonchiral case. Especially in fully braided configuration, the concurrence reaches its peak value 1, which is robust to chirality. We further show the influence of atomic initial states on the evolution of interatomic entanglement. Our scheme can be used for entanglement generation in chiral quantum networks of giant-atom waveguide-QED systems, with potential applications in quantum networks and quantum communications.
翻訳日:2024-04-30 14:56:28 公開日:2024-04-29
# 熱特性の異なる正準アンサンブルの深部生成モデリング

Deep generative modelling of canonical ensemble with differentiable thermal properties ( http://arxiv.org/abs/2404.18404v1 )

ライセンス: Link先を確認
Shuo-Hui Li, Yao-Wen Zhang, Ding Pan, (参考訳) 標準アンサンブルの温度の異なる変分モデルを提案する。 深部生成モデルを用いて、連続した温度範囲で自由エネルギーを推定し、同時に最小化する。 最適に、この生成モデルは温度依存のボルツマン分布である。 トレーニングプロセスはデータセットを必要とせず、任意の明示的な密度生成モデルで動作する。 我々はIsingおよびXYモデルにおける相転移(PT)の研究に本手法を適用し,マルコフ連鎖モンテカルロ(MCMC)シミュレーションと同程度に精度が高いが,より効率的であることを示した。 さらに,本手法は,解析解に類似した温度の微分可能な関数として熱力学的量を与えることができる。 自由エネルギーは2階微分と正確に一致しているため、この温度依存性の包含により、PTの微妙な熱効果を捉えることができる。 これらの発見は、深部生成モデルを用いた物理系の直接シミュレーションに光を当てた

We propose a variational modelling method with differentiable temperature for canonical ensembles. Using a deep generative model, the free energy is estimated and minimized simultaneously in a continuous temperature range. At optimal, this generative model is a Boltzmann distribution with temperature dependence. The training process requires no dataset, and works with arbitrary explicit density generative models. We applied our method to study the phase transitions (PT) in the Ising and XY models, and showed that the direct-sampling simulation of our model is as accurate as the Markov Chain Monte Carlo (MCMC) simulation, but more efficient. Moreover, our method can give thermodynamic quantities as differentiable functions of temperature akin to an analytical solution. The free energy aligns closely with the exact one to the second-order derivative, so this inclusion of temperature dependence enables the otherwise biased variational model to capture the subtle thermal effects at the PTs. These findings shed light on the direct simulation of physical systems using deep generative models
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# ICMarks: 集積回路設計IP保護のためのロバストな透かしフレームワーク

ICMarks: A Robust Watermarking Framework for Integrated Circuit Physical Design IP Protection ( http://arxiv.org/abs/2404.18407v1 )

ライセンス: Link先を確認
Ruisi Zhang, Rachel Selina Rajarathnam, David Z. Pan, Farinaz Koushanfar, (参考訳) 現代集積回路(IC)レイアウトにおける物理設計の透かしは、密接な接続や設計上の制約を考慮せずにシグネチャを符号化する。 本稿では,最新のIC物理設計のための品質保存・堅牢な透かしフレームワークであるICMarksについて述べる。 ICMarksは物理設計の配置段階でユニークな透かしの署名を埋め込んで、ICレイアウトの所有権を認証する。 ICMarksの斬新さは内にある 一 配置性能及び配置性能に最小限の影響を受けずに、ウォーターマークする細胞領域を戦略的に識別すること (二)潜在的な除去・鍛造攻撃に対する強靭性強化のための二段階透かしフレームワーク。 異なる設計目標と大きさのベンチマークに対する広範囲な評価は、ICMarksが有線長とタイミングメトリクスの劣化を伴わず、所有権の証明に成功していることを証明している。 さらに,ICMarksは2つの主要な透かし攻撃カテゴリ,すなわち透かし除去と鍛造攻撃に対して堅牢であることを示す。

Physical design watermarking on contemporary integrated circuit (IC) layout encodes signatures without considering the dense connections and design constraints, which could lead to performance degradation on the watermarked products. This paper presents ICMarks, a quality-preserving and robust watermarking framework for modern IC physical design. ICMarks embeds unique watermark signatures during the physical design's placement stage, thereby authenticating the IC layout ownership. ICMarks's novelty lies in (i) strategically identifying a region of cells to watermark with minimal impact on the layout performance and (ii) a two-level watermarking framework for augmented robustness toward potential removal and forging attacks. Extensive evaluations on benchmarks of different design objectives and sizes validate that ICMarks incurs no wirelength and timing metrics degradation, while successfully proving ownership. Furthermore, we demonstrate ICMarks is robust against two major watermarking attack categories, namely, watermark removal and forging attacks; even if the adversaries have prior knowledge of the watermarking schemes, the signatures cannot be removed without significantly undermining the layout quality.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# PKU-AIGIQA-4K:テキストと画像の両方のAI生成画像に対する知覚品質評価データベース

PKU-AIGIQA-4K: A Perceptual Quality Assessment Database for Both Text-to-Image and Image-to-Image AI-Generated Images ( http://arxiv.org/abs/2404.18409v1 )

ライセンス: Link先を確認
Jiquan Yuan, Fanyi Yang, Jihe Li, Xinyan Cao, Jinming Che, Jinlong Lin, Xixin Cao, (参考訳) 近年,画像生成技術は急速に進歩し,膨大なAI生成画像(AIGI)が作成されている。 しかし、これらのAIGIの品質は非常に一貫性がなく、低品質のAIGIはユーザの視覚的体験を著しく損なう。 AIGIの広範な適用により、人間の知覚の観点からAIGIの品質を評価することを目的としたAIGIQA(AIGIQA)が、学者の間で注目を集めている。 しかし、現在の研究はまだこの分野を十分に研究していない。 既存のデータベースは単一のシナリオ設定から生成された画像に限られている。 AGIQA-1K、AGIQA-3K、AIGCIQA2023などのデータベースは、テキストから画像への生成モデルによって生成される画像のみを含む。 この監視は、現在の研究状況における重要なギャップを強調し、画像から画像までのシナリオに対処する専用のデータベースの必要性と、幅広いAI生成イメージシナリオを含むより包括的なデータベースの必要性を強調している。 これらの課題に対処するため,我々はPKU-AIGIQA-4Kというテキスト・ツー・イメージAIGIと画像・画像AIGIの両方を対象とした大規模な知覚品質評価データベースを構築した。 次に、AIGIの品質ラベルを収集し、PKU-AIGIQA-4Kデータベースの包括的な解析を行う。 トレーニングプロセスにおける画像プロンプトの使用に関して, NR-AIGCIQA, FR-AIGCIQA, PR-AIGCIQAを含む事前学習モデルに基づく3つの画像品質評価手法を提案する。 最後に,PKU-AIGIQA-4Kデータベースを利用してベンチマーク実験を行い,提案手法と現在のIQA手法の性能を比較した。

In recent years, image generation technology has rapidly advanced, resulting in the creation of a vast array of AI-generated images (AIGIs). However, the quality of these AIGIs is highly inconsistent, with low-quality AIGIs severely impairing the visual experience of users. Due to the widespread application of AIGIs, the AI-generated image quality assessment (AIGIQA), aimed at evaluating the quality of AIGIs from the perspective of human perception, has garnered increasing interest among scholars. Nonetheless, current research has not yet fully explored this field. We have observed that existing databases are limited to images generated from single scenario settings. Databases such as AGIQA-1K, AGIQA-3K, and AIGCIQA2023, for example, only include images generated by text-to-image generative models. This oversight highlights a critical gap in the current research landscape, underscoring the need for dedicated databases catering to image-to-image scenarios, as well as more comprehensive databases that encompass a broader range of AI-generated image scenarios. Addressing these issues, we have established a large scale perceptual quality assessment database for both text-to-image and image-to-image AIGIs, named PKU-AIGIQA-4K. We then conduct a well-organized subjective experiment to collect quality labels for AIGIs and perform a comprehensive analysis of the PKU-AIGIQA-4K database. Regarding the use of image prompts during the training process, we propose three image quality assessment (IQA) methods based on pre-trained models that include a no-reference method NR-AIGCIQA, a full-reference method FR-AIGCIQA, and a partial-reference method PR-AIGCIQA. Finally, leveraging the PKU-AIGIQA-4K database, we conduct extensive benchmark experiments and compare the performance of the proposed methods and the current IQA methods.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# ミキチャー・オブ・インストラクション:ディヴァース・システム・プロンプティング・インストラクションの混合による大規模言語モデルの包括的アライメント

Mixture-of-Instructions: Comprehensive Alignment of a Large Language Model through the Mixture of Diverse System Prompting Instructions ( http://arxiv.org/abs/2404.18410v1 )

ライセンス: Link先を確認
Bowen Xu, Shaoyu Wu, Kai Liu, Lulu Hu, (参考訳) 大規模言語モデル(LLM)の普及に伴い、複数のタスクにまたがるモデルの包括的なアライメントが重要な研究領域として現れている。 既存のアライメント手法は、主にマルチターン対話、コーディング、数学的問題解決、ツールの使用など、単一のタスクに対処する。 しかし、言語モデルを活用するAI駆動の製品は通常、現実のシナリオで効果的に機能するためにこれらの能力を融合する必要がある。 さらに、LLMの適切なアライメントに必要なかなりの計算資源は、より堅牢で、効率的で、マルチタスクアライメントへのアプローチを包含し、生成性能の向上を確実にする必要性を浮き彫りにした。 これらの課題に対応するために,言語モデルのアライメント効率を高めるために,多種多様なシステムプロンプトと組み合わせた命令結合戦略を用いたMixture-of-Instructions (MoI) という新しい手法を導入する。 また、MoI強化言語モデルのアライメントの有効性を厳格に評価するために、7つのベンチマークデータセットの多種多様なセットをコンパイルした。 提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。 この強化されたモデルは、コーディング、数学、ツールの使用タスクにまたがる生成能力の大幅な進歩を示す。

With the proliferation of large language models (LLMs), the comprehensive alignment of such models across multiple tasks has emerged as a critical area of research. Existing alignment methodologies primarily address single task, such as multi-turn dialogue, coding, mathematical problem-solving, and tool usage. However, AI-driven products that leverage language models usually necessitate a fusion of these abilities to function effectively in real-world scenarios. Moreover, the considerable computational resources required for proper alignment of LLMs underscore the need for a more robust, efficient, and encompassing approach to multi-task alignment, ensuring improved generative performance. In response to these challenges, we introduce a novel technique termed Mixture-of-Instructions (MoI), which employs a strategy of instruction concatenation combined with diverse system prompts to boost the alignment efficiency of language models. We have also compiled a diverse set of seven benchmark datasets to rigorously evaluate the alignment efficacy of the MoI-enhanced language model. Our methodology was applied to the open-source Qwen-7B-chat model, culminating in the development of Qwen-SFT-MoI. This enhanced model demonstrates significant advancements in generative capabilities across coding, mathematics, and tool use tasks.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# 自動車用水中物体のマルチモーダル知覚データセット

Multi-modal Perception Dataset of In-water Objects for Autonomous Surface Vehicles ( http://arxiv.org/abs/2404.18411v1 )

ライセンス: Link先を確認
Mingi Jeong, Arihant Chadda, Ziang Ren, Luyang Zhao, Haowen Liu, Monika Roznere, Aiwei Zhang, Yitao Jiang, Sabriel Achong, Samuel Lensgraf, Alberto Quattrini Li, (参考訳) 本稿では,水環境における水中障害物に着目し,自律型表面車両 (ASV) の状況認識を高めることを目的とした,自律海洋航法用マルチモーダル認識データセットについて紹介する。 このデータセットは、様々な環境条件下で遭遇する多様な物体で構成されており、物体の検出と分類のために、マルチモーダル、注釈付き、エゴ中心の知覚データセットを提供することにより、海洋ロボット研究のギャップを埋めることを目的としている。 また、ディープラーニングに基づくオープンソースの認識アルゴリズムを用いて、提案したデータセットフレームワークの適用性を示す。 われわれのデータセットは、海洋自律パイプラインと海洋(フィールド)ロボティクスの開発に貢献することを期待している。 この記事は、現在進行中の研究に関する、今後の出版を通じて完全なリリースを予定している、進行中の論文です。

This paper introduces the first publicly accessible multi-modal perception dataset for autonomous maritime navigation, focusing on in-water obstacles within the aquatic environment to enhance situational awareness for Autonomous Surface Vehicles (ASVs). This dataset, consisting of diverse objects encountered under varying environmental conditions, aims to bridge the research gap in marine robotics by providing a multi-modal, annotated, and ego-centric perception dataset, for object detection and classification. We also show the applicability of the proposed dataset's framework using deep learning-based open-source perception algorithms that have shown success. We expect that our dataset will contribute to development of the marine autonomy pipeline and marine (field) robotics. Please note this is a work-in-progress paper about our on-going research that we plan to release in full via future publication.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# 3AM: あいまいさを意識したマルチモーダル機械翻訳データセット

3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset ( http://arxiv.org/abs/2404.18413v1 )

ライセンス: Link先を確認
Xinyu Ma, Xuebo Liu, Derek F. Wong, Jun Rao, Bei Li, Liang Ding, Lidia S. Chao, Dacheng Tao, Min Zhang, (参考訳) マルチモーダル機械翻訳(MMT)は,視覚情報を取り入れた翻訳品質の向上を目指す課題である。 しかし、近年の研究では、既存のMTデータセットが提供する視覚情報は不十分であることが示されており、モデルがそれを無視し、その能力を過大評価している。 この問題はMT研究の発展に重大な障害をもたらす。 本稿では,英語と中国語の26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入することにより,この問題に対する新たな解決法を提案する。 我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。 我々は、単語センスの曖昧さモデルを用いて、視覚・言語データセットからあいまいなデータを選択する。 さらに、提案したデータセット上で、最先端のMTモデルをいくつかベンチマークする。 実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。 我々の研究は、マルチモーダル学習分野の研究者に貴重な資源を提供し、この分野のさらなる探索を奨励する。 データ、コード、スクリプトはhttps://github.com/MaxyLee/3AMで無料で入手できる。

Multimodal machine translation (MMT) is a challenging task that seeks to improve translation quality by incorporating visual information. However, recent studies have indicated that the visual information provided by existing MMT datasets is insufficient, causing models to disregard it and overestimate their capabilities. This issue presents a significant obstacle to the development of MMT research. This paper presents a novel solution to this issue by introducing 3AM, an ambiguity-aware MMT dataset comprising 26,000 parallel sentence pairs in English and Chinese, each with corresponding images. Our dataset is specifically designed to include more ambiguity and a greater variety of both captions and images than other MMT datasets. We utilize a word sense disambiguation model to select ambiguous data from vision-and-language datasets, resulting in a more challenging dataset. We further benchmark several state-of-the-art MMT models on our proposed dataset. Experimental results show that MMT models trained on our dataset exhibit a greater ability to exploit visual information than those trained on other MMT datasets. Our work provides a valuable resource for researchers in the field of multimodal learning and encourages further exploration in this area. The data, code and scripts are freely available at https://github.com/MaxyLee/3AM.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# IHTを用いたスパースニューラルネットワークの学習

Learning a Sparse Neural Network using IHT ( http://arxiv.org/abs/2404.18414v1 )

ライセンス: Link先を確認
Saeed Damadi, Soroush Zolfaghari, Mahdi Rezaie, Jinglai Shen, (参考訳) 優れたモデルのコアとなるのは、基本的なパターンとコンピテンシーを反映した重要な情報のみに焦点を当て、データセットから明確なノイズのない信号を取り出す能力である。 これは、より少ないパラメータで定義された単純化されたモデルを使用する必要がある。 この文脈において理論基盤の重要性は明らかとなり、この論文は高度なスパース最適化の領域、特に非線形微分可能関数に対処する領域からの確立された結果に依存している。 このような理論基盤の必要性は、NNの訓練のための計算能力が増大するにつれて、より高いパラメータ数のモデルが複雑化する傾向によってさらに強調される。 現実的なシナリオでは、これらの大きなモデルは、より少ないパラメータを持つより管理しやすいバージョンに単純化されることが多い。 パラメータ数が少ないこれらの単純化されたモデルが有効である理由を理解することは、決定的な疑問を提起する。 パラメータの少ないこれらの単純化されたモデルが有効である理由を理解することは、重要な疑問を提起する。 このことは、これらの経験的観察を明確に説明できる理論的な枠組みが存在するかどうかというより広い疑問につながります。 繰り返し硬度閾値(IHT)の局所的最小値(勾配降下に類似したスパース法)への収束に必要な条件の確立など,近年の進展が期待できる。 非ゼロパラメータの位置を正確に識別し、学習するIHTアルゴリズムの顕著な能力は、その実用性と有用性を示している。 本稿では, ニューラルネットワーク(NN)トレーニングの領域において, 収束に必要な条件をすべて正当化することで, 収束の理論的前提が適用可能であるかを検討することを目的とする。 そして、これらの条件は、IRISデータセットをテストベッドとして、単層NNの実験によって検証される。

The core of a good model is in its ability to focus only on important information that reflects the basic patterns and consistencies, thus pulling out a clear, noise-free signal from the dataset. This necessitates using a simplified model defined by fewer parameters. The importance of theoretical foundations becomes clear in this context, as this paper relies on established results from the domain of advanced sparse optimization, particularly those addressing nonlinear differentiable functions. The need for such theoretical foundations is further highlighted by the trend that as computational power for training NNs increases, so does the complexity of the models in terms of a higher number of parameters. In practical scenarios, these large models are often simplified to more manageable versions with fewer parameters. Understanding why these simplified models with less number of parameters remain effective raises a crucial question. Understanding why these simplified models with fewer parameters remain effective raises an important question. This leads to the broader question of whether there is a theoretical framework that can clearly explain these empirical observations. Recent developments, such as establishing necessary conditions for the convergence of iterative hard thresholding (IHT) to a sparse local minimum (a sparse method analogous to gradient descent) are promising. The remarkable capacity of the IHT algorithm to accurately identify and learn the locations of nonzero parameters underscores its practical effectiveness and utility. This paper aims to investigate whether the theoretical prerequisites for such convergence are applicable in the realm of neural network (NN) training by providing justification for all the necessary conditions for convergence. Then, these conditions are validated by experiments on a single-layer NN, using the IRIS dataset as a testbed.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# 医療におけるジェミニモデルの能力

Capabilities of Gemini Models in Medicine ( http://arxiv.org/abs/2404.18416v1 )

ライセンス: Link先を確認
Khaled Saab, Tao Tu, Wei-Hung Weng, Ryutaro Tanno, David Stutz, Ellery Wulczyn, Fan Zhang, Tim Strother, Chunjong Park, Elahe Vedadi, Juanma Zambrano Chaves, Szu-Yeu Hu, Mike Schaekermann, Aishwarya Kamath, Yong Cheng, David G. T. Barrett, Cathy Cheung, Basil Mustafa, Anil Palepu, Daniel McDuff, Le Hou, Tomer Golany, Luyang Liu, Jean-baptiste Alayrac, Neil Houlsby, Nenad Tomasev, Jan Freyberg, Charles Lau, Jonas Kemp, Jeremy Lai, Shekoofeh Azizi, Kimberly Kanada, SiWai Man, Kavita Kulkarni, Ruoxi Sun, Siamak Shakeri, Luheng He, Ben Caine, Albert Webson, Natasha Latysheva, Melvin Johnson, Philip Mansfield, Jian Lu, Ehud Rivlin, Jesper Anderson, Bradley Green, Renee Wong, Jonathan Krause, Jonathon Shlens, Ewa Dominowska, S. M. Ali Eslami, Claire Cui, Oriol Vinyals, Koray Kavukcuoglu, James Manyika, Jeff Dean, Demis Hassabis, Yossi Matias, Dale Webster, Joelle Barral, Greg Corrado, Christopher Semturs, S. Sara Mahdavi, Juraj Gottweis, Alan Karthikesalingam, Vivek Natarajan, (参考訳) 幅広い医療応用における卓越性は、高度な推論、最新の医療知識へのアクセス、複雑なマルチモーダルデータの理解といった、AIに重大な課題をもたらす。 マルチモーダルおよび長文推論において強力な汎用能力を持つジェミニモデルは、医学においてエキサイティングな可能性をもたらす。 Geminiの中核となる強みを生かしたMed-Geminiは,Web検索をシームレスに利用し,カスタムエンコーダを用いた新しいモダリティに効率的に適合させることができる,医療専門の高度なマルチモーダルモデルのファミリーである。 我々は14のベンチマークでMed-Geminiを評価し、そのうち10のベンチマークで新しい最先端(SoTA)性能を確立し、直接比較が可能なベンチマークでGPT-4モデルファミリを上回った。 人気の高いMedQA(USMLE)ベンチマークでは、新しい不確実性誘導探索戦略を用いて、最高の性能のMed-GeminiモデルでSoTAの精度91.1%を達成した。 NEJM Image ChallengesやMMMU (Health & Medicine)を含む7つのマルチモーダルベンチマークでは、メドジェニーニはGPT-4Vよりも44.5%改善している。 本研究は,Med-Geminiの長期的コンテキスト能力が,長期未確認健康記録と医療ビデオ質問応答から,文脈内学習のみを用いた事前のベスポーク手法を超越して,ニードル・イン・ア・ヘイスタック検索タスクに与える影響を実証するものである。 最後に、Med-Geminiのパフォーマンスは、マルチモーダル医療対話、医学研究、教育における有望な可能性の実証とともに、医療テキスト要約のようなタスクに関する人間の専門家を上回ることで、現実世界の実用性を示唆している。 まとめると、我々の結果は、Med-Geminiの潜在的な可能性を示す説得力のある証拠を提供するが、この安全クリティカルな領域に現実世界が配備される前には、さらなる厳密な評価が不可欠である。

Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# コンピュータ深層学習に基づく医用画像のインテリジェント診断システムに関する研究

Research on Intelligent Aided Diagnosis System of Medical Image Based on Computer Deep Learning ( http://arxiv.org/abs/2404.18419v1 )

ライセンス: Link先を確認
Jiajie Yuan, Linxiao Wu, Yulu Gong, Zhou Yu, Ziang Liu, Shuyao He, (参考訳) この記事では、データの保存とアクセスにDAO(Data Access Object)を使用して、StrutsとHibernateの2つのアーキテクチャを組み合わせる。 そこで,深層ネットワークに適した2モードの医用画像ライブラリのセットを構築し,その画像に基づく2モードの医用画像支援診断手法を提案する。 種々の特徴抽出法の試験により、曲線積下の最適動作特性(AUROC)は0.9985、リコールレートは0.9814、精度は0.9833である。 この方法は臨床診断に適用することができ、実用的な方法である。 外来の医師は、システムを通じて素早く登録したり、プラットフォームにログインして画像をアップロードしてより正確な画像を得ることができる。 このシステムを通じて、各外来医は、画像アップロードのためにプラットフォームに迅速に登録またはログインすることができ、より正確な画像を得ることができる。 画像のセグメンテーションは、臨床部門の医師を導くことができる。 そして、画像を分析して腫瘍の位置と性質を判定し、標的治療を行う。

This paper combines Struts and Hibernate two architectures together, using DAO (Data Access Object) to store and access data. Then a set of dual-mode humidity medical image library suitable for deep network is established, and a dual-mode medical image assisted diagnosis method based on the image is proposed. Through the test of various feature extraction methods, the optimal operating characteristic under curve product (AUROC) is 0.9985, the recall rate is 0.9814, and the accuracy is 0.9833. This method can be applied to clinical diagnosis, and it is a practical method. Any outpatient doctor can register quickly through the system, or log in to the platform to upload the image to obtain more accurate images. Through the system, each outpatient physician can quickly register or log in to the platform for image uploading, thus obtaining more accurate images. The segmentation of images can guide doctors in clinical departments. Then the image is analyzed to determine the location and nature of the tumor, so as to make targeted treatment.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# Rydberg-atom 合成次元を用いたSu-Schrieffer-Heegerモデルにおける位相相転移の探索

Probing the topological phase transition in the Su-Schrieffer-Heeger model using Rydberg-atom synthetic dimensions ( http://arxiv.org/abs/2404.18420v1 )

ライセンス: Link先を確認
Yi Lu, Chuanyu Wang, Soumya K. Kanungo, F. Barry Dunning, Thomas C. Killian, (参考訳) 隣り合う6つの$n\:^3S_1$Rydberg状態のはしごから1つの原子で構築されたRydberg-atom合成次元を用いたSu-Schrieffer-Heeger(SSH)モデルをシミュレートする。 マイクロ波振幅の調整によって制御される交互強い/弱トンネル速度は、トンネル速度の比の関数として位相相転移をマップアウトするために変化する。 各比率について、この系を最初にバルクRydberg状態の1つに準備し、その後マイクロ波場に印加したクエンチ力学実験を行い、系の個体群進化を測定する。 力学測定から, 平均キラル変位を抽出し, その長期平均値が系の巻線数に収束することを検証した。 トポロジカル相転移は、系のエネルギースペクトルを定常状態とし、ゼロエネルギーエッジ状態の消失を観測することによっても検討される。 その結果、SSHハミルトニアンの本質的な特徴を6レベルまでしか持たないシステムでも証明できることが判明した。

We simulate the the Su-Schrieffer-Heeger (SSH) model using Rydberg-atom synthetic dimensions constructed, in a single atom, from a ladder of six neighboring $n\:^3S_1$ Rydberg states in which adjacent states are coupled with two-photon transitions using microwave fields. Alternating strong/weak tunneling rates, controlled by adjusting the microwave amplitudes, are varied to map out the topological phase transition as a function of the ratio of the tunneling rates. For each ratio, quench dynamics experiments, in which the system is initially prepared in one of the bulk Rydberg states and then subjected to the microwave fields, are performed to measure the population evolution of the system. From the dynamics measurements, we extract the mean chiral displacement and verify that its long-time average value converges towards the system winding number. The topological phase transition is also examined by probing the energy spectrum of the system in steady state and observing the disappearance of the zero-energy edge states. The results show that even a system with as few as six levels can demonstrate the essential characteristics of the SSH Hamiltonian.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# 物体中心運動学を用いた教師なしダイナミクス予測

Unsupervised Dynamics Prediction with Object-Centric Kinematics ( http://arxiv.org/abs/2404.18423v1 )

ライセンス: Link先を確認
Yeon-Ji Song, Suhyung Choi, Jaein Kim, Jin-Hwa Kim, Byoung-Tak Zhang, (参考訳) 人間の知覚は、複雑な多目的シーンを時間的な物体の外観(大きさ、形状、色)と時間的な物体の動き(位置、速度、加速度)に識別する。 この無意識で環境を理解する能力は、動的モデリングの成功の背後にあるモチベーションである。 オブジェクト中心の表現は、動的予測のための有望なツールとして現れてきたが、それらは主にオブジェクトの外観に焦点を当てており、しばしば他の重要な属性を見落としている。 本稿では,オブジェクト中心表現を利用した動的予測フレームワークであるOCR(Object-Centric Kinematics)を提案する。 本モデルは,物体の位置,速度,加速度の低レベルな構造化状態を含む,物体運動学という新しい成分を利用する。 オブジェクトキネマティクスは、暗黙的または明示的なアプローチによって得られ、包括的な時空間的オブジェクト推論を可能にし、様々なトランスフォーマー機構を通じて統合され、効果的なオブジェクト中心力学モデリングを容易にする。 本モデルは,多種多様なオブジェクト属性と動的動きを特徴とする複雑なシーンにおけるオブジェクトと背景の扱いにおいて,優れた性能を示す。 さらに,本モデルでは,多種多様な合成環境にまたがる一般化能力を実証し,視覚関連タスクの幅広い適用可能性を強調した。

Human perception involves discerning complex multi-object scenes into time-static object appearance (\ie, size, shape, color) and time-varying object motion (\ie, location, velocity, acceleration). This innate ability to unconsciously understand the environment is the motivation behind the success of dynamics modeling. Object-centric representations have emerged as a promising tool for dynamics prediction, yet they primarily focus on the objects' appearance, often overlooking other crucial attributes. In this paper, we propose Object-Centric Kinematics (OCK), a framework for dynamics prediction leveraging object-centric representations. Our model utilizes a novel component named object kinematics, which comprises low-level structured states of objects' position, velocity, and acceleration. The object kinematics are obtained via either implicit or explicit approaches, enabling comprehensive spatiotemporal object reasoning, and integrated through various transformer mechanisms, facilitating effective object-centric dynamics modeling. Our model demonstrates superior performance when handling objects and backgrounds in complex scenes characterized by a wide range of object attributes and dynamic movements. Moreover, our model demonstrates generalization capabilities across diverse synthetic environments, highlighting its potential for broad applicability in vision-related tasks.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# リモートセンシング画像における高能率メタラーニングによるマルチスケールFew-Shotオブジェクト検出

Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2404.18426v1 )

ライセンス: Link先を確認
Wenbin Guan, Zijiu Yang, Xiaohong Wu, Liqiong Chen, Feng Huang, Xiaohai He, Honggang Chen, (参考訳) 現在、リモートセンシング画像(RSI)における小ショット物体検出(FSOD)の課題が注目されている。 多数の数発の検出器、特に2段階の検出器に基づく検出器は、RSIに固有のマルチスケールの複雑さを扱う際に困難に直面している。 さらに、これらの検出器は、大量のデータを扱う際に、主に不安定なモデルパラメータのために、現実世界の応用において非現実的な特性を示す。 対照的に、高い検出速度や大域的受容場を含む一段検出器の利点を認識している。 その結果,YOLOv71段検出器をベースラインとして選択し,新しいメタラーニングトレーニングフレームワークを提案する。 この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。 さらに, メタ学習戦略によって生成されたサンプルを徹底的に調査し, 設計したメタ検出ヘッドが生成したサンプルを保持するための新しいメタサンプリング手法を提案する。 考案したメタクロス損失と組み合わせて、しばしば見過ごされる"負のサンプル"を意図的に利用して、それらから貴重な知識を抽出します。 このアプローチは、検出精度を高め、全体的なメタ学習戦略を効率的に洗練する。 提案した検出器の有効性を検証するため,DIORとNWPU VHR-10.v2データセットを用いて現状の検出器の性能比較を行い,良好な結果を得た。

Presently, the task of few-shot object detection (FSOD) in remote sensing images (RSIs) has become a focal point of attention. Numerous few-shot detectors, particularly those based on two-stage detectors, face challenges when dealing with the multiscale complexities inherent in RSIs. Moreover, these detectors present impractical characteristics in real-world applications, mainly due to their unwieldy model parameters when handling large amount of data. In contrast, we recognize the advantages of one-stage detectors, including high detection speed and a global receptive field. Consequently, we choose the YOLOv7 one-stage detector as a baseline and subject it to a novel meta-learning training framework. This transformation allows the detector to adeptly address FSOD tasks while capitalizing on its inherent advantage of lightweight. Additionally, we thoroughly investigate the samples generated by the meta-learning strategy and introduce a novel meta-sampling approach to retain samples produced by our designed meta-detection head. Coupled with our devised meta-cross loss, we deliberately utilize ``negative samples" that are often overlooked to extract valuable knowledge from them. This approach serves to enhance detection accuracy and efficiently refine the overall meta-learning strategy. To validate the effectiveness of our proposed detector, we conducted performance comparisons with current state-of-the-art detectors using the DIOR and NWPU VHR-10.v2 datasets, yielding satisfactory results.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# ShadowMaskFormer: シャドウ除去のためのマスク拡張パッチ埋め込み

ShadowMaskFormer: Mask Augmented Patch Embeddings for Shadow Removal ( http://arxiv.org/abs/2404.18433v1 )

ライセンス: Link先を確認
Zhuohao Li, Guoyang Xie, Guannan Jiang, Zhichao Lu, (参考訳) Transformerは最近、コンピュータビジョンタスクのデファクトモデルとして登場し、シャドー除去にも成功している。 しかし、これらの既存手法は、汎用的なパッチ埋め込みを使用しながら、トランスフォーマーブロック内の注意機構の複雑な変更に大きく依存している。 結果として、計算リソースの追加を必要とする複雑なアーキテクチャ設計につながることが多い。 本研究では,初期処理段階における影情報の導入の有効性について検討する。 そこで我々はShadowMaskFormerと呼ばれるシャドー除去に適した新しいパッチ埋め込みを備えたトランスフォーマーベースのフレームワークを提案する。 具体的には、シャドウ情報を統合し、シャドウ領域の知識獲得にモデルが重点を置くことを促進するための、シンプルで効果的なマスク拡張パッチ埋め込みを提案する。 ISTD, ISTD+, SRDベンチマークを用いて, より少ないモデルパラメータを用いて, 最先端手法に対する本手法の有効性を実証した。

Transformer recently emerged as the de facto model for computer vision tasks and has also been successfully applied to shadow removal. However, these existing methods heavily rely on intricate modifications to the attention mechanisms within the transformer blocks while using a generic patch embedding. As a result, it often leads to complex architectural designs requiring additional computation resources. In this work, we aim to explore the efficacy of incorporating shadow information within the early processing stage. Accordingly, we propose a transformer-based framework with a novel patch embedding that is tailored for shadow removal, dubbed ShadowMaskFormer. Specifically, we present a simple and effective mask-augmented patch embedding to integrate shadow information and promote the model's emphasis on acquiring knowledge for shadow regions. Extensive experiments conducted on the ISTD, ISTD+, and SRD benchmark datasets demonstrate the efficacy of our method against state-of-the-art approaches while using fewer model parameters.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# $ν$-DBA: ニューラルネットワークによる複雑なバンドル調整により、画像のみを駆動するシーンの再構築が可能に

$ν$-DBA: Neural Implicit Dense Bundle Adjustment Enables Image-Only Driving Scene Reconstruction ( http://arxiv.org/abs/2404.18439v1 )

ライセンス: Link先を確認
Yunxuan Mao, Bingqi Shen, Yifei Yang, Kai Wang, Rong Xiong, Yiyi Liao, Yue Wang, (参考訳) センサ軌道と3Dマップの合同最適化は、自律走行に不可欠なバンドル調整(BA)の重要な特徴である。 本稿では,3次元暗黙曲面を用いた幾何学的密集束調整(DBA)を実装した新しいフレームワークである$\nu$-DBAについて述べる。 さらに、高密度マッピングの品質をさらに向上するために、シーンごとの自己スーパービジョンで光学フローモデルを微調整する。 複数の走行シーンのデータセットに対する実験結果から,提案手法がより優れた軌道最適化と高密度再構成精度を実現することを示す。 また,光度誤差と異なる神経幾何学的先行要因が表面再構成や新しいビュー合成の性能に与える影響についても検討した。 本手法は,より正確な軌道と詳細な環境マッピングのための高密度バンドル調整における神経暗黙表現の活用に向けた重要なステップである。

The joint optimization of the sensor trajectory and 3D map is a crucial characteristic of bundle adjustment (BA), essential for autonomous driving. This paper presents $\nu$-DBA, a novel framework implementing geometric dense bundle adjustment (DBA) using 3D neural implicit surfaces for map parametrization, which optimizes both the map surface and trajectory poses using geometric error guided by dense optical flow prediction. Additionally, we fine-tune the optical flow model with per-scene self-supervision to further improve the quality of the dense mapping. Our experimental results on multiple driving scene datasets demonstrate that our method achieves superior trajectory optimization and dense reconstruction accuracy. We also investigate the influences of photometric error and different neural geometric priors on the performance of surface reconstruction and novel view synthesis. Our method stands as a significant step towards leveraging neural implicit representations in dense bundle adjustment for more accurate trajectories and detailed environmental mapping.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# ハザードリスクマネジメントにおけるパラダイムシフトの可能性 - 熱帯低気圧ハザードに対するAIベースの天気予報

Potential Paradigm Shift in Hazard Risk Management: AI-Based Weather Forecast for Tropical Cyclone Hazards ( http://arxiv.org/abs/2404.18440v1 )

ライセンス: Link先を確認
Kairui Feng, Dazhi Xi, Wei Ma, Cao Wang, Yuanlong Li, Xuanhong Chen, (参考訳) 人工知能(AI)駆動モデルの出現は、気象学的危険に対するリスク管理戦略のパラダイムシフトである。 本研究は特に、焦点となる例として熱帯性サイクロン(TC)を用いる。 そこで我々は,先進的なPangu AI気象モデルを用いて,アンサンブル予測を生成する摂動に基づく手法を開発した。 気象調査・予測(WRF)シミュレーションから1つのイベントに対して20シナリオ未満のシナリオを生成する従来のアプローチとは異なり、我々の手法はAI駆動モデルの迅速な性質を助長し、数千のシナリオを生成する。 Hurricane Irma (2017), Typhoon Mangkhut (2018), TC Debbie (2017), そして北米, 東アジア, オーストラリアの各地域に影響を与える。 以上の結果から,AIが生成するアンサンブル予測は,上陸の7日前までの欧州中距離気象予報センター(ECMWF)のアンサンブル予測と密接に一致していることが示唆された。 このアプローチは、気象予報によるリスク分析と管理の有効性を大幅に向上させ、前例のない運用速度、ユーザフレンドリさ、グローバルな適用性を提供する。

The advents of Artificial Intelligence (AI)-driven models marks a paradigm shift in risk management strategies for meteorological hazards. This study specifically employs tropical cyclones (TCs) as a focal example. We engineer a perturbation-based method to produce ensemble forecasts using the advanced Pangu AI weather model. Unlike traditional approaches that often generate fewer than 20 scenarios from Weather Research and Forecasting (WRF) simulations for one event, our method facilitates the rapid nature of AI-driven model to create thousands of scenarios. We offer open-source access to our model and evaluate its effectiveness through retrospective case studies of significant TC events: Hurricane Irma (2017), Typhoon Mangkhut (2018), and TC Debbie (2017), affecting regions across North America, East Asia, and Australia. Our findings indicate that the AI-generated ensemble forecasts align closely with the European Centre for Medium-Range Weather Forecasts (ECMWF) ensemble predictions up to seven days prior to landfall. This approach could substantially enhance the effectiveness of weather forecast-driven risk analysis and management, providing unprecedented operational speed, user-friendliness, and global applicability.
翻訳日:2024-04-30 14:46:41 公開日:2024-04-29
# BMRetriever: バイオメディカルテキストレトリバーとして大規模言語モデルをチューニング

BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers ( http://arxiv.org/abs/2404.18443v1 )

ライセンス: Link先を確認
Ran Xu, Wenqi Shi, Yue Yu, Yuchen Zhuang, Yanqiao Zhu, May D. Wang, Joyce C. Ho, Chao Zhang, Carl Yang, (参考訳) 効果的なバイオメディカル検索モデルの開発は、知識集約型バイオメディカルタスクにおいて優れているが、十分な注釈付きバイオメディカルデータや計算資源が不足しているため、依然として困難である。 本稿では,大規模バイオメディカルコーパスの教師なし事前学習とラベル付きデータセットと合成ペアの組み合わせによる教示微調整により,バイオメディカル検索の強化を図ったBMRetrieverについて紹介する。 11のデータセットにわたる5つのバイオメディカルタスクの実験は、BMRetrieverの様々なバイオメディカル応用に対する有効性を検証する。 BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍に上回り、2Bの派生型は5B以上のパラメータを持つモデルの性能と一致する。 トレーニングデータとモデルチェックポイントは \url{https://huggingface.co/BMRetriever} でリリースされ、透明性、再現性、新しいドメインへの応用を保証する。

Developing effective biomedical retrieval models is important for excelling at knowledge-intensive biomedical tasks but still challenging due to the deficiency of sufficient publicly annotated biomedical data and computational resources. We present BMRetriever, a series of dense retrievers for enhancing biomedical retrieval via unsupervised pre-training on large biomedical corpora, followed by instruction fine-tuning on a combination of labeled datasets and synthetic pairs. Experiments on 5 biomedical tasks across 11 datasets verify BMRetriever's efficacy on various biomedical applications. BMRetriever also exhibits strong parameter efficiency, with the 410M variant outperforming baselines up to 11.7 times larger, and the 2B variant matching the performance of models with over 5B parameters. The training data and model checkpoints are released at \url{https://huggingface.co/BMRetriever} to ensure transparency, reproducibility, and application to new domains.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# U-Nets as Belief Propagation:Efficient Classification, Denoising and Diffusion in Generative Hierarchical Models

U-Nets as Belief Propagation: Efficient Classification, Denoising, and Diffusion in Generative Hierarchical Models ( http://arxiv.org/abs/2404.18444v1 )

ライセンス: Link先を確認
Song Mei, (参考訳) U-Netはコンピュータビジョンにおいて最も広く使われているアーキテクチャの1つであり、画像のセグメンテーション、デノナイジング、拡散モデリングなどのアプリケーションにおける例外的な性能で有名である。 しかし、U-Netアーキテクチャの設計に関する理論的説明はまだ完全には確立されていない。 本稿では,木構造図形モデルである生成階層モデルを言語と画像の両領域で広く活用することによる,U-Netアーキテクチャの新たな解釈を紹介する。 エンコーダ・デコーダ構造、長いスキップ接続、プーリングおよびアップサンプリング層を用いて、U-Netがこのような生成階層モデルに自然に信条伝搬復号化アルゴリズムを実装し、効率的に復号化関数を近似する方法を実証する。 これにより、これらのモデル内のU-Netを使ってデノナイジング関数を学習するための効率的なサンプル複雑性が導かれる。 さらに,これらの発見が生成階層モデルにおける拡散モデルに与える影響についても論じる。 また、畳み込みニューラルネットワーク(ConvNets)の従来のアーキテクチャは、これらのモデル内の分類タスクに最適であることを示す。 これはConvNetsとU-Netsの役割を統一したビューを提供し、言語と画像ドメインをまたいだ複雑なデータ分散をモデル化する生成階層モデルの汎用性を強調している。

U-Nets are among the most widely used architectures in computer vision, renowned for their exceptional performance in applications such as image segmentation, denoising, and diffusion modeling. However, a theoretical explanation of the U-Net architecture design has not yet been fully established. This paper introduces a novel interpretation of the U-Net architecture by studying certain generative hierarchical models, which are tree-structured graphical models extensively utilized in both language and image domains. With their encoder-decoder structure, long skip connections, and pooling and up-sampling layers, we demonstrate how U-Nets can naturally implement the belief propagation denoising algorithm in such generative hierarchical models, thereby efficiently approximating the denoising functions. This leads to an efficient sample complexity bound for learning the denoising function using U-Nets within these models. Additionally, we discuss the broader implications of these findings for diffusion models in generative hierarchical models. We also demonstrate that the conventional architecture of convolutional neural networks (ConvNets) is ideally suited for classification tasks within these models. This offers a unified view of the roles of ConvNets and U-Nets, highlighting the versatility of generative hierarchical models in modeling complex data distributions across language and image domains.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# 戦略的行動とAIトレーニングデータ

Strategic Behavior and AI Training Data ( http://arxiv.org/abs/2404.18445v1 )

ライセンス: Link先を確認
Christian Peukert, Florian Abeillon, Jérémie Haese, Franziska Kaiser, Alexander Staub, (参考訳) 人間による作品は、人工知能(AI)への重要なデータ入力を表す。 ストラテジックな振る舞いは、AIトレーニングデータセットにおいて、既存の作品へのアクセスを制限することや、どのタイプの新しい作品を作成するか、あるいは新しい作品を作るかどうかを決めることなど、大きな役割を果たす可能性がある。 著者たちがAIのトレーニングデータになったときの行動変化について検討する。 具体的には、人気の高いストック画像プラットフォームUnsplashのコントリビューターに焦点を合わせ、600万枚の高品質の写真とイラストを提供している。 2020年夏、Unsplashは商用利用のために25,000枚の画像のデータセットをリリースし、AI研究プログラムを開始した。 我々はコントリビュータの反応を調査し、このデータセットに作品が含まれているコントリビュータと、その作品が含まれていないコントリビュータを比較した。 以上の結果から,治療を受けたコントリビュータがプラットフォームを離れ,新たなアップロード率を大幅に低下させたことが示唆された。 プロでより成功した写真家は、アマチュアやあまり成功しない写真家よりも強く反応する。 また、影響を受けたユーザがプラットフォームへのコントリビューションの多様性とノベルティを変更したことも示しています。 この結果から,技術フロンティアにおける権利保有者の利益とイノベーションの促進とのトレードオフが浮き彫りになった。 著作権とAI政策の意義について論じる。

Human-created works represent critical data inputs to artificial intelligence (AI). Strategic behavior can play a major role for AI training datasets, be it in limiting access to existing works or in deciding which types of new works to create or whether to create new works at all. We examine creators' behavioral change when their works become training data for AI. Specifically, we focus on contributors on Unsplash, a popular stock image platform with about 6 million high-quality photos and illustrations. In the summer of 2020, Unsplash launched an AI research program by releasing a dataset of 25,000 images for commercial use. We study contributors' reactions, comparing contributors whose works were included in this dataset to contributors whose works were not included. Our results suggest that treated contributors left the platform at a higher-than-usual rate and substantially slowed down the rate of new uploads. Professional and more successful photographers react stronger than amateurs and less successful photographers. We also show that affected users changed the variety and novelty of contributions to the platform, with long-run implications for the stock of works potentially available for AI training. Taken together, our findings highlight the trade-off between interests of rightsholders and promoting innovation at the technological frontier. We discuss implications for copyright and AI policy.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# ランダム量子充足可能性のProDSAT相

The PRODSAT phase of random quantum satisfiability ( http://arxiv.org/abs/2404.18447v1 )

ライセンス: Link先を確認
Joon Lee, Nicolas Macris, Jean Bernoulli Ravelomanana, Perrine Vantalon, (参考訳) k$-QSAT問題は、有名な$k$-SAT制約満足度問題の量子アナログである。 我々は、M$ランダム$k$ローカライズワンプロジェクターの和からなる$N$ qubitsのハミルトニアンのゼロエネルギー基底状態を決定する必要がある。 ゼロエネルギーの積状態が高い確率で存在することは、基礎因子グラフが節被覆二量体構成を持つ場合に限る。 これは、PRDSAT相のしきい値は、ダイマー被覆しきい値に等しい純粋に幾何学的な量であることを意味する。 複素係数を持つ複素多項式方程式に対するブーベルガーのアルゴリズムに基づく複素解析と代数的手法の組み合わせにより、この結果を再検討し、完全に証明する。 また、生成物状態がゼロエネルギー基底状態空間全体にまたがらないという意味で、ProdSAT相における絡み合いの存在を研究する数値実験についても論じる。

The $k$-QSAT problem is a quantum analog of the famous $k$-SAT constraint satisfaction problem. We must determine the zero energy ground states of a Hamiltonian of $N$ qubits consisting of a sum of $M$ random $k$-local rank-one projectors. It is known that product states of zero energy exist with high probability if and only if the underlying factor graph has a clause-covering dimer configuration. This means that the threshold of the PRODSAT phase is a purely geometric quantity equal to the dimer covering threshold. We revisit and fully prove this result through a combination of complex analysis and algebraic methods based on Buchberger's algorithm for complex polynomial equations with random coefficients. We also discuss numerical experiments investigating the presence of entanglement in the PRODSAT phase in the sense that product states do not span the whole zero energy ground state space.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# MFP:インタラクティブな画像セグメンテーションのための確率マップの完全活用

MFP: Making Full Use of Probability Maps for Interactive Image Segmentation ( http://arxiv.org/abs/2404.18448v1 )

ライセンス: Link先を確認
Chaewon Lee, Seon-Ho Lee, Chang-Su Kim, (参考訳) 最近の対話的セグメンテーションアルゴリズムでは、現在のセグメンテーションラウンドの予測を支援するために、従来の確率マップがネットワーク入力として使用される。 しかし、従来のマスクの利用にもかかわらず、確率マップに含まれる有用な情報は、現在の予測にはあまり反映されない。 本稿では,この制限を克服するために,MFPと呼ばれる,クリックベースの対話型画像分割のための新しい,効率的なアルゴリズムを提案する。 まず、ユーザが指定したオブジェクトの表現を強化するために、事前の確率マップを変調する。 次に,変調された確率マップをセグメント化ネットワークに付加的な入力として供給する。 本稿では,ResNet-34,HRNet-18,ViT-BのバックボーンをベースとしたMFPアルゴリズムを実装し,その性能評価を行う。 MFPは、同一のバックボーンを用いて既存のアルゴリズムよりも有意に優れていることが示されている。 ソースコードは \href{https://github.com/cwlee00/MFP}{https://github.com/cwlee00/MFP} で公開されている。

In recent interactive segmentation algorithms, previous probability maps are used as network input to help predictions in the current segmentation round. However, despite the utilization of previous masks, useful information contained in the probability maps is not well propagated to the current predictions. In this paper, to overcome this limitation, we propose a novel and effective algorithm for click-based interactive image segmentation, called MFP, which attempts to make full use of probability maps. We first modulate previous probability maps to enhance their representations of user-specified objects. Then, we feed the modulated probability maps as additional input to the segmentation network. We implement the proposed MFP algorithm based on the ResNet-34, HRNet-18, and ViT-B backbones and assess the performance extensively on various datasets. It is demonstrated that MFP meaningfully outperforms the existing algorithms using identical backbones. The source codes are available at \href{https://github.com/cwlee00/MFP}{https://github.com/cwlee00/MFP}.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# スマートインバータにおける信頼の育成 - VPPコンテキストにおけるファームウェア更新管理とトラッキングのためのフレームワーク

Fostering Trust in Smart Inverters: A Framework for Firmware Update Management and Tracking in VPP Context ( http://arxiv.org/abs/2404.18453v1 )

ライセンス: Link先を確認
Thusitha Dayaratne, Carsten Rudolph, Tom Shirley, Sol Levi, David Shirley, (参考訳) 分散エネルギー資源(DER)と電力グリッドのインターフェースを提供するスマートインバータの信頼性とセキュリティを確保することは、(スマート)電力グリッドへのDERの統合が急増するにつれて最重要となる。 適切な時間枠内にファームウェア/ソフトウェアバージョンを更新することの重要性にもかかわらず、ファームウェア更新による信頼を確立する既存の方法は、効果的な履歴追跡と検証を欠いている。 本稿では,ファームウェア更新履歴の管理と追跡を行う新しいフレームワークを提案する。 これらの検証可能な更新に基づいて、更新履歴を追跡し、信頼サイクルを実装することで、グリッドのレジリエンスを改善し、サイバーセキュリティを強化し、ステークホルダの透明性を高めることを目指している。

Ensuring the reliability and security of smart inverters that provide the interface between distributed energy resources (DERs) and the power grid becomes paramount with the surge in integrating DERs into the (smart) power grid. Despite the importance of having updated firmware / software versions within a reasonable time frame, existing methods for establishing trust through firmware updates lack effective historical tracking and verification. This paper introduces a novel framework to manage and track firmware update history, leveraging verifiable credentials. By tracking the update history and implementing a trust cycle based on these verifiable updates, we aim to improve grid resilience, enhance cybersecurity, and increase transparency for stakeholders.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# 遠赤外反射による3次元ガウス散乱

3D Gaussian Splatting with Deferred Reflection ( http://arxiv.org/abs/2404.18454v1 )

ライセンス: Link先を確認
Keyang Ye, Qiming Hou, Kun Zhou, (参考訳) ニューラルおよびガウスに基づく放射場法の出現は、新しいビュー合成の分野において大きな成功を収めた。 しかし、高周波放射場は安定かつ正確に適合することが難しいことで知られているため、スペクトル反射は非自明なままである。 本稿では,ガウススプラッティングによる鏡面反射を効果的に描画する遅延シェーディング法を提案する。 主な課題は環境マップの反射モデルであり、これは正確な表面正規化を必要とする一方で、不連続勾配による正規推定をボトルネックにしている。 遅延シェーディングによって生成される画素ごとの反射勾配を利用して、隣接するガウスの最適化プロセスを橋渡しし、ほぼ正確な正規推定が徐々に伝播し、最終的にはすべての反射対象に広がる。 提案手法は,バニラ・ガウス版とほぼ同一のフレームレートで実行しながら,合成シーンと実シーンの両方において,ピーク信号-雑音比(PSNR)が一貫した改善を示すことによって,高品質な反射効果の合成における最先端技術と同時処理を著しく上回っている。

The advent of neural and Gaussian-based radiance field methods have achieved great success in the field of novel view synthesis. However, specular reflection remains non-trivial, as the high frequency radiance field is notoriously difficult to fit stably and accurately. We present a deferred shading method to effectively render specular reflection with Gaussian splatting. The key challenge comes from the environment map reflection model, which requires accurate surface normal while simultaneously bottlenecks normal estimation with discontinuous gradients. We leverage the per-pixel reflection gradients generated by deferred shading to bridge the optimization process of neighboring Gaussians, allowing nearly correct normal estimations to gradually propagate and eventually spread over all reflective objects. Our method significantly outperforms state-of-the-art techniques and concurrent work in synthesizing high-quality specular reflection effects, demonstrating a consistent improvement of peak signal-to-noise ratio (PSNR) for both synthetic and real-world scenes, while running at a frame rate almost identical to vanilla Gaussian splatting.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# パラメータ化量子回路の等価チェック

Equivalence Checking of Parameterised Quantum Circuits ( http://arxiv.org/abs/2404.18456v1 )

ライセンス: Link先を確認
Xin Hong, Wei-Jia Huang, Wei-Chen Chien, Yuan Feng, Min-Hsiu Hsieh, Sanjiang Li, Mingsheng Ying, (参考訳) 量子回路(PQC)は、量子計算の実践的な応用において、量子上の優位性を実証するための大きな約束を持っている。 成功した応用例としては、変分量子固有解法、量子近似最適化アルゴリズム、量子機械学習などがある。 しかし、実際の量子デバイス上でPQCを実行する前に、コンパイルと最適化の手順を実行する。 これらのプロセスの固有のエラー確率を考えると、元のPQCとコンパイルまたは最適化されたバージョンとの等価性を検証することが重要である。 残念ながら、既存のほとんどの量子回路検証器はパラメータ化された量子回路を直接扱えない。 本稿では,PQCの等価性検査における重要な課題について述べる。 テンソル決定図に基づく新しいPQCのコンパクト表現を提案する。 この表現を活用することで、インスタンス化を必要とせずにPQC等価性を検証できるアルゴリズムを提案する。 提案手法は, 評価実験により, 有効性と効率性を両立させるものである。 決定ダイアグラム表現は、パラメータ化された量子回路を分析し検証し、理論モデルと実践的な実装の間のギャップを埋める強力なツールを提供する。

Parameterised quantum circuits (PQCs) hold great promise for demonstrating quantum advantages in practical applications of quantum computation. Examples of successful applications include the variational quantum eigensolver, the quantum approximate optimisation algorithm, and quantum machine learning. However, before executing PQCs on real quantum devices, they undergo compilation and optimisation procedures. Given the inherent error-proneness of these processes, it becomes crucial to verify the equivalence between the original PQC and its compiled or optimised version. Unfortunately, most existing quantum circuit verifiers cannot directly handle parameterised quantum circuits; instead, they require parameter substitution to perform verification. In this paper, we address the critical challenge of equivalence checking for PQCs. We propose a novel compact representation for PQCs based on tensor decision diagrams. Leveraging this representation, we present an algorithm for verifying PQC equivalence without the need for instantiation. Our approach ensures both effectiveness and efficiency, as confirmed by experimental evaluations. The decision-diagram representations offer a powerful tool for analysing and verifying parameterised quantum circuits, bridging the gap between theoretical models and practical implementations.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# 仮想組織染色とデジタル病理の自律的品質と幻覚評価

Autonomous Quality and Hallucination Assessment for Virtual Tissue Staining and Digital Pathology ( http://arxiv.org/abs/2404.18458v1 )

ライセンス: Link先を確認
Luzhe Huang, Yuzhu Li, Nir Pillar, Tal Keidar Haran, William Dean Wallace, Aydogan Ozcan, (参考訳) 病理組織染色は様々な疾患の診断に不可欠である。 近年のAIを用いた仮想組織染色技術の進歩は、従来の組織化学的染色プロセスにかかわるコストと退屈なステップを緩和し、染色試薬を使わずにラベルのない組織の多重化を迅速に行うことができるとともに、組織を保存できる。 しかし、これらの事実上染色された組織像の潜在的幻覚やアーティファクトは、特にこれらのアプローチの臨床的有用性に懸念を生じさせる。 組織像の品質評価は、一般に人間の専門家によって行われ、主観的であり、専門家の訓練レベルに依存する。 本稿では, 仮想組織染色を主目的とする自律的品質・幻覚評価法(AQuA)について述べるとともに, 組織化学的染色にも適用可能である。 AQuAは、地面の真実にアクセスすることなく、許容され、受け入れられない仮想的な組織像を検出すると、99.8%の精度を達成し、また、ボード認証された病理医による手動評価と98.5%の一致を示した。 さらにAQuAは、現実的に見える、事実上染色された幻覚画像を識別する超人的なパフォーマンスを実現している。 さらに, 仮想染色ネットワークモデルと従来の組織化学的染色ワークフローで観察されるアーティファクトの異常幻覚パターンを検出するために, 仮想的および組織化学的染色組織像にまたがるAQuAの広範囲な適応性を示す。 このフレームワークは、仮想染色の信頼性を高める新たな機会を生み出し、デジタル病理学および計算画像における様々な画像生成および変換タスクの品質保証を提供する。

Histopathological staining of human tissue is essential in the diagnosis of various diseases. The recent advances in virtual tissue staining technologies using AI alleviate some of the costly and tedious steps involved in the traditional histochemical staining process, permitting multiplexed rapid staining of label-free tissue without using staining reagents, while also preserving tissue. However, potential hallucinations and artifacts in these virtually stained tissue images pose concerns, especially for the clinical utility of these approaches. Quality assessment of histology images is generally performed by human experts, which can be subjective and depends on the training level of the expert. Here, we present an autonomous quality and hallucination assessment method (termed AQuA), mainly designed for virtual tissue staining, while also being applicable to histochemical staining. AQuA achieves 99.8% accuracy when detecting acceptable and unacceptable virtually stained tissue images without access to ground truth, also presenting an agreement of 98.5% with the manual assessments made by board-certified pathologists. Besides, AQuA achieves super-human performance in identifying realistic-looking, virtually stained hallucinatory images that would normally mislead human diagnosticians by deceiving them into diagnosing patients that never existed. We further demonstrate the wide adaptability of AQuA across various virtually and histochemically stained tissue images and showcase its strong external generalization to detect unseen hallucination patterns of virtual staining network models as well as artifacts observed in the traditional histochemical staining workflow. This framework creates new opportunities to enhance the reliability of virtual staining and will provide quality assurance for various image generation and transformation tasks in digital pathology and computational imaging.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# Chameleon: 野生環境での視覚的予測のためのデータ効率の良いジェネラリスト

Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild ( http://arxiv.org/abs/2404.18459v1 )

ライセンス: Link先を確認
Donggyun Kim, Seongwoong Cho, Semin Kim, Chong Luo, Seunghoon Hong, (参考訳) 大規模言語モデルは、汎用言語インタフェースと大規模事前学習の恩恵を受け、データ効率のジェネラリストを進化させてきた。 しかし、濃密な視覚予測のためにデータ効率のよいジェネラリストを構築することは、異なるタスクにまたがるラベル構造の変化が原因で、大きな課題となる。 その結果、低データ体制における密集予測タスクの一般化は簡単ではなく、以前のビジョンジェネラリストからはあまり注目されていない。 本研究では,多種多様な実世界のシナリオにおいて,データ効率のよいビジョンジェネラリストとして機能し得るような,高密度なラベル構造に柔軟に適用可能な普遍モデルについて検討する。 この目的のために,我々の手法は強力なメタラーニングフレームワークを基盤として,フレキシブル適応機構や拡張性といった実世界の問題に対して,その性能と汎用性を向上させるためにいくつかの軸を探索する。 我々は,ビデオ,3D,医療,生物学的,ユーザインタラクションタスクなど,ローショット学習が望ましい実世界のシナリオを網羅して,我々のモデルを評価した。 汎用アーキテクチャと効果的な適応機構を具備した我々のモデルは,50以上のラベル付き画像を用いて,これらすべてのタスクに柔軟に適応し,既存のデータ効率のジェネラリストアプローチよりも大幅に進歩したことを示す。 コードはhttps://github.com/GitGyun/chameleon.comで入手できる。

Large language models have evolved data-efficient generalists, benefiting from the universal language interface and large-scale pre-training. However, constructing a data-efficient generalist for dense visual prediction presents a distinct challenge due to the variation in label structures across different tasks. Consequently, generalization to unseen dense prediction tasks in the low-data regime is not straightforward and has received less attention from previous vision generalists. In this study, we explore a universal model that can flexibly adapt to unseen dense label structures with a few examples, enabling it to serve as a data-efficient vision generalist in diverse real-world scenarios. To this end, we base our method on a powerful meta-learning framework and explore several axes to improve its performance and versatility for real-world problems, such as flexible adaptation mechanisms and scalability. We evaluate our model across a spectrum of unseen real-world scenarios where low-shot learning is desirable, including video, 3D, medical, biological, and user-interactive tasks. Equipped with a generic architecture and an effective adaptation mechanism, our model flexibly adapts to all of these tasks with at most 50 labeled images, showcasing a significant advancement over existing data-efficient generalist approaches. Codes are available at https://github.com/GitGyun/chameleon.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# LLMの倫理的推論と道徳的価値アライメントは、我々が提案する言語に依存する

Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language we Prompt them in ( http://arxiv.org/abs/2404.18460v1 )

ライセンス: Link先を確認
Utkarsh Agarwal, Kumar Tanmay, Aditi Khandelwal, Monojit Choudhury, (参考訳) 倫理的推論は、大規模言語モデル(LLM)にとって重要なスキルである。 しかし、道徳的価値観は普遍的ではなく、言語や文化の影響を受けている。 本稿では、GPT-4、ChatGPT、Llama2-70B-Chatの3つの著名なLCMが、異なる言語で倫理的推論を行い、それらの道徳的判断が引き起こされる言語に依存するかどうかを考察する。 我々は、Rao et al (2023)によるLLMの倫理的推論の研究を、倫理的ジレンマと規範的倫理の3つの分野(デオントロジー、美徳、連帯主義)からのポリシーでLLMを探索する枠組みに従って、多言語的な設定にまで拡張する。 私たちは6つの言語(英語、スペイン語、ロシア語、中国語、ヒンディー語、スワヒリ語)を実験しています。 一方、ChatGPTとLlama2-70B-Chatは、英語以外の言語に移行する際の道徳的価値のバイアスが顕著である。 興味深いことに、このバイアスの性質は GPT-4 を含む全ての LLM 言語で大きく異なる。

Ethical reasoning is a crucial skill for Large Language Models (LLMs). However, moral values are not universal, but rather influenced by language and culture. This paper explores how three prominent LLMs -- GPT-4, ChatGPT, and Llama2-70B-Chat -- perform ethical reasoning in different languages and if their moral judgement depend on the language in which they are prompted. We extend the study of ethical reasoning of LLMs by Rao et al. (2023) to a multilingual setup following their framework of probing LLMs with ethical dilemmas and policies from three branches of normative ethics: deontology, virtue, and consequentialism. We experiment with six languages: English, Spanish, Russian, Chinese, Hindi, and Swahili. We find that GPT-4 is the most consistent and unbiased ethical reasoner across languages, while ChatGPT and Llama2-70B-Chat show significant moral value bias when we move to languages other than English. Interestingly, the nature of this bias significantly vary across languages for all LLMs, including GPT-4.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# Clicks2Line: インタラクティブなイメージセグメンテーションに行を使用する

Clicks2Line: Using Lines for Interactive Image Segmentation ( http://arxiv.org/abs/2404.18461v1 )

ライセンス: Link先を確認
Chaewon Lee, Chang-Su Kim, (参考訳) クリックベースのインタラクティブセグメンテーション法では、所望のセグメンテーション結果を得るために必要なクリック数を減らすことが不可欠である。 近年のクリックベース手法は, セグメンテーションの精度は高いが, 長い領域をセグメンテーションするためには, かなりの量のクリックが必要であることが観察された。 ユーザ満足度を減らすために,このような場合のクリックの代わりに行を使用する方法を提案する。 本稿では,入力としてクリックや行を適応的に採用する対話型セグメンテーションアルゴリズムを提案する。 実験により,いくつかのケースにおいて,行を使用するとクリックよりもセグメンテーション結果が良くなることが示された。

For click-based interactive segmentation methods, reducing the number of clicks required to obtain a desired segmentation result is essential. Although recent click-based methods yield decent segmentation results, we observe that substantial amount of clicks are required to segment elongated regions. To reduce the amount of user-effort required, we propose using lines instead of clicks for such cases. In this paper, an interactive segmentation algorithm which adaptively adopts either clicks or lines as input is proposed. Experimental results demonstrate that using lines can generate better segmentation results than clicks for several cases.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# M3oE: マルチドメインマルチタスク混合専門家推薦フレームワーク

M3oE: Multi-Domain Multi-Task Mixture-of Experts Recommendation Framework ( http://arxiv.org/abs/2404.18465v1 )

ライセンス: Link先を確認
Zijian Zhang, Shuchang Liu, Jiaao Yu, Qingpeng Cai, Xiangyu Zhao, Chunxu Zhang, Ziru Liu, Qidong Liu, Hongwei Zhao, Lantao Hu, Peng Jiang, Kun Gai, (参考訳) マルチドメインレコメンデーションとマルチタスクレコメンデーションは、異なるドメインと目的の共通情報を総合的なユーザモデリングに活用する効果を実証している。 それでも、実際的な推奨は通常、複数のドメインとタスクを同時に直面する。 この目的のために,適応型マルチドメインマルチタスク・ミックス・オブ・エキスパート・レコメンデーションフレームワークであるM3oEを紹介する。 M3oEはマルチドメイン情報を統合し、ドメインとタスク間で知識をマッピングし、複数の目的を最適化する。 共通、ドメイン・アスペクト、タスク・アスペクトの3つのミックス・オブ・エキスパート・モジュールを利用して、複数のドメインとタスク間の複雑な依存関係を、互いに絡み合った方法で処理する。 さらに,多様な領域やタスクをまたいだ特徴抽出と融合を正確に制御するための2段階融合機構を設計する。 動的構造最適化を可能にするAutoML技術を適用することにより、フレームワークの適応性はさらに向上する。 著者たちの知る限りでは、M3oEはマルチドメインのマルチタスクレコメンデーションを自己適応的に解決する最初の試みです。 多様なベースラインに対する2つのベンチマークデータセットの大規模な実験は、M3oEの優れたパフォーマンスを示している。 実装コードは再現性を保証するために利用可能である。

Multi-domain recommendation and multi-task recommendation have demonstrated their effectiveness in leveraging common information from different domains and objectives for comprehensive user modeling. Nonetheless, the practical recommendation usually faces multiple domains and tasks simultaneously, which cannot be well-addressed by current methods. To this end, we introduce M3oE, an adaptive multi-domain multi-task mixture-of-experts recommendation framework. M3oE integrates multi-domain information, maps knowledge across domains and tasks, and optimizes multiple objectives. We leverage three mixture-of-experts modules to learn common, domain-aspect, and task-aspect user preferences respectively to address the complex dependencies among multiple domains and tasks in a disentangled manner. Additionally, we design a two-level fusion mechanism for precise control over feature extraction and fusion across diverse domains and tasks. The framework's adaptability is further enhanced by applying AutoML technique, which allows dynamic structure optimization. To the best of the authors' knowledge, our M3oE is the first effort to solve multi-domain multi-task recommendation self-adaptively. Extensive experiments on two benchmark datasets against diverse baselines demonstrate M3oE's superior performance. The implementation code is available to ensure reproducibility.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# HFT:大規模言語モデルのためのハーフファインチューニング

HFT: Half Fine-Tuning for Large Language Models ( http://arxiv.org/abs/2404.18466v1 )

ライセンス: Link先を確認
Tingfeng Hui, Zhenyu Zhang, Shuohuan Wang, Weiran Xu, Yu Sun, Hua Wu, (参考訳) 1つ以上の微調整フェーズを持つ大規模言語モデル(LLM)は、様々な機能をアンロックするために必要なステップとなり、LLMは自然言語命令に従うか、人間の好みに合わせることができるようになった。 しかし、逐次訓練中に破滅的な忘れ傷を負う危険性があり、パラメトリック知識や前段で学んだ能力は、入力されたトレーニングデータに圧倒される可能性がある。 本稿では,部分的パラメータを定期的にリセットすることで,LLMが元の知識の一部を復元できることを見出した。 そこで本研究では,LLM のためのハーフファインチューニング (HFT) をフルファインチューニング (FFT) の代替として導入し,新しいタスクを学習するためにパラメータの半数が選択され,残りの半分が凍結して以前の知識を保ちながら忘れる問題を緩和する。 最適化の観点から実現可能性分析を行い、パラメータ選択操作を正規化項として解釈する。 モデルアーキテクチャを変更することなく、HFTは既存の微調整フレームワークにシームレスに統合できる。 教師付き微調整、直接選好最適化、連続学習に関する広範な実験と分析は、HFTの有効性、堅牢性、効率性を一貫して示している。 FFTと比較して、HFTは忘れる問題を著しく軽減するだけでなく、トレーニング時間を約30%削減し、一連のダウンストリームベンチマークで最高のパフォーマンスを達成する。

Large language models (LLMs) with one or more fine-tuning phases have become a necessary step to unlock various capabilities, enabling LLMs to follow natural language instructions or align with human preferences. However, it carries the risk of catastrophic forgetting during sequential training, the parametric knowledge or the ability learned in previous stages may be overwhelmed by incoming training data. In this paper, we find that by regularly resetting partial parameters, LLMs can restore some of the original knowledge. Inspired by this, we introduce Half Fine-Tuning (HFT) for LLMs, as a substitute for full fine-tuning (FFT), to mitigate the forgetting issues, where half of the parameters are selected to learn new tasks while the other half are frozen to remain previous knowledge. We provide a feasibility analysis from the perspective of optimization and interpret the parameter selection operation as a regularization term. Without changing the model architecture, HFT could be seamlessly integrated into existing fine-tuning frameworks. Extensive experiments and analysis on supervised fine-tuning, direct preference optimization, and continual learning consistently demonstrate the effectiveness, robustness, and efficiency of HFT. Compared with FFT, HFT not only significantly alleviates the forgetting problem, but also achieves the best performance in a series of downstream benchmarks, with an approximately 30% reduction in training time.
翻訳日:2024-04-30 14:36:46 公開日:2024-04-29
# 一般化二粒子干渉

Generalized Two-Particle Interference ( http://arxiv.org/abs/2404.18468v1 )

ライセンス: Link先を確認
Kamran Nazir, Tabish Qureshi, (参考訳) 2光子干渉は興味深い量子現象であり、通常ハンベリー・ブラウン・ツイツ(HBT)実験と香港・ウー・マンデル(HOM)実験という2つの異なる種類の実験で観測される。 HBT実験は古典的な光とともに1956年にかなり早く行われたが、HOM効果の実証は1987年より遅くに行われた。 前者とは異なり、後者は純粋に量子効果であると考えられている。 ここでは、2粒子干渉は一般化された環境で理論的に解析される。 HOMとHBT効果は、一般的な分析において特別な場合として現れる。 2つの効果の間に中間的な2粒子干渉実験を提案し,解析した。 したがって、2粒子干渉は、HBTやHOMといった様々な実装が可能な単一の現象であることが示されている。

Two-photon interference is an interesting quantum phenomenon that is usually captured in two distinct types of experiments, namely the Hanbury-Brown-Twiss (HBT) experiment and the Hong-Ou-Mandel (HOM) experiment. While the HBT experiment was carried out much earlier in 1956, with classical light, the demonstration of the HOM effect came much later in 1987. Unlike the former, the latter has been argued to be a purely quantum effect. Here two-particle interference is theoretically analyzed in a generalized setting. The HOM and the HBT effects emerge as special cases in the general analysis. A two-particle interference experiment, which is intermediate between the two effects, is proposed and analyzed. Thus two-particle interference is shown to be a single phenomenon with various possible implementations, including the HBT and HOM setups.
翻訳日:2024-04-30 14:36:45 公開日:2024-04-29
# ECCアナライザ:ストックパフォーマンス予測のための大規模言語モデルを用いたEarnings Conferenceコールからのトレーディング信号抽出

ECC Analyzer: Extract Trading Signal from Earnings Conference Calls using Large Language Model for Stock Performance Prediction ( http://arxiv.org/abs/2404.18470v1 )

ライセンス: Link先を確認
Yupeng Cao, Zhi Chen, Qingyun Pei, Prashant Kumar, K. P. Subbalakshmi, Papa Momar Ndiaye, (参考訳) 金融分析の分野では、決算会議コール(ECC)のような非構造データを活用して株価パフォーマンスを予測することは、学者と投資家の両方を惹きつけている重要な課題である。 これまでの研究では、深層学習に基づくモデルを用いてECCの一般的なビューを取得してきたが、詳細で複雑な情報を捉えるのに失敗することが多い。 本稿では,よりリッチで予測的な洞察を引き出すために,LLM(Large Language Models)とマルチモーダル手法を組み合わせた新しいフレームワークを提案する。 モデルはまず、音声のトーンとピッチの変動を検出することによって、書き起こしの構造を要約し、話者のモードと信頼度を解析することから始まる。 この分析は、投資家がECCを概観するのに役立つ。 さらに、このモデルでは、RAG(Retrieval-Augmented Generation)ベースの手法を用いて、専門家の視点から、ストックパフォーマンスに大きな影響を与える焦点を慎重に抽出し、より標的となる分析を提供する。 このモデルは、これらの抽出された焦点を、感情や音声セグメント機能などの追加的な分析層で強化することで、さらに一歩進める。 これらの洞察を統合することで、ECC Analyzerは、ボラティリティ、バリュー・アット・リスク(VaR)、異なる間隔でのリターンを含む、ストックパフォーマンスのマルチタスク予測を実行する。 その結果,本モデルが従来の分析ベンチマークより優れており,金融分析における高度なLCM手法の有効性が確認された。

In the realm of financial analytics, leveraging unstructured data, such as earnings conference calls (ECCs), to forecast stock performance is a critical challenge that has attracted both academics and investors. While previous studies have used deep learning-based models to obtain a general view of ECCs, they often fail to capture detailed, complex information. Our study introduces a novel framework: \textbf{ECC Analyzer}, combining Large Language Models (LLMs) and multi-modal techniques to extract richer, more predictive insights. The model begins by summarizing the transcript's structure and analyzing the speakers' mode and confidence level by detecting variations in tone and pitch for audio. This analysis helps investors form an overview perception of the ECCs. Moreover, this model uses the Retrieval-Augmented Generation (RAG) based methods to meticulously extract the focuses that have a significant impact on stock performance from an expert's perspective, providing a more targeted analysis. The model goes a step further by enriching these extracted focuses with additional layers of analysis, such as sentiment and audio segment features. By integrating these insights, the ECC Analyzer performs multi-task predictions of stock performance, including volatility, value-at-risk (VaR), and return for different intervals. The results show that our model outperforms traditional analytic benchmarks, confirming the effectiveness of using advanced LLM techniques in financial analytics.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 縮小ランド型多目的政策学習と最適化

Reduced-Rank Multi-objective Policy Learning and Optimization ( http://arxiv.org/abs/2404.18490v1 )

ライセンス: Link先を確認
Ezinne Nwankwo, Michael I. Jordan, Angela Zhou, (参考訳) 潜在的介入の因果的影響を評価することは意思決定、特に機会へのアクセス改善に不可欠である。 しかし、因果効果が共変量から不均一で予測可能であれば、パーソナライズされた治療決定は個々の結果を改善し、効率と株式の両方に寄与することができる。 しかし、実際には、因果的研究者は先験を念頭において単一の結果を持たず、真の利害対象のノイズの多い推定値である複数の利害関係の結果を収集することが多い。 例えば、政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。 最終的な目標は、ある意味で複数の結果を同時に最大化する最適な治療方針を学ぶことである。 このような問題に対処するために、複数の目的を持つ最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性還元手法を提案する。 本研究は,低階調回帰を用いた観測結果から,実結果の低次元表現を学習する。 このモデルを用いて、一般に使用される指標重み付けを含む、観測結果の識別を行う一連の推定法を開発した。 これらの手法は,実社会におけるキャッシュ転送とソーシャル介入データのケーススタディを含む,政策評価と最適化における推定誤差を改善する。 ノイズの多い社会的結果のばらつきを減らすことで、アルゴリズムの割り当て性能を向上させることができる。

Evaluating the causal impacts of possible interventions is crucial for informing decision-making, especially towards improving access to opportunity. However, if causal effects are heterogeneous and predictable from covariates, personalized treatment decisions can improve individual outcomes and contribute to both efficiency and equity. In practice, however, causal researchers do not have a single outcome in mind a priori and often collect multiple outcomes of interest that are noisy estimates of the true target of interest. For example, in government-assisted social benefit programs, policymakers collect many outcomes to understand the multidimensional nature of poverty. The ultimate goal is to learn an optimal treatment policy that in some sense maximizes multiple outcomes simultaneously. To address such issues, we present a data-driven dimensionality-reduction methodology for multiple outcomes in the context of optimal policy learning with multiple objectives. We learn a low-dimensional representation of the true outcome from the observed outcomes using reduced rank regression. We develop a suite of estimates that use the model to denoise observed outcomes, including commonly-used index weightings. These methods improve estimation error in policy evaluation and optimization, including on a case study of real-world cash transfer and social intervention data. Reducing the variance of noisy social outcomes can improve the performance of algorithmic allocations.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# LLMを使ったAIによるコードレビュー: 初期の結果

AI-powered Code Review with LLMs: Early Results ( http://arxiv.org/abs/2404.18496v1 )

ライセンス: Link先を確認
Zeeshan Rasheed, Malik Abdul Sami, Muhammad Waseem, Kai-Kristian Kemell, Xiaofeng Wang, Anh Nguyen, Kari Systä, Pekka Abrahamsson, (参考訳) 本稿では,Large Language Model (LLM) を用いたコードレビューモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。 提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。 このトレーニングには、コードレビュー、バグレポート、ベストプラクティスのドキュメントが含まれる。 コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。 従来の静的コード解析ツールとは異なり、私たちのLLMベースのAIエージェントは、コードの将来的なリスクを予測する能力を持っています。 これは、コード品質を改善し、ベストプラクティスと効率的なコーディングテクニックのより深い理解を促すことによって、開発者教育を強化するという2つの目標をサポートする。 さらに,LCMフィードバックに対する開発者の感情の分析によって実証されたように,リリース後のバグを大幅に削減し,コードレビュープロセスを強化する改善を提案する上で,モデルの有効性について検討する。 今後の課題として, LLM 生成した文書更新の精度と効率を手作業と比較して評価することを目的とする。 これには、手作業によるコードレビューに注目して、コードの臭いやバグを特定すること、ベストプラクティスドキュメントの評価、開発者の議論やコードレビューからの洞察による強化などが含まれる。 私たちのゴールは、LCMベースのツールの精度を向上するだけでなく、積極的にコードの改善と教育を通じてソフトウェア開発ライフサイクルを合理化する可能性を高めることです。

In this paper, we present a novel approach to improving software quality and efficiency through a Large Language Model (LLM)-based model designed to review code and identify potential issues. Our proposed LLM-based AI agent model is trained on large code repositories. This training includes code reviews, bug reports, and documentation of best practices. It aims to detect code smells, identify potential bugs, provide suggestions for improvement, and optimize the code. Unlike traditional static code analysis tools, our LLM-based AI agent has the ability to predict future potential risks in the code. This supports a dual goal of improving code quality and enhancing developer education by encouraging a deeper understanding of best practices and efficient coding techniques. Furthermore, we explore the model's effectiveness in suggesting improvements that significantly reduce post-release bugs and enhance code review processes, as evidenced by an analysis of developer sentiment toward LLM feedback. For future work, we aim to assess the accuracy and efficiency of LLM-generated documentation updates in comparison to manual methods. This will involve an empirical study focusing on manually conducted code reviews to identify code smells and bugs, alongside an evaluation of best practice documentation, augmented by insights from developer discussions and code reviews. Our goal is to not only refine the accuracy of our LLM-based tool but also to underscore its potential in streamlining the software development lifecycle through proactive code improvement and education.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 光の2部状態とナノ構造との相互作用を研究するためのテンソル生成物空間

A Tensor Product Space for Studying the Interaction of Bipartite States of Light with Nanostructures ( http://arxiv.org/abs/2404.18498v1 )

ライセンス: Link先を確認
Lukas Freter, Benedikt Zerulla, Marjan Krstić, Christof Holzer, Carsten Rockstuhl, Ivan Fernandez-Corbaton, (参考訳) 絡み合った光子のペアは、量子ナノフォトニクスの応用において重要である。 このようなキャラクタは、例えば、第2高調波発生に関わるポンプ場の2つの退化したインスタンスによって、強度範囲の反対側で共有される。 光のバイパルタイト状態とナノフォトニック構造の相互作用を記述することは、その強度に関わらず、重要な技術応用への挑戦である。 本稿では,物質構造と光の分岐状態の相互作用を研究するための理論的枠組みを開発する。 基本的な要素は、電磁ヒルベルト空間の2つのコピーからなる対称性付きテンソル積空間である。 単一のヒルベルト空間から受け継がれた利点の1つは、物質対称性の結果が容易に導出できることである。 回転および/またはミラー対称性を持つ物体における二階非線形過程の選択規則を導出する。 量子化学計算をMaxwellソルバと組み合わせて、2つの異なるMoS$_2$クラスタで第2高調波発生をシミュレートすることで、いくつかの選択規則を数値的に検証する。 計算に便利な散乱行列法は、ある状態への物体の応答が他方とは独立であるときに、テンソル積空間に拡張される。 そのような場合、単一ヒルベルト空間の散乱行列と二部状態の散乱行列の関係を得る。 このような分離可能なケースは、ナノ構造と相互作用する二光子状態の絡み合い進化に関係している。 我々は、例えば、ある状態へのオブジェクトの応答が他の部分に依存する非分離散乱演算子を通して、フレームワーク内の非線形効果の計算を調節する可能性について議論する。

Pairs of entangled photons are important for applications in quantum nanophotonics, where their theoretical description must accommodate their bipartite character. Such character is shared at the other end of the intensity range by, for example, the two degenerate instances of the pump field involved in second-harmonic generation. Describing the interaction of nanophotonic structures with bipartite states of light is, regardless of their intensity, a challenge with important technological applications. Here, we develop a theoretical framework for studying the interaction of material structures with bipartite states of light. The basic element is the symmetrized tensor product space of two copies of an electromagnetic Hilbert space. One of the benefits inherited from the single Hilbert space is that consequences of material symmetries are readily deduced. We derive selection rules for second-order non-linear processes in objects with rotational and/or mirror symmetries. We numerically verify several selection rules by combining quantum-chemical calculations with a Maxwell solver to simulate second-harmonic generation in two different MoS$_2$ clusters. The computationally convenient scattering matrix method is also extended to the tensor product space when the response of the object to one part of the state is independent of the other. For such a case, we obtain the relation between the scattering matrix in the single Hilbert space and the scattering matrix for bipartite states. Such a separable case is relevant for the entanglement evolution of biphoton states interacting with nanostructures. We discuss some possibilities for accommodating the computations of non-linear effects in the framework, for example, through a non-separable scattering operator, where the response of the object to one part of the state depends on the other part.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 量子コンピュータを用いた古典的ソフトウェア検証に向けて

Towards Classical Software Verification using Quantum Computers ( http://arxiv.org/abs/2404.18502v1 )

ライセンス: Link先を確認
Sebastian Issel, Kilian Tscharke, Pascal Debus, (参考訳) 量子コンピュータを用いた古典的プログラムの形式的検証を高速化する可能性を探る。 セキュリティ欠陥の共通の原因は、フリー、ヌルポインタの参照、ゼロの除算といった、一般的なプログラミングエラーの存在にある。 このような誤りの発見を支援するため、そのような欠陥が存在しないことを検証しようと試みる。 このアプローチでは、コードスニペットや望ましくない振る舞いに対して、SATインスタンスが生成される。 量子コンピュータで解く最適化問題に変換される。 このアプローチは漸近的に多項式のスピードアップの可能性を秘めている。 アウト・オブ・バウンドやオーバーフローのような一般的なエラーの最小例だけでなく、特別な性質、特定の数の解や構造を持つ合成インスタンスも、異なる解法を用いてテストされ、量子デバイス上で試される。 我々は,準標準量子近似最適化アルゴリズム,Groverアルゴリズムの適用,および量子特異値変換を用いて最適解を求める。

We explore the possibility of accelerating the formal verification of classical programs with a quantum computer. A common source of security flaws stems from the existence of common programming errors like use after free, null-pointer dereference, or division by zero. To aid in the discovery of such errors, we try to verify that no such flaws exist. In our approach, for some code snippet and undesired behaviour, a SAT instance is generated, which is satisfiable precisely if the behavior is present in the code. It is in turn converted to an optimization problem, that is solved on a quantum computer. This approach holds the potential of an asymptotically polynomial speedup. Minimal examples of common errors, like out-of-bounds and overflows, but also synthetic instances with special properties, specific number of solutions, or structure, are tested with different solvers and tried on a quantum device. We use the near-standard Quantum Approximation Optimisation Algorithm, an application of the Grover algorithm, and the Quantum Singular Value Transformation to find the optimal solution, and with it a satisfying assignment.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 自動昆虫モニタリング(KInsecta)のためのマルチセンサデータフュージョン

Multisensor Data Fusion for Automatized Insect Monitoring (KInsecta) ( http://arxiv.org/abs/2404.18504v1 )

ライセンス: Link先を確認
Martin Tschaikner, Danja Brandt, Henning Schmidt, Felix Bießmann, Teodor Chiaburu, Ilona Schrimpf, Thomas Schrimpf, Alexandra Stadel, Frank Haußer, Ingeborg Beckers, (参考訳) 昆虫の個体数は世界中で減少しており、保護のためには体系的なモニタリングが不可欠である。 ほとんどの古典的な方法では、死の罠や虫の保護に対処する。 本稿では,昆虫の分類にAIを用いたデータ融合を用いたマルチセンサ手法を提案する。 このシステムは低コストのセットアップとして設計されており、カメラモジュールと光ウィングビートセンサーと環境センサーからなり、事前情報として温度、照射、日中を測定する。 システムは実験室と現場でテストされている。 7種の種でセットされた、非常にバランスのとれた小さなデータセットの最初のテストは、種分類に有望な結果を示した。 マルチセンサーシステムは、生物多様性と農業研究を支援する。

Insect populations are declining globally, making systematic monitoring essential for conservation. Most classical methods involve death traps and counter insect conservation. This paper presents a multisensor approach that uses AI-based data fusion for insect classification. The system is designed as low-cost setup and consists of a camera module and an optical wing beat sensor as well as environmental sensors to measure temperature, irradiance or daytime as prior information. The system has been tested in the laboratory and in the field. First tests on a small very unbalanced data set with 7 species show promising results for species classification. The multisensor system will support biodiversity and agriculture studies.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 深部状態空間モデルを用いたニューロモルフィック感覚信号のイベント・バイ・イベント処理

Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models ( http://arxiv.org/abs/2404.18508v1 )

ライセンス: Link先を確認
Mark Schöne, Neeraj Mohan Sushma, Jingyue Zhuge, Christian Mayr, Anand Subramoney, David Kappel, (参考訳) イベントベースのセンサは、応答時間の速さと感覚データの符号化が連続した時間差として、リアルタイム処理に適している。 フレームベースのフォーマットに変換されると、高ダイナミックレンジなどのこれらおよびその他の重要な特性が抑制される。 しかし、現在のほとんどのメソッドはイベントをフレームに分解するか、イベントデータをイベント単位で直接処理する際にスケールアップできない。 本研究では,このようなセンサが出力するイベントストリームのイベント・バイ・イベント・モデリングをスケールアップする上で重要な課題に対処する。 従来の手法では、数千の時間ステップを処理できるが、私たちのモデルは、現代的な再帰的な状態空間モデルに基づいて、トレーニングと推論の両方のために数百万のイベントのイベントストリームにスケールする。我々は、その安定なパラメータ化を利用して、長距離依存性、シーケンス次元に沿った並列化可能性、非同期イベントを効果的に統合して、長いイベントストリームにスケールアップする能力を活用します。さらに、これらを、我々のモデルがいくつかのイベントストリームベンチマークで最先端のパフォーマンスにマッチまたは打ち勝つことを可能にする、新しいイベント中心のテクニックで拡張します。 スパイキング音声コマンドタスクでは、最先端を6.6%から87.1%の大差で改善する。 DVS128-Gesturesデータセットでは,フレームや畳み込みニューラルネットワークを使わずに,競合的な結果が得られる。 我々の研究は、完全イベントベースの処理と純粋にリカレントなネットワークを併用して、いくつかのイベントベースのベンチマークで最先端のタスクパフォーマンスを実現することができることを初めて実証した。

Event-based sensors are well suited for real-time processing due to their fast response times and encoding of the sensory data as successive temporal differences. These and other valuable properties, such as a high dynamic range, are suppressed when the data is converted to a frame-based format. However, most current methods either collapse events into frames or cannot scale up when processing the event data directly event-by-event. In this work, we address the key challenges of scaling up event-by-event modeling of the long event streams emitted by such sensors, which is a particularly relevant problem for neuromorphic computing. While prior methods can process up to a few thousand time steps, our model, based on modern recurrent deep state-space models, scales to event streams of millions of events for both training and inference.We leverage their stable parameterization for learning long-range dependencies, parallelizability along the sequence dimension, and their ability to integrate asynchronous events effectively to scale them up to long event streams.We further augment these with novel event-centric techniques enabling our model to match or beat the state-of-the-art performance on several event stream benchmarks. In the Spiking Speech Commands task, we improve state-of-the-art by a large margin of 6.6% to 87.1%. On the DVS128-Gestures dataset, we achieve competitive results without using frames or convolutional neural networks. Our work demonstrates, for the first time, that it is possible to use fully event-based processing with purely recurrent networks to achieve state-of-the-art task performance in several event-based benchmarks.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 法言語学における機械学習アプローチの説明可能性:ジオ言語的オーサシップ・プロファイリングを事例として

Explainability of Machine Learning Approaches in Forensic Linguistics: A Case Study in Geolinguistic Authorship Profiling ( http://arxiv.org/abs/2404.18510v1 )

ライセンス: Link先を確認
Dana Roemling, Yves Scherrer, Aleksandra Miletic, (参考訳) 法医学的著作者プロファイルは、言語マーカーを使用して、テキストの著者の特徴を推測する。 このタスクは方言分類において並列化され、テキスト自体に基づいたテキストの言語的多様性に関する予測が行われる。 過去数年間、多様性分類(Jauhiainen et al , 2019)や最先端のアプローチは、品種の類似性や予測範囲(eg , Milne et al , 2012; Blodgett et al , 2017)によって最大100%の精度に達するが、その透明性の欠如(Nini, 2023)などにより、法医学的言語学がこれらのアプローチに依存することは稀である。 そこで本稿では,法医学的文脈を考慮した機械学習手法の説明可能性について考察する。 未知のテキストのジオ言語的プロファイリングの手段として,多種多様な分類に焦点を当てた。 このために、Xie et al (2024) によって提案されたアプローチを使って、多様体分類に最も関係のある語彙項目を抽出する。 抽出した語彙的特徴がそれぞれの品種を実際に代表しており、訓練されたモデルは分類の場所名にも依存していることに注意する。

Forensic authorship profiling uses linguistic markers to infer characteristics about an author of a text. This task is paralleled in dialect classification, where a prediction is made about the linguistic variety of a text based on the text itself. While there have been significant advances in the last years in variety classification (Jauhiainen et al., 2019) and state-of-the-art approaches reach accuracies of up to 100% depending on the similarity of varieties and the scope of prediction (e.g., Milne et al., 2012; Blodgett et al., 2017), forensic linguistics rarely relies on these approaches due to their lack of transparency (see Nini, 2023), amongst other reasons. In this paper we therefore explore explainability of machine learning approaches considering the forensic context. We focus on variety classification as a means of geolinguistic profiling of unknown texts. For this we work with an approach proposed by Xie et al. (2024) to extract the lexical items most relevant to the variety classifications. We find that the extracted lexical features are indeed representative of their respective varieties and note that the trained models also rely on place names for classifications.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 音声感情認識モデルに対する敵対的攻撃のシステム評価

A Systematic Evaluation of Adversarial Attacks against Speech Emotion Recognition Models ( http://arxiv.org/abs/2404.18514v1 )

ライセンス: Link先を確認
Nicolas Facchinetti, Federico Simonetta, Stavros Ntalampiras, (参考訳) 音声感情認識(SER)は、様々な分野への応用の可能性や、深層学習技術によってもたらされる可能性により、近年常に注目を集めている。 しかし、近年の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。 本稿では,SERの文脈内での様々な言語や性別に対する,様々な敵対的ホワイトボックスやブラックボックス攻撃の影響を調べることによって,この問題を体系的に評価する。 まず,音声データ処理,特徴抽出,CNN-LSTMアーキテクチャに適した手法を提案する。 その結果、CNN-LSTMモデルが敵対例(AE)に重大な脆弱性があることが明らかになった。 実際、検討された敵攻撃はすべて、構築されたモデルの性能を大幅に低下させることができる。 さらに, 攻撃の有効性を評価する際には, 分析した言語と男女の発話の相違がみられた。 要約すると、この研究は、特にSERシナリオにおけるCNN-LSTMモデルの堅牢性、およびAEsの影響の理解に寄与する。 興味深いことに、私たちの発見はベースラインとして役立ちます。 a)より堅牢なSERアルゴリズムの開発 ロ より効果的な攻撃を設計すること。 c) 防衛の可能性を調査すること。 d)異なる言語と性別の声の相違について理解を深め、 e) 全体として、SERタスクの理解を高めること。

Speech emotion recognition (SER) is constantly gaining attention in recent years due to its potential applications in diverse fields and thanks to the possibility offered by deep learning technologies. However, recent studies have shown that deep learning models can be vulnerable to adversarial attacks. In this paper, we systematically assess this problem by examining the impact of various adversarial white-box and black-box attacks on different languages and genders within the context of SER. We first propose a suitable methodology for audio data processing, feature extraction, and CNN-LSTM architecture. The observed outcomes highlighted the significant vulnerability of CNN-LSTM models to adversarial examples (AEs). In fact, all the considered adversarial attacks are able to significantly reduce the performance of the constructed models. Furthermore, when assessing the efficacy of the attacks, minor differences were noted between the languages analyzed as well as between male and female speech. In summary, this work contributes to the understanding of the robustness of CNN-LSTM models, particularly in SER scenarios, and the impact of AEs. Interestingly, our findings serve as a baseline for a) developing more robust algorithms for SER, b) designing more effective attacks, c) investigating possible defenses, d) improved understanding of the vocal differences between different languages and genders, and e) overall, enhancing our comprehension of the SER task.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# Kフレームワークに基づいたアジャイルの形式仕様言語設計

An Agile Formal Specification Language Design Based on K Framework ( http://arxiv.org/abs/2404.18515v1 )

ライセンス: Link先を確認
Jianyu Zhang, Long Zhang, Yixuan Wu, Feng Yang, (参考訳) フォーマルメソッド(FM)は、ソフトウェアシステムの安全性と信頼性を検証するために現在不可欠である。 しかし、形式的手法による仕様記述は複雑で学習が難しい傾向にあり、様々な複雑な形式的仕様言語や検証技術に精通する必要がある。 ソフトウェアフレームワークの複雑さが増大する中で、既存の仕様記述メソッドはアジリティ要件を満たすには不十分である。 これを解決するために,本稿では,アジャイル形式仕様言語(ASL)を紹介する。 ASL は K Framework と YAML Ain't Markup Language (YAML) に基づいて定義されている。 ASLの設計にはアジャイル設計の原則が組み込まれており、形式仕様の記述をシンプルに、より効率的に、スケーラブルにする。 さらに、ASLをK形式仕様言語に変換し、検証のために実行できる仕様翻訳アルゴリズムを開発した。 実験により,提案手法は仕様作成に必要なコードサイズを大幅に削減し,形式的な仕様作成におけるアジリティの向上を図っている。

Formal Methods (FMs) are currently essential for verifying the safety and reliability of software systems. However, the specification writing in formal methods tends to be complex and challenging to learn, requiring familiarity with various intricate formal specification languages and verification technologies. In response to the increasing complexity of software frameworks, existing specification writing methods fall short in meeting agility requirements. To address this, this paper introduces an Agile Formal Specification Language (ASL). The ASL is defined based on the K Framework and YAML Ain't Markup Language (YAML). The design of ASL incorporates agile design principles, making the writing of formal specifications simpler, more efficient, and scalable. Additionally, a specification translation algorithm is developed, capable of converting ASL into K formal specification language that can be executed for verification. Experimental evaluations demonstrate that the proposed method significantly reduces the code size needed for specification writing, enhancing agility in formal specification writing.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# ChatGPT, DALL-E 3, Sora: 生成AIはどのようにデジタル人文科学研究とサービスを変えたか?

From ChatGPT, DALL-E 3 to Sora: How has Generative AI Changed Digital Humanities Research and Services? ( http://arxiv.org/abs/2404.18518v1 )

ライセンス: Link先を確認
Jiangfeng Liu, Ziyi Wang, Jing Xie, Lei Pei, (参考訳) 次世代の大規模言語モデルは、データサイエンスと計算知能を有機的に組み合わせ、自然言語処理とマルチモーダル情報処理の研究パラダイムを変革し、AIを活用した社会科学研究の新しいトレンドを促進し、デジタル人文科学研究と応用のための新しいアイデアを提供する。 本稿では、デジタル人文科学研究における大規模言語モデルの応用を深く探求し、古代の書籍保護、インテリジェントな処理、学術的革新におけるその大きな可能性を明らかにする。 本稿は、書誌資源の重要性とデジタル保存の必要性について概説し、続いて、ChatGPTのような大規模言語モデルの開発に関する詳細な紹介と、それらの文書管理、コンテンツ理解、異文化間研究への応用について述べる。 この記事では、特定のケースを通じて、AIが古代の書籍の組織、分類、コンテンツ生成をいかに支援できるかを示す。 そして、芸術革新と文化遺産保存におけるAI応用の可能性を探る。 最後に、AI技術によって引き起こされるデジタル人文科学における技術、情報、社会の相互作用における課題と機会について考察する。

Generative large-scale language models create the fifth paradigm of scientific research, organically combine data science and computational intelligence, transform the research paradigm of natural language processing and multimodal information processing, promote the new trend of AI-enabled social science research, and provide new ideas for digital humanities research and application. This article profoundly explores the application of large-scale language models in digital humanities research, revealing their significant potential in ancient book protection, intelligent processing, and academic innovation. The article first outlines the importance of ancient book resources and the necessity of digital preservation, followed by a detailed introduction to developing large-scale language models, such as ChatGPT, and their applications in document management, content understanding, and cross-cultural research. Through specific cases, the article demonstrates how AI can assist in the organization, classification, and content generation of ancient books. Then, it explores the prospects of AI applications in artistic innovation and cultural heritage preservation. Finally, the article explores the challenges and opportunities in the interaction of technology, information, and society in the digital humanities triggered by AI technologies.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# フェデレーション学習環境におけるデータ不均一性の影響と医療ネットワークへの応用

On the Impact of Data Heterogeneity in Federated Learning Environments with Application to Healthcare Networks ( http://arxiv.org/abs/2404.18519v1 )

ライセンス: Link先を確認
Usevalad Milasheuski. Luca Barbieri, Bernardo Camajori Tedeschini, Monica Nicoli, Stefano Savazzi, (参考訳) フェデレートラーニング(FL)は、複数のプライバシに敏感なアプリケーションが、情報を開示することなく、自身のデータセットをグローバルモデル構築に活用することを可能にする。 これらの領域の1つは医療であり、サイロのグループは、精度と一般化を改善したグローバルな予測器を生成するために協力する。 しかし、本質的な課題は、医療データの高度不均一性であり、評価と補償のために高度な技術を必要とすることである。 本稿では,医学データの複雑さに着目し,FL環境における不均一性の数学的形式化と分類を包括的に調査する。 特に、量ベース、特徴およびラベル分布に基づく不均一性に対処する能力に関して、最も人気のあるFLアルゴリズムの評価と比較について述べる。 目的は、医療ネットワークにおけるFLシステムにおけるデータ不均一性の影響の定量的評価と、FLアルゴリズム選択に関するガイドラインを提供することである。 我々の研究は、医療データユースケースがもたらす固有の課題に対して、最も一般的なFLアルゴリズムの7つをベンチマークすることで、既存の研究を超えています。 本論文は,異なる病院サイロによって収集された表型臨床報告を用いて,脳卒中再発のリスクを予測することを目的としている。

Federated Learning (FL) allows multiple privacy-sensitive applications to leverage their dataset for a global model construction without any disclosure of the information. One of those domains is healthcare, where groups of silos collaborate in order to generate a global predictor with improved accuracy and generalization. However, the inherent challenge lies in the high heterogeneity of medical data, necessitating sophisticated techniques for assessment and compensation. This paper presents a comprehensive exploration of the mathematical formalization and taxonomy of heterogeneity within FL environments, focusing on the intricacies of medical data. In particular, we address the evaluation and comparison of the most popular FL algorithms with respect to their ability to cope with quantity-based, feature and label distribution-based heterogeneity. The goal is to provide a quantitative evaluation of the impact of data heterogeneity in FL systems for healthcare networks as well as a guideline on FL algorithm selection. Our research extends beyond existing studies by benchmarking seven of the most common FL algorithms against the unique challenges posed by medical data use cases. The paper targets the prediction of the risk of stroke recurrence through a set of tabular clinical reports collected by different federated hospital silos: data heterogeneity frequently encountered in this scenario and its impact on FL performance are discussed.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# ハイブリッド量子データフレーム伝送のための量子バックボーンネットワーク

Quantum Backbone Networks for Hybrid Quantum Dataframe Transmission ( http://arxiv.org/abs/2404.18521v1 )

ライセンス: Link先を確認
Francesco Vista, Daniel Holme, Stephen DiAdamo, (参考訳) グローバルな量子インターネットを実現するには、量子サブネットワーク間の通信が必要である。 この課題を達成するために、量子バックボーンネットワークと量子サブネットのための複数の設計提案があった。 本研究では,パケット化量子ネットワーク間の量子バックボーンを構築するために,絡み合いと量子テレポーテーションを用いた設計について詳しく述べる。 我々は,パケット化された量子ネットワークと絡み合った量子バックボーンネットワークを相互接続するネットワークインタフェースを設計し,さらに,このハイブリッド量子ネットワークモデル上でのデータ伝送を実現するためのスキームを設計する。 バックボーンネットワークの様々な実装を解析し、衛星リンクを用いて絡み合い資源を継続的に分散するバックボーンネットワークに焦点をあてる。 ネットワーク全体の性能をベンチマークするために,シミュレーションを用いて様々なシステムパラメータを解析する。

To realize a global quantum Internet, there is a need for communication between quantum subnetworks. To accomplish this task, there have been multiple design proposals for a quantum backbone network and quantum subnetworks. In this work, we elaborate on the design that uses entanglement and quantum teleportation to build the quantum backbone between packetized quantum networks. We design a network interface to interconnect packetized quantum networks with entanglement-based quantum backbone networks and, moreover, design a scheme to accomplish data transmission over this hybrid quantum network model. We analyze the use of various implementations of the backbone network, focusing our study on backbone networks that use satellite links to continuously distribute entanglement resources. For feasibility, we analyze various system parameters via simulation to benchmark the performance of the overall network.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 粒子群最適化アルゴリズムによる動的ブロッカド最適化

Dynamical Blockade Optimizing via Particle Swarm Optimization Algorithm ( http://arxiv.org/abs/2404.18523v1 )

ライセンス: Link先を確認
Guang-Yu Zhang, Zhi-Hao Liu, Xun-Wei Xu, (参考訳) 弱い非線形状態における光子遮断は、定常状態において広範囲に研究されているエキサイティングで有望な主題である。 しかし、パルス駆動場のみを用いて、弱い非線形性を持つ単一ボソニックモードで動的ブロッキングを実現する方法はまだ解明されていない。 本稿では,パルス駆動場のパラメータを最適化し,粒子群最適化(PSO)アルゴリズムを用いて単一ボソニックモードでの動的遮断を実現することを提案する。 ガウスパルスと長方形パルスの両方が、弱い非線形性を持つ単一ボソニックモードで動的光子遮断を発生させることを実証した。 パルス駆動場のフーリエ級数展開に基づいて、パルス磁場のみによって駆動されるボソニックモードでは2光子励起の経路が多数存在し、弱い非線形状態の動的遮断はそれらの間の破壊的干渉によって引き起こされる。 我々の研究は、動的遮断の最適化におけるPSOアルゴリズムの有効性を強調するだけでなく、量子エンタングルメントや量子スクイージングといった他の量子効果に対するパラメータを最適化する方法も開きます。

Photon blockade in weak nonlinear regime is an exciting and promising subject that has been extensively studied in the steady state. However, how to achieve dynamic blockade in a single bosonic mode with weak nonlinearity using only pulsed driving field remains unexplored. Here, we propose to optimize the parameters of the pulsed driving field to achieve dynamic blockade in a single bosonic mode with weak nonlinearity via the particle swarm optimization (PSO) algorithm. We demonstrate that both Gaussian and rectangular pulses can be used to generate dynamic photon blockade in a single bosonic mode with weak nonlinearity. Based on the Fourier series expansions of the pulsed driving field, we identify that there are many paths for two-photon excitation in the bosonic mode, even only driven by pulsed field, and the dynamic blockade in weak nonlinear regime is induced by the destructive interference between them. Our work not only highlights the effectiveness of PSO algorithm in optimizing dynamical blockade, but also opens a way to optimize the parameters for other quantum effects, such as quantum entanglement and quantum squeezing.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# AcME-ADを用いた産業プロセスにおけるデータ駆動異常検出の効率的かつ柔軟な解釈性

Enabling Efficient and Flexible Interpretability of Data-driven Anomaly Detection in Industrial Processes with AcME-AD ( http://arxiv.org/abs/2404.18525v1 )

ライセンス: Link先を確認
Valentina Zaccaria, Chiara Masiero, David Dandolo, Gian Antonio Susto, (参考訳) 機械学習は産業4.0にとって重要になっているが、その不透明な性質は信頼を妨げ、価値ある洞察の行動可能な決定への転換を妨げる。 本稿では,産業環境におけるAcME-ADの適用性を検証することで,このニーズに対処する。 最近開発されたこのフレームワークは、異常検出のための高速でユーザフレンドリーな説明を容易にする。 AcME-ADはモデルに依存しない柔軟性を提供し、リアルタイム効率を優先する。 したがって,産業用意思決定支援システムとのシームレスな統合に適していると考えられる。 本稿では,AcME-ADの産業応用について述べる。 これらのテストは、産業環境におけるADと特徴に基づく根本原因分析のための有用なツールとしてのAcME-ADの可能性を示し、産業5.0の時代に信頼できる、行動可能な洞察を得るための道を開いた。

While Machine Learning has become crucial for Industry 4.0, its opaque nature hinders trust and impedes the transformation of valuable insights into actionable decision, a challenge exacerbated in the evolving Industry 5.0 with its human-centric focus. This paper addresses this need by testing the applicability of AcME-AD in industrial settings. This recently developed framework facilitates fast and user-friendly explanations for anomaly detection. AcME-AD is model-agnostic, offering flexibility, and prioritizes real-time efficiency. Thus, it seems suitable for seamless integration with industrial Decision Support Systems. We present the first industrial application of AcME-AD, showcasing its effectiveness through experiments. These tests demonstrate AcME-AD's potential as a valuable tool for explainable AD and feature-based root cause analysis within industrial environments, paving the way for trustworthy and actionable insights in the age of Industry 5.0.
翻訳日:2024-04-30 14:27:01 公開日:2024-04-29
# 例外表面における光学的誘起透明性

Optomechanically Induced Transparency on Exceptional Surfaces ( http://arxiv.org/abs/2404.18526v1 )

ライセンス: Link先を確認
Y. Pan, H. -L. Zhang, Y. -F. Jiao, D. -Y. Wang, S. -L. Su, H. Jing, (参考訳) 例外点 (EP) は非エルミート系の特異点であり、系透過スペクトルは相転移点において著しく変化する。 本稿では,非エルミタンキャビティ光力学系において導波路の構造を設計することによって形成される例外表面(ES)におけるオプトメカニカル・インダスト・透明性(OMIT)スペクトルの変化を研究するための実用的な手法を提案する。 異なる正常点、同一または異なるES上のEP、および例外的導出点におけるシステムの透過スペクトルを比較することにより、位相遷移点において系の透過スペクトルのピーク・ヴァレー変換が得られ、同じまたは異なるES上で系の透過スペクトルの任意の操作が実現できることが分かる。 さらに, システム透過スペクトルにおける高速光の変換・増強現象も本研究で発見されている。 分離されたEPと異なり、提案手法は異なるEPのシステム特性を議論し、よりリッチな伝送スペクトルを見出すことができ、実験的な実装のためのより便利な選択肢を提供し、より高次元の非エルミート系の性質を研究するための道を開くことができる。

Exceptional points (EPs) are singularities in non-Hermitian systems, where the system transmission spectrum varies significantly at the phase transition point. Here, we propose a practical scheme to study the changes of the optomechanically induced transparency (OMIT) spectrum on the exceptional surface (ES), which is formed by designing the structure of the waveguide in a non-Hermitian cavity optomechanical system. By comparing the transmission spectra of the system at different normal points, EPs on the same or different ESs, and exceptional derived points, we find that the peak-valley conversion of the system transmission spectra is obtained at the phase transition point and the arbitrary manipulation of the system transmission spectrum can be realized by moving the system on the same or different ESs. Furthermore, the phenomena of conversion and enhancement of the fast-slow light in the system transmission spectra have also been discovered in our researches. Different from the isolated EP, our proposal can discuss the system properties at different EPs, can find a richer transmission spectrum, and can provide more convenient options for experimental implementation, which paves the way for studying the nature of non-Hermitian systems in a higher dimension.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 参加者間のデータバリアのブリッジ:フェデレートラーニングによるジオエネルギの可能性の評価

Bridging Data Barriers among Participants: Assessing the Potential of Geoenergy through Federated Learning ( http://arxiv.org/abs/2404.18527v1 )

ライセンス: Link先を確認
Weike Peng, Jiaxin Gao, Yuntian Chen, Shengwei Wang, (参考訳) 機械学習アルゴリズムは、エネルギー分野において有望なアプローチとして出現するが、その実践はデータ障壁によって妨げられている。 本研究では、XGBoostモデルに基づく新しいフェデレーション学習(FL)フレームワークを導入し、複数のパーティからアクセス可能で隠蔽されたデータによる安全な協調モデリングを可能にする。 モデルのハイパーパラメータチューニングはベイズ最適化によって達成される。 提案するFL-XGBoost法の有効性を確認するため,地エネルギーセクターにおける古典的二項分類問題に対処するため,分離モデルと集中モデルの比較分析を行った。 その結果,提案するFLフレームワークは,プライバシと精度のバランスが最適であることが判明した。 FLモデルは、特に限られたデータや低相関機能を持つ参加者に対して、別々のモデルよりも精度と一般化能力が優れており、集中型モデルと比較して大きなプライバシー上の利点がある。 FL合意における集約最適化アプローチは、ハイパーパラメータのチューニングに有効である。 本研究は, 協調型・プライバシー保護型FL技術により, 従来と異なる貯水池を評価するための新たな道を開くものである。

Machine learning algorithms emerge as a promising approach in energy fields, but its practical is hindered by data barriers, stemming from high collection costs and privacy concerns. This study introduces a novel federated learning (FL) framework based on XGBoost models, enabling safe collaborative modeling with accessible yet concealed data from multiple parties. Hyperparameter tuning of the models is achieved through Bayesian Optimization. To ascertain the merits of the proposed FL-XGBoost method, a comparative analysis is conducted between separate and centralized models to address a classical binary classification problem in geoenergy sector. The results reveal that the proposed FL framework strikes an optimal balance between privacy and accuracy. FL models demonstrate superior accuracy and generalization capabilities compared to separate models, particularly for participants with limited data or low correlation features and offers significant privacy benefits compared to centralized model. The aggregated optimization approach within the FL agreement proves effective in tuning hyperparameters. This study opens new avenues for assessing unconventional reservoirs through collaborative and privacy-preserving FL techniques.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# トランスファーラーニングに基づく入出力デカップリングネットワークによる化学プロセス異常診断のための非相関残留変数の生成

Generation of Uncorrelated Residual Variables for Chemical Process Fault Diagnosis via Transfer Learning-based Input-Output Decoupled Network ( http://arxiv.org/abs/2404.18528v1 )

ライセンス: Link先を確認
Zhuofu Pan, Qingkai Sui, Yalin Wang, Jiang Luo, Jie Chen, Hongtian Chen, (参考訳) 構造的疎結合は,過去数十年におけるモデルに基づく断層の分離と推定において重要な役割を担っている。 しかし、従来の手法は高次元非線形性やビッグデータのモデリングにおいて限られた効果を示しており、疎結合の概念はデータ駆動フレームワークでは十分に評価されていない。 ビッグデータと複雑な特徴抽出機能で知られているディープラーニングは、最近、残留生成モデルの開発に使われている。 それにもかかわらず、それは疎結合に関連する診断設計を欠いている。 そこで本稿では,IDN(Input-output Decoupled Network)とVAE(Pre-trained Variational Autocoder)を併用した,トランスファーラーニングに基づく診断用インプットアウトプットデカップリングネットワークを提案する。 IDNでは、非相関な残差変数は対角化と並列計算演算によって生成される。 移行学習フェーズでは、VAEの損失と最大平均誤差損失に応じて正規状態の知識が提供され、IDNのトレーニングをガイドする。 トレーニング後、IDNは障害から正常へのマッピングを学習し、同時に故障検出指標と推定故障信号として機能する。 最終的に、TDNの有効性は、数値的な例と化学シミュレーションによって検証される。

Structural decoupling has played an essential role in model-based fault isolation and estimation in past decades, which facilitates accurate fault localization and reconstruction thanks to the diagonal transfer matrix design. However, traditional methods exhibit limited effectiveness in modeling high-dimensional nonlinearity and big data, and the decoupling idea has not been well-valued in data-driven frameworks. Known for big data and complex feature extraction capabilities, deep learning has recently been used to develop residual generation models. Nevertheless, it lacks decoupling-related diagnostic designs. To this end, this paper proposes a transfer learning-based input-output decoupled network (TDN) for diagnostic purposes, which consists of an input-output decoupled network (IDN) and a pre-trained variational autocoder (VAE). In IDN, uncorrelated residual variables are generated by diagonalization and parallel computing operations. During the transfer learning phase, knowledge of normal status is provided according to VAE's loss and maximum mean discrepancy loss to guide the training of IDN. After training, IDN learns the mapping from faulty to normal, thereby serving as the fault detection index and the estimated fault signal simultaneously. At last, the effectiveness of the developed TDN is verified by a numerical example and a chemical simulation.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 局所関数の混合に対する量子符号化

Qubit encoding for a mixture of localized functions ( http://arxiv.org/abs/2404.18529v1 )

ライセンス: Link先を確認
Taichi Kosugi, Shunsuke Daimon, Hirofumi Nishi, Yu-ichiro Matsushita, (参考訳) 量子計算における重要な一般的な手法の1つは振幅符号化である。 このような手法が提案されているが、それぞれの手法は指数関数的古典計算コストや明示的な構成が提供されないオラクルを必要とすることが多い。 近年の実用的な量子計算の要求を踏まえ、局所化複素関数の任意の線形結合を生成する、適度に特殊化された符号化技術を開発した。 計算時間は $\mathcal{O} ( \max ( n_{\mathrm{loc}}^2 \log n_{\mathrm{loc}}, n_{\mathrm{loc}}^2 \log n_q, n_q \log n_q ))$ for $n_q$ data qubits with $\log_2 n_{\mathrm{loc}}$ ancillae である。 さらに振幅の増幅と振幅の減少と組み合わせることで、制御可能なエラーと決定的になり、計算時間は$\mathcal{O} ( \max ( n_{\mathrm{loc}}^{3/2} \log n_{\mathrm{loc}}, n_{\mathrm{loc}}^{3/2} \log n_q, n_q \log n_q ) に短縮される。 実空間における量子化学への我々のスキームの適用に必要な資源を推定する。 また,本手法の有効性を確認するために,実際の超伝導量子コンピュータ上で結果を示す。

One of the crucial generic techniques for quantum computation is the amplitude encoding. Although such techniques have been proposed, each of them often requires exponential classical-computational cost or an oracle whose explicit construction is not provided. Given the recent demands for practical quantum computation, we develop moderately specialized encoding techniques that generate an arbitrary linear combination of localized complex functions. We demonstrate that $n_{\mathrm{loc}}$ discrete Lorentzian functions as an expansion basis set lead to efficient probabilistic encoding, whose computational time is $\mathcal{O} ( \max ( n_{\mathrm{loc}}^2 \log n_{\mathrm{loc}}, n_{\mathrm{loc}}^2 \log n_q, n_q \log n_q ))$ for $n_q$ data qubits equipped with $\log_2 n_{\mathrm{loc}}$ ancillae. Furthermore, amplitude amplification in combination with amplitude reduction renders it deterministic with controllable errors and the computational time is reduced to $\mathcal{O} ( \max ( n_{\mathrm{loc}}^{3/2} \log n_{\mathrm{loc}}, n_{\mathrm{loc}}^{3/2} \log n_q, n_q \log n_q )).$ We provide estimation of required resources for application of our scheme to quantum chemistry in real space. We also show the results on real superconducting quantum computers to confirm the validity of our techniques.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 等価エクストリーム学習マシンによるPDEの高速かつ効率的な予測

Predicting PDEs Fast and Efficiently with Equivariant Extreme Learning Machines ( http://arxiv.org/abs/2404.18530v1 )

ライセンス: Link先を確認
Hans Harder, Sebastian Peitz, (参考訳) 我々は、偏微分方程式(PDE)の予測に極端な学習機械を利用する。 提案手法では,状態空間を複数のウィンドウに分割し,一つのモデルを用いて個別に予測する。 少数のデータポイントしか必要とせず(場合によっては、我々の手法は1つのフルステートスナップショットから学習することができる)、高い精度でPDEのフローを予測できる。 さらに, サンプル効率を高め, 等式を強制するために, 追加の対称性をいかに活用できるかを示す。

We utilize extreme learning machines for the prediction of partial differential equations (PDEs). Our method splits the state space into multiple windows that are predicted individually using a single model. Despite requiring only few data points (in some cases, our method can learn from a single full-state snapshot), it still achieves high accuracy and can predict the flow of PDEs over long time horizons. Moreover, we show how additional symmetries can be exploited to increase sample efficiency and to enforce equivariance.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 機械学習のエンジニアリングプロセスをモデル化するフレームワーク

A Framework to Model ML Engineering Processes ( http://arxiv.org/abs/2404.18531v1 )

ライセンス: Link先を確認
Sergio Morales, Robert Clarisó, Jordi Cabot, (参考訳) 機械学習(ML)ベースのシステムの開発は複雑で、多様なスキルセットを持つ複数の学際的なチームを必要とする。 これはコミュニケーションの問題やベストプラクティスの誤用につながる可能性がある。 プロセスモデルは、タスクオーケストレーションの標準化、コミュニケーションを容易にする共通言語の提供、協調環境の育成によって、これらの課題を軽減することができる。 残念ながら、現在のプロセスモデリング言語はそのようなシステムの開発を記述するのに適していない。 本稿では,機械学習に基づくソフトウェア開発プロセスのモデリングフレームワークについて紹介する。 サポートツールキットも利用可能だ。

The development of Machine Learning (ML) based systems is complex and requires multidisciplinary teams with diverse skill sets. This may lead to communication issues or misapplication of best practices. Process models can alleviate these challenges by standardizing task orchestration, providing a common language to facilitate communication, and nurturing a collaborative environment. Unfortunately, current process modeling languages are not suitable for describing the development of such systems. In this paper, we introduce a framework for modeling ML-based software development processes, built around a domain-specific language and derived from an analysis of scientific and gray literature. A supporting toolkit is also available.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# MileBench: 長期にわたるMLLMのベンチマーク

MileBench: Benchmarking MLLMs in Long Context ( http://arxiv.org/abs/2404.18532v1 )

ライセンス: Link先を確認
Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang, (参考訳) ベンチマークにおけるマルチモーダル大言語モデル(MLLM)の進歩と印象的な性能にもかかわらず、実世界、長期コンテキスト、マルチイメージタスクにおけるそれらの有効性は、ベンチマークの範囲が限られているため不明である。 既存のベンチマークでは、シングルイメージとショートテキストのサンプルにフォーカスすることが多く、マルチイメージタスクを評価する際には、画像数を制限するか、特定のタスク(例えば時系列キャプション)にフォーカスする。 これらの制限に対処するため、MLLMのMultImodal Long-contExt機能をテストするために設計された先駆的なベンチマークであるMileBenchを紹介した。 このベンチマークは、マルチモーダルなコンテキストだけでなく、理解と生成の両方を必要とする複数のタスクを含む。 MLLMの長文適応能力と、長文シナリオにおけるタスク完了能力を体系的に評価するために、診断と現実の2つの異なる評価セットを確立する。 実験結果から,GPT-4(Vision)とGemini 1.5が他より優れているのに対して,MLLMは長いコンテキスト環境では苦戦していることがわかった。 興味深いことに、画像の数が増えるにつれて、パフォーマンスのギャップが大きくなる傾向にある。 我々は,MLLMの長期コンテキスト能力向上に向けた研究努力の強化を強く推奨する。

Despite the advancements and impressive performance of Multimodal Large Language Models (MLLMs) on benchmarks, their effectiveness in real-world, long-context, and multi-image tasks is unclear due to the benchmarks' limited scope. Existing benchmarks often focus on single-image and short-text samples, and when assessing multi-image tasks, they either limit the image count or focus on specific task (e.g time-series captioning), potentially obscuring the performance challenges of MLLMs. To address these limitations, we introduce MileBench, a pioneering benchmark designed to test the MultImodal Long-contExt capabilities of MLLMs. This benchmark comprises not only multimodal long contexts, but also multiple tasks requiring both comprehension and generation. We establish two distinct evaluation sets, diagnostic and realistic, to systematically assess MLLMs' long-context adaptation capacity and their ability to complete tasks in long-context scenarios. Our experimental results, obtained from testing 20 models, revealed that while the closed-source GPT-4(Vision) and Gemini 1.5 outperform others, most open-source MLLMs struggle in long-context situations. Interestingly, the performance gap tends to widen with an increase in the number of images. We strongly encourage an intensification of research efforts towards enhancing MLLMs' long-context capabilities, especially in scenarios involving multiple images.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 概念に基づく説明の可読性と忠実性の評価

Evaluating Readability and Faithfulness of Concept-based Explanations ( http://arxiv.org/abs/2404.18533v1 )

ライセンス: Link先を確認
Meng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang, (参考訳) LLM(Large Language Models)による驚くほど高いインテリジェンスにもかかわらず、私たちはブラックボックスの性質を考慮して、それらを現実のアプリケーションに完全にデプロイすることを脅かしています。 概念に基づく説明は、LSMが学んだことを説明するための有望な道として生まれ、人間にとってより透明になる。 しかしながら、現在の概念評価はヒューリスティックで非決定論的であり、例えば、ケーススタディや人間の評価は、この分野の発展を妨げる傾向にある。 ギャップを埋めるために,信頼と可読性による概念に基づく説明評価にアプローチする。 まず、多種多様な概念に基づく説明に一般化可能な概念の形式的定義を導入する。 これに基づいて、摂動時の出力差による忠実度を定量化する。 次に、概念を最大限に活性化するパターンのコヒーレンスを測定することにより、可読性の自動測定を行う。 この措置は、費用対効果が高く信頼性の高い人的評価の代用として機能する。 最後に, 測定理論に基づいて, 信頼性と妥当性による評価を行うメタ評価手法について述べる。 概念評価尺度の選択を検証し, 通知するために, 広範囲にわたる実験分析を行った。

Despite the surprisingly high intelligence exhibited by Large Language Models (LLMs), we are somehow intimidated to fully deploy them into real-life applications considering their black-box nature. Concept-based explanations arise as a promising avenue for explaining what the LLMs have learned, making them more transparent to humans. However, current evaluations for concepts tend to be heuristic and non-deterministic, e.g. case study or human evaluation, hindering the development of the field. To bridge the gap, we approach concept-based explanation evaluation via faithfulness and readability. We first introduce a formal definition of concept generalizable to diverse concept-based explanations. Based on this, we quantify faithfulness via the difference in the output upon perturbation. We then provide an automatic measure for readability, by measuring the coherence of patterns that maximally activate a concept. This measure serves as a cost-effective and reliable substitute for human evaluation. Finally, based on measurement theory, we describe a meta-evaluation method for evaluating the above measures via reliability and validity, which can be generalized to other tasks as well. Extensive experimental analysis has been conducted to validate and inform the selection of concept evaluation measures.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 大規模言語モデルにおける言語識別の評価と緩和

Evaluating and Mitigating Linguistic Discrimination in Large Language Models ( http://arxiv.org/abs/2404.18534v1 )

ライセンス: Link先を確認
Guoliang Dong, Haoyu Wang, Jun Sun, Xinyu Wang, (参考訳) 様々な言語でテキストでトレーニングすることで、大規模言語モデル(LLM)は多言語のサポートを持ち、異なる言語で記述されたタスクを解く際、顕著な能力を示す。 しかし、LLMは、言語間のトレーニングデータの不均一な分布のため、言語的差別を示すことができる。 つまり、LLMは、同じタスクに直面しながら異なる言語で表現されている場合、応答の一貫性を維持するのが難しい。 本研究では, 安全性と品質の2つの側面から, 各種言語における問合せに応答するLLMの出力の整合性について検討した。 本研究では,4つのLLM(Llama2-13b,Gemma-7b,GPT-3.5-turbo,Gemini-pro)に基づく2つのデータセット(AdvBench,NQ)を用いて解析を行った。 その結果、LLMは、ベンガル語、グルジア語、ネパール語、マイシリ語のクエリ(平均で27.7%)と比較して、英語、フランス語、ロシア語、スペイン語のクエリ(平均で有害なクエリの1.04\%がジェイルブレイクに成功した)で、より強力な人間のアライメント能力を示すことが示された。 さらに、英語、デンマーク語、チェコ語、スロベニア語のクエリでは、LLMは他の言語と比較して高い品質(平均0.1494$F_1$スコア)のレスポンスを生成する傾向にある。 そこで本研究では,LLMにおける言語的差別を軽減するために,類似性に基づく投票方式であるLDFighterを提案する。 LDFighterは、異なる言語話者に対して一貫したサービスを保証する。 良質なクエリと有害なクエリの両方でLDFighterを評価する。 その結果, LDFighterはジェイルブレイクの成功率を著しく低下させるだけでなく, 平均応答品質も向上し, 有効性を示した。

By training on text in various languages, large language models (LLMs) typically possess multilingual support and demonstrate remarkable capabilities in solving tasks described in different languages. However, LLMs can exhibit linguistic discrimination due to the uneven distribution of training data across languages. That is, LLMs are hard to keep the consistency of responses when faced with the same task but depicted in different languages. In this study, we first explore the consistency in the LLMs' outputs responding to queries in various languages from two aspects: safety and quality. We conduct this analysis with two datasets (AdvBench and NQ) based on four LLMs (Llama2-13b, Gemma-7b, GPT-3.5-turbo and Gemini-pro). The results show that LLMs exhibit stronger human alignment capabilities with queries in English, French, Russian, and Spanish (only 1.04\% of harmful queries successfully jailbreak on average) compared to queries in Bengali, Georgian, Nepali and Maithili (27.7\% of harmful queries jailbreak successfully on average). Moreover, for queries in English, Danish, Czech and Slovenian, LLMs tend to produce responses with a higher quality (with 0.1494 $F_1$ score on average) compared to the other languages. Upon these findings, we propose LDFighter, a similarity-based voting, to mitigate the linguistic discrimination in LLMs. LDFighter ensures consistent service for different language speakers. We evaluate LDFighter with both benign queries and harmful queries. The results show that LDFighter not only significantly reduces the jailbreak success rate but also improve the response quality on average, demonstrating its effectiveness.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 不均衡学習問題としての時系列データ拡張

Time Series Data Augmentation as an Imbalanced Learning Problem ( http://arxiv.org/abs/2404.18537v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Nuno Moniz, Ricardo Inácio, Carlos Soares, (参考訳) 近年の最先端予測手法は時系列の収集に基づいて訓練されている。 これらの手法は、しばしばグローバルモデルと呼ばれ、異なる時系列の共通パターンをキャプチャして一般化性能を向上させることができる。 しかし、簡単には利用できない大量のデータが必要である。 これに加えて、グローバルモデルは特定の時系列に固有の関連するパターンをキャプチャできないことがある。 このような場合、データ拡張は時系列データセットのサンプルサイズを増やすのに役立ちます。 この研究の主な貢献は、単変量時系列合成サンプルを生成する新しい方法である。 我々のアプローチは、特定の時系列に関する観測は、すべての観測のごく一部しか表現していないという洞察から来ています。 この文脈では,予測モデルを不均衡な学習課題として訓練する際の問題点を考察する。 オーバーサンプリング戦略は、機械学習の不均衡問題に対処するために使われる一般的なアプローチである。 これらの手法を用いて、合成時系列観測を作成し、予測モデルの精度を向上させる。 5502個の単変量時系列を含む7種類のデータベースを用いて実験を行った。 提案手法は,グローバルモデルとローカルモデルの両方で優れており,この2つのアプローチのトレードオフが良好であることがわかった。

Recent state-of-the-art forecasting methods are trained on collections of time series. These methods, often referred to as global models, can capture common patterns in different time series to improve their generalization performance. However, they require large amounts of data that might not be readily available. Besides this, global models sometimes fail to capture relevant patterns unique to a particular time series. In these cases, data augmentation can be useful to increase the sample size of time series datasets. The main contribution of this work is a novel method for generating univariate time series synthetic samples. Our approach stems from the insight that the observations concerning a particular time series of interest represent only a small fraction of all observations. In this context, we frame the problem of training a forecasting model as an imbalanced learning task. Oversampling strategies are popular approaches used to deal with the imbalance problem in machine learning. We use these techniques to create synthetic time series observations and improve the accuracy of forecasting models. We carried out experiments using 7 different databases that contain a total of 5502 univariate time series. We found that the proposed solution outperforms both a global and a local model, thus providing a better trade-off between these two approaches.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 対称性群に基づく領域分解による偏微分方程式の解法における物理インフォームドニューラルネットワークの強化

Symmetry group based domain decomposition to enhance physics-informed neural networks for solving partial differential equations ( http://arxiv.org/abs/2404.18538v1 )

ライセンス: Link先を確認
Ye Liu, Jie-Ying Li, Li-Sheng Zhang, Lei-Lei Guo, Zhi-Yong Zhang, (参考訳) ドメイン分解は、ドメイン全体の偏微分方程式(PDE)を正確かつ効率的に解くのに苦労する物理情報ニューラルネットワーク(PINN)のジレンマに取り組む効果的な方法を提供するが、隣接する2つのサブドメイン間のインターフェイスを扱う効率的なツールの欠如は、トレーニング効果を著しく妨げ、さらには学習されたソリューションの不連続につながる。 本稿では、リー対称性群を有するPDEの前方および逆問題を解決するために、PINNを強化するための対称性群に基づく領域分解戦略を提案する。 具体的には、まず対称性群を展開させ、柔軟に調整可能な既知の解情報を有する分割線を生成し、トレーニング領域全体を有限個の非重複サブドメインに分割し、次に、PINNと対称性強化PINN法を用いて各サブドメインの解を学習し、最後にPDEの全体解に縫合する。 逆問題では、まず、初期条件と境界条件のデータに作用する対称性群を用いて、PDEの内部領域でラベル付きデータを生成し、その後、サブドメインでニューラルネットワークをトレーニングするだけで、未決定パラメータと解を見つける。 その結果、提案手法は、ドメイン全体のバニラPINNと、同じサブドメイン内の拡張物理インフォームドニューラルネットワークによって失敗するPDEの高精度解を予測することができる。 変換対称性を持つコルテヴェーグ・ド・ブリーズ方程式とスケーリング対称性を持つ非線形粘性流体方程式の数値結果から,学習した解の精度が大きく改善されたことが分かる。

Domain decomposition provides an effective way to tackle the dilemma of physics-informed neural networks (PINN) which struggle to accurately and efficiently solve partial differential equations (PDEs) in the whole domain, but the lack of efficient tools for dealing with the interfaces between two adjacent sub-domains heavily hinders the training effects, even leads to the discontinuity of the learned solutions. In this paper, we propose a symmetry group based domain decomposition strategy to enhance the PINN for solving the forward and inverse problems of the PDEs possessing a Lie symmetry group. Specifically, for the forward problem, we first deploy the symmetry group to generate the dividing-lines having known solution information which can be adjusted flexibly and are used to divide the whole training domain into a finite number of non-overlapping sub-domains, then utilize the PINN and the symmetry-enhanced PINN methods to learn the solutions in each sub-domain and finally stitch them to the overall solution of PDEs. For the inverse problem, we first utilize the symmetry group acting on the data of the initial and boundary conditions to generate labeled data in the interior domain of PDEs and then find the undetermined parameters as well as the solution by only training the neural networks in a sub-domain. Consequently, the proposed method can predict high-accuracy solutions of PDEs which are failed by the vanilla PINN in the whole domain and the extended physics-informed neural network in the same sub-domains. Numerical results of the Korteweg-de Vries equation with a translation symmetry and the nonlinear viscous fluid equation with a scaling symmetry show that the accuracies of the learned solutions are improved largely.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 骨格法に基づくトポロジカル精度のための境界セグメンテーションの強化

Enhancing Boundary Segmentation for Topological Accuracy with Skeleton-based Methods ( http://arxiv.org/abs/2404.18539v1 )

ライセンス: Link先を確認
Chuni Liu, Boyuan Ma, Xiaojuan Ban, Yujie Xie, Hao Wang, Weihua Xue, Jingchao Ma, Ke Xu, (参考訳) トポロジカル一貫性は、ニューロンの電子顕微鏡像における細胞膜セグメンテーション、物質顕微鏡像における粒界セグメンテーション、空中画像における道路セグメンテーションといった、網膜画像の境界セグメンテーションのタスクにおいて重要な役割を果たす。 これらの分野では、セグメンテーション結果のトポロジカルな変化が下流のタスクに深刻な影響を与え、境界自体のミスアライメントを超えることさえある。 セグメンテーション結果の位相精度を高めるために,各物体の形状と画素の位相的意義を考慮に入れた新たな損失関数であるSkea-Topo Aware Losを提案する。 2つの構成要素から構成される。 第一に、スケルトンを意識した重み付き損失は、物体形状をスケルトンでより良くモデル化することにより、セグメント化精度を向上させる。 第二に、境界補正項は、地上の真実と予測において、前景と背景の骨格の両方を用いて予測誤差の位相的臨界画素を効果的に識別し、強調する。 実験により,3つの境界セグメンテーションデータセットの客観的および主観的評価に基づいて,Ve における位相的一貫性を最大 7 ポイント向上することを示す。 コードはhttps://github.com/clovermini/Skea_topo.comで公開されている。

Topological consistency plays a crucial role in the task of boundary segmentation for reticular images, such as cell membrane segmentation in neuron electron microscopic images, grain boundary segmentation in material microscopic images and road segmentation in aerial images. In these fields, topological changes in segmentation results have a serious impact on the downstream tasks, which can even exceed the misalignment of the boundary itself. To enhance the topology accuracy in segmentation results, we propose the Skea-Topo Aware loss, which is a novel loss function that takes into account the shape of each object and topological significance of the pixels. It consists of two components. First, the skeleton-aware weighted loss improves the segmentation accuracy by better modeling the object geometry with skeletons. Second, a boundary rectified term effectively identifies and emphasizes topological critical pixels in the prediction errors using both foreground and background skeletons in the ground truth and predictions. Experiments prove that our method improves topological consistency by up to 7 points in VI compared to 13 state-of-art methods, based on objective and subjective assessments across three different boundary segmentation datasets. The code is available at https://github.com/clovermini/Skea_topo.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# 量子フォノン共振器のフリップチップ構造を持つトランモン量子ビットへの可変結合

Tunable coupling of a quantum phononic resonator to a transmon qubit with flip-chip architecture ( http://arxiv.org/abs/2404.18540v1 )

ライセンス: Link先を確認
Xinhui Ruan, Li Li, Guihan Liang, Silu Zhao, Jia-heng Wang, Yizhou Bu, Bingjie Chen, Xiaohui Song, Xiang Li, He Zhang, Jinzhe Wang, Qianchuan Zhao, Kai Xu, Heng Fan, Yu-xi Liu, Jing Zhang, Zhihui Peng, Zhongcheng Xiang, Dongning Zheng, (参考訳) フォノンと量子ビット間の可変結合を持つハイブリッドシステムは、量子情報処理を前進させる大きな可能性を示している。 本研究では, 表面波共振器 (SAW) とトランスモンキュービットとの強い結合をガルバニック-接触フリップチップ技術に基づいて実証する。 結合強度は2.pi\times$7.0 MHz から -2.pi\times$20.6 MHz まで様々で、真空ラビ振動周波数から抽出される。 結合強度の異なるクビットのフォノン誘起アクスタークシフトも示す。 我々のアプローチは、量子音響学とハイブリッドシステムを研究するための優れた実験プラットフォームを提供する。

A hybrid system with tunable coupling between phonons and qubits shows great potential for advancing quantum information processing. In this work, we demonstrate strong and tunable coupling between a surface acoustic wave (SAW) resonator and a transmon qubit based on galvanic-contact flip-chip technique. The coupling strength varies from $2\pi\times$7.0 MHz to -$2\pi\times$20.6 MHz, which is extracted from different vacuum Rabi oscillation frequencies. The phonon-induced ac Stark shift of the qubit at different coupling strengths is also shown. Our approach offers a good experimental platform for exploring quantum acoustics and hybrid systems.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# Windowsのマルウェア検出と分類のための機械学習:方法、課題、今後の研究

Machine Learning for Windows Malware Detection and Classification: Methods, Challenges and Ongoing Research ( http://arxiv.org/abs/2404.18541v1 )

ライセンス: Link先を確認
Daniel Gibert, (参考訳) この章では、読者がWindowsオペレーティングシステム用に設計されたマルウェア検出システムを構築するために、機械学習がどのように適用されたかについて検討する。 この章は、機械学習パイプラインの主要なコンポーネントの導入から始まり、最新データセットの収集とメンテナンスの課題を強調している。 この導入に続いて、様々な最先端のマルウェア検知器が提示され、機能ベースとディープラーニングベースの検出器の両方を含んでいる。 その後のセクションでは、コンセプトドリフトや敵攻撃を含む、機械学習ベースのマルウェア検知器が直面する主な課題を紹介している。 最後に、この章は、敵防衛に関する現在進行中の研究の概要を概説することで締めくくっている。

In this chapter, readers will explore how machine learning has been applied to build malware detection systems designed for the Windows operating system. This chapter starts by introducing the main components of a Machine Learning pipeline, highlighting the challenges of collecting and maintaining up-to-date datasets. Following this introduction, various state-of-the-art malware detectors are presented, encompassing both feature-based and deep learning-based detectors. Subsequent sections introduce the primary challenges encountered by machine learning-based malware detectors, including concept drift and adversarial attacks. Lastly, this chapter concludes by providing a brief overview of the ongoing research on adversarial defenses.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# タイムマシンGPT

Time Machine GPT ( http://arxiv.org/abs/2404.18543v1 )

ライセンス: Link先を確認
Felix Drinkall, Eghbal Rahimikia, Janet B. Pierrehumbert, Stefan Zohren, (参考訳) 大規模言語モデル(LLM)は、時間的メタデータを伴うデータセットの欠如を反映して、広範かつ時間的に区別されないテキストコーパスでしばしば訓練される。 このアプローチは言語の性質の進化と一致していない。 時相適応型言語モデルを作成する従来の手法は、時間固有のデータに基づいて静的モデルを事前学習することに依存することが多い。 本稿では,TyMaGPT (Time Machine GPT) と呼ばれる,非予測型(non-progsticative) に特化して設計した一連のポイントインタイムLCMを提案する。 これにより、将来の事実情報や言語的変化について情報のないままでいられる。 この戦略は言語の進化を理解するのに有用であり、時系列予測のような動的文脈でモデルを適用する場合、将来の情報の見通しが問題となる場合など、重要な意味を持つ。 モデルとトレーニングデータセットの両方にアクセスできます。

Large language models (LLMs) are often trained on extensive, temporally indiscriminate text corpora, reflecting the lack of datasets with temporal metadata. This approach is not aligned with the evolving nature of language. Conventional methods for creating temporally adapted language models often depend on further pre-training static models on time-specific data. This paper presents a new approach: a series of point-in-time LLMs called Time Machine GPT (TiMaGPT), specifically designed to be nonprognosticative. This ensures they remain uninformed about future factual information and linguistic changes. This strategy is beneficial for understanding language evolution and is of critical importance when applying models in dynamic contexts, such as time-series forecasting, where foresight of future information can prove problematic. We provide access to both the models and training datasets.
翻訳日:2024-04-30 14:17:13 公開日:2024-04-29
# インシデント応答GPT:生成人工知能を用いた交通事故対応計画の作成

IncidentResponseGPT: Generating Traffic Incident Response Plans with Generative Artificial Intelligence ( http://arxiv.org/abs/2404.18550v1 )

ライセンス: Link先を確認
Artur Grigorev, Khaled Saleh, Yuming Ou, (参考訳) 道路事故による交通渋滞は、都市環境において大きな課題となり、汚染、経済的な損失、交通渋滞が増大する。 これらのインシデントを効果的に管理することは、その悪影響を軽減するために不可欠であるが、都市交通システムの複雑さと潜在的なインシデントの多様性は、かなりの障害を表している。 本稿では,迅速な情報提供,適応可能な交通事故対応計画を提供することで,交通管理当局を支援する革新的なソリューションであるインシデントレスGPTを紹介する。 生成型AIプラットフォームをリアルタイムトラフィックインシデントレポートと運用ガイドラインに統合することにより,交通インシデントに対応する意思決定プロセスの合理化を目指す。 この研究は、交通管理におけるAIの展開に関わる重要な課題に対処する。都市交通ネットワークの複雑さの克服、リアルタイムな意思決定能力の確保、地方法と規制の整合、AI駆動システムに対する公的な受け入れの確保などだ。 事故報告のテキスト分析、交通シミュレーションによるAIレコメンデーションの検証、透明で検証されたAIシステムの実装の組み合わせを通じて、IncidenceResponseGPTは、トラフィックフローを最適化し、交通インシデントに直面した混雑を低減するための有望なアプローチを提供する。 この作業は、交通管理当局、緊急対応チーム、自治体など、都市交通管理とインシデント管理のすべての統合的なステークホルダーにも及んでいる。 本研究は,交通事故の迅速解決だけでなく,都市交通システムへの全体的な影響を最小限に抑える枠組みを開発することを目的としている。

Traffic congestion due to road incidents poses a significant challenge in urban environments, leading to increased pollution, economic losses, and traffic congestion. Efficiently managing these incidents is imperative for mitigating their adverse effects; however, the complexity of urban traffic systems and the variety of potential incidents represent a considerable obstacle. This paper introduces IncidentResponseGPT, an innovative solution designed to assist traffic management authorities by providing rapid, informed, and adaptable traffic incident response plans. By integrating a Generative AI platform with real-time traffic incident reports and operational guidelines, our system aims to streamline the decision-making process in responding to traffic incidents. The research addresses the critical challenges involved in deploying AI in traffic management, including overcoming the complexity of urban traffic networks, ensuring real-time decision-making capabilities, aligning with local laws and regulations, and securing public acceptance for AI-driven systems. Through a combination of text analysis of accident reports, validation of AI recommendations through traffic simulation, and implementation of transparent and validated AI systems, IncidentResponseGPT offers a promising approach to optimizing traffic flow and reducing congestion in the face of traffic incidents. The relevance of this work extends to traffic management authorities, emergency response teams, and municipal bodies, all integral stakeholders in urban traffic control and incident management. By proposing a novel solution to the identified challenges, this research aims to develop a framework that not only facilitates faster resolution of traffic incidents but also minimizes their overall impact on urban traffic systems.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# SIDBench: 合成画像検出の信頼性を評価するPythonフレームワーク

SIDBench: A Python Framework for Reliably Assessing Synthetic Image Detection Methods ( http://arxiv.org/abs/2404.18552v1 )

ライセンス: Link先を確認
Manos Schinas, Symeon Papadopoulos, (参考訳) 生成AI技術は、実際のものと区別がつかないような、完全に合成された画像を生成するための、さまざまなツールを提供する。 画像の一部を変更する方法とは異なり、完全合成画像の作成にはユニークな課題があり、SID(Synthetic Image Detection)メソッドも最近それに取り組むようになった。 しかし、ベンチマークデータセットの実験結果と、ワイルドなメソッドのパフォーマンスの間には、大きなギャップがしばしばあります。 本稿では、SIDの評価ニーズをよりよく解決し、このギャップを埋めるために、いくつかの最先端のSIDモデルを統合するベンチマークフレームワークを提案する。 統合モデルの選択は、様々な入力特徴と異なるネットワークアーキテクチャの活用に基づいており、幅広い手法を網羅することを目的としていた。 このフレームワークは、画像合成技術の急速な改善を反映して、様々な生成モデル、高レベルのフォトリアリズム、解像度を備えた最近のデータセットを活用している。 さらに、このフレームワークは、JPEG圧縮などのオンライン共有資産に共通する画像変換が検出性能にどのように影響するかを研究することができる。 SIDBenchはhttps://github.com/mever-team/sidbenchで利用可能であり、新しいデータセットとSIDモデルを簡単に含めるようにモジュール方式で設計されている。

The generative AI technology offers an increasing variety of tools for generating entirely synthetic images that are increasingly indistinguishable from real ones. Unlike methods that alter portions of an image, the creation of completely synthetic images presents a unique challenge and several Synthetic Image Detection (SID) methods have recently appeared to tackle it. Yet, there is often a large gap between experimental results on benchmark datasets and the performance of methods in the wild. To better address the evaluation needs of SID and help close this gap, this paper introduces a benchmarking framework that integrates several state-of-the-art SID models. Our selection of integrated models was based on the utilization of varied input features, and different network architectures, aiming to encompass a broad spectrum of techniques. The framework leverages recent datasets with a diverse set of generative models, high level of photo-realism and resolution, reflecting the rapid improvements in image synthesis technology. Additionally, the framework enables the study of how image transformations, common in assets shared online, such as JPEG compression, affect detection performance. SIDBench is available on https://github.com/mever-team/sidbench and is designed in a modular manner to enable easy inclusion of new datasets and SID models.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 時系列予測のためのLSTMネットワークにおける共変量予測の有効性評価

Evaluating the effectiveness of predicting covariates in LSTM Networks for Time Series Forecasting ( http://arxiv.org/abs/2404.18553v1 )

ライセンス: Link先を確認
Gareth Davies, (参考訳) 自己回帰リカレントニューラルネットワークは時系列予測タスクに広く使われ、単変量および特定の多変量シナリオにおける有効性を示す。 しかしながら、それらの固有の構造は、時間に依存した未来の共変体の統合を容易には許容しない。 Salinasらによって2019年に概説された提案されたソリューションは、多変量フレームワークで共変量とターゲット変数の両方を予測することを提案している。 本研究では,公開時系列データセットの総合的なテストを行い,高相関な共変量と今後の時間ステップ値を人工的に導入した。 本評価は,これらの共変量を考慮したLSTMネットワークの性能評価を行い,単変量ベースラインと比較することを目的とした。 本研究の一環として,RNNアーキテクチャと組み合わせた季節時間セグメントを用いた新しい手法を提案する。 120モデル以上のモデルから得られた結果から、特定の条件下では、目標変数と共変数を併用することで、モデル全体の性能を向上させることができるが、多変量予測と単変量予測の間には顕著な性能格差が存在することが判明した。 驚くべきことに、将来の目標値についてネットワークに知らせる共変量を備えても、多変量予測は性能が劣った。 本質的に、複数の値を予測するためにネットワークを説得することは、情報的共変量が存在する場合でも、性能をモデル化するのに有害である。 これらの結果から,LSTMアーキテクチャはモデル精度の向上が期待できるタスク予測に適していない可能性が示唆された。

Autoregressive Recurrent Neural Networks are widely employed in time-series forecasting tasks, demonstrating effectiveness in univariate and certain multivariate scenarios. However, their inherent structure does not readily accommodate the integration of future, time-dependent covariates. A proposed solution, outlined by Salinas et al 2019, suggests forecasting both covariates and the target variable in a multivariate framework. In this study, we conducted comprehensive tests on publicly available time-series datasets, artificially introducing highly correlated covariates to future time-step values. Our evaluation aimed to assess the performance of an LSTM network when considering these covariates and compare it against a univariate baseline. As part of this study we introduce a novel approach using seasonal time segments in combination with an RNN architecture, which is both simple and extremely effective over long forecast horizons with comparable performance to many state of the art architectures. Our findings from the results of more than 120 models reveal that under certain conditions jointly training covariates with target variables can improve overall performance of the model, but often there exists a significant performance disparity between multivariate and univariate predictions. Surprisingly, even when provided with covariates informing the network about future target values, multivariate predictions exhibited inferior performance. In essence, compelling the network to predict multiple values can prove detrimental to model performance, even in the presence of informative covariates. These results suggest that LSTM architectures may not be suitable for forecasting tasks where predicting covariates would typically be expected to enhance model accuracy.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 量子コンピューティングスペシャリストのための機械学習

Machine Learning for Quantum Computing Specialists ( http://arxiv.org/abs/2404.18555v1 )

ライセンス: Link先を確認
Daniel Goldsmith, M M Hassan Mahmud, (参考訳) 量子機械学習(QML)は、量子コンピューティングにおける有望な早期ユースケースである。 この5年間、理論研究や数値シミュレーションから概念の証明まで進歩してきた。 現代の量子デバイスで実証されたユースケースには、医療画像とIrisデータセットからの項目の分類、手書き画像の分類と生成、毒性スクリーニング、確率分布の学習などがある。 QMLの潜在的な利点は、古典的に見つからない特徴マップの高速なトレーニングと識別である。 これらの例は商用利用の規模に欠けており、QMLアルゴリズムが古典的なソリューションを置き換えるのに数年かかるかもしれないが、QMLはエキサイティングな分野である。 この記事は、量子コンピューティングの知識をすでに持っている人のために書かれており、量子機械学習を研究する準備ができている古典的機械学習の用語といくつかの応用について、基礎的な概要を知りたいと願っている。 読者はヒルベルト空間(内積を持つベクトル空間)を含む関連する線型代数を既に理解している。

Quantum machine learning (QML) is a promising early use case for quantum computing. There has been progress in the last five years from theoretical studies and numerical simulations to proof of concepts. Use cases demonstrated on contemporary quantum devices include classifying medical images and items from the Iris dataset, classifying and generating handwritten images, toxicity screening, and learning a probability distribution. Potential benefits of QML include faster training and identification of feature maps not found classically. Although, these examples lack the scale for commercial exploitation, and it may be several years before QML algorithms replace the classical solutions, QML is an exciting area. This article is written for those who already have a sound knowledge of quantum computing and now wish to gain a basic overview of the terminology and some applications of classical machine learning ready to study quantum machine learning. The reader will already understand the relevant relevant linear algebra, including Hilbert spaces, a vector space with an inner product.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# GPT-4はL2分析に有効か?

Can GPT-4 do L2 analytic assessment? ( http://arxiv.org/abs/2404.18557v1 )

ライセンス: Link先を確認
Stefano Bannò, Hari Krishna Vydana, Kate M. Knill, Mark J. F. Gales, (参考訳) 第二言語(L2)の習熟度を評価するための自動エッセイスコア(AES)は、何十年にもわたって教育の文脈で使われている、しっかりと確立された技術である。 総合的なスコアリングは、人間のパフォーマンスと一致したり、超えたりするようなAESの進歩を見てきたが、解析的なスコアリングは、人間のスコアリングプロセスから欠陥や欠点を継承するので、依然として問題に直面している。 近年の大規模言語モデルの導入は,L2書記能力の特定の面の評価を自動化する新たな機会を提供する。 本稿では,GPT-4をゼロショット方式で,共通ヨーロッパ参照フレームワークに基づく総合的なスコアを付加した公開データセット上で一連の実験を行い,その基盤となる分析成分に関する詳細な情報を抽出することを目的とする。 自動予測された分析スコアと,個々の習熟度成分に関連する複数の特徴との間に有意な相関関係が認められた。

Automated essay scoring (AES) to evaluate second language (L2) proficiency has been a firmly established technology used in educational contexts for decades. Although holistic scoring has seen advancements in AES that match or even exceed human performance, analytic scoring still encounters issues as it inherits flaws and shortcomings from the human scoring process. The recent introduction of large language models presents new opportunities for automating the evaluation of specific aspects of L2 writing proficiency. In this paper, we perform a series of experiments using GPT-4 in a zero-shot fashion on a publicly available dataset annotated with holistic scores based on the Common European Framework of Reference and aim to extract detailed information about their underlying analytic components. We observe significant correlations between the automatically predicted analytic scores and multiple features associated with the individual proficiency components.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# LangBiTe: 大規模言語モデルでバイアスをテストするプラットフォーム

LangBiTe: A Platform for Testing Bias in Large Language Models ( http://arxiv.org/abs/2404.18558v1 )

ライセンス: Link先を確認
Sergio Morales, Robert Clarisó, Jordi Cabot, (参考訳) 大規模言語モデル(LLM)を様々なソフトウェアアプリケーションに統合することは、潜在的なバイアスに対する懸念を引き起こす。 典型的には、これらのモデルはフォーラム、ウェブサイト、ソーシャルメディア、その他のインターネットソースから取り除かれた大量のデータに基づいて訓練される。 この問題に対処するため,LangBiTeはLLM内のバイアスの存在を体系的に評価するテストプラットフォームである。 LangBiTeを使うことで、開発チームはテストシナリオを調整し、ユーザ定義の倫理的要件に従ってテストケースを自動生成し、実行することが可能になる。 それぞれのテストは、LSMに入力されたプロンプトと、LSMのバイアスの識別に対する応答を精査する対応するテストオラクルで構成されている。 LangBiteは、LLMのバイアス評価と、最初の倫理的要件と得られた洞察の間のエンドツーエンドトレーサビリティを提供する。

The integration of Large Language Models (LLMs) into various software applications raises concerns about their potential biases. Typically, those models are trained on a vast amount of data scrapped from forums, websites, social media and other internet sources, which may instill harmful and discriminating behavior into the model. To address this issue, we present LangBiTe, a testing platform to systematically assess the presence of biases within an LLM. LangBiTe enables development teams to tailor their test scenarios, and automatically generate and execute the test cases according to a set of user-defined ethical requirements. Each test consists of a prompt fed into the LLM and a corresponding test oracle that scrutinizes the LLM's response for the identification of biases. LangBite provides users with the bias evaluation of LLMs, and end-to-end traceability between the initial ethical requirements and the insights obtained.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# チェーン・オブ・ソート推論を用いた大規模言語モデルにおけるセールスパーソンの対話戦略の注入

Injecting Salesperson's Dialogue Strategies in Large Language Models with Chain-of-Thought Reasoning ( http://arxiv.org/abs/2404.18564v1 )

ライセンス: Link先を確認
Wen-Yu Chang, Yun-Nung Chen, (参考訳) 対話システムとコーパスの最近の研究は、タスク指向(TOD)とオープンドメイン(チップチャット)の2つの主要なカテゴリに焦点を当てている。 TODシステムはユーザが特定のタスクを遂行するのに役立つ。 しかし、現実のシナリオでは、対話中にユーザ意図が明らかになることが多い。 これは、チャットからタスク指向のシナリオへ移行し、セールスエージェントを訓練する対話をシミュレートするものだ。 残念ながら、最初のデータはスムーズなトランジションとコヒーレントなロングターンダイアログを欠いていたため、セールス・カストマー相互作用の自然性は低かった。 これらの問題に対処するために、改良されたデータセットであるSalesBot 2.0を提案する。 戦略的なプロンプトを通じて、大きな言語モデル(LLM)からのコモンセンス知識を活用する。 さらに,営業担当者のインタラクションに基づいて,チェーン・オブ・ソート(CoT)推論を用いてトレーニングした,SalesAgentという新しいモデルを導入する。 このモデルは、トピックの移行、ユーザの意図の理解、適切な戦略の選択に優れています。 多様なユーザシミュレーションを用いた実験は,LLMにおける対話戦略の制御における本手法の有効性を検証した。 さらに、SalesBot 2.0はコヒーレンスを強化し、攻撃性を低減し、セールス-顧客インタラクションのためのモデル学習を改善する。

Recent research in dialogue systems and corpora has focused on two main categories: task-oriented (TOD) and open-domain (chit-chat) dialogues. TOD systems help users accomplish specific tasks, while open-domain systems aim to create engaging conversations. However, in real-world scenarios, user intents are often revealed during interactions. A recent study introduced SalesBot, which simulates dialogues transitioning from chit-chat to task-oriented scenarios to train sales agents. Unfortunately, the initial data lacked smooth transitions and coherent long-turn dialogues, resulting in poor naturalness in sales-customer interactions. To address these issues, this paper presents SalesBot 2.0, an improved dataset. It leverages commonsense knowledge from large language models (LLMs) through strategic prompting. Additionally, we introduce a novel model called SalesAgent, trained on salesperson's interactions, using chain-of-thought (CoT) reasoning. This model excels in transitioning topics, understanding user intents, and selecting appropriate strategies. Experiments using diverse user simulations validate the effectiveness of our method in controlling dialogue strategies in LLMs. Furthermore, SalesBot 2.0 enhances coherence and reduces aggression, facilitating better model learning for sales-customer interactions.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# コード大言語モデルにおけるサイバーセキュリティ脆弱性の評価

Assessing Cybersecurity Vulnerabilities in Code Large Language Models ( http://arxiv.org/abs/2404.18567v1 )

ライセンス: Link先を確認
Md Imran Hossen, Jianyi Zhang, Yinzhi Cao, Xiali Hei, (参考訳) 命令調整型コード大言語モデル(Code LLM)は、AIコーディングアシスタントとしてますます活用され、様々なアプリケーションに統合されている。 しかし、これらのモデルの広範な統合から生じるサイバーセキュリティの脆弱性と影響は、この領域での限られた研究のため、まだ完全には理解されていない。 このギャップを埋めるために,本論文では,命令付きコードLLMのサイバーセキュリティ脆弱性を敵攻撃に対して評価するためのフレームワークであるEvilInstructCoderを提案する。 EvilInstructCoderはAdversarial Code Injection Engineを導入し、悪意のあるコードスニペットを自動的に生成し、それらを良質なコードに注入して、有毒なインストラクションチューニングデータセットに注入する。 実際の脅威モデルを組み込んで、様々な能力を持つ現実世界の敵を反映し、これらの多様な敵攻撃シナリオ下での命令チューニングされたコードLLMの悪用性を評価する。 EvilInstructCoderの使用を通じて,CodeLlama,DeepSeek-Coder,StarCoder2の3つの最先端コードLLMモデルを用いて,さまざまな攻撃シナリオ下で,コーディングタスクのための命令チューニングの実施可能性について包括的な調査を行う。 実験の結果、これらのモデルに重大な脆弱性があることが明らかとなり、自然言語命令に応答して、敵がモデルを操作して、良質なコードコンテキスト内で悪意あるペイロードを生成できることが確認された。 例えば、バックドアアタック設定では、81のサンプル(全命令データセットの0.5%)を毒殺することで、1(ASR@1)でのアタック成功率を76\%から86\%の異なるモデルファミリで達成する。 我々の研究は、命令チューニングされたCode LLMによって引き起こされる重要なサイバーセキュリティの脆弱性に光を当て、識別された脆弱性を緩和するための堅牢な防御メカニズムが緊急に必要であることを強調している。

Instruction-tuned Code Large Language Models (Code LLMs) are increasingly utilized as AI coding assistants and integrated into various applications. However, the cybersecurity vulnerabilities and implications arising from the widespread integration of these models are not yet fully understood due to limited research in this domain. To bridge this gap, this paper presents EvilInstructCoder, a framework specifically designed to assess the cybersecurity vulnerabilities of instruction-tuned Code LLMs to adversarial attacks. EvilInstructCoder introduces the Adversarial Code Injection Engine to automatically generate malicious code snippets and inject them into benign code to poison instruction tuning datasets. It incorporates practical threat models to reflect real-world adversaries with varying capabilities and evaluates the exploitability of instruction-tuned Code LLMs under these diverse adversarial attack scenarios. Through the use of EvilInstructCoder, we conduct a comprehensive investigation into the exploitability of instruction tuning for coding tasks using three state-of-the-art Code LLM models: CodeLlama, DeepSeek-Coder, and StarCoder2, under various adversarial attack scenarios. Our experimental results reveal a significant vulnerability in these models, demonstrating that adversaries can manipulate the models to generate malicious payloads within benign code contexts in response to natural language instructions. For instance, under the backdoor attack setting, by poisoning only 81 samples (0.5\% of the entire instruction dataset), we achieve Attack Success Rate at 1 (ASR@1) scores ranging from 76\% to 86\% for different model families. Our study sheds light on the critical cybersecurity vulnerabilities posed by instruction-tuned Code LLMs and emphasizes the urgent necessity for robust defense mechanisms to mitigate the identified vulnerabilities.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 語彙的置換による意味的変化の分析

Analyzing Semantic Change through Lexical Replacements ( http://arxiv.org/abs/2404.18570v1 )

ライセンス: Link先を確認
Francesco Periti, Pierluigi Cassotti, Haim Dubossarsky, Nina Tahmasebi, (参考訳) 現代言語モデルは、その周囲の文脈に基づいて単語を文脈化することができる。 しかし、この能力はセマンティックな変化によってしばしば損なわれ、事前学習中に遭遇しない新しい予期せぬ文脈で言葉が使われるようになる。 本稿では,<textit{semantic change} を,<textit{lexical replacements} が導入した予期せぬ文脈の影響を研究することによってモデル化する。 そこで本研究では,目的語を様々な関連性の語彙置換に置き換え,異なる種類の意味変化をシミュレートする「textit{replacement schema」を提案する。 さらに、セマンティックチェンジのための新しい \textit{interpretable} モデルの基礎として、置換スキーマを利用する。 また,LLaMaのセマンティックチェンジ検出への応用を初めて評価した。

Modern language models are capable of contextualizing words based on their surrounding context. However, this capability is often compromised due to semantic change that leads to words being used in new, unexpected contexts not encountered during pre-training. In this paper, we model \textit{semantic change} by studying the effect of unexpected contexts introduced by \textit{lexical replacements}. We propose a \textit{replacement schema} where a target word is substituted with lexical replacements of varying relatedness, thus simulating different kinds of semantic change. Furthermore, we leverage the replacement schema as a basis for a novel \textit{interpretable} model for semantic change. We are also the first to evaluate the use of LLaMa for semantic change detection.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 力学系における未観測状態の統治方程式の学習

Learning Governing Equations of Unobserved States in Dynamical Systems ( http://arxiv.org/abs/2404.18572v1 )

ライセンス: Link先を確認
Gevik Grigorian, Sandip V. George, Simon Arridge, (参考訳) データ駆動モデリングと科学機械学習は、データを記述するのに適したモデルを決定する上で大きな進歩を担っている。 力学系の中では、システム方程式がニューラルネットワークによって制御されるように設定されているニューラル常微分方程式(ODE)が近年、この課題の一般的なツールとなっている。 しかし、部分的にしか守られていないシステムにはあまり重点を置いていない。 本研究では,システム方程式をニューラルネットワークとドメイン固有知識の組み合わせと記号回帰(SR)の組み合わせで制御し,部分的に観測された力学系の制御方程式を学習するハイブリッドニューラルネットワークODE構造を用いる。 このアプローチは、ロトカ・ボルテラ系の3次元モデルとローレンツ系の5次元モデルという2つのケーススタディで検証する。 本手法は, 観測ノイズに頑健さを伴って, 観測対象外状態の真の支配方程式を学習できることを実証する。

Data driven modelling and scientific machine learning have been responsible for significant advances in determining suitable models to describe data. Within dynamical systems, neural ordinary differential equations (ODEs), where the system equations are set to be governed by a neural network, have become a popular tool for this challenge in recent years. However, less emphasis has been placed on systems that are only partially-observed. In this work, we employ a hybrid neural ODE structure, where the system equations are governed by a combination of a neural network and domain-specific knowledge, together with symbolic regression (SR), to learn governing equations of partially-observed dynamical systems. We test this approach on two case studies: A 3-dimensional model of the Lotka-Volterra system and a 5-dimensional model of the Lorenz system. We demonstrate that the method is capable of successfully learning the true underlying governing equations of unobserved states within these systems, with robustness to measurement noise.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 不確実性定量化を用いた自律走行システムの安全性の悪影響予測

Predicting Safety Misbehaviours in Autonomous Driving Systems using Uncertainty Quantification ( http://arxiv.org/abs/2404.18573v1 )

ライセンス: Link先を確認
Ruben Grewal, Paolo Tonella, Andrea Stocco, (参考訳) 予期せぬ状況の自動認識は、自動運転車の安全性において重要な役割を担っている。 本稿では, 深層学習領域からのベイズ的不確実性定量化手法を, システムレベルのシミュレーションベーステストにおいて, 安全クリティカルな誤動作の予測試験として評価する。 具体的には、車両が実行する際の不確実性スコアを計算し、高い不確実性スコアは、障害発生時の運転行動と安全を区別するために使用できる、サポートされていない実行条件の指標であることを示す。 本研究では, MC-DropoutとDeep Ensemblesの2つのベイズ的不確実性定量化手法(MC-DropoutとDeep Ensembles)による誤動作回避の有効性と計算オーバーヘッドの評価を行った。 全体として、変異検査によって導入されたアウト・オブ・ディストリビューションとアンセーフ条件の両方からなるUdacityシミュレータの3つのベンチマークにおいて、どちらの手法も事前に数秒の早期警告を提供する多数のアウト・オブ・バウンドエピソードを検知し、オートエンコーダとアテンションマップに基づく2つの最先端の振る舞い予測手法を効率と効率で上回った。 とくにDeep Ensemblesは、誤報なしにほとんどの誤動作を検知し、比較的少数のモデルを使っていても、リアルタイムに検出できるようにした。 この結果から,不確実性定量化手法の導入は,ディープニューラルネットワークに基づく自律走行車において,フェールセーフな機構を構築するための有効なアプローチであることが示唆された。

The automated real-time recognition of unexpected situations plays a crucial role in the safety of autonomous vehicles, especially in unsupported and unpredictable scenarios. This paper evaluates different Bayesian uncertainty quantification methods from the deep learning domain for the anticipatory testing of safety-critical misbehaviours during system-level simulation-based testing. Specifically, we compute uncertainty scores as the vehicle executes, following the intuition that high uncertainty scores are indicative of unsupported runtime conditions that can be used to distinguish safe from failure-inducing driving behaviors. In our study, we conducted an evaluation of the effectiveness and computational overhead associated with two Bayesian uncertainty quantification methods, namely MC- Dropout and Deep Ensembles, for misbehaviour avoidance. Overall, for three benchmarks from the Udacity simulator comprising both out-of-distribution and unsafe conditions introduced via mutation testing, both methods successfully detected a high number of out-of-bounds episodes providing early warnings several seconds in advance, outperforming two state-of-the-art misbehaviour prediction methods based on autoencoders and attention maps in terms of effectiveness and efficiency. Notably, Deep Ensembles detected most misbehaviours without any false alarms and did so even when employing a relatively small number of models, making them computationally feasible for real-time detection. Our findings suggest that incorporating uncertainty quantification methods is a viable approach for building fail-safe mechanisms in deep neural network-based autonomous vehicles.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# GEEvo: 進化的アルゴリズムによるゲーム経済の生成とバランス

GEEvo: Game Economy Generation and Balancing with Evolutionary Algorithms ( http://arxiv.org/abs/2404.18574v1 )

ライセンス: Link先を確認
Florian Rupp, Kai Eckert, (参考訳) ゲームエコノミーのデザインは、プレイヤーの体験と進行速度を大きく形作る。 現代のゲーム経済はますます複雑化しており、小さな数値調整にも非常に敏感であり、ゲーム全体の体験に予期せぬ影響を及ぼす可能性がある。 したがって、開発中に徹底的な手動テストと微調整が不可欠である。 特定のゲームやジャンルのアルゴリズム的バランスに対処する既存の作業とは異なり、この作業はより抽象的なアプローチを採用し、特定のゲームから切り離された経済を通じたゲームのバランスに重点を置いている。 GEEvo(ゲームエコノミー進化)は,グラフベースのゲームエコノミーを生成し,新たに生成された経済と既存経済のバランスをとるためのフレームワークである。 GEEvoは2段階のアプローチを採用しており、まずは進化的アルゴリズムを使用して経済を発生させ、その後、生成したリソースや時間とともに処理された損傷といった特定の目的に基づいてバランスをとる。 我々は、経済の複数のシミュレーション実行から得られたデータを用いて、適合関数を異なるパラメータ化することで、異なる目的を定義する。 これをサポートするために,軽量でフレキシブルなゲームエコノミーシミュレーションフレームワークを定義した。 提案手法は,生成したデータセット上で様々なバランスの取れた目標を用いてテスト・ベンチマークを行い,2つの人気ゲームキャラクタクラスの2つのフィクションエコノミーに対するダメージバランスを評価するケーススタディを行う。

Game economy design significantly shapes the player experience and progression speed. Modern game economies are becoming increasingly complex and can be very sensitive to even minor numerical adjustments, which may have an unexpected impact on the overall gaming experience. Consequently, thorough manual testing and fine-tuning during development are essential. Unlike existing works that address algorithmic balancing for specific games or genres, this work adopts a more abstract approach, focusing on game balancing through its economy, detached from a specific game. We propose GEEvo (Game Economy Evolution), a framework to generate graph-based game economies and balancing both, newly generated or existing economies. GEEvo uses a two-step approach where evolutionary algorithms are used to first generate an economy and then balance it based on specified objectives, such as generated resources or damage dealt over time. We define different objectives by differently parameterizing the fitness function using data from multiple simulation runs of the economy. To support this, we define a lightweight and flexible game economy simulation framework. Our method is tested and benchmarked with various balancing objectives on a generated dataset, and we conduct a case study evaluating damage balancing for two fictional economies of two popular game character classes.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 自律走行テストにおけるニューラル・リアリティ・ギャップ入力緩和のための品質指標の評価

Assessing Quality Metrics for Neural Reality Gap Input Mitigation in Autonomous Driving Testing ( http://arxiv.org/abs/2404.18577v1 )

ライセンス: Link先を確認
Stefano Carlo Lambertenghi, Andrea Stocco, (参考訳) 自動走行システム(ADS)のシミュレーションベースのテストは業界標準であり、現実世界のテストに対する制御され、安全で費用対効果の高い代替手段である。 これらの利点にもかかわらず、仮想シミュレーションは画像の忠実さ、テクスチャ表現、環境の正確さといった現実世界の状態を正確に再現することができないことが多い。 これは、シミュレートされたドメインと実世界のドメイン間のADSの挙動に大きな違いをもたらす可能性がある。 研究者は、画像から画像へのニューラルトランスレーション(I2I)を使用して、シミュレートされた環境の現実性を高める。 しかし、有望ではあるが、これらのテクニックは、ADSテストの有効性に影響を与える可能性のある生成データにアーティファクト、歪み、あるいは矛盾をもたらす可能性がある。 実験的検討では,画像・画像(I2I)技術の品質がシム2リアルギャップの緩和にどのように影響するかを,文献の確立した指標を用いて検討した。 モデルレベルでの2つのADS知覚タスク,すなわち車両検出と終端車線維持の2つの人気生成型I2Iアーキテクチャ(pix2pixとCycleGAN)を、ペア化されたシミュレートと実世界のデータセットを用いて評価した。 その結果,I2I アーキテクチャの有効性は ADS のタスクによって異なり,既存の評価指標は ADS の動作と一貫して一致しないことがわかった。 そこで, タスク特異的な知覚指標の微調整を行い, 相関関係が強くなった。 本研究は,各課題に適合した意味的要素を取り入れた知覚指標を用いて,シム2リアルギャップ緩和の信頼性評価を行うため,最も適切なI2I手法の選択を容易にすることを示唆する。

Simulation-based testing of automated driving systems (ADS) is the industry standard, being a controlled, safe, and cost-effective alternative to real-world testing. Despite these advantages, virtual simulations often fail to accurately replicate real-world conditions like image fidelity, texture representation, and environmental accuracy. This can lead to significant differences in ADS behavior between simulated and real-world domains, a phenomenon known as the sim2real gap. Researchers have used Image-to-Image (I2I) neural translation to mitigate the sim2real gap, enhancing the realism of simulated environments by transforming synthetic data into more authentic representations of real-world conditions. However, while promising, these techniques may potentially introduce artifacts, distortions, or inconsistencies in the generated data that can affect the effectiveness of ADS testing. In our empirical study, we investigated how the quality of image-to-image (I2I) techniques influences the mitigation of the sim2real gap, using a set of established metrics from the literature. We evaluated two popular generative I2I architectures, pix2pix, and CycleGAN, across two ADS perception tasks at a model level, namely vehicle detection and end-to-end lane keeping, using paired simulated and real-world datasets. Our findings reveal that the effectiveness of I2I architectures varies across different ADS tasks, and existing evaluation metrics do not consistently align with the ADS behavior. Thus, we conducted task-specific fine-tuning of perception metrics, which yielded a stronger correlation. Our findings indicate that a perception metric that incorporates semantic elements, tailored to each task, can facilitate selecting the most appropriate I2I technique for a reliable assessment of the sim2real gap mitigation.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# STT行列を用いた渦におけるマヨラナゼロモードのブレイディング方式

Scheme for braiding Majorana zero modes in vortices using an STT-matrix ( http://arxiv.org/abs/2404.18578v1 )

ライセンス: Link先を確認
Guangyao Huang, Xinfang Zhang, Xiapfeng Yi, Jibang Fu, Weichen Wang, Mingtang Deng, (参考訳) 最近行われた2次元トポロジカル超伝導体に関する実験により、マヨラナゼロモード(MZM)の様々な表示が明らかになった。 しかし、MZMブレイディングの操作の進歩は制限されており、トポロジカル量子コンピューティングの実現を妨げている。 そこで本研究では,スピントロニックデバイスマトリクスに基づく潜在的なブレイディング方式を提案する。 このスキームは、2次元のトポロジカル超伝導材料と共にスピントランスファートルクデバイス(STT-マトリクス)からなるマトリックスを利用する。 STT行列内のスピントロニクス装置のON/OFF状態をプログラムすることにより、二次元超伝導体にMZMをホストする渦を操作することができる。 この概念をさらに検討するため、時間依存型ギンズブルグ・ランダウモデルを構築し、渦駆動力学、MZMブレイディング過程、MZM融合現象を分析する数値シミュレーションを行う。 以上の結果から,大動脈操作の柔軟性と柔軟性が示唆された。 スピントロニクスデバイス技術の発展に伴い, 提案手法は, トポロジカル超伝導体に存在する渦内でMZMを動作させるための実用的, 実用的手法を提供する。

Recently conducted experiments on two-dimensional topological superconductors have revealed various indications of Majorana zero modes (MZMs). However, progress in the manipulation of MZM braiding has been limited, impeding the realization of topological quantum computing. In this study, we propose a potential braiding scheme based on a spintronic device matrix. This scheme involves utilizing a matrix composed of spin-transfer torque devices (STT-matrix) alongside a two-dimensional topological superconductor material. By programming the ON/OFF states of the spintronic devices within the STT-matrix, it becomes possible to manipulate vortices hosting MZMs in the two-dimensional topological superconductor. To further investigate this concept, we construct a time-dependent Ginzburg-Landau model and perform numerical simulations to analyze vortex-driving dynamics, MZM braiding processes, and MZM fusion phenomena. Our findings demonstrate that this system exhibits high versatility and flexibility in manipulating vortices. With advancements in spintronic device technology, our proposed scheme offers a feasible and practical method for operating MZMs within vortices present in topological superconductors.
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# 文脈的問題:リモートセンシング画像を用いた半教師付き学習のための時空間メタデータの活用

Context Matters: Leveraging Spatiotemporal Metadata for Semi-Supervised Learning on Remote Sensing Images ( http://arxiv.org/abs/2404.18583v1 )

ライセンス: Link先を確認
Maximilian Bernhard, Tanveer Hannan, Niklas Strauß, Matthias Schubert, (参考訳) リモートセンシングプロジェクトは一般的に、強力なディープニューラルネットワークのトレーニングに使用できる大量の画像を生成する。 しかし、リモートセンシングアプリケーションは通常、専門家のラベル付けを必要とするため、ラベル付き画像の量は少ないことが多い。 このように、ラベル付きデータの小さなプールと大きなラベル付きデータのプールで学習する半教師付き学習(SSL)は、この領域で特に有用である。 現在のSSLアプローチは、未ラベルサンプルのモデル予測から擬似ラベルを生成する。 これらの擬似ラベルの品質はパフォーマンスに不可欠であるため、擬似ラベルの品質を改善するために追加情報を活用することにより、有望な方向性が得られる。 リモートセンシング画像では、位置情報と記録時間は一般的に利用可能であり、土地被覆などの意味概念として貴重な情報源は、季節的影響や植生帯により、時空間、例えば時空間に大きく依存している。 本稿では,SSLの時空間情報を利用して擬似ラベルの品質を向上し,最終的なモデル性能を評価することを提案する。 テスト時の予測器の入力に利用可能なメタデータを直接付加すると、トレーニングセットの時空間分布外のメタデータの予測品質が劣化することを示す。 そこで本研究では,教師ネットワークのみがmetainformationを使用して,学習セット上の擬似ラベルの品質を向上する,教師学生向けSSLフレームワークを提案する。 それに対応して、学生ネットワークは、改善された擬似ラベルの恩恵を受けるが、メタデータを入力として受け取らないため、テスト時の時空間シフトに不変である。 さらに, モデルに時空間情報を符号化し, 注入する方法を提案し, 教師と学生の知識伝達を促進する新しい蒸留機構を提案する。 Spatiotemporal SSLと呼ばれる私たちのフレームワークは、簡単にいくつかの統計データと組み合わせることができる。

Remote sensing projects typically generate large amounts of imagery that can be used to train powerful deep neural networks. However, the amount of labeled images is often small, as remote sensing applications generally require expert labelers. Thus, semi-supervised learning (SSL), i.e., learning with a small pool of labeled and a larger pool of unlabeled data, is particularly useful in this domain. Current SSL approaches generate pseudo-labels from model predictions for unlabeled samples. As the quality of these pseudo-labels is crucial for performance, utilizing additional information to improve pseudo-label quality yields a promising direction. For remote sensing images, geolocation and recording time are generally available and provide a valuable source of information as semantic concepts, such as land cover, are highly dependent on spatiotemporal context, e.g., due to seasonal effects and vegetation zones. In this paper, we propose to exploit spatiotemporal metainformation in SSL to improve the quality of pseudo-labels and, therefore, the final model performance. We show that directly adding the available metadata to the input of the predictor at test time degenerates the prediction quality for metadata outside the spatiotemporal distribution of the training set. Thus, we propose a teacher-student SSL framework where only the teacher network uses metainformation to improve the quality of pseudo-labels on the training set. Correspondingly, our student network benefits from the improved pseudo-labels but does not receive metadata as input, making it invariant to spatiotemporal shifts at test time. Furthermore, we propose methods for encoding and injecting spatiotemporal information into the model and introduce a novel distillation mechanism to enhance the knowledge transfer between teacher and student. Our framework dubbed Spatiotemporal SSL can be easily combined with several stat...
翻訳日:2024-04-30 14:07:29 公開日:2024-04-29
# FREB-TQA:テーブル質問応答のための微粒化ロバスト性評価ベンチマーク

FREB-TQA: A Fine-Grained Robustness Evaluation Benchmark for Table Question Answering ( http://arxiv.org/abs/2404.18585v1 )

ライセンス: Link先を確認
Wei Zhou, Mohsen Mesgar, Heike Adel, Annemarie Friedrich, (参考訳) TQA(Table Question Answering)は、質問に対する回答を表データに基づいて作成することを目的としている。 以前の研究では、TQAモデルにはロバスト性がないことが示されているが、この問題の根本原因と性質を理解することは、主に不明であり、ロバストなTQAシステムの開発に重大な障害を生じさせている。 本稿では,TQAシステムのロバスト性を詳細に評価するために,3つの主要なデシラタを定式化する。 すべきである。 一 表構造の変更にかかわらず、質問に答えること。 (二)その応答はバイアスではなく関連細胞の内容に基づいており、 (三)頑健な数値推論能力を示す。 これらの側面を調査するために、我々は英語で新しいTQA評価ベンチマークを作成し、公開する。 調査対象となったTQAシステムはいずれも,これら3つの点において常に優れていなかった。 当社のベンチマークは,TQAシステムの挙動をモニタリングする上で重要な指標であり,堅牢なTQAシステムの開発への道を開くものである。 ベンチマークを公開しています。

Table Question Answering (TQA) aims at composing an answer to a question based on tabular data. While prior research has shown that TQA models lack robustness, understanding the underlying cause and nature of this issue remains predominantly unclear, posing a significant obstacle to the development of robust TQA systems. In this paper, we formalize three major desiderata for a fine-grained evaluation of robustness of TQA systems. They should (i) answer questions regardless of alterations in table structure, (ii) base their responses on the content of relevant cells rather than on biases, and (iii) demonstrate robust numerical reasoning capabilities. To investigate these aspects, we create and publish a novel TQA evaluation benchmark in English. Our extensive experimental analysis reveals that none of the examined state-of-the-art TQA systems consistently excels in these three aspects. Our benchmark is a crucial instrument for monitoring the behavior of TQA systems and paves the way for the development of robust TQA systems. We release our benchmark publicly.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# ガウスの量子誤差補正と絡み合ったガウス状態蒸留における非ゴー限界を超える方法

How to surpass no-go limits in Gaussian quantum error correction and entangled Gaussian state distillation? ( http://arxiv.org/abs/2404.18586v1 )

ライセンス: Link先を確認
En-Jui Chang, Ching-Yi Lai, (参考訳) 連続可変(CV)量子情報キャリアを用いたガウス量子情報処理は、量子通信や量子インターネットへの応用において大きな可能性を秘めている。 しかし、ガウス状態蒸留と量子誤り補正(QEC)の適用は、局所ガウスユニタリ演算と古典的通信に関する非ゴー結果によって課される制限に直面している。 本稿では,ガウス資源のみに依存するガウスQECプロトコルを提案する。 提案手法の重要な要素は、量子チャネル上の部分的な転置操作の実装を容易にする、絡み合ったガウス状態を用いたCVゲートの伝送である。 これにより、2つのうるさいガウス流路から2モードの雑音分極チャネルを効率的に構築できる。 さらに、このQECプロトコルは自然に非局所ガウス状態蒸留プロトコルに拡張される。

Gaussian quantum information processing with continuous-variable (CV) quantum information carriers holds significant promise for applications in quantum communication and quantum internet. However, applying Gaussian state distillation and quantum error correction (QEC) faces limitations imposed by no-go results concerning local Gaussian unitary operations and classical communications. This paper introduces a Gaussian QEC protocol that relies solely on local Gaussian resources. A pivotal component of our approach is CV gate teleportation using entangled Gaussian states, which facilitates the implementation of the partial transpose operation on a quantum channel. Consequently, we can efficiently construct a two-mode noise-polarized channel from two noisy Gaussian channels. Furthermore, this QEC protocol naturally extends to a nonlocal Gaussian state distillation protocol.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# 分散量子コンピューティングにおける原子性

Atomicity in Distributed Quantum Computing ( http://arxiv.org/abs/2404.18592v1 )

ライセンス: Link先を確認
Zhicheng Zhang, Mingsheng Ying, (参考訳) 原子性は分散コンピューティングにおいてユビキタスな仮定であり、その下ではアクションは不可分であり、シーケンシャルに現れる。 古典コンピューティングでは、この仮定にはいくつかの理論的および実践的な保証がある。 量子コンピューティングでは、原子性はまだ一般的に仮定されているが、本質的な研究は行われておらず、厳密な基礎が欠落している。 量子エンタングルメントによる新たな課題と、基礎となる量子力学による測定問題により、原子性に関する古典的な結果は、分散量子コンピューティングに直接引き継がれない。 本稿では,分散量子コンピューティングにおける原子性の研究を開始する。 非原子分散量子系の形式モデルが確立される。 Dijkstra-Lamport条件に基づき、分散量子系の系力学と観測可能な力学が定義され、それぞれ系の量子状態と古典的に観測可能な事象に対応する。 この枠組みでは, 局所的な動作が, システムの観測可能な力学まで, 原子状態とみなすことが可能であることを証明している。

Atomicity is a ubiquitous assumption in distributed computing, under which actions are indivisible and appear sequential. In classical computing, this assumption has several theoretical and practical guarantees. In quantum computing, although atomicity is still commonly assumed, it has not been seriously studied, and a rigorous basis for it is missing. Classical results on atomicity do not directly carry over to distributed quantum computing, due to new challenges caused by quantum entanglement and the measurement problem from the underlying quantum mechanics. In this paper, we initiate the study of atomicity in distributed quantum computing. A formal model of (non-atomic) distributed quantum system is established. Based on the Dijkstra-Lamport condition, the system dynamics and observable dynamics of a distributed quantum system are defined, which correspond to the quantum state of and classically observable events in the system, respectively. Within this framework, we prove that local actions can be regarded as if they were atomic, up to the observable dynamics of the system.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# クラスター離散位相空間法による二次元相関伝播ダイナミクス

Two-dimensional correlation propagation dynamics with a cluster discrete phase-space method ( http://arxiv.org/abs/2404.18594v1 )

ライセンス: Link先を確認
Kazuma Nagao, Seiji Yunoki, (参考訳) 高度制御量子系の非平衡力学は、統計物理学や量子多体物理学において難しい問題であり、アナログおよびデジタル量子シミュレーションの最近の実験的発展に関係している。 本研究では,クラスタ平均場方程式を用いた一般SU($N$)スピン系に対する離散位相空間アプローチを開発し,各クラスタ内の非自明な量子相関を,個々の古典スピンに対する標準的な離散トランケートされたウィグナー近似の能力を超えて捉える。 我々の定式化は、クラスタ位相点演算子に基づいて、クラスタ位相空間変数のスケーラブルな数値サンプリングを実現し、直接積状態のノイズ変数の総数は、クラスタの有限領域への分離の選択とは無関係である。 本稿では,2次元Bose-Hubbardシステムにおける相関伝搬ダイナミクスに関する最近の実験において,クラスタ離散トランカテッドウィグナー近似 (C-dTWA) 法が重要な結果を再現できることを数値的に示す。 また,2 次元テンソルネットワーク法と2 次元テンソルネットワーク法を併用したクラスタに対する C-dTWA の結果を比較し,両手法がテンソルネットワークシミュレーションにおいてエネルギーがよく保存されている短時間領域において非常によく一致することを議論する。 一般の形でC-dTWA法を定式化するので、高次元においても孤立量子系や開量子系における様々な力学問題に適用することができる。

Nonequilibrium dynamics of highly-controlled quantum systems is a challenging issue in statistical physics and quantum many-body physics, relevant to recent experimental developments of analog and digital quantum simulations. In this work, we develop a discrete phase-space approach for general SU($N$) spin systems that utilizes cluster mean field equations, which capture non-trivial quantum correlations inside each cluster, beyond the capability of the standard discrete truncated Wigner approximation for individual classical spins. Our formalism, based on a cluster phase-point operator, makes it possible to realize scalable numerical samplings of cluster phase-space variables, where the total number of noise variables for a direct product state is independent of the choice of the separation into finite regions of clusters. We numerically demonstrate that the cluster discrete truncated Wigner approximation (C-dTWA) method can reproduce key results in a recent experiment on the correlation propagation dynamics in a two dimensional Bose-Hubbard system. We also compare the results of C-dTWA for clusters of $2\times 2$ sites with those of a two-dimensional tensor network method and discuss that both approaches agree very well in a short time region, where the energy is well conserved in the tensor network simulations. Since we formulate the C-dTWA method in a general form, it can be potentially applied to various dynamical problems in isolated and open quantum systems even in higher dimensions.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# FauxPy: Pythonのフォールトローカライズツール

FauxPy: A Fault Localization Tool for Python ( http://arxiv.org/abs/2404.18596v1 )

ライセンス: Link先を確認
Mohammad Rezaalipour, Carlo A. Furia, (参考訳) 本稿では,PythonプログラムのフォールトローカライズツールであるFauxPyについて述べる。 FauxPyは、スペクトルベース、突然変異ベース、述語スイッチング、スタックトレース障害ローカライゼーションという、4つのファミリーでよく知られた障害ローカライゼーション技術をサポートしている。 人気のあるPytestテスティングフレームワークのプラグインとして実装されているが、UnittestとPhythesis用に書かれたテスト(他の2つの人気のあるテスティングフレームワーク)でも動作する。 本稿は、FauxPyを2つの例に例示し、その主な特徴と機能について、ユーザの視点から論じる。 FauxPyが現実的なサイズのPythonプロジェクトの解析に適用可能であることを示すために、FauxPyをBugsInPyキュレートされたコレクションから135の実際のバグに適用した広範な実験的評価の結果を要約する。 私たちの知る限り、FauxPyはPython用の最初のオープンソースのフォールトローカライゼーションツールであり、複数のフォールトローカライゼーションファミリをサポートしている。

This paper presents FauxPy, a fault localization tool for Python programs. FauxPy supports seven well-known fault localization techniques in four families: spectrum-based, mutation-based, predicate switching, and stack trace fault localization. It is implemented as plugin of the popular Pytest testing framework, but also works with tests written for Unittest and Hypothesis (two other popular testing frameworks). The paper showcases how to use FauxPy on two illustrative examples, and then discusses its main features and capabilities from a user's perspective. To demonstrate that FauxPy is applicable to analyze Python projects of realistic size, the paper also summarizes the results of an extensive experimental evaluation that applied FauxPy to 135 real-world bugs from the BugsInPy curated collection. To our knowledge, FauxPy is the first open-source fault localization tool for Python that supports multiple fault localization families.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# Anywhere: 信頼性とディヴァース・フォアグラウンド・コンディション・イメージ・インペインティングのためのマルチエージェント・フレームワーク

Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting ( http://arxiv.org/abs/2404.18598v1 )

ライセンス: Link先を確認
Tianyidan Xie, Rui Ma, Qian Wang, Xiaoqian Ye, Feixuan Liu, Ying Tai, Zhenyu Zhang, Zili Yi, (参考訳) 画像の塗布、特に拡散モデルによる最近の進歩は、有望な結果をもたらしている。 しかしながら、前景のオブジェクトをベースとした画像の完成を含むシナリオでテストした場合、イメージをエンドツーエンドで描き込む現在の手法は、"過剰な想像"、前景と背景の矛盾、多様性の制限といった課題に直面している。 これに対し、これらの問題に対処するために設計された、先駆的なマルチエージェントフレームワークであるAnywhereを紹介します。 Anywhereは、Visual Language Model (VLM)、Large Language Model (LLM)、画像生成モデルなど、さまざまなエージェントからなる洗練されたパイプラインフレームワークを利用している。 このフレームワークは、プロンプト生成モジュール、画像生成モジュール、結果アナライザの3つの主要コンポーネントで構成されている。 プロンプト生成モジュールは入力前景画像のセマンティック解析を行い、VLMを利用して関連する言語記述を予測し、LLMは最適な言語プロンプトを推奨する。 画像生成モジュールでは、フォアグラウンド画像と言語プロンプトのエッジマップに基づくテンプレート画像を作成するためにテキスト誘導キャニー・ツー・イメージ生成モデルを使用し、入力フォアグラウンドとテンプレートイメージをブレンドして結果を生成する。 結果分析器は、VLMを用いて画像内容合理性、美的スコア、前景背景関係を評価し、必要に応じてプロンプト及び画像再生を誘導する。 大規模な実験により、Anywhereフレームワークは、前景に塗布された画像に優れ、「過剰なイメージ化」を緩和し、前景と背景の相違を解消し、多様性を高めていることが示された。 これは、より信頼性が高く多様な結果をもたらすために、前景条件画像の塗布を成功させる。

Recent advancements in image inpainting, particularly through diffusion modeling, have yielded promising outcomes. However, when tested in scenarios involving the completion of images based on the foreground objects, current methods that aim to inpaint an image in an end-to-end manner encounter challenges such as "over-imagination", inconsistency between foreground and background, and limited diversity. In response, we introduce Anywhere, a pioneering multi-agent framework designed to address these issues. Anywhere utilizes a sophisticated pipeline framework comprising various agents such as Visual Language Model (VLM), Large Language Model (LLM), and image generation models. This framework consists of three principal components: the prompt generation module, the image generation module, and the outcome analyzer. The prompt generation module conducts a semantic analysis of the input foreground image, leveraging VLM to predict relevant language descriptions and LLM to recommend optimal language prompts. In the image generation module, we employ a text-guided canny-to-image generation model to create a template image based on the edge map of the foreground image and language prompts, and an image refiner to produce the outcome by blending the input foreground and the template image. The outcome analyzer employs VLM to evaluate image content rationality, aesthetic score, and foreground-background relevance, triggering prompt and image regeneration as needed. Extensive experiments demonstrate that our Anywhere framework excels in foreground-conditioned image inpainting, mitigating "over-imagination", resolving foreground-background discrepancies, and enhancing diversity. It successfully elevates foreground-conditioned image inpainting to produce more reliable and diverse results.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# 上顎洞における副鼻腔奇形分類のための自己指導型学習

Self-supervised learning for classifying paranasal anomalies in the maxillary sinus ( http://arxiv.org/abs/2404.18599v1 )

ライセンス: Link先を確認
Debayan Bhattacharya, Finn Behrendt, Benjamin Tobias Becker, Lennart Maack, Dirk Beyersdorff, Elina Petersen, Marvin Petersen, Bastian Cheng, Dennis Eggert, Christian Betz, Anna Sophie Hoffmann, Alexander Schlaefer, (参考訳) 目的: 定期的な放射線検診でしばしば同定される副鼻腔奇形は, 様々な形態学的特徴を示す。 異常の多様性のため、教師付き学習法は多様な異常形態を示す大きなラベル付きデータセットを必要とする。 自己教師付き学習(SSL)は、不正なデータから表現を学習するために使用することができる。 しかし、上顎洞(MS)の副鼻腔異常を分類する下流タスクのために設計されたSSLメソッドは存在しない。 方法: 本手法では, 教師なし異常検出(UAD)フレームワークで訓練された3次元畳み込みオートエンコーダ(CAE)を用いる。 当初,正常上顎洞(MS)画像の再構成時に3D CAEをトレーニングし,再建誤差を低減する。 そして、このCAEを非ラベルデータセットに適用し、残差MS画像を生成して粗い異常位置を生成する。 その後、3D畳み込みニューラルネットワーク(CNN)が残像を再構成し、SSLタスクを形成します。 最後に、3D CNNのエンコーダ部分を正規および異常なMS画像のラベル付きデータセットで微調整する。 結果:提案手法は,特に注釈付きデータに制限のあるシナリオにおいて,既存の汎用的な自己管理手法と比較して優れた性能を示す。 注釈付きデータセットの10%だけをトレーニングすると、下流分類タスクに対して精度-リコール曲線(AUPRC)0.79のエリアを達成できる。 この性能は、AUPRC 0.75、SimSiam 0.74、SimCLR 0.73、Masked Autoencoding 0.75など、他の手法を上回る。 結論: 副鼻腔異常の局所化に本質的に焦点を絞った自己教師型学習アプローチは、特にその後の課題が正常と異常な上顎洞罪の区別を伴う場合、有利であることが証明される。 https://github.com/mtec-tuhh/self-supervised-paranasal-anomaly

Purpose: Paranasal anomalies, frequently identified in routine radiological screenings, exhibit diverse morphological characteristics. Due to the diversity of anomalies, supervised learning methods require large labelled dataset exhibiting diverse anomaly morphology. Self-supervised learning (SSL) can be used to learn representations from unlabelled data. However, there are no SSL methods designed for the downstream task of classifying paranasal anomalies in the maxillary sinus (MS). Methods: Our approach uses a 3D Convolutional Autoencoder (CAE) trained in an unsupervised anomaly detection (UAD) framework. Initially, we train the 3D CAE to reduce reconstruction errors when reconstructing normal maxillary sinus (MS) image. Then, this CAE is applied to an unlabelled dataset to generate coarse anomaly locations by creating residual MS images. Following this, a 3D Convolutional Neural Network (CNN) reconstructs these residual images, which forms our SSL task. Lastly, we fine-tune the encoder part of the 3D CNN on a labelled dataset of normal and anomalous MS images. Results: The proposed SSL technique exhibits superior performance compared to existing generic self-supervised methods, especially in scenarios with limited annotated data. When trained on just 10% of the annotated dataset, our method achieves an Area Under the Precision-Recall Curve (AUPRC) of 0.79 for the downstream classification task. This performance surpasses other methods, with BYOL attaining an AUPRC of 0.75, SimSiam at 0.74, SimCLR at 0.73 and Masked Autoencoding using SparK at 0.75. Conclusion: A self-supervised learning approach that inherently focuses on localizing paranasal anomalies proves to be advantageous, particularly when the subsequent task involves differentiating normal from anomalous maxillary sinuses. Access our code at https://github.com/mtec-tuhh/self-supervised-paranasal-anomaly
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# CSTalk: 音声駆動型3次元顔アニメーション生成の相関性

CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation ( http://arxiv.org/abs/2404.18604v1 )

ライセンス: Link先を確認
Xiangyu Liang, Wenlin Zhuang, Tianyong Wang, Guangxing Geng, Guangyue Geng, Haifeng Xia, Siyu Xia, (参考訳) 音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。 主な課題は、データ制限、唇のアライメント、表情の自然さである。 唇のアライメントは多くの関連する研究を見てきたが、既存の手法は自然および現実的な表現を合成するのに苦労しており、結果として顔のアニメーションの機械的および硬い外観が生まれる。 音声から感情的特徴を抽出する研究もあるが、顔の動きのランダムさは感情の効果的な表現を制限する。 そこで本研究では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,人間の顔の動きパターンに適合する現実的な表現を生成するCSTalk(Correlation Supervised)という手法を提案する。 より複雑なアニメーションを生成するために、メタヒューマンキャラクターモデルに基づく制御パラメータの豊富なセットを使用し、5つの異なる感情のデータセットをキャプチャする。 我々は、オートエンコーダ構造を用いて生成ネットワークを訓練し、感情埋め込みベクトルを入力し、ユーザ制御式の生成を実現する。 実験の結果,本手法は既存の最先端手法よりも優れていた。

Speech-driven 3D facial animation technology has been developed for years, but its practical application still lacks expectations. The main challenges lie in data limitations, lip alignment, and the naturalness of facial expressions. Although lip alignment has seen many related studies, existing methods struggle to synthesize natural and realistic expressions, resulting in a mechanical and stiff appearance of facial animations. Even with some research extracting emotional features from speech, the randomness of facial movements limits the effective expression of emotions. To address this issue, this paper proposes a method called CSTalk (Correlation Supervised) that models the correlations among different regions of facial movements and supervises the training of the generative model to generate realistic expressions that conform to human facial motion patterns. To generate more intricate animations, we employ a rich set of control parameters based on the metahuman character model and capture a dataset for five different emotions. We train a generative network using an autoencoder structure and input an emotion embedding vector to achieve the generation of user-control expressions. Experimental results demonstrate that our method outperforms existing state-of-the-art methods.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# THER Arabic Text Simplification Corpus

The SAMER Arabic Text Simplification Corpus ( http://arxiv.org/abs/2404.18615v1 )

ライセンス: Link先を確認
Bashar Alhafni, Reem Hazim, Juan Piñeros Liberato, Muhamed Al Khalil, Nizar Habash, (参考訳) 我々は,小学校の学習者を対象としたテキストの簡略化を目的とした,最初の手書きのアラビアパラレルコーパスであるHataR Corpusを提示する。 私たちのコーパスは1865年から1955年にかけて出版された15のアラビア小説から選ばれた159K語のテキストで構成されています。 コーパスには、文書レベルと単語レベルの両方での可読性レベルのアノテーションと、2つの異なる可読性レベルの学習者を対象にしたテキスト毎の2つの簡易並列バージョンが含まれています。 コーパスの選択プロセスについて説明し、その後フォローしたガイドラインを概説し、アノテーションを作成し、それらの品質を保証する。 我々のコーパスは、アラビア語テキストの簡易化、アラビア語の自動可読性評価、およびアラビア語教育言語技術の発展を支援するために公開されています。

We present the SAMER Corpus, the first manually annotated Arabic parallel corpus for text simplification targeting school-aged learners. Our corpus comprises texts of 159K words selected from 15 publicly available Arabic fiction novels most of which were published between 1865 and 1955. Our corpus includes readability level annotations at both the document and word levels, as well as two simplified parallel versions for each text targeting learners at two different readability levels. We describe the corpus selection process, and outline the guidelines we followed to create the annotations and ensure their quality. Our corpus is publicly available to support and encourage research on Arabic text simplification, Arabic automatic readability assessment, and the development of Arabic pedagogical language technologies.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# 非線形超伝導磁気効果

Nonlinear Superconducting Magnetoelectric Effect ( http://arxiv.org/abs/2404.18616v1 )

ライセンス: Link先を確認
Jin-Xin Hu, Oles Matsyshyn, Justin C. W. Song, (参考訳) 超電流流はスピン軌道相互作用を持つ非セントロ対称超伝導体における非消滅スピン磁化を誘導することができる。 非散逸性磁気効果としてよく知られるが、これは超電流流の線形次数でよく見られる。 ここでは、非線形超伝導磁気効果(NSM)が自然に変化マグネット/超伝導体(ALM/SC)ヘテロ構造に現れることを論じる: NSMは、駆動超電流に対する2次応答として生じるスピン偏極として現れる。 厳密には、NSMはALM/SCヘテロ構造における第一次磁化反応であり、中心対称性の存在下でも存続する。 これにより、NSMは超伝導スピントロニクスのための有望なプラットフォームであるALM/SCヘテロ構造における磁化を制御する強力な電気的および非散逸的な手段となる。

A supercurrent flow can induce a nonvanishing spin magnetization in noncentrosymmetric superconductors with spin-orbit interaction. Often known as the non-dissipative magnetoelectric effect, these are most commonly found at linear order in supercurrent flow. Here, we argue that a nonlinear superconducting magnetoelectric effect (NSM) can naturally manifest in altermagnet/superconductor (ALM/SC) heterostructures: NSM manifests as a spin polarization generated as a second-order response to a driving supercurrent. Strikingly, we find NSM is the leading order magnetization response in ALM/SC heterostructures and survives even in the presence of centrosymmetry; $C_4 \mathcal{T}$ symmetry in altermagnets zeroes both the equilibrium magnetization as well as out-of-plane linear magnetoelectric response. This renders NSM a powerful electric and non-dissipative means of controlling magnetization in ALM/SC heterostructures, a promising platform for superconducting spintronics.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# CoSense3D: 集合認識のためのエージェントベースの効率的な学習フレームワーク

CoSense3D: an Agent-based Efficient Learning Framework for Collective Perception ( http://arxiv.org/abs/2404.18617v1 )

ライセンス: Link先を確認
Yunshuang Yuan, Monika Sester, (参考訳) 包括的知覚は、隠蔽を緩和し、視野を拡大し、信頼性、効率、そして最も重要な意思決定の安全性を高めるという利点により、近年大きな注目を集めている。 しかしながら、集合認識モデルの開発は、多くのエージェント、通常は数十の画像と1フレームの点雲に対する入力データ処理の広範囲な要求により、非常にリソースが要求される。 これにより、集団認識のためのモデル開発プロセスが遅くなるだけでなく、より大きなモデルの利用を阻害する。 本稿では,よりクリーンなデータフロー構造を実現するために,ディープラーニングモジュールとエージェントデータを個別に扱うエージェントベースのトレーニングフレームワークを提案する。 このフレームワークは、データ処理パイプラインを柔軟にプロトタイピングし、各エージェントの勾配計算を定義するAPIを提供するだけでなく、インタラクティブなトレーニング、テスト、データ視覚化のためのユーザインターフェースも提供する。 OPV2Vを用いた4つの集合物体検出モデルのトレーニング実験の結果、エージェントベースのトレーニングは推論性能を維持しながらGPUメモリの消費とトレーニング時間を著しく削減できることが示された。 フレームワークとモデルの実装は \url{https://github.com/YuanYunshuang/CoSense3D} で利用可能である。

Collective Perception has attracted significant attention in recent years due to its advantage for mitigating occlusion and expanding the field-of-view, thereby enhancing reliability, efficiency, and, most crucially, decision-making safety. However, developing collective perception models is highly resource demanding due to extensive requirements of processing input data for many agents, usually dozens of images and point clouds for a single frame. This not only slows down the model development process for collective perception but also impedes the utilization of larger models. In this paper, we propose an agent-based training framework that handles the deep learning modules and agent data separately to have a cleaner data flow structure. This framework not only provides an API for flexibly prototyping the data processing pipeline and defining the gradient calculation for each agent, but also provides the user interface for interactive training, testing and data visualization. Training experiment results of four collective object detection models on the prominent collective perception benchmark OPV2V show that the agent-based training can significantly reduce the GPU memory consumption and training time while retaining inference performance. The framework and model implementations are available at \url{https://github.com/YuanYunshuang/CoSense3D}
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# FlexiFilm: フレキシブルな条件の長いビデオ生成

FlexiFilm: Long Video Generation with Flexible Conditions ( http://arxiv.org/abs/2404.18620v1 )

ライセンス: Link先を確認
Yichen Ouyang, jianhao Yuan, Hao Zhao, Gaoang Wang, Bo zhao, (参考訳) 長く一貫したビデオを生成することは、重大な問題だが難しい問題として浮上している。 既存の拡散型ビデオ生成モデルの多くは、画像生成モデルから派生したもので、短いビデオの生成において有望な性能を示すが、その単純な条件付け機構とサンプリング戦略は、元々は画像生成のために設計されており、長大なビデオ生成に適応する場合に顕著な性能劣化が生じる。 これにより、時間的不整合と過度の露出が顕著になる。 そこで本研究では,長いビデオ生成に適した新しい拡散モデルであるFlexiFilmを紹介する。 本フレームワークは,生成条件とマルチモーダル条件のより一貫した関係を確立するための時間条件と,過剰露光に対処するための再サンプリング戦略を組み込んだものである。 実験の結果、FlexiFilmは長くて一貫したビデオを生成し、それぞれ30秒以上の長さで、質的かつ定量的な分析において競合より優れています。 プロジェクトページ: https://y-ichen.github.io/FlexiFilm-Page/

Generating long and consistent videos has emerged as a significant yet challenging problem. While most existing diffusion-based video generation models, derived from image generation models, demonstrate promising performance in generating short videos, their simple conditioning mechanism and sampling strategy-originally designed for image generation-cause severe performance degradation when adapted to long video generation. This results in prominent temporal inconsistency and overexposure. Thus, in this work, we introduce FlexiFilm, a new diffusion model tailored for long video generation. Our framework incorporates a temporal conditioner to establish a more consistent relationship between generation and multi-modal conditions, and a resampling strategy to tackle overexposure. Empirical results demonstrate FlexiFilm generates long and consistent videos, each over 30 seconds in length, outperforming competitors in qualitative and quantitative analyses. Project page: https://y-ichen.github.io/FlexiFilm-Page/
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# 量子計測結果の保存法

Conservation Laws For Every Quantum Measurement Outcome ( http://arxiv.org/abs/2404.18621v1 )

ライセンス: Link先を確認
Daniel Collins, Sandu Popescu, (参考訳) 量子測定のパラダイム的な例では、保存された量の2つの状態の重畳から始まる系を測るたびに、2つの状態のうちの1つにジャンプし、保存すべき量の異なる最終値を暗示する。 量子力学の保存の標準法則はこの跳躍を、繰り返し測定による保存量の総分布は変化しないが、個々の場合については何も述べない、という記述で扱う。 しかし、ここでは、これを超えることができ、各インスタンスで保存できることを示します。 円上の粒子の角運動量の場合、多くの技術が単純化され、これが完全な一般性を持つことを示す議論をもたらす。 したがって、量子力学における保存法則は、その統計定式化を超越して、保存された量の合計が個々の測定結果ごとに変化しないことを述べるために書き換えるべきである。 さらに重要な要素として、保存は関心の体系とその関連する参照の枠組みのレベルで局所化可能であることを示し、保存された量の宇宙全体への分布に関する仮定に依存しない。

In the paradigmatic example of quantum measurements, whenever one measures a system which starts in a superposition of two states of a conserved quantity, it jumps to one of the two states, implying different final values for the quantity that should have been conserved. The standard law of conservation for quantum mechanics handles this jump by stating only that the total distribution of the conserved quantity over repeated measurements is unchanged, but states nothing about individual cases. Here however we show that one can go beyond this and have conservation in each individual instance. We made our arguments in the case of angular momentum of a particle on a circle, where many technicalities simplify, and bring arguments to show that this holds in full generality. Hence we argue that the conservation law in quantum mechanics should be rewritten, to go beyond its hitherto statistical formulation, to state that the total of a conserved quantity is unchanged in every individual measurement outcome. As a further crucial element, we show that conservation can be localised at the level of the system of interest and its relevant frame of reference, and is independent on any assumptions on the distribution of the conserved quantity over the entire universe.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# ビジョン・アンド・ランゲージ・デコーダは画像とテキストを等しく使用するか?

Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations? ( http://arxiv.org/abs/2404.18624v1 )

ライセンス: Link先を確認
Letitia Parcalabescu, Anette Frank, (参考訳) 視覚と言語モデル(VLM)は現在、マルチモーダルタスクにおける最も一般的なアーキテクチャである。 予測の次は、ポストホックまたはCoT設定でも説明を生成することができる。 しかし、予測や説明を生成する際に、視覚とテキストのモダリティがどの程度使われるかは明らかになっていない。 本研究は,VLMが解答の時と対照的に説明文を生成する際に,異なるモダリティに依存しているかどうかを考察する。 また,VLMデコーダの自己整合性を評価するために,既存のテストや対策をVLMデコーダに拡張することで,ポストホックおよびCoT説明設定の両方で自己整合性を評価する。 VLM は LLM よりも自己整合性が低いことがわかった。 VLデコーダのテキストコントリビューションは、すべての計測タスクにおける画像コントリビューションよりもはるかに大きい。 また、画像のコントリビューションは、回答生成よりも説明世代の方がはるかに大きい。 この違いは、ポストホックな説明設定よりもCoTの方が大きい。 VALSEベンチマークでは,VLエンコーダのみに着目した最新のVLデコーダのベンチマークも提供している。 VLデコーダは、VALSEによってテストされたほとんどの現象にまだ苦戦している。

Vision and language models (VLMs) are currently the most generally performant architectures on multimodal tasks. Next to their predictions, they can also produce explanations, either in post-hoc or CoT settings. However, it is not clear how much they use the vision and text modalities when generating predictions or explanations. In this work, we investigate if VLMs rely on modalities differently when generating explanations as opposed to when they provide answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing tests and measures to VLM decoders. We find that VLMs are less self-consistent than LLMs. The text contributions in VL decoders are much larger than the image contributions across all measured tasks. And the contributions of the image are significantly larger for explanation generations than for answer generation. This difference is even larger in CoT compared to the post-hoc explanation setting. We also provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which to date focused only on VL encoders. We find that VL decoders are still struggling with most phenomena tested by VALSE.
翻訳日:2024-04-30 13:57:37 公開日:2024-04-29
# バーチャルリアリティにおける自己アバターアニメーション:フルボディポーズ再構成における動き信号アーティファクトの影響

Self-Avatar Animation in Virtual Reality: Impact of Motion Signals Artifacts on the Full-Body Pose Reconstruction ( http://arxiv.org/abs/2404.18628v1 )

ライセンス: Link先を確認
Antoine Maiorca, Seyed Abolfazl Ghasemzadeh, Thierry Ravet, François Cresson, Thierry Dutoit, Christophe De Vleeschouwer, (参考訳) VR(Virtual Reality)アプリケーションは、対話型3D環境に個人を没入させることによって、ユーザエクスペリエンスに革命をもたらした。 これらの環境は、医療、教育、建築など多くの分野で応用されている。 VRの重要な側面は、仮想世界におけるユーザを表現するセルフアバターの導入であり、インタラクションとエボディメントの強化である。 しかし、特に低ボディートラッキングが欠落するコンシューマレベルのVRシステムでは、ライフスタイルのフルボディの自己アバターアニメーションを生成することは依然として困難である。 この問題に対処する1つの方法は、RGB(D)カメラから推定されるフルカルト位置などの下半身情報を含む動き情報の外部ソースを提供することである。 二つの運動源とオクルージョンの非同期化は、そのようなシステムの実装を妨げる重要な問題の例である。 本稿では,(1)VRの動作特徴と推定位置の遅延,(2)データ取得率,(3)オクルージョン,(4)位置推定アルゴリズムの不正確さといった,明瞭な自己アバターのフルボディポーズの再構築に与える影響を計測することを目的とする。 さらに,<textit{YOLOv8} のポーズ推定から推定した3次元カルテシアン座標を用いた動き再構成誤差を解析した。 これらの分析結果から, 試験対象の劣化, 特に速度再構成誤差にはかなり敏感であることが示唆された。

Virtual Reality (VR) applications have revolutionized user experiences by immersing individuals in interactive 3D environments. These environments find applications in numerous fields, including healthcare, education, or architecture. A significant aspect of VR is the inclusion of self-avatars, representing users within the virtual world, which enhances interaction and embodiment. However, generating lifelike full-body self-avatar animations remains challenging, particularly in consumer-grade VR systems, where lower-body tracking is often absent. One method to tackle this problem is by providing an external source of motion information that includes lower body information such as full Cartesian positions estimated from RGB(D) cameras. Nevertheless, the limitations of these systems are multiples: the desynchronization between the two motion sources and occlusions are examples of significant issues that hinder the implementations of such systems. In this paper, we aim to measure the impact on the reconstruction of the articulated self-avatar's full-body pose of (1) the latency between the VR motion features and estimated positions, (2) the data acquisition rate, (3) occlusions, and (4) the inaccuracy of the position estimation algorithm. In addition, we analyze the motion reconstruction errors using ground truth and 3D Cartesian coordinates estimated from \textit{YOLOv8} pose estimation. These analyzes show that the studied methods are significantly sensitive to any degradation tested, especially regarding the velocity reconstruction error.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 4D-DRESS:セマンティックアノテーションによる現実世界の人間の衣服の4Dデータセット

4D-DRESS: A 4D Dataset of Real-world Human Clothing with Semantic Annotations ( http://arxiv.org/abs/2404.18630v1 )

ライセンス: Link先を確認
Wenbo Wang, Hsuan-I Ho, Chen Guo, Boxiang Rong, Artur Grigorev, Jie Song, Juan Jose Zarate, Otmar Hilliges, (参考訳) デジタルアバターのための人間の衣服の研究は、主に合成データセットに依存している。 簡単に収集できるが、合成データは現実主義では不足し、本物の衣服のダイナミクスを捉えないことが多い。 このギャップに対処するため、4D-DRESSは、高品質な4Dテクスチャスキャンと衣服メッシュを用いて、人間の衣服の研究を進める最初の現実世界の4Dデータセットである。 4D-DRESSは520の人間の動作シーケンスで64の服をキャプチャし、78Kのテクスチャスキャンを行う。 現実世界の服のデータセットを作成することは、特に広範で複雑な4Dスキャンの注釈付けとセグメンテーションにおいて困難である。 そこで我々は,半自動4次元人間の解析パイプラインを開発した。 我々は、ループ内の人間のプロセスと自動化を効果的に組み合わせ、多様な衣服や体の動きの4Dスキャンを正確にラベル付けする。 高精度なアノテーションと高品質な衣料メッシュを活用し,衣服のシミュレーションと再構築のためのいくつかのベンチマークを構築した。 4D-DRESSは、人工的な素材を補完する現実的で挑戦的なデータを提供し、生命に似た人間の衣服の研究の進歩の道を開く。 Webサイト: https://ait.ethz.ch/4d-dress

The studies of human clothing for digital avatars have predominantly relied on synthetic datasets. While easy to collect, synthetic data often fall short in realism and fail to capture authentic clothing dynamics. Addressing this gap, we introduce 4D-DRESS, the first real-world 4D dataset advancing human clothing research with its high-quality 4D textured scans and garment meshes. 4D-DRESS captures 64 outfits in 520 human motion sequences, amounting to 78k textured scans. Creating a real-world clothing dataset is challenging, particularly in annotating and segmenting the extensive and complex 4D human scans. To address this, we develop a semi-automatic 4D human parsing pipeline. We efficiently combine a human-in-the-loop process with automation to accurately label 4D scans in diverse garments and body movements. Leveraging precise annotations and high-quality garment meshes, we establish several benchmarks for clothing simulation and reconstruction. 4D-DRESS offers realistic and challenging data that complements synthetic sources, paving the way for advancements in research of lifelike human clothing. Website: https://ait.ethz.ch/4d-dress.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# マルチモーダル予測モデルの説明に欠かせない特徴 : 臨床応用例

Feature importance to explain multimodal prediction models. A clinical use case ( http://arxiv.org/abs/2404.18631v1 )

ライセンス: Link先を確認
Jorn-Jan van de Beld, Shreyasi Pathak, Jeroen Geerdink, Johannes H. Hegeman, Christin Seifert, (参考訳) 高齢者の股関節骨折患者に対する手術は、早期死亡につながる合併症を引き起こす可能性がある。 合併症を早期に警告するシステムによって、臨床医はリスクの高い患者をもっと注意深く監視し、早期に合併症に対処したり、患者に知らせることが可能になる。 本研究では,高齢者股関節骨折患者の術前および術中データを用いた術後死亡予測のためのマルチモーダル深層学習モデルを構築した。 具体的には,手術前の静的な患者データ,手術前の股関節・胸部画像,手術中のバイタルシグナル,術中治療薬などについて検討した。 本稿では,ResNetを用いた画像モダリティとLSTMを用いたバイタル信号から特徴を抽出する。 臨床応用には説明可能なモデル結果が不可欠であるので、Shapley値を計算して、我々のマルチモーダルブラックボックスモデルの予測を説明する。 私たちはそれを見つける。 一 シェアリー値は、各モダリティの地域的及び世界的双方の相対的な寄与を推定することができる。 二 連鎖則の修正版は、解釈可能な局所的説明を支持する一連のモデルにより、シェープリー値の伝播に使用することができる。 ブラックボックスモデルのマルチモーダルな組み合わせは,シェープリーの値をモデルシーケンスで伝播させることで説明できることが示唆された。

Surgery to treat elderly hip fracture patients may cause complications that can lead to early mortality. An early warning system for complications could provoke clinicians to monitor high-risk patients more carefully and address potential complications early, or inform the patient. In this work, we develop a multimodal deep-learning model for post-operative mortality prediction using pre-operative and per-operative data from elderly hip fracture patients. Specifically, we include static patient data, hip and chest images before surgery in pre-operative data, vital signals, and medications administered during surgery in per-operative data. We extract features from image modalities using ResNet and from vital signals using LSTM. Explainable model outcomes are essential for clinical applicability, therefore we compute Shapley values to explain the predictions of our multimodal black box model. We find that i) Shapley values can be used to estimate the relative contribution of each modality both locally and globally, and ii) a modified version of the chain rule can be used to propagate Shapley values through a sequence of models supporting interpretable local explanations. Our findings imply that a multimodal combination of black box models can be explained by propagating Shapley values through the model sequence.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 多光子不明瞭性の半デバイス独立評価

Semi-device independent characterization of multiphoton indistinguishability ( http://arxiv.org/abs/2404.18636v1 )

ライセンス: Link先を確認
Giovanni Rodari, Leonardo Novo, Riccardo Albiero, Alessia Suprano, Carlos T. Tavares, Eugenio Caruccio, Francesco Hoch, Taira Giordani, Gonzalo Carvacho, Marco Gardina, Niki Di Giano, Serena Di Giorgio, Giacomo Corrielli, Francesco Ceccarelli, Roberto Osellame, Nicolò Spagnolo, Ernesto F. Galvão, Fabio Sciarrino, (参考訳) 多光子不明瞭性は、センシングと計算における量子拡張のための中心的な資源である。 大規模フォトニックデバイスの開発と認証には,実験誤差に対して堅牢な手法を用いることが望ましい。 そこで本研究では,光子数分散の測定に基づく多光子識別性の評価手法を提案する。 本手法は, 干渉計が誤ってダイヤルされている場合でも有効であるという意味で, 半デバイス独立方式で頑健である。 本稿では,量子ドット単一光子源と完全プログラム型集積フォトニックプロセッサからなる高度なフォトニックプラットフォームを用いて,このアプローチの有効性を実証する。 提案手法の実用性を示し,大規模システムに拡張可能な堅牢な認証ツールを提供する。

Multiphoton indistinguishability is a central resource for quantum enhancement in sensing and computation. Developing and certifying large scale photonic devices requires reliable and accurate characterization of this resource, preferably using methods that are robust against experimental errors. Here, we propose a set of methods for the characterization of multiphoton indistinguishability, based on measurements of bunching and photon number variance. Our methods are robust in a semi-device independent way, in the sense of being effective even when the interferometers are incorrectly dialled. We demonstrate the effectiveness of this approach using an advanced photonic platform comprising a quantum-dot single-photon source and a universal fully-programmable integrated photonic processor. Our results show the practical usefulness of our methods, providing robust certification tools that can be scaled up to larger systems.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# QOSST: 連続可変量子キー分散実験のための高モジュールオープンソースプラットフォーム

QOSST: A Highly-Modular Open Source Platform for Experimental Continuous-Variable Quantum Key Distribution ( http://arxiv.org/abs/2404.18637v1 )

ライセンス: Link先を確認
Yoann Piétri, Matteo Schiavon, Valentina Marulanda Acosta, Baptiste Gouraud, Luis Trigo Vidarte, Phillipe Grangier, Amine Rhouni, Eleni Diamanti, (参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、量子物理学の法則に根ざした情報理論セキュリティを持つ2つのリモートパーティ間の秘密鍵交換を可能にする。 光のコヒーレントな状態の2次成分の値などの連続変数(CV)における鍵情報の符号化は、標準的な光通信システムにはるかに近い実装をもたらすが、これは低信号対雑音比で操作するのに必要とされるデジタル信号処理技術において、かなり複雑である。 本研究では,CV-QKD実験の参入障壁を小さくし,ハードウェア非依存で,複数の構成で使用可能な,高度にモジュール化されたオープンソースソフトウェアを提供することにより,その難しさを解消したい。 我々は、局所的に発生する局所発振器、周波数多重化パイロット、RF-ヘテロダイン検出による実験装置を用いて、QOSSTと呼ばれるこのソフトウェアをベンチマークし、漸近限界における大都市圏距離におけるMbit/sのオーダーの最先端秘密鍵レートを得た。 我々は,QOSSTがCV-QKDのさらなる実験的進歩を刺激し,コミュニティによって改良・拡張され,多種多様な構成で高い性能を期待する。

Quantum Key Distribution (QKD) enables secret key exchange between two remote parties with information-theoretic security rooted in the laws of quantum physics. Encoding key information in continuous variables (CV), such as the values of quadrature components of coherent states of light, brings implementations much closer to standard optical communication systems, but this comes at the price of significant complexity in the digital signal processing techniques required for operation at low signal-to-noise ratios. In this work, we wish to lower the barriers to entry for CV-QKD experiments associated to this difficulty by providing a highly modular, open source software that is in principle hardware agnostic and can be used in multiple configurations. We benchmarked this software, called QOSST, using an experimental setup with a locally generated local oscillator, frequency multiplexed pilots and RF-heterodyne detection, and obtained state-of-the-art secret key rates of the order of Mbit/s over metropolitan distances at the asymptotic limit. We hope that QOSST can be used to stimulate further experimental advances in CV-QKD and be improved and extended by the community to achieve high performance in a wide variety of configurations.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 大規模言語モデルを用いた強化学習問題の解法

Reinforcement Learning Problem Solving with Large Language Models ( http://arxiv.org/abs/2404.18638v1 )

ライセンス: Link先を確認
Sina Gholamian, Domingo Huh, (参考訳) 大規模言語モデル(LLM)は、膨大な量の世界の知識をカプセル化しており、様々なドメインでの応用により、さまざまな自然言語処理(NLP)タスクの性能向上を実現している。 これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。 しかし,LLMを強化学習(Reinforcement Learning, RL)エージェントとして使用することにより,会話型RL問題解決が実現された。 そこで本研究では,マルコフ決定過程に基づく RL 問題を LLM プロンプトタスクとして定式化する概念について検討する。 特定のRLタスクに対するポリシーを学習し、最適化するために、LCMを反復的に促すことを実証する。 さらに,LLMが促進するエピソードシミュレーションとQ-Learningに導入したプロンプト技術を活用する。 次に,「研究科学者」と「レガリー・マター・インテーク」のワークフローに関する2つの詳細な事例研究を通して,アプローチの実践性を示す。

Large Language Models (LLMs) encapsulate an extensive amount of world knowledge, and this has enabled their application in various domains to improve the performance of a variety of Natural Language Processing (NLP) tasks. This has also facilitated a more accessible paradigm of conversation-based interactions between humans and AI systems to solve intended problems. However, one interesting avenue that shows untapped potential is the use of LLMs as Reinforcement Learning (RL) agents to enable conversational RL problem solving. Therefore, in this study, we explore the concept of formulating Markov Decision Process-based RL problems as LLM prompting tasks. We demonstrate how LLMs can be iteratively prompted to learn and optimize policies for specific RL tasks. In addition, we leverage the introduced prompting technique for episode simulation and Q-Learning, facilitated by LLMs. We then show the practicality of our approach through two detailed case studies for "Research Scientist" and "Legal Matter Intake" workflows.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# バンド状超安定化器を用いた低オーバーヘッド欠陥適応表面コード

Low-Overhead Defect-Adaptive Surface Code with Bandage-Like Super-Stabilizers ( http://arxiv.org/abs/2404.18644v1 )

ライセンス: Link先を確認
Zuolin Wei, Tan He, Yangsen Ye, Dachao Wu, Yiming Zhang, Youwei Zhao, Weiping Lin, He-Liang Huang, Xiaobo Zhu, Jian-Wei Pan, (参考訳) 実用的な量子アルゴリズムを動作させるためには、誤り訂正符号で保護された大規模量子プロセッサがノイズに抵抗し、信頼性の高い計算結果を保証する必要がある。 しかし、プロセッサ製造の欠陥や、コンピュータ処理中の時折の損失や宇宙線によって生じる大きな課題は、量子ビットの故障を招き、エラー訂正符号の通常の操作を妨害する可能性がある。 そこで本稿では,欠陥格子上で表面コードを実装するための自動アダプタを提案する。 従来の手法とは異なり、このアダプタは新しく提案されたバンド状スーパースタビライザを利用して、欠陥がクラスタ化されているときにより多くのキュービットを節約し、コード距離を増大させ、スーパースタビライザの重量を減少させる。 例えば、以前の方法と比較すると、コードサイズ27でランダムな欠陥率2\%で、無効な量子ビットは1/3$で減少し、平均保存されたコード距離は63\%になる。 これは、我々のアプローチによる欠陥処理におけるオーバーヘッドの大幅な削減を示し、この利点は、プロセッササイズと欠陥率の増加によって増幅される。 我々の研究は、表面のコードを欠陥に適応させるという課題に対して、低オーバーヘッドで自動化されたソリューションを提示します。

To make practical quantum algorithms work, large-scale quantum processors protected by error-correcting codes are required to resist noise and ensure reliable computational outcomes. However, a major challenge arises from defects in processor fabrication, as well as occasional losses or cosmic rays during the computing process, all of which can lead to qubit malfunctions and disrupt error-correcting codes' normal operations. In this context, we introduce an automatic adapter to implement the surface code on defective lattices. Unlike previous approaches, this adapter leverages newly proposed bandage-like super-stabilizers to save more qubits when defects are clustered, thus enhancing the code distance and reducing super-stabilizer weight. For instance, in comparison with earlier methods, with a code size of 27 and a random defect rate of 2\%, the disabled qubits decrease by $1/3$, and the average preserved code distance increases by 63\%. This demonstrates a significant reduction in overhead when handling defects using our approach, and this advantage amplifies with increasing processor size and defect rates. Our work presents a low-overhead, automated solution to the challenge of adapting the surface code to defects, an essential step towards scaling up the construction of large-scale quantum computers for practical applications.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# フラットバンドは波を丸くします

Flatband makes the wave go round ( http://arxiv.org/abs/2404.18646v1 )

ライセンス: Link先を確認
J. Eckseler, J. Schnack, (参考訳) 永続振動は非エルゴード時間進化の目印である。 時間結晶の挙動は、例えば多体局在から生じるが、ここでは、平らなバンドのハイゼンベルク量子スピン系において、絶え間なく回転する孤立波が出現することを示す。

Persistent oscillations are a hallmark of non-ergodic time evolution. While time-crystalline behavior results from, e.g., many-body localization, here we show that ever-revolving solitary waves emerge in flatband Heisenberg quantum spin systems.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# ワニエスターク状態への動的光子凝縮

Dynamical Photon Condensation into Wannier-Stark States ( http://arxiv.org/abs/2404.18647v1 )

ライセンス: Link先を確認
Arkadiusz Kosior, Karol Gietka, Farokh Mivehvar, Helmut Ritsch, (参考訳) 強い結合性を持つ光マター系は、一方の光子-光子相互作用と他方の光子-光子相互作用による損失と利得による非平衡な集合現象を示すことができる。 本稿では, 格子間の共振周波数を線形に増加させた, 駆動散逸結合キャビティ(キャビティモード)の線形配列からなるフォトニック格子系について検討する。 このモデルは、粒子保存制約を伴わない傾きポテンシャルにおける、駆動散逸性Bose-Hubbardモデルに相当する。 傾斜・トンネル・オンサイト相互作用・損失・利得過程の相互作用から生じる定常状態および非定常状態の多様さを予測した。 我々の重要な発見は、弱いオンサイト相互作用の下では、光子はブロッホ振動を期待せずに、主にボースコンデンスを選択された単一粒子のワニエ・スターク状態にすることである。 光子-光子相互作用の強度が増加するにつれて、周期的ブロッホ型振動によって驚くほど特徴付けられる非定常状態が出現する。 これらの興味深い非自明な効果は、システムの駆動散逸性の直接的な結果である。

Strongly coupled light-matter systems can exhibit nonequilibrium collective phenomena due to loss and gain processes on the one hand and effective photon-photon interactions on the other hand. Here we study a photonic lattice system composed of a linear array of driven-dissipative coupled cavities (or cavity modes) with linearly increasing resonance frequencies across the lattice. The model amounts to a driven-dissipative Bose-Hubbard model in a tilted potential without the particle-conservation constraint. We predict a diverse range of stationary and non-stationary states resulted from the interplay of the tilt, tunneling, on-site interactions, and the loss and gain processes. Our key finding is that, under weak on-site interactions, photons mostly Bose condense into a selected, single-particle Wannier-Stark state, instead of exhibiting expected Bloch oscillations. As the strength of the photon-photon interactions increase, a non-stationary regime emerges which is marked surprisingly by periodic Bloch-type oscillations. These intriguing, nontrivial effects are a direct consequence of the driven-dissipative nature of the system.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 不確かさに満ちたロバストビデオ活動予測

Uncertainty-boosted Robust Video Activity Anticipation ( http://arxiv.org/abs/2404.18648v1 )

ライセンス: Link先を確認
Zhaobo Qi, Shuhui Wang, Weigang Zhang, Qingming Huang, (参考訳) ビデオアクティビティの予測は、ロボットビジョンから自律運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。 近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。 これにより、モデル一般化能力とビデオコンテンツに対する深い理解が低下し、重大なエラーの蓄積と性能低下につながる。 本稿では、不確実性学習問題に対処し、予測結果の信頼性を示す不確実性値を生成する、不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。 不確実性値は、予測された目標活動分布を変調するためにソフトマックス関数の温度パラメータを導出するために用いられる。 分布調整を保証するため、時間的クラス相関と意味的関係から活動の進化を組み込んだ合理的な目標活動ラベル表現を構築した。 さらに,サンプル対とその時間長の不確かさを比較することで,相対値に不確かさを定量化する。 この相対戦略は、データセット全体の絶対的不確実値を定量化するよりも、不確実性モデリングにおいてよりアクセスしやすい方法を提供する。 複数のバックボーンとベンチマークの実験は、我々のフレームワークが有望なパフォーマンスを実現し、堅牢性と解釈性が向上していることを示している。 ソースコードはhttps://github.com/qzhb/UbRV2Aで入手できる。

Video activity anticipation aims to predict what will happen in the future, embracing a broad application prospect ranging from robot vision and autonomous driving. Despite the recent progress, the data uncertainty issue, reflected as the content evolution process and dynamic correlation in event labels, has been somehow ignored. This reduces the model generalization ability and deep understanding on video content, leading to serious error accumulation and degraded performance. In this paper, we address the uncertainty learning problem and propose an uncertainty-boosted robust video activity anticipation framework, which generates uncertainty values to indicate the credibility of the anticipation results. The uncertainty value is used to derive a temperature parameter in the softmax function to modulate the predicted target activity distribution. To guarantee the distribution adjustment, we construct a reasonable target activity label representation by incorporating the activity evolution from the temporal class correlation and the semantic relationship. Moreover, we quantify the uncertainty into relative values by comparing the uncertainty among sample pairs and their temporal-lengths. This relative strategy provides a more accessible way in uncertainty modeling than quantifying the absolute uncertainty values on the whole dataset. Experiments on multiple backbones and benchmarks show our framework achieves promising performance and better robustness/interpretability. Source codes are available at https://github.com/qzhb/UbRV2A.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# ディープフェイク検出のための説明可能なAI手法の定量的評価に向けて

Towards Quantitative Evaluation of Explainable AI Methods for Deepfake Detection ( http://arxiv.org/abs/2404.18649v1 )

ライセンス: Link先を確認
Konstantinos Tsigos, Evlampios Apostolidis, Spyridon Baxevanakis, Symeon Papadopoulos, Vasileios Mezaris, (参考訳) 本稿では,ディープフェイク検出器の決定に関する説明手法の性能を評価するための新しい枠組みを提案する。 本枠組みは, 深度検出精度と予測精度の低下を予測し, 深度検出精度と予測精度の低下を予測し, 深度検出精度の低下を予測し, 深度検出の判定に最も大きな影響を及ぼす原因として, 逆方向攻撃によってこれらの領域が修正できる範囲を検証することによって, 偽画像の領域を識別する能力を評価するものである。 この枠組みに基づいて、FaceForensics++データセットでトレーニングされたディープフェイク検出のための最先端モデルと、文献からの5つの説明手法を用いて比較研究を行う。 定量的および定性的な評価の結果は,LIME法と他の比較法との高度な性能を示すものであり,この手法が利用したディープフェイク検出器の判定に最も適していることを示している。

In this paper we propose a new framework for evaluating the performance of explanation methods on the decisions of a deepfake detector. This framework assesses the ability of an explanation method to spot the regions of a fake image with the biggest influence on the decision of the deepfake detector, by examining the extent to which these regions can be modified through a set of adversarial attacks, in order to flip the detector's prediction or reduce its initial prediction; we anticipate a larger drop in deepfake detection accuracy and prediction, for methods that spot these regions more accurately. Based on this framework, we conduct a comparative study using a state-of-the-art model for deepfake detection that has been trained on the FaceForensics++ dataset, and five explanation methods from the literature. The findings of our quantitative and qualitative evaluations document the advanced performance of the LIME explanation method against the other compared ones, and indicate this method as the most appropriate for explaining the decisions of the utilized deepfake detector.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 言語モデルのパラメトリック知識を探求する:属性手法の統一フレームワーク

Revealing the Parametric Knowledge of Language Models: A Unified Framework for Attribution Methods ( http://arxiv.org/abs/2404.18655v1 )

ライセンス: Link先を確認
Haeun Yu, Pepa Atanasova, Isabelle Augenstein, (参考訳) 言語モデル(LM)は、トレーニングプロセスからパラメトリック知識を取得し、それを重みに埋め込む。 しかし、LMのスケーラビリティの増大は、モデルの内部動作を理解する上で大きな課題を生じさせ、さらに、組み込まれた知識の更新や修正を、再トレーニングの大幅なコストを伴わずに行う。 このことは、格納されている知識と特定のモデルコンポーネントとの関連を正確に明らかにすることの重要性を浮き彫りにしている。 インスタンス帰属(IA)とニューロン帰属(NA)は、体系的に比較されていないが、この訓練を受けた知識に対する洞察を提供する。 本研究では,IA と NA の知識を定量化し,比較するための新しい評価枠組みを提案する。 提案手法の結果を一致させるために, NA-Instances を用いて, 影響力のあるトレーニングインスタンスを検索し, IA-Neurons を用いて IA-Neurons によって検出された影響インスタンスの重要なニューロンを探索する手法を提案する。 さらに,両手法による説明の包括性と十分性を評価するために,信頼度試験の包括的リストを提案する。 広範な実験と分析を通して、NAは一般的に、IAと比較してLMのパラメトリック知識に関するより多様で包括的な情報を明らかにしている。 それでもIAは、NAが明らかにしていないLMのパラメトリック知識について、ユニークで貴重な洞察を提供する。 さらに,本研究は,IAとNAの多種多様な知見を組み合わせて,LMのパラメトリック知識をより包括的に理解するための相乗的アプローチの可能性も示唆した。

Language Models (LMs) acquire parametric knowledge from their training process, embedding it within their weights. The increasing scalability of LMs, however, poses significant challenges for understanding a model's inner workings and further for updating or correcting this embedded knowledge without the significant cost of retraining. This underscores the importance of unveiling exactly what knowledge is stored and its association with specific model components. Instance Attribution (IA) and Neuron Attribution (NA) offer insights into this training-acquired knowledge, though they have not been compared systematically. Our study introduces a novel evaluation framework to quantify and compare the knowledge revealed by IA and NA. To align the results of the methods we introduce the attribution method NA-Instances to apply NA for retrieving influential training instances, and IA-Neurons to discover important neurons of influential instances discovered by IA. We further propose a comprehensive list of faithfulness tests to evaluate the comprehensiveness and sufficiency of the explanations provided by both methods. Through extensive experiments and analysis, we demonstrate that NA generally reveals more diverse and comprehensive information regarding the LM's parametric knowledge compared to IA. Nevertheless, IA provides unique and valuable insights into the LM's parametric knowledge, which are not revealed by NA. Our findings further suggest the potential of a synergistic approach of combining the diverse findings of IA and NA for a more holistic understanding of an LM's parametric knowledge.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 2レベルゆらぎのスパース浴によるデコヒーレンス:高品質量子ビットにおける1/f$ノイズの特徴

Decoherence induced by a sparse bath of two-level fluctuators: peculiar features of $1/f$ noise in high-quality qubits ( http://arxiv.org/abs/2404.18659v1 )

ライセンス: Link先を確認
M. Mehmandoost, V. V. Dobrovitski, (参考訳) 半導体および超伝導量子ビットの製造の進歩は、デコヒーリング欠陥の数を大幅に減らし、破壊的な低周波の1/f$ノイズを減らし、クビットのコヒーレンス時間を延長した(デファス時間$T_2^*$とエコー崩壊時間$T_2$)。 しかし、コヒーレンス特性の大きなqubit-to-qubit変異は問題であり、全てのqubitが一様に高品質な大規模レジスタを生成することは困難である。 本研究は,多くの(n\gg 1$)デコヒーリング欠陥からなるスパース浴で生成したキュービットが,同じ強度のキュービットと結合したキュービットの特徴であることを示す。 この欠陥を2レベルゆらぎ器(TLF)としてモデル化し、その遷移率$\gamma$は1/f$ノイズの標準モデルである$[\gamma_{m},\gamma_M]$の対数均一分布からサンプリングする。 例えば, TLF 密度 $d$ が小さい場合 (d=n/w\ll 1$, $n$ は TLF の数であり, $w=\ln{[\gamma_M/\gamma_{m}] は分布の対数幅である)。 浴槽の異なる実現法は、非常によく似たノイズパワースペクトルを$S(f)\sim 1/f$で生成するが、非常に異なるコヒーレンス時間$T_2^*$と$T_2$となる。 したがって、スペクトル密度$S(f)$は、密度の高い浴とは対照的に、スパースTLF浴に結合したキュービットのコヒーレンスを決定せず、代わりに、デコヒーレンスは、その値$\gamma$によって決定される少数の例外的なゆらぎによってのみ制御される。 これらのTLFのうち、T_2$ と $T_2^*$ の2つだけを除去すると、T_2$ と $T_2^*$ が大幅に増加することを示す。 本研究は,半導体および超伝導体量子ビットのコヒーレンス特性の理論的理解とさらなる向上に寄与し,これらのプラットフォームにおける1/f$ノイズと競合する。

Progress in fabrication of semiconductor and superconductor qubits has greatly diminished the number of decohering defects, thus decreasing the devastating low-frequency $1/f$ noise and extending the qubits' coherence times (dephasing time $T_2^*$ and the echo decay time $T_2$). However, large qubit-to-qubit variation of the coherence properties remains a problem, making it difficult to produce a large-scale register where all qubits have a uniformly high quality. In this work we show that large variability is a characteristic feature of a qubit dephased by a sparse bath made of many ($n\gg 1$) decohering defects, coupled to the qubit with similar strength. We model the defects as two-level fluctuators (TLFs) whose transition rates $\gamma$ are sampled from a log-uniform distribution over an interval $[\gamma_{m},\gamma_M]$, which is a standard model for $1/f$ noise. We investigate decoherence by such a bath in the limit of high-quality qubit, i.e.\ when the TLF density $d$ is small (the limit of sparse bath, with $d=n/w\ll 1$, where $n$ is the number of TLFs and $w=\ln{[\gamma_M/\gamma_{m}]}$ is the log-width of the distribution). We show that different realizations of the bath produce very similar noise power spectra $S(f)\sim 1/f$, but lead to drastically different coherence times $T_2^*$ and $T_2$. Thus, the spectral density $S(f)$ does not determine coherence of a qubit coupled to a sparse TLF bath, as opposed to a dense bath; instead, decoherence is controlled by only a few exceptional fluctuators, determined by their value of $\gamma$. We show that removing only two of these TLFs greatly increases $T_2$ and $T_2^*$ times. Our findings help theoretical understanding and further improvements in the coherence properties of semiconductor and superconductor qubits, battling the $1/f$ noise in these platforms.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 自動ソナー処理のオンライン適応性のためのテランのキャラクタリゼーション:MCM応用におけるサイドカンソナーへのATRの適用から学ぶ

Terrain characterisation for online adaptability of automated sonar processing: Lessons learnt from operationally applying ATR to sidescan sonar in MCM applications ( http://arxiv.org/abs/2404.18663v1 )

ライセンス: Link先を確認
Thomas Guerneve, Stephanos Loizou, Andrea Munafo, Pierre-Yves Mignotte, (参考訳) サイドスキャンソナー画像における自動認識(ATR)アルゴリズムの性能は,非良性環境において急速に劣化することが示されている。 複雑な海底と音響アーチファクトは、強いテクスチャパターンの形で気を散らし、偽検出や真の物体の検出を防ぐ。 本稿では,AUV(Autonomous Underwater Vehicles)ミッションにおける説明性向上のための2つのオンライン海底特性評価手法を提案する。 重要なことは、ドメインにおける以前の作業とは対照的に、これらのテクニックはモデルに基づいておらず、人間のオペレータからの限られた入力を必要とするため、リアルタイムのオンボード処理に適している。 どちらの手法も、地形の複雑さに対する人間の理解に関連する地形の特徴を抽出するために、教師なしの機械学習アプローチに依存している。 最初の技術は、ATRアルゴリズムの性能に基づいて、定量的でアプリケーション駆動の地形特性指標を提供する。 第2の方法は,主題の専門知識を取り入れ,シナリオ依存型主観的地形特徴化を支援するための文脈化と説明可能性を実現する方法である。 地形の複雑さは、従来の教師なしアプローチと比較して、このツールを望ましい、信頼に値するものにする経験豊富なユーザの期待と一致します。 最終的に、SeeByteの自律フレームワークであるNeptuneで実施されたMCM(Mine Countermeasures)ミッションの修復にこれらの技術の適用について詳述する。

The performance of Automated Recognition (ATR) algorithms on side-scan sonar imagery has shown to degrade rapidly when deployed on non benign environments. Complex seafloors and acoustic artefacts constitute distractors in the form of strong textural patterns, creating false detections or preventing detections of true objects. This paper presents two online seafloor characterisation techniques to improve explainability during Autonomous Underwater Vehicles (AUVs) missions. Importantly and as opposed to previous work in the domain, these techniques are not based on a model and require limited input from human operators, making it suitable for real-time onboard processing. Both techniques rely on an unsupervised machine learning approach to extract terrain features which relate to the human understanding of terrain complexity. The first technnique provides a quantitative, application-driven terrain characterisation metric based on the performance of an ATR algorithm. The second method provides a way to incorporate subject matter expertise and enables contextualisation and explainability in support for scenario-dependent subjective terrain characterisation. The terrain complexity matches the expectation of seasoned users making this tool desirable and trustworthy in comparison to traditional unsupervised approaches. We finally detail an application of these techniques to repair a Mine Countermeasures (MCM) mission carried with SeeByte autonomy framework Neptune.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# 手書き文書における情報抽出のための独立メトリクスの読み上げ

Reading Order Independent Metrics for Information Extraction in Handwritten Documents ( http://arxiv.org/abs/2404.18664v1 )

ライセンス: Link先を確認
David Villanova-Aparisi, Solène Tarride, Carlos-D. Martínez-Hinarejos, Verónica Romero, Christopher Kermorvant, Moisés Pastor-Gadea, (参考訳) 手書き文書における情報抽出プロセスは、自動書き起こしを取得し、そのような書き起こしに対して名前付きエンティティ認識(NER)を実行することに依存する傾向がある。 このため、一般に利用可能なデータセットでは、システムのパフォーマンスは通常、各データセットに特有のメトリクスで評価される。 さらに、採用されている指標のほとんどは、順序誤差の読み取りに敏感である。 したがって、それらはシステムの最終的な適用を反映せず、より複雑な文書にバイアスを導入している。 本稿では,手書き文書における情報抽出評価に適した読解順序に依存しない指標セットを提案し,公開する。 実験では、タスクを正しく評価するための最小限のメトリクスセットと考えるものを推奨するために、メトリクスの振る舞いを詳細に分析する。

Information Extraction processes in handwritten documents tend to rely on obtaining an automatic transcription and performing Named Entity Recognition (NER) over such transcription. For this reason, in publicly available datasets, the performance of the systems is usually evaluated with metrics particular to each dataset. Moreover, most of the metrics employed are sensitive to reading order errors. Therefore, they do not reflect the expected final application of the system and introduce biases in more complex documents. In this paper, we propose and publicly release a set of reading order independent metrics tailored to Information Extraction evaluation in handwritten documents. In our experimentation, we perform an in-depth analysis of the behavior of the metrics to recommend what we consider to be the minimal set of metrics to evaluate a task correctly.
翻訳日:2024-04-30 13:47:51 公開日:2024-04-29
# Lyft Point Cloudの分類問題にPointNetとPointNet++を活用する

Leveraging PointNet and PointNet++ for Lyft Point Cloud Classification Challenge ( http://arxiv.org/abs/2404.18665v1 )

ライセンス: Link先を確認
Rajat K. Doshi, (参考訳) 本研究では,完全自律走行車を実現する上で重要なコンポーネントであるLiDAR生成点クラウドデータの分類におけるPointNetとPointNet++の適用について検討する。 Lyft 3D Object Detection Challengeの修正データセットを利用することで、自律的なナビゲーションに必要な動的で複雑な環境を扱うモデルの能力を検証します。 我々の分析によると、PointNetとPointNet++はそれぞれ79.53%と84.24%の精度を達成した。 これらの結果は、自動運転車の安全性と効率性において重要な、複雑な環境データを解釈するモデルの堅牢性を強調している。 さらに、特に歩行者と他の物体を区別する際の検出精度の向上は、これらのモデルが自動運転車技術の進歩に大きく貢献する可能性を強調している。

This study investigates the application of PointNet and PointNet++ in the classification of LiDAR-generated point cloud data, a critical component for achieving fully autonomous vehicles. Utilizing a modified dataset from the Lyft 3D Object Detection Challenge, we examine the models' capabilities to handle dynamic and complex environments essential for autonomous navigation. Our analysis shows that PointNet and PointNet++ achieved accuracy rates of 79.53% and 84.24%, respectively. These results underscore the models' robustness in interpreting intricate environmental data, which is pivotal for the safety and efficiency of autonomous vehicles. Moreover, the enhanced detection accuracy, particularly in distinguishing pedestrians from other objects, highlights the potential of these models to contribute substantially to the advancement of autonomous vehicle technology.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# エンタングルメント強化原子重力計

An entanglement-enhanced atomic gravimeter ( http://arxiv.org/abs/2404.18668v1 )

ライセンス: Link先を確認
Christophe Cassens, Bernd Meyer-Hoppe, Ernst Rasel, Carsten Klempt, (参考訳) 超低温原子に基づく干渉計は、前例のない精度で慣性力の絶対的な測定を可能にする。 しかし、その分解能は基本的に量子ゆらぎによって制限される。 熱・量子変性原子の内部状態測定や、近年ではレーザー冷却原子の運動量-状態干渉計において、絡み合った原子による分解能の向上が実証された。 ここでは、ボース=アインシュタイン凝縮に基づく重力計を標準量子限界を超える感度で1.7^{+0.4}_{-0.5}\,$dBで提示する。 ボース・アインシュタイン凝縮とデルタ・キック・コリメーションを組み合わせた干渉計は、原子の損失を最小限に抑え、非常に長いベースライン原子干渉計への干渉計のスケーラビリティを向上させる。

Interferometers based on ultra-cold atoms enable an absolute measurement of inertial forces with unprecedented precision. However, their resolution is fundamentally restricted by quantum fluctuations. Improved resolutions with entangled or squeezed atoms were demonstrated in internal-state measurements for thermal and quantum-degenerate atoms and, recently, for momentum-state interferometers with laser-cooled atoms. Here, we present a gravimeter based on Bose-Einstein condensates with a sensitivity of $-1.7^{+0.4}_{-0.5}\,$dB beyond the standard quantum limit. Interferometry with Bose-Einstein condensates combined with delta-kick collimation minimizes atom loss in and improves scalability of the interferometer to very-long baseline atom interferometers.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 3次元ガウススプレイティングによるブーストラップ3次元再構成シーン

Bootstrap 3D Reconstructed Scenes from 3D Gaussian Splatting ( http://arxiv.org/abs/2404.18669v1 )

ライセンス: Link先を確認
Yifei Gao, Jie Ou, Lei Wang, Jun Cheng, (参考訳) ニューラルレンダリング技術の最近の進歩は、学術分野と商業分野の両方にわたって、フォトリアリスティックな3Dシーンのレンダリングを大幅に強化している。 最新の手法は3D Gaussian Splatting(3D-GS)と呼ばれ、レンダリングの品質とスピードのベンチマークを新たに設定した。 それでも、3D-GSの限界は新しい視点の合成において顕著となり、特にトレーニング中に見られるものとは大きく異なる視点についてである。 また、ズームインやアウト時にダイレーションやエイリアスなどの問題が発生する。 これらの課題はすべて、1つの根本的な問題、すなわち不十分なサンプリングに遡ることができる。 本稿では,この問題に対処するブートストラップ法を提案する。 このアプローチでは,3D-GSを用いた新しいビューのレンダリングを強化するために拡散モデルを用いて,トレーニングプロセスの合理化を行う。 以上の結果から,ブートストレッピングはアーティファクトを効果的に削減し,評価指標の明確化を図っている。 さらに,本手法は汎用性が高く,容易に統合可能であることを示し,様々な3次元再構成プロジェクトが本手法の恩恵を受けることができることを示した。

Recent developments in neural rendering techniques have greatly enhanced the rendering of photo-realistic 3D scenes across both academic and commercial fields. The latest method, known as 3D Gaussian Splatting (3D-GS), has set new benchmarks for rendering quality and speed. Nevertheless, the limitations of 3D-GS become pronounced in synthesizing new viewpoints, especially for views that greatly deviate from those seen during training. Additionally, issues such as dilation and aliasing arise when zooming in or out. These challenges can all be traced back to a single underlying issue: insufficient sampling. In our paper, we present a bootstrapping method that significantly addresses this problem. This approach employs a diffusion model to enhance the rendering of novel views using trained 3D-GS, thereby streamlining the training process. Our results indicate that bootstrapping effectively reduces artifacts, as well as clear enhancements on the evaluation metrics. Furthermore, we show that our method is versatile and can be easily integrated, allowing various 3D reconstruction projects to benefit from our approach.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 単純・高度機械学習を用いた病院における不確実な需要予測の強化

Enhancing Uncertain Demand Prediction in Hospitals Using Simple and Advanced Machine Learning ( http://arxiv.org/abs/2404.18670v1 )

ライセンス: Link先を確認
Annie Hu, Samuel Stockman, Xun Wu, Richard Wood, Bangdong Zhi, Oliver Y. Chén, (参考訳) 早期, タイムリーな患者のケア需要予測は, 効果的な資源配分に影響を及ぼすだけでなく, 臨床的意思決定や患者経験にも影響を及ぼす。 しかし、患者のケア需要を正確に予測することは、需要の時間変化による時間変動や、前もって傾向をモデル化することの難しさから、世界中の病院にとってユビキタスな課題である。 この問題に対処するため、我々は比較的単純な時間変数線形モデルとより高度なニューラルネットワークモデルという2つの手法を開発した。 前者は、週の日や7日間の到着パターンなどの要因に基づいて、患者が1週間以上到着すると予測している。 後者は、長い短期記憶(LSTM)モデルを活用し、過去のデータと3日間の予測ウィンドウの間の非線形関係をキャプチャする。 提案手法の予測能力について,2つのアプローチ,すなわち低ランクベクトル自己回帰(VAR)モデルとTABATSモデルと比較検討した。 イスラエルのランバム医療センターの患者ケア需要データを用いて, 両モデルが時間差の患者需要を効果的に捉えていることを示す。 さらに、線形モデルは、単純なアーキテクチャのおかげでより説明しやすいが、週ごとの季節トレンドを正確にモデル化することで、LSTMモデルはより低い予測誤差をもたらす。 さらに,3日ないし1週間前の精度(約4人の患者)で患者のケア需要を予測することが可能である。

Early and timely prediction of patient care demand not only affects effective resource allocation but also influences clinical decision-making as well as patient experience. Accurately predicting patient care demand, however, is a ubiquitous challenge for hospitals across the world due, in part, to the demand's time-varying temporal variability, and, in part, to the difficulty in modelling trends in advance. To address this issue, here, we develop two methods, a relatively simple time-vary linear model, and a more advanced neural network model. The former forecasts patient arrivals hourly over a week based on factors such as day of the week and previous 7-day arrival patterns. The latter leverages a long short-term memory (LSTM) model, capturing non-linear relationships between past data and a three-day forecasting window. We evaluate the predictive capabilities of the two proposed approaches compared to two na\"ive approaches - a reduced-rank vector autoregressive (VAR) model and the TBATS model. Using patient care demand data from Rambam Medical Center in Israel, our results show that both proposed models effectively capture hourly variations of patient demand. Additionally, the linear model is more explainable thanks to its simple architecture, whereas, by accurately modelling weekly seasonal trends, the LSTM model delivers lower prediction errors. Taken together, our explorations suggest the utility of machine learning in predicting time-varying patient care demand; additionally, it is possible to predict patient care demand with good accuracy (around 4 patients) three days or a week in advance using machine learning.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 不確かさ関係と制約付き二次計画法

Uncertainty relation and the constrained quadratic programming ( http://arxiv.org/abs/2404.18671v1 )

ライセンス: Link先を確認
Lin Zhang, Dade Wu, Ming-Jing Zhao, Hua Nan, (参考訳) 不確実性関係は量子理論の基本的な概念であり、様々な量子情報処理タスクにおいて重要な役割を果たす。 本研究では,2つ以上の観測可能量に関する加法的不確実性関係を,その分散の観点から検討する。 分散和の厳密な状態独立な下界は、最適化理論における非線形制約を伴う二次計画問題として特徴づけられる。 図示的な例として、状態非依存な下界と整合する低次元系におけるこれらの二次計画問題の解析解を導出する。 さらに、これらの2次プログラミングインスタンスを解くのに適した数値アルゴリズムを導入し、その効率と精度を強調した。 このアプローチの利点は、非線形制約を伴う二次計画問題の最適値を同時に達成する能力と、この最適値が達成された極端状態を正確に識別できることにある。 これにより、分散の和に対して厳密な状態独立な下界を確立することができ、さらにこの下界が実現される極端状態を特定することができる。

The uncertainty relation is a fundamental concept in quantum theory, plays a pivotal role in various quantum information processing tasks. In this study, we explore the additive uncertainty relation pertaining to two or more observables, in terms of their variance,by utilizing the generalized Gell-Mann representation in qudit systems. We find that the tight state-independent lower bound of the variance sum can be characterized as a quadratic programming problem with nonlinear constraints in optimization theory. As illustrative examples, we derive analytical solutions for these quadratic programming problems in lower-dimensional systems, which align with the state-independent lower bounds. Additionally, we introduce a numerical algorithm tailored for solving these quadratic programming instances, highlighting its efficiency and accuracy. The advantage of our approach lies in its potential ability to simultaneously achieve the optimal value of the quadratic programming problem with nonlinear constraints but also precisely identify the extremal state where this optimal value is attained. This enables us to establish a tight state-independent lower bound for the sum of variances, and further identify the extremal state at which this lower bound is realized.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# グラフ畳み込みネットワークとグラフ注意ネットワーク

Graph Convolutional Networks and Graph Attention Networks for Approximating Arguments Acceptability -- Technical Report ( http://arxiv.org/abs/2404.18672v1 )

ライセンス: Link先を確認
Paul Cibier, Jean-Guy Mailly, (参考訳) 抽象的議論に効率的な計算手法を提供するための様々な手法が提案されている。 このうち、ニューラルネットワークは様々な決定問題の解決を許可しており、特に議論(疑わしい、懐疑的な)の受け入れに関係している。 本研究では,この研究を様々な方法で進める。 まず、最先端のアプローチであるAFGCNを用いて、実行時と正確性の両方に関して、グラフ畳み込みネットワーク(GCN)のパフォーマンスを改善する方法を示す。 次に、グラフ注意ネットワーク(GAT)を用いて、ネットワークのアーキテクチャを変更することにより、アプローチの効率をさらに向上できることを示す。

Various approaches have been proposed for providing efficient computational approaches for abstract argumentation. Among them, neural networks have permitted to solve various decision problems, notably related to arguments (credulous or skeptical) acceptability. In this work, we push further this study in various ways. First, relying on the state-of-the-art approach AFGCN, we show how we can improve the performances of the Graph Convolutional Networks (GCNs) regarding both runtime and accuracy. Then, we show that it is possible to improve even more the efficiency of the approach by modifying the architecture of the network, using Graph Attention Networks (GATs) instead.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# オープンソースドリフト検出ツールの動作:2つのユースケースから

Open-Source Drift Detection Tools in Action: Insights from Two Use Cases ( http://arxiv.org/abs/2404.18673v1 )

ライセンス: Link先を確認
Rieke Müller, Mohamed Abdelaal, Davor Stjelja, (参考訳) データドリフトは、機械学習(ML)モデルのライフサイクルにおいて重要な課題となり、そのパフォーマンスと信頼性に影響を与える。 この課題に対して,オープンソースのドリフト検出ツールの有効性を評価するマイクロベンチマークD3Benchを提案する。 D3Benchは、Evidently AI、NannyML、Alibi-Detectの能力を調査し、2つのスマートビルディングユースケースから現実のデータを活用し、これらのツールの機能的適合性を評価し、データドリフトを特定し分析する。 さらに,MLパイプラインの可積分性,多様なデータ型への適応性,ユーザフレンドリ性,計算効率,リソース要求など,包括的な非機能基準についても検討する。 以上の結果から,Evidently AIはその一般的なデータドリフト検出に際し,NannyMLはシフトの正確なタイミングを推定し,その結果が予測精度に与える影響を評価するのに優れていることがわかった。

Data drifts pose a critical challenge in the lifecycle of machine learning (ML) models, affecting their performance and reliability. In response to this challenge, we present a microbenchmark study, called D3Bench, which evaluates the efficacy of open-source drift detection tools. D3Bench examines the capabilities of Evidently AI, NannyML, and Alibi-Detect, leveraging real-world data from two smart building use cases.We prioritize assessing the functional suitability of these tools to identify and analyze data drifts. Furthermore, we consider a comprehensive set of non-functional criteria, such as the integrability with ML pipelines, the adaptability to diverse data types, user-friendliness, computational efficiency, and resource demands. Our findings reveal that Evidently AI stands out for its general data drift detection, whereas NannyML excels at pinpointing the precise timing of shifts and evaluating their consequent effects on predictive accuracy.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 最初のコードコントリビューションに向けて - プロセスと情報の必要性

Towards the First Code Contribution: Processes and Information Needs ( http://arxiv.org/abs/2404.18677v1 )

ライセンス: Link先を確認
Christoph Treude, Marco A. Gerosa, Igor Steinmacher, (参考訳) ソフトウェアプロジェクトの新参者は、最初のコードコントリビューションを成功させる前に、多くの障壁を克服しなければなりません。 本研究は,新参者に必要な情報の多くはすでに存在するが,多くの異なる情報源に散在しているため,新参者を対象とした特定,抽出,生成,要約,文書の提示などによって多くの障壁に対処できる,と論じる。 コードコントリビューションに先立って,新参者によるプロセスと情報ニーズの詳細な理解を得るために,実証的研究を行った。 約100人の実践者による調査,基礎理論分析,バリデーションインタヴューに基づいて,ソフトウェアプロジェクトに新参者に続くプロセスの16段階モデルを提供し,情報タイプや情報源の関連性に影響を与える個人的・プロジェクト的特性とともに,関連情報を同定する。 我々の発見は、貢献プロセスの各ステップにおいて、プロジェクト新参者に関連情報を提供する自動化ツールサポートへの重要なステップを形成します。

Newcomers to a software project must overcome many barriers before they can successfully place their first code contribution, and they often struggle to find information that is relevant to them. In this work, we argue that much of the information needed by newcomers already exists, albeit scattered among many different sources, and that many barriers can be addressed by automatically identifying, extracting, generating, summarizing, and presenting documentation that is specifically aimed and customized for newcomers. To gain a detailed understanding of the processes followed by newcomers and their information needs before making their first code contribution, we conducted an empirical study. Based on a survey with about 100 practitioners, grounded theory analysis, and validation interviews, we contribute a 16-step model for the processes followed by newcomers to a software project and we identify relevant information, along with individual and project characteristics that influence the relevancy of information types and sources. Our findings form an essential step towards automated tool support that provides relevant information to project newcomers in each step of their contribution processes.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# モデル駆動工学におけるヒューマンファクター:将来の研究目標とMDEへの取り組み

Human Factors in Model-Driven Engineering: Future Research Goals and Initiatives for MDE ( http://arxiv.org/abs/2404.18682v1 )

ライセンス: Link先を確認
Grischa Liebel, Jil Klünder, Regina Hebig, Christopher Lazik, Inês Nunes, Isabella Graßl, Jan-Philipp Steghöfer, Joeri Exelmans, Julian Oertel, Kai Marquardt, Katharina Juhnke, Kurt Schneider, Lucas Gren, Lucia Happe, Marc Herrmann, Marvin Wyrich, Matthias Tichy, Miguel Goulão, Rebekka Wohlrab, Reyhaneh Kalantari, Robert Heinrich, Sandra Greiner, Satrio Adi Rukmono, Shalini Chakraborty, Silvia Abrahão, Vasco Amaral, (参考訳) 目的: ソフトウェアモデリングとモデル駆動工学(MDE)は、伝統的に技術的な観点から研究されています。 しかしながら、ソフトウェアモデルの使用の背後にあるモチベーションの1つは、本質的に人間中心である。 モデルは、実践者がソフトウェア設計についてコミュニケーションしたり、ソフトウェアを理解しやすくしたり、ドメイン固有のモデリング言語で簡単にソフトウェアを書けるようにすることを目的としています。 いくつかの最近の研究は、これらの目的が常に到達できるという考えに挑戦し、人間の要因がMDEの成功に果たす役割を示唆している。 しかし、モデリングにおける人的要因に焦点を当てた研究の過小評価がある。 方法: GI-Dagstuhlセミナーにおいて, モデリングにおける人的要因に関連するトピックについて, 研究・産業の専門家26名により検討した。 結果: ブレークアウトグループでは, 人的側面のモデル化, モデラー体験の要因, MDEへの多様性と包括性, コラボレーションとMDE, ヒューマン・アウェア・MDE教育の5つのトピックが深く取り上げられた。 結論:5つのトピックに関する議論で得られた洞察を要約します。 我々は,人的要因や価値観を認識し,支援するMDEコミュニティに向けた今後の取り組みを支援する研究目標,質問,提案を定式化する。

Purpose: Software modelling and Model-Driven Engineering (MDE) is traditionally studied from a technical perspective. However, one of the core motivations behind the use of software models is inherently human-centred. Models aim to enable practitioners to communicate about software designs, make software understandable, or make software easier to write through domain-specific modelling languages. Several recent studies challenge the idea that these aims can always be reached and indicate that human factors play a role in the success of MDE. However, there is an under-representation of research focusing on human factors in modelling. Methods: During a GI-Dagstuhl seminar, topics related to human factors in modelling were discussed by 26 expert participants from research and industry. Results: In breakout groups, five topics were covered in depth, namely modelling human aspects, factors of modeller experience, diversity and inclusion in MDE, collaboration and MDE, and teaching human-aware MDE. Conclusion: We summarise our insights gained during the discussions on the five topics. We formulate research goals, questions, and propositions that support directing future initiatives towards an MDE community that is aware of and supportive of human factors and values.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# Work Smarter...Not Harder: SOV言語における依存性長の効率的な最小化

Work Smarter...Not Harder: Efficient Minimization of Dependency Length in SOV Languages ( http://arxiv.org/abs/2404.18684v1 )

ライセンス: Link先を確認
Sidharth Ranjan, Titus von der Malsburg, (参考訳) 依存長最小化(Dependency length minimization)は、自然言語の普遍的な定量的性質である。 しかし、依存関係長の最小化の程度と、言語プロセッサがこの最小化を実現する認知メカニズムはいまだに不明である。 本研究は, 主動詞の横にある短い前動詞構成詞を移動させることで, SOV言語における依存関係長の国際最小化よりも, 事前詞構成詞の順序決定が優れていることを示唆して, 機械的洞察を提供する。 このアプローチは1つの操作に過ぎないが、主動詞に関連付けられたすべての前動詞依存の長さを同時に減少させるため、最小限の戦略を構成する。 我々は,Universal Dependency Treebankで顕著に表現されている7つのSOV言語すべてにわたる大規模コーパスエビデンスを用いて,この戦略を裏付ける。 これらの知見は、最適解の徹底的な探索というよりはむしろ「クイック・イット・エコノミカル」なヒューリスティックスによって意思決定が影響される有界有理性の概念と一致する。 全体として、この研究は言語決定と言語進化における有界合理性の役割に光を当てている。

Dependency length minimization is a universally observed quantitative property of natural languages. However, the extent of dependency length minimization, and the cognitive mechanisms through which the language processor achieves this minimization remain unclear. This research offers mechanistic insights by postulating that moving a short preverbal constituent next to the main verb explains preverbal constituent ordering decisions better than global minimization of dependency length in SOV languages. This approach constitutes a least-effort strategy because it's just one operation but simultaneously reduces the length of all preverbal dependencies linked to the main verb. We corroborate this strategy using large-scale corpus evidence across all seven SOV languages that are prominently represented in the Universal Dependency Treebank. These findings align with the concept of bounded rationality, where decision-making is influenced by 'quick-yet-economical' heuristics rather than exhaustive searches for optimal solutions. Overall, this work sheds light on the role of bounded rationality in linguistic decision-making and language evolution.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# FALE:サブグループにおけるバイアス監査のためのフェアネス対応ALEプロット

FALE: Fairness-Aware ALE Plots for Auditing Bias in Subgroups ( http://arxiv.org/abs/2404.18685v1 )

ライセンス: Link先を確認
Giorgos Giannopoulos, Dimitris Sacharidis, Nikolas Theologitis, Loukas Kavouras, Ioannis Emiris, (参考訳) フェアネスは、機械学習(ML)システムにおいて、徐々に重要な要件になりつつある。 特に重要な概念は、サブグループフェアネス、すなわち複数の属性によって定義される個人のサブグループにおけるフェアネスである。 サブグループのバイアスを特定することは、計算的に困難になるだけでなく、エンドユーザに対する発見の理解性や直感性に関しても問題となる可能性がある。 本研究は後者に焦点をあて,サブグループ内の潜在的なバイアスを特定し,エンドユーザに親しみやすい方法で発見を可視化するための説明可能性手法を提案する。 特に、FALE(Fairness aware Accumulated Local Effects)プロットの提案により、ALEプロットの説明可能性法を拡張し、特徴(属性)の異なる値に対応する影響集団に対する公正度の変化を測定する方法を提案する。 FALEは,潜在的なバイアス問題のあるサブグループを特定するための,効率的でユーザフレンドリで,理解しやすく,信頼性の高い第1段階ツールとして機能することを期待している。

Fairness is steadily becoming a crucial requirement of Machine Learning (ML) systems. A particularly important notion is subgroup fairness, i.e., fairness in subgroups of individuals that are defined by more than one attributes. Identifying bias in subgroups can become both computationally challenging, as well as problematic with respect to comprehensibility and intuitiveness of the finding to end users. In this work we focus on the latter aspects; we propose an explainability method tailored to identifying potential bias in subgroups and visualizing the findings in a user friendly manner to end users. In particular, we extend the ALE plots explainability method, proposing FALE (Fairness aware Accumulated Local Effects) plots, a method for measuring the change in fairness for an affected population corresponding to different values of a feature (attribute). We envision FALE to function as an efficient, user friendly, comprehensible and reliable first-stage tool for identifying subgroups with potential bias issues.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 波長安定二光子生成のための動的温度補償

Dynamic temperature compensation for wavelength-stable entangled biphoton generation ( http://arxiv.org/abs/2404.18686v1 )

ライセンス: Link先を確認
Yuting Liu, Huibo Hong, Xiao Xiang, Runai Quan, Tao Liu, Mingtao Cao, Shougang Zhang, Ruifang Dong, (参考訳) MgO:PPLN導波路に基づく自然パラメトリックダウンコンバージョンにより発生する絡み合った二光子源の波長を安定化させる動的温度補償法を提案する。 ディジタル比例積分微分アルゴリズムと組み合わせた分散フーリエ変換技術を用いることで、少量の波長変化を即座に同定し、能動的温度補正で補償することができる。 長期の波長安定性は、アラン偏差は評価されているが、100倍近く向上し、平均10000秒で2.00*10^(-7)に達する。 量子情報処理における正確な波長制御のための、シンプルで使いやすいソリューションを提供する。

A dynamic temperature compensation method is presented to stabilize the wavelength of the entangled biphoton source, which is generated via the spontaneous parametric down-conversion based on a MgO: PPLN waveguide. Utilizing the dispersive Fourier transformation technique combined with a digital proportional-integral-differential algorithm, the small amount of wavelength variation can be instantly identified and then compensated with active temperature correction. The long-term wavelength stability, assessed though Allan deviation, shows nearly a hundredfold enhancement, reaching 2.00*10^(-7) at the averaging time of 10000 s. It offers a simple, ready-to-use solution for precise wavelength control in quantum information processing.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 半導体量子ドットにおけるスピン量子ビットに対する2量子ゲートの多様集合

A diverse set of two-qubit gates for spin qubits in semiconductor quantum dots ( http://arxiv.org/abs/2404.18689v1 )

ライセンス: Link先を確認
Ming Ni, Rong-Long Ma, Zhen-Zhen Kong, Ning Chu, Sheng-Kai Zhu, Chu Wang, Ao-Ran Li, Wei-Zhu Liao, Gang Cao, Gui-Lei Wang, Guang-Can Guo, Xuedong Hu, Hai-Ou Li, Guo-Ping Guo, (参考訳) 大規模量子情報処理を実現するため、2量子演算の理想的なスキームは、与えられたハードウェアと物理相互作用による多様な操作を可能にする必要がある。 しかし、半導体量子ドットにおけるスピン量子ビットの場合、CPhaseゲート、SWAPゲート、CROTゲートなどの一般的な2量子ビット演算は、異なるパラメータ領域と制御波形で実現され、同時に実装する上での課題となっている。 そこで本研究では,スピン量子ビット間のハイゼンベルク相互作用を生かして,利用可能な2量子ビットゲートタイプを拡張し,デバイス特性の要件を緩和する高速複合2量子ゲートスキームを提案し,検証する。 従来提案されていたCPhase(制御相)ゲートとSWAPゲートとは別に、理論的な結果はiSWAPゲートとフェルミオンシミュレーション(fSim)ゲートセットがスピン量子ビットにも利用できることを示している。 一方、ゲートスキームは、全ての必須2ビットゲートのパラメータ要求を共通 J~{\Delta}E_Z 領域に制限し、それらの同時実現を容易にする。 さらに, 実測結果と模擬結果との良好な一致を観察し, 複合ゲート方式の予備実験を行った。 この汎用複合ゲート方式により、広帯域2量子ビット演算により、ハードウェアと基礎となる物理資源を効率的に利用することができ、次のノイズ中間スケール量子(NISQ)コンピューティングの加速と拡張に役立てることができる。

To realize large-scale quantum information processes, an ideal scheme for two-qubit operations should enable diverse operations with given hardware and physical interaction. However, for spin qubits in semiconductor quantum dots, the common two-qubit operations, including CPhase gates, SWAP gates, and CROT gates, are realized with distinct parameter regions and control waveforms, posing challenges for their simultaneous implementation. Here, taking advantage of the inherent Heisenberg interaction between spin qubits, we propose and verify a fast composite two-qubit gate scheme to extend the available two-qubit gate types as well as reduce the requirements for device properties. Apart from the formerly proposed CPhase (controlled-phase) gates and SWAP gates, theoretical results indicate that the iSWAP-family gate and Fermionic simulation (fSim) gate set are additionally available for spin qubits. Meanwhile, our gate scheme limits the parameter requirements of all essential two-qubit gates to a common J~{\Delta}E_Z region, facilitate the simultaneous realization of them. Furthermore, we present the preliminary experimental demonstration of the composite gate scheme, observing excellent match between the measured and simulated results. With this versatile composite gate scheme, broad-spectrum two-qubit operations allow us to efficiently utilize the hardware and the underlying physics resources, helping accelerate and broaden the scope of the upcoming noise intermediate-scale quantum (NISQ) computing.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 注視点を超えて:拡張現実におけるマルチモーダルユーザ認証のための脳波データによる眼球運動の増強

Beyond Gaze Points: Augmenting Eye Movement with Brainwave Data for Multimodal User Authentication in Extended Reality ( http://arxiv.org/abs/2404.18694v1 )

ライセンス: Link先を確認
Matin Fallahi, Patricia Arias-Cabarcos, Thorsten Strufe, (参考訳) 様々なアプリケーションにおける拡張現実性(XR)の採用の増加は、セキュアでユーザフレンドリな認証方法の必要性を浮き彫りにしている。 しかし、既存の手法はXR設定における没入感を損なう可能性がある。 本稿では,眼球運動と脳波パターンを組み合わせた多モード生体認証システムを提案する。 当社のマルチモーダル認証では,眼球運動や脳波の非侵襲的・非侵襲的特性を利用して,シームレスなXRユーザエクスペリエンスとセキュリティ向上を実現している。 そこで我々は,30人の被験者から収集した近視・脳波データを用いて,このバイオメトリックスを生体認証に活用できるかどうかを検討した。 マルチモーダル認証システムでは、眼球運動モードに比べてEERが83.6倍、脳波モードに比べて93.9倍と優れたEER(Equal Error Rate)が生成される。

The increasing adoption of Extended Reality (XR) in various applications underscores the need for secure and user-friendly authentication methods. However, existing methods can disrupt the immersive experience in XR settings, or suffer from higher false acceptance rates. In this paper, we introduce a multimodal biometric authentication system that combines eye movement and brainwave patterns, as captured by consumer-grade low-fidelity sensors. Our multimodal authentication exploits the non-invasive and hands-free properties of eye movement and brainwaves to provide a seamless XR user experience and enhanced security as well. Using synchronized eye and brainwave data collected from 30 participants through consumer-grade devices, we investigated whether twin neural networks can utilize these biometrics for identity verification. Our multimodal authentication system yields an excellent Equal Error Rate (EER) of 0.298\%, which means an 83.6\% reduction in EER compared to the single eye movement modality or a 93.9\% reduction in EER compared to the single brainwave modality.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# スケッチに基づく画像検索のためのデュアルモーダルプロンプト

Dual-Modal Prompting for Sketch-Based Image Retrieval ( http://arxiv.org/abs/2404.18695v1 )

ライセンス: Link先を確認
Liying Gao, Bingliang Jiao, Peng Wang, Shizhou Zhang, Hanwang Zhang, Yanning Zhang, (参考訳) スケッチベースの画像検索(SBIR)は、手描きのスケッチとそれに対応するリアルなイメージを関連付ける。 本研究では,この課題の2つの主要な課題に同時に取り組むことを目的としている。 一 目に見えないカテゴリーに対処するゼロショット 二 細粒で、カテゴリー内インスタンスレベルの検索を参照すること。 私たちの重要な革新は、一般化の観点から、このクロスカテゴリときめ細かな認識タスクにのみ取り組むことが不十分である、という認識にある。 そこで本研究では,CLIP(DP-CLIP)ネットワークに適応的なプロンプト戦略を設計したデュアルモーダルプロンプトを提案する。 具体的には、予測不能なターゲットカテゴリへのDP-CLIPの適応を容易にするために、ターゲットカテゴリとテキストカテゴリラベル内の一連の画像を用いて、カテゴリ適応プロンプトトークンとチャネルスケールのセットを構築する。 生成したガイダンスを統合することで、DP-CLIPは有用なカテゴリ中心の洞察を得ることができ、新しいカテゴリに効率よく適応し、各カテゴリ内で効果的な検索のためのユニークな識別的手がかりを捉えることができる。 これらの設計により、DP-CLIPはAccの7.3%の精度で、最先端の微細ゼロショットSBIR法より優れている。 Sketchyデータセットの@1。 一方、他の2つのカテゴリレベルのゼロショットSBIRベンチマークでは、提案手法は有望な性能を達成する。

Sketch-based image retrieval (SBIR) associates hand-drawn sketches with their corresponding realistic images. In this study, we aim to tackle two major challenges of this task simultaneously: i) zero-shot, dealing with unseen categories, and ii) fine-grained, referring to intra-category instance-level retrieval. Our key innovation lies in the realization that solely addressing this cross-category and fine-grained recognition task from the generalization perspective may be inadequate since the knowledge accumulated from limited seen categories might not be fully valuable or transferable to unseen target categories. Inspired by this, in this work, we propose a dual-modal prompting CLIP (DP-CLIP) network, in which an adaptive prompting strategy is designed. Specifically, to facilitate the adaptation of our DP-CLIP toward unpredictable target categories, we employ a set of images within the target category and the textual category label to respectively construct a set of category-adaptive prompt tokens and channel scales. By integrating the generated guidance, DP-CLIP could gain valuable category-centric insights, efficiently adapting to novel categories and capturing unique discriminative clues for effective retrieval within each target category. With these designs, our DP-CLIP outperforms the state-of-the-art fine-grained zero-shot SBIR method by 7.3% in Acc.@1 on the Sketchy dataset. Meanwhile, in the other two category-level zero-shot SBIR benchmarks, our method also achieves promising performance.
翻訳日:2024-04-30 13:38:04 公開日:2024-04-29
# 線形逆問題に対する逐次最適化を用いたスコアベースモデルの収束特性

Convergence Properties of Score-Based Models using Graduated Optimisation for Linear Inverse Problems ( http://arxiv.org/abs/2404.18699v1 )

ライセンス: Link先を確認
Pascal Fernsel, Željko Kereta, Alexander Denker, (参考訳) 逆問題に対する変分定式化における生成モデルの正規化は、多数の画像再構成タスクにおいて有効であることが証明されている。 しかし、結果の最適化問題は、しばしば非凸であり、解決は困難である。 本研究では,逆問題の解法として,スコアベース生成モデル (SGM) を逐次最適化フレームワークとして利用できることを示す。 得られた非凸性流れは元の問題の定常点に収束し、2次元玩具の例の数値収束解析を行う。 さらに,計算トモグラフィ画像再構成実験を行い,このフレームワークが初期値とは無関係に高品質な画像を復元可能であることを示す。 実験では、段階最適化フレームワークでSGMを使用する可能性を強調している。

The incorporation of generative models as regularisers within variational formulations for inverse problems has proven effective across numerous image reconstruction tasks. However, the resulting optimisation problem is often non-convex and challenging to solve. In this work, we show that score-based generative models (SGMs) can be used in a graduated optimisation framework to solve inverse problems. We show that the resulting graduated non-convexity flow converge to stationary points of the original problem and provide a numerical convergence analysis of a 2D toy example. We further provide experiments on computed tomography image reconstruction, where we show that this framework is able to recover high-quality images, independent of the initial value. The experiments highlight the potential of using SGMs in graduated optimisation frameworks.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 機械学習における解釈を信頼すべきでない理由 - 部分依存型に対する敵対的攻撃

Why You Should Not Trust Interpretations in Machine Learning: Adversarial Attacks on Partial Dependence Plots ( http://arxiv.org/abs/2404.18702v1 )

ライセンス: Link先を確認
Xi Xin, Fei Huang, Giles Hooker, (参考訳) 産業間で人工知能(AI)が採用され、複雑なブラックボックスモデルや解釈ツールが広く使われるようになった。 本稿では,機械学習タスクにおける置換に基づく解釈手法の脆弱性を明らかにするために,特に部分依存(PD)プロットに着目した逆方向のフレームワークを提案する。 この逆のフレームワークはオリジナルのブラックボックスモデルを修正し、外挿領域のインスタンスの予測を操作する。 結果として、オリジナルのモデルの予測の大部分を保存しながら、識別行動を隠すことができる偽のPDプロットを生成する。 このフレームワークは、1つのモデルで複数の不正なPDプロットを生成することができる。 自動保険請求データセットやCompAS(Correctional Offender Management Profiling for Alternative Sanctions)データセットを含む現実のデータセットを使用することで,予測者の識別行動を意図的に隠蔽し,PDプロットなどの解釈ツールを通じてブラックボックスモデルを中立にすることができる。 この結果に基づいて、規制当局や実務者に対する管理的洞察が提供される。

The adoption of artificial intelligence (AI) across industries has led to the widespread use of complex black-box models and interpretation tools for decision making. This paper proposes an adversarial framework to uncover the vulnerability of permutation-based interpretation methods for machine learning tasks, with a particular focus on partial dependence (PD) plots. This adversarial framework modifies the original black box model to manipulate its predictions for instances in the extrapolation domain. As a result, it produces deceptive PD plots that can conceal discriminatory behaviors while preserving most of the original model's predictions. This framework can produce multiple fooled PD plots via a single model. By using real-world datasets including an auto insurance claims dataset and COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dataset, our results show that it is possible to intentionally hide the discriminatory behavior of a predictor and make the black-box model appear neutral through interpretation tools like PD plots while retaining almost all the predictions of the original black-box model. Managerial insights for regulators and practitioners are provided based on the findings.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# The Socface Project: 1世紀のフランスの国勢調査の大規模収集・処理・分析

The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses ( http://arxiv.org/abs/2404.18706v1 )

ライセンス: Link先を確認
Mélodie Boillet, Solène Tarride, Yoann Schneider, Bastien Abadie, Lionel Kesztenbaum, Christopher Kermorvant, (参考訳) 本稿では1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを提案する。 これらのリストには、フランスとその家庭に住む個人に関する情報が含まれている。 自動手書き表認識を用いて,これらの表に含まれる全ての情報を抽出することを目的としている。 私たちの仕事が行われているSocfaceプロジェクトの終わりに、抽出された情報は、部局のアーカイブに再配布され、指名リストは無料で公開され、誰でも数億のレコードを閲覧できます。 抽出されたデータは、デモグラファーによって、時間とともに社会の変化を分析し、フランスの経済と社会構造に対する理解を著しく改善するために使用される。 本プロジェクトでは,フランスの部局アーカイブからの大規模データ収集,文書の協調アノテーション,手書き表テキストと構造認識モデルのトレーニング,数百万の画像の大量処理など,完全な処理ワークフローを構築した。 数百万ページの収集と処理を容易にするために開発したツールを紹介します。 また、ページ全体の画像を用いて個人に関する情報を認識し、分類し、自動的に家庭に分類する単一のテーブル認識モデルを用いて、このような多種多様なテーブルを処理できることも示している。 全プロセスは、45万枚以上の画像を表す部門文書の処理に成功している。

This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# アイコニック・ジェスチャ・セマンティクス

Iconic Gesture Semantics ( http://arxiv.org/abs/2404.18708v1 )

ライセンス: Link先を確認
Andy Lücking, Alexander Henlein, Alexander Mehler, (参考訳) 象徴的なジェスチャーの「意味」は、その情報評価によって規定される。 情報評価だけが、文言の内容と対話できる準言語レベルまでジェスチャーを持ち上げる。 相互作用は、通常のレキシコン駆動推論によって、空いているか、あるいは連隊的である。 ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。 象徴的モデルは、空間的に拡張された領域内でのジェスチャーフォームのフレーゲ/モンタギュー様の真理関数的評価から導かれる。 さらに、視覚コミュニケーションのインスタンスの知覚的分類には、Frege/Montagueフレームワークとは異なる意味の概念が必要であると論じる。 したがって、動作意味論を導くことのできるジェスチャー解釈のためのヒューリスティックが提供される。 要約すると、モデル理論的な評価から動的セマンティック・フレームワークにおける推論的解釈までの運動的ジェスチャー表現の全範囲をカバーする、象徴的なジェスチャ意味論が導入された。

The "meaning" of an iconic gesture is conditioned on its informational evaluation. Only informational evaluation lifts a gesture to a quasi-linguistic level that can interact with verbal content. Interaction is either vacuous or regimented by usual lexicon-driven inferences. Informational evaluation is spelled out as extended exemplification (extemplification) in terms of perceptual classification of a gesture's visual iconic model. The iconic model is derived from Frege/Montague-like truth-functional evaluation of a gesture's form within spatially extended domains. We further argue that the perceptual classification of instances of visual communication requires a notion of meaning different from Frege/Montague frameworks. Therefore, a heuristic for gesture interpretation is provided that can guide the working semanticist. In sum, an iconic gesture semantics is introduced which covers the full range from kinematic gesture representations over model-theoretic evaluation to inferential interpretation in dynamic semantic frameworks.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# ロボット制御のための適応強化学習

Adaptive Reinforcement Learning for Robot Control ( http://arxiv.org/abs/2404.18713v1 )

ライセンス: Link先を確認
Yu Tang Liu, Nilaksh Singh, Aamir Ahmad, (参考訳) 深部強化学習(DRL)はシミュレーション領域において顕著な成功を収めてきたが、単一タスクの向きと環境変化への適応性が不十分なため、ロボットコントローラの設計への応用は依然として限られている。 これらの制約を克服するために,異なるタスクや環境条件に応じて動的にポリシーを適応させるために,トランスファーラーニング技術を活用する新しい適応エージェントを提案する。 この手法は、マルチタスク能力と環境適応性が不可欠であるブランプ制御の課題を通じて検証される。 このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。 実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。 コードは \url{https://github.com/robot-perception-group/adaptive\_agent/} で共有しています。

Deep reinforcement learning (DRL) has shown remarkable success in simulation domains, yet its application in designing robot controllers remains limited, due to its single-task orientation and insufficient adaptability to environmental changes. To overcome these limitations, we present a novel adaptive agent that leverages transfer learning techniques to dynamically adapt policy in response to different tasks and environmental conditions. The approach is validated through the blimp control challenge, where multitasking capabilities and environmental adaptability are essential. The agent is trained using a custom, highly parallelized simulator built on IsaacGym. We perform zero-shot transfer to fly the blimp in the real world to solve various tasks. We share our code at \url{https://github.com/robot-perception-group/adaptive\_agent/}.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# PyLaiaオープンソースライブラリにおける言語モデルによるテキストの自動認識の改善

Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library ( http://arxiv.org/abs/2404.18722v1 )

ライセンス: Link先を確認
Solène Tarride, Yoann Schneider, Marie Generali-Lince, Mélodie Boillet, Bastien Abadie, Christopher Kermorvant, (参考訳) PyLaiaは、ATR(Automatic Text Recognition)のための最も人気のあるオープンソースソフトウェアの一つで、スピードと精度の点で強力なパフォーマンスを提供する。 本稿では,PyLaiaライブラリへの最近のコントリビューションについて概説し,信頼度スコアの導入と復号時の統計的言語モデリングの統合に着目した。 我々の実装は、異なるレベルでPyLaiaとn-gramの言語モデルを簡単に組み合わせる方法を提供する。 言語モデルは、専門家の知識を必要とせず、追加のデータも必要とせず、簡単に構築および使用することができる。 コントリビューションの重要性を示すため、言語モデリングと非言語モデルを用いて、12のデータセット上でPyLaiaの性能を評価する。 その結果,小言語モデルによる復号化はワード誤り率を13%,文字誤り率を12%向上させることがわかった。 さらに,信頼性スコアの分析を行い,校正手法の重要性を強調した。 私たちの実装は、https://gitlab.teklia.com/atr/pylaiaの公式PyLaiaリポジトリで公開されています。

PyLaia is one of the most popular open-source software for Automatic Text Recognition (ATR), delivering strong performance in terms of speed and accuracy. In this paper, we outline our recent contributions to the PyLaia library, focusing on the incorporation of reliable confidence scores and the integration of statistical language modeling during decoding. Our implementation provides an easy way to combine PyLaia with n-grams language models at different levels. One of the highlights of this work is that language models are completely auto-tuned: they can be built and used easily without any expert knowledge, and without requiring any additional data. To demonstrate the significance of our contribution, we evaluate PyLaia's performance on twelve datasets, both with and without language modelling. The results show that decoding with small language models improves the Word Error Rate by 13% and the Character Error Rate by 12% in average. Additionally, we conduct an analysis of confidence scores and highlight the importance of calibration techniques. Our implementation is publicly available in the official PyLaia repository at https://gitlab.teklia.com/atr/pylaia, and twelve open-source models are released on Hugging Face.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# HATEの定数 - トピックと言語を越えたRedditの毒性の分析

The Constant in HATE: Analyzing Toxicity in Reddit across Topics and Languages ( http://arxiv.org/abs/2404.18726v1 )

ライセンス: Link先を確認
Wondimagegnhue Tsegaye Tufa, Ilia Markov, Piek Vossen, (参考訳) Toxic言語は依然としてソーシャルメディアプラットフォーム上で進行中の課題であり、ユーザやコミュニティに重大な問題を提示している。 本稿では,Redditの会話における毒性の多言語的・多言語的分析について述べる。 私たちは、英語、ドイツ語、スペイン語、トルコ語、アラビア語、オランダ語という6つの言語で481のコミュニティから150万のコメントスレッドを収集し、文化、政治、ニュースといった80のトピックをカバーしています。 我々は、特定のトピックに関して、異なるコミュニティ内で毒性がどのようにスパイクするかを徹底的に分析する。 特定のトピックに対して言語間で毒性が増大する一貫したパターンを観察すると同時に、特定の言語コミュニティ内でも顕著な差異が指摘される。

Toxic language remains an ongoing challenge on social media platforms, presenting significant issues for users and communities. This paper provides a cross-topic and cross-lingual analysis of toxicity in Reddit conversations. We collect 1.5 million comment threads from 481 communities in six languages: English, German, Spanish, Turkish,Arabic, and Dutch, covering 80 topics such as Culture, Politics, and News. We thoroughly analyze how toxicity spikes within different communities in relation to specific topics. We observe consistent patterns of increased toxicity across languages for certain topics, while also noting significant variations within specific language communities.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# CVTN:時系列予測のためのクロス変数とテンポラル統合

CVTN: Cross Variable and Temporal Integration for Time Series Forecasting ( http://arxiv.org/abs/2404.18730v1 )

ライセンス: Link先を確認
Han Zhou, Yuntian Chen, (参考訳) 多変量時系列予測では、Transformerアーキテクチャは、2つの重要な課題に直面している。 これらの課題に対処するため,本論文では,時系列予測を歴史的シーケンスと予測シーケンスの学習に分解し,CVTN(Cross-Variable and Time Network)を導入する。 本手法は, 時系列予測を時系列から効果的に抽出するクロス変数学習と, 時系列の時間的依存性を捉えるクロス時間学習の2つのフェーズに分割する。 これら2つのフェーズを分離することは、クロスタイム学習におけるオーバーフィットがクロス変数学習に与える影響を回避するのに役立つ。 さまざまな実世界のデータセットに関する大規模な実験により、SOTA(State-of-the-art)のパフォーマンスが確認された。 CVTNは、時系列の短期的および長期的性質(局所性と長寿)、歴史的および予測的シーケンスからの特徴的マイニング、およびクロス変数およびクロスタイム学習の統合という3つの重要な次元を強調している。 このアプローチは、時系列予測の現在の状態を前進させるだけでなく、この分野における将来の研究のためのより包括的なフレームワークも提供する。

In multivariate time series forecasting, the Transformer architecture encounters two significant challenges: effectively mining features from historical sequences and avoiding overfitting during the learning of temporal dependencies. To tackle these challenges, this paper deconstructs time series forecasting into the learning of historical sequences and prediction sequences, introducing the Cross-Variable and Time Network (CVTN). This unique method divides multivariate time series forecasting into two phases: cross-variable learning for effectively mining fea tures from historical sequences, and cross-time learning to capture the temporal dependencies of prediction sequences. Separating these two phases helps avoid the impact of overfitting in cross-time learning on cross-variable learning. Exten sive experiments on various real-world datasets have confirmed its state-of-the-art (SOTA) performance. CVTN emphasizes three key dimensions in time series fore casting: the short-term and long-term nature of time series (locality and longevity), feature mining from both historical and prediction sequences, and the integration of cross-variable and cross-time learning. This approach not only advances the current state of time series forecasting but also provides a more comprehensive framework for future research in this field.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# CT画像を用いたリアルタイム多臓器分類

Real Time Multi Organ Classification on Computed Tomography Images ( http://arxiv.org/abs/2404.18731v1 )

ライセンス: Link先を確認
Halid Ziya Yerebakan, Yoshihisa Shinagawa, Gerardo Hermosillo Valadez, (参考訳) 臓器セグメンテーションは医療画像の基本的な課題であり、多くの臨床自動化パイプラインに有用である。 通常、プロセスはボリューム全体をセグメンテーションするが、これは興味のある点が限られている場合に不要である。 その場合、セグメンテーションの代わりに分類器を使用できる。 しかし、コンテキストサイズと分類器の速度の間には固有のトレードオフがある。 この問題に対処するために,画像再サンプリングを伴わない広い視野でのスパースサンプリングによるデータ選択手法を提案する。 このスパースサンプリング戦略により、ボクセルを加速器を使わずにリアルタイムで複数の臓器に分類することができる。 本手法は独立分類器であるが,任意の解像度でグリッド位置を問合せすることで,完全分割を生成することができる。 本手法を既存のセグメンテーション手法と比較し,医用画像の実用化における優れた実行環境の可能性を示した。

Organ segmentation is a fundamental task in medical imaging, and it is useful for many clinical automation pipelines. Typically, the process involves segmenting the entire volume, which can be unnecessary when the points of interest are limited. In those cases, a classifier could be used instead of segmentation. However, there is an inherent trade-off between the context size and the speed of classifiers. To address this issue, we propose a new method that employs a data selection strategy with sparse sampling across a wide field of view without image resampling. This sparse sampling strategy makes it possible to classify voxels into multiple organs in real time without using accelerators. Although our method is an independent classifier, it can generate full segmentation by querying grid locations at any resolution. We have compared our method with existing segmentation techniques, demonstrating its potential for superior runtime in practical applications in medical imaging.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 不変分布に関する統計的推測のためのテンソル累積

Tensor cumulants for statistical inference on invariant distributions ( http://arxiv.org/abs/2404.18735v1 )

ライセンス: Link先を確認
Dmitriy Kunisky, Cristopher Moore, Alexander S. Wein, (参考訳) 高次元統計学における多くの問題は統計計算のギャップがあり、推論が情報理論上可能であるが(概念的には)計算的に難解な信号対雑音比の値の範囲である。 そのような問題はテンソルPCAであり、階数1の信号とガウス雑音からなるテンソル$Y$を観測する。 複数の作業行は、テンソルPCAが信号の大きさの臨界値で計算的に困難になることを示唆している。 特に、この遷移より下において、低次多項式アルゴリズムは高い確率で信号を検出できない。 我々は、スカラー、ベクトル、行列、その他のテンソルを生成するために、$Y$の複数のコピーが「収縮」された直交不変多項式であるテンソルネットワークを考慮し、この作業を統一し拡張する。 対象の新たな集合、テンソル累積を定義し、与えられた次数の不変多項式に対して明示的でほぼ直交的な基底を与える。 この基礎は、低次硬さに関する以前の結果を統一・強化し、信号を検出するのではなく、低次多項式に対する厳密な下限を証明し、その下で働く半指数時間アルゴリズムの硬さ遷移と連続性の組合せ的な説明を与える。 また、ウィグナーやウィッシャートテンソルのような異なるテンソルアンサンブルを区別する新たな問題を分析し、鋭い計算しきい値を確立し、ランダムテンソルに対する中央極限定理における新しい統計計算的ギャップの証拠を与える。 行列からテンソルへの自由確率理論の自由累積を一般化し、加法的自由畳み込みの下で加法性を含む多くの性質を共有する。

Many problems in high-dimensional statistics appear to have a statistical-computational gap: a range of values of the signal-to-noise ratio where inference is information-theoretically possible, but (conjecturally) computationally intractable. A canonical such problem is Tensor PCA, where we observe a tensor $Y$ consisting of a rank-one signal plus Gaussian noise. Multiple lines of work suggest that Tensor PCA becomes computationally hard at a critical value of the signal's magnitude. In particular, below this transition, no low-degree polynomial algorithm can detect the signal with high probability; conversely, various spectral algorithms are known to succeed above this transition. We unify and extend this work by considering tensor networks, orthogonally invariant polynomials where multiple copies of $Y$ are "contracted" to produce scalars, vectors, matrices, or other tensors. We define a new set of objects, tensor cumulants, which provide an explicit, near-orthogonal basis for invariant polynomials of a given degree. This basis lets us unify and strengthen previous results on low-degree hardness, giving a combinatorial explanation of the hardness transition and of a continuum of subexponential-time algorithms that work below it, and proving tight lower bounds against low-degree polynomials for recovering rather than just detecting the signal. It also lets us analyze a new problem of distinguishing between different tensor ensembles, such as Wigner and Wishart tensors, establishing a sharp computational threshold and giving evidence of a new statistical-computational gap in the Central Limit Theorem for random tensors. Finally, we believe these cumulants are valuable mathematical objects in their own right: they generalize the free cumulants of free probability theory from matrices to tensors, and share many of their properties, including additivity under additive free convolution.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# AIライフサイクルに沿ったフェアネスのための説明可能な人工知能(XAI)の可能性のマッピング

Mapping the Potential of Explainable Artificial Intelligence (XAI) for Fairness Along the AI Lifecycle ( http://arxiv.org/abs/2404.18736v1 )

ライセンス: Link先を確認
Luca Deck, Astrid Schoemäcker, Timo Speith, Jakob Schöffer, Lena Kästner, Niklas Kühl, (参考訳) さまざまな領域で人工知能(AI)システムが広く使われるようになると、アルゴリズムの公正性、特に高い評価のシナリオに関する問題がますます強調されている。 したがって、AIシステムの公正性がどのように改善されるのか、このプロセスを支援するためにどのような手段が利用できるのか、という批判的な考察が過度に進んでいる。 多くの研究者や政策立案者は、AIシステムの公正性を高めるための有望な方法として説明可能なAI(XAI)を考えている。 しかし、異なるデシダラタを表すXAIの方法やフェアネスの概念は様々であり、XAIとフェアネスの正確な関係はいまだに不明瞭である。 さらに、アルゴリズムの公正性を高めるためのさまざまな手段が、AIシステムのライフサイクルを通して異なるポイントに適用できる可能性がある。 しかし、AIライフサイクルに沿って、現在フェアネスデシダータのコヒーレントなマッピングはありません。 我々は8つの公正なデシダータを蒸留し、AIライフサイクルに沿ってそれらをマップし、XAIがそれぞれにどのように対処できるかを議論する。 我々は,これらのフェアネス・デシダータに特化して,実践的応用のためのオリエンテーションを提供し,XAI研究のインスピレーションを期待する。

The widespread use of artificial intelligence (AI) systems across various domains is increasingly highlighting issues related to algorithmic fairness, especially in high-stakes scenarios. Thus, critical considerations of how fairness in AI systems might be improved, and what measures are available to aid this process, are overdue. Many researchers and policymakers see explainable AI (XAI) as a promising way to increase fairness in AI systems. However, there is a wide variety of XAI methods and fairness conceptions expressing different desiderata, and the precise connections between XAI and fairness remain largely nebulous. Besides, different measures to increase algorithmic fairness might be applicable at different points throughout an AI system's lifecycle. Yet, there currently is no coherent mapping of fairness desiderata along the AI lifecycle. In this paper, we set out to bridge both these gaps: We distill eight fairness desiderata, map them along the AI lifecycle, and discuss how XAI could help address each of them. We hope to provide orientation for practical applications and to inspire XAI research specifically focused on these fairness desiderata.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 能動空間埋め込み法のための一般的なフレームワーク--量子コンピューティングへの応用

A general framework for active space embedding methods: applications in quantum computing ( http://arxiv.org/abs/2404.18737v1 )

ライセンス: Link先を確認
Stefano Battaglia, Max Rossmannek, Vladimir V. Rybkin, Ivano Tavernelli, Jürg Hutter, (参考訳) 我々は, フラグメントの軌道空間分離と環境自由度に基づく分子および周期埋め込み計算のハイブリッド量子古典計算のための一般的なフレームワークを開発した。 量子回路アンサッツに結合した周期領域分離DFTの特定の実装を示すことにより、量子固有解法と量子方程式-運動法を用いて、埋め込みフラグメントハミルトニアンの低階スペクトルを得る。 酸化マグネシウム(MgO)中の中性酸素空孔の光学特性の正確な予測を通じて, 材料中の強相関分子系および局在電子状態の研究にこの手法を適用した。 吸収予測にいくつかの相違があるにもかかわらず、この手法は最先端のアブイニシアトアプローチと競合する性能を示し、特に発光発光ピークの正確な予測によって証明されている。

We developed a general framework for hybrid quantum-classical computing of molecular and periodic embedding calculations based on an orbital space separation of the fragment and environment degrees of freedom. We show its potential by presenting a specific implementation of periodic range-separated DFT coupled to a quantum circuit ansatz, whereby the variational quantum eigensolver and the quantum equation-of-motion approach are used to obtain the low-lying spectrum of the embedded fragment Hamiltonian. Application of this scheme to study strongly correlated molecular systems and localized electronic states in materials is showcased through the accurate prediction of the optical properties for the neutral oxygen vacancy in magnesium oxide (MgO). Despite some discrepancies in absorption predictions, the method demonstrates competitive performance with state-of-the-art ab initio approaches, particularly evidenced by the accurate prediction of the photoluminescence emission peak.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 犬のバーク復号化に向けて:自動バーク分類のための人間の音声処理を活用する

Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification ( http://arxiv.org/abs/2404.18739v1 )

ライセンス: Link先を確認
Artem Abzaliev, Humberto Pérez Espinosa, Rada Mihalcea, (参考訳) 人間と同様に、動物は幅広い音声信号を含む言語的・非言語的なコミュニケーションを広範囲に利用している。 本稿では,犬の声化に対処し,人間の声に事前訓練された自己教師付き音声表現モデルを用いて,音声認識における人間中心タスクの並列性を見出す犬の樹皮分類タスクに対処する。 具体的には、犬認識、品種識別、性別分類、文脈接地という4つの課題に対処する。 音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。 さらに,大規模音声音響学で事前学習したモデルでは,複数のタスクに対してさらなる性能向上が期待できることがわかった。

Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the use of self-supervised speech representation models pre-trained on human speech to address dog bark classification tasks that find parallels in human-centered tasks in speech recognition. We specifically address four tasks: dog recognition, breed identification, gender classification, and context grounding. We show that using speech embedding representations significantly improves over simpler classification baselines. Further, we also find that models pre-trained on large human speech acoustics can provide additional performance boosts on several tasks.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 量子電池からのエネルギー抽出における正および非正の測定

Positive and non-positive measurements in energy extraction from quantum batteries ( http://arxiv.org/abs/2404.18745v1 )

ライセンス: Link先を確認
Paranjoy Chaki, Aparajita Bhattacharyya, Kornikar Sen, Ujjwal Sen, (参考訳) 本研究では, 量子電池からの確率エネルギー抽出の概念を, 正の演算子評価(POV)と物理的に実現可能な非正の演算子評価(NPOVM)の両方を, ノイズ発生時にバッテリに接続された補助体に応用するシナリオに拡張する。 このプロセスは、電池と補助装置の特定の時間間隔での共同進化、補助装置のノイズを誘発する補助装置と環境との相互作用、補助装置上でPOVMまたはNPOVMを実行し、最終的に特定の測定結果の選択を含む。 補助システムへのPOVMの適用は、当初システムの他の部分と製品状態にある補助システムに外部システムを取り付けることで実現でき、補助および外部の合同射影測定を行うことができる。 一方, 補助システム, 環境, 外部システム間の相関関係に結びつく相互作用が存在する場合, 補助環境・外部システムにおける投影計測は, 補助システム上での物理的に実現可能なNPOVM操作と解釈できる。 しかし,補助的環境と環境の相互作用を利用して,補助的環境にNPOVMを実装する。 補助音に対してPOVMとNPOVMを実行することにより,統計的に抽出可能なエネルギーの表現を見つけ,後者が適用雑音に依存しないことを示す。 立方体バッテリと補助電池のハミルトニアン支配モデルに着目し、補助電池に影響を与える振幅減衰ノイズの存在を考慮し、NPOVMを用いた統計的に抽出可能なエネルギーがPOVMよりも小さいことを示す。 NPOVMを使うことのこの利点は、ビットフリップノイズにも当てはまる。 ノイズを嫌う場合、POVMとNPOVMを適用することで得られるエネルギーは同じである。 また、限られた測度演算子の集合が許される場合についても考察する。

We extend the concept of stochastic energy extraction from quantum batteries to the scenario where both positive operator-valued (POV) and physically realizable non-positive operator-valued measurements are applied (NPOVMs) on the auxiliary connected to the battery in presence of noise. The process involves joint evolution of the battery and the auxiliary for a particular time interval, an interaction of the auxiliary with its environment which induces noise in the auxiliary, and performing a POVM or NPOVM on the auxiliary, and finally the selection of a particular measurement outcome. Application of POVM on the auxiliary can be realised by attaching an external system to the auxiliary, which is initially in a product state with the rest of the system, and performing a joint projective measurement on the auxiliary and external. On the other hand, if there are interactions leading to correlations among the auxiliary, environment, and external systems, then performing the projective measurement on the auxiliary-environment-external system can be interpreted as a physically realizable NPOVM operation on the auxiliary. We however utilize interaction between the auxiliary and the environment to implement NPOVMs on the auxiliary. We find the expressions of stochastically extractable energy by performing POVMs and NPOVMs on the auxiliary and show that the latter does not depend on the applied noise. Focusing on a particular model of the governing Hamiltonian of a qubit battery and an auxiliary, and considering the presence of amplitude damping noise affecting the auxiliary, we show that stochastically extractable energy using NPOVMs is no less than that using POVMs. This advantage of using NPOVMs remains also for bit-flip noise. For dephasing noise, the energies by applying POVMs and NPOVMs are the same. We additionally consider the case when a limited set of measurement operators are allowed.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 大規模言語モデルと視覚言語モデルを用いた問合せ書き換えによる対話型画像検索の実現

Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models ( http://arxiv.org/abs/2404.18746v1 )

ライセンス: Link先を確認
Hongyi Zhu, Jia-Hong Huang, Stevan Rudinac, Evangelos Kanoulas, (参考訳) 画像検索は、マルチメディアとコンピュータビジョンにおいて重要なタスクであり、インターネット検索から医療診断まで、さまざまな領域にまたがるアプリケーションを見つける。 従来の画像検索システムは、テキストまたは視覚的なクエリを受け付け、データベースから最も関連性の高い候補結果を取得する。 しかし、一般的な手法は単一のターンプロシージャに依存し、潜在的な不正確さと限られたリコールを導入する。 これらの手法はまた、語彙ミスマッチや意味的ギャップといった課題に直面し、全体的な効果を制限している。 これらの課題に対処するために,マルチターンでユーザ関連フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。 本システムは、視覚言語モデル(VLM)に基づく画像キャプタを組み込んで、テキストベースのクエリの品質を向上させる。 さらに,大言語モデル(LLM)に基づくデノイザを導入し,テキストベースのクエリ拡張を洗練し,キャプションモデルによって生成された画像記述における不正確性を緩和する。 提案システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用し,クエリ毎に複数の関連する基底真理画像を提供することにより,新たなデータセットをキュレートする。 総合的な実験を通じて,提案システムの有効性をベースライン法に対して検証し,リコールの点において顕著な10倍の精度で最先端の性能を達成した。 コントリビューションには、革新的なインタラクティブ画像検索システムの開発、LCMベースのデノイザの統合、微妙に設計された評価データセットのキュレーション、徹底的な実験検証が含まれる。

Image search stands as a pivotal task in multimedia and computer vision, finding applications across diverse domains, ranging from internet search to medical diagnostics. Conventional image search systems operate by accepting textual or visual queries, retrieving the top-relevant candidate results from the database. However, prevalent methods often rely on single-turn procedures, introducing potential inaccuracies and limited recall. These methods also face the challenges, such as vocabulary mismatch and the semantic gap, constraining their overall effectiveness. To address these issues, we propose an interactive image retrieval system capable of refining queries based on user relevance feedback in a multi-turn setting. This system incorporates a vision language model (VLM) based image captioner to enhance the quality of text-based queries, resulting in more informative queries with each iteration. Moreover, we introduce a large language model (LLM) based denoiser to refine text-based query expansions, mitigating inaccuracies in image descriptions generated by captioning models. To evaluate our system, we curate a new dataset by adapting the MSR-VTT video retrieval dataset to the image retrieval task, offering multiple relevant ground truth images for each query. Through comprehensive experiments, we validate the effectiveness of our proposed system against baseline methods, achieving state-of-the-art performance with a notable 10\% improvement in terms of recall. Our contributions encompass the development of an innovative interactive image retrieval system, the integration of an LLM-based denoiser, the curation of a meticulously designed evaluation dataset, and thorough experimental validation.
翻訳日:2024-04-30 13:28:15 公開日:2024-04-29
# 野生における映像異常検出の有効性の評価--実世界展開のためのオンライン学習と推論

Evaluating the Effectiveness of Video Anomaly Detection in the Wild: Online Learning and Inference for Real-world Deployment ( http://arxiv.org/abs/2404.18747v1 )

ライセンス: Link先を確認
Shanle Yao, Ghazal Alinezhad Noghre, Armin Danesh Pazho, Hamed Tabkhi, (参考訳) Video Anomaly Detection (VAD) は、監視から医療まで幅広い応用の鍵となる、ビデオストリームにおける異常な活動を特定する。 実生活環境でのVADに取り組むことは、人間の行動の動的な性質、環境の変化、ドメインシフトによって大きな課題となる。 多くの研究イニシアチブはこれらの複雑さを無視し、目に見えないデータセットのパフォーマンスを考慮できない従来のテスト手法に集中し、理論モデルと実世界のユーティリティの間にギャップを生じさせる。 オンライン学習は、モデルを新しい情報に継続的に適応させることによって、この問題を軽減するための潜在的戦略である。 本稿では,現在のVADアルゴリズムがオンライン学習フレームワーク,特にポーズ分析に基づく実生活環境にどの程度適応できるかを,その効率性とプライバシの優位性のために評価する。 提案フレームワークは,新たな環境からのストリーミングデータによる継続的モデル更新を可能にし,実際の課題を反映し,精度を維持しながらリアルタイムに適応できるモデルの評価を行う。 この設定における3つの最先端モデルについて検討し、異なる領域にまたがる適応性に着目した。 我々の研究結果は、最も困難な条件下であっても、我々のオンライン学習アプローチは、特定のターゲットドメインにおいてオフラインでトレーニングされたモデルと比較して、オリジナルの効果の89.39%をモデルが保持できることを示している。

Video Anomaly Detection (VAD) identifies unusual activities in video streams, a key technology with broad applications ranging from surveillance to healthcare. Tackling VAD in real-life settings poses significant challenges due to the dynamic nature of human actions, environmental variations, and domain shifts. Many research initiatives neglect these complexities, often concentrating on traditional testing methods that fail to account for performance on unseen datasets, creating a gap between theoretical models and their real-world utility. Online learning is a potential strategy to mitigate this issue by allowing models to adapt to new information continuously. This paper assesses how well current VAD algorithms can adjust to real-life conditions through an online learning framework, particularly those based on pose analysis, for their efficiency and privacy advantages. Our proposed framework enables continuous model updates with streaming data from novel environments, thus mirroring actual world challenges and evaluating the models' ability to adapt in real-time while maintaining accuracy. We investigate three state-of-the-art models in this setting, focusing on their adaptability across different domains. Our findings indicate that, even under the most challenging conditions, our online learning approach allows a model to preserve 89.39% of its original effectiveness compared to its offline-trained counterpart in a specific target domain.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 非構造屋外環境における知覚データセットに関する調査

Survey on Datasets for Perception in Unstructured Outdoor Environments ( http://arxiv.org/abs/2404.18750v1 )

ライセンス: Link先を確認
Peter Mortimer, Mirko Maehlisch, (参考訳) 知覚は、フィールドロボティクスにおけるパイプラインの重要な構成要素である。 本研究では、非構造屋外環境で利用可能な公開データセットを定量的に比較する。 フィールドロボティクスにおける共通認識タスクのためのデータセットに焦点を当てる。 我々の調査は、利用可能な研究データセットを分類し、比較する。 この調査はまた、実践者が自分のアプリケーションに最適なデータセットを決定するのに役立つ、関連するデータセットの特徴についても報告する。 我々は、非構造化屋外環境におけるデータセット間で互換性のあるアノテーションポリシーを選択する際に、もっと考慮すべきであると考えている。

Perception is an essential component of pipelines in field robotics. In this survey, we quantitatively compare publicly available datasets available in unstructured outdoor environments. We focus on datasets for common perception tasks in field robotics. Our survey categorizes and compares available research datasets. This survey also reports on relevant dataset characteristics to help practitioners determine which dataset fits best for their own application. We believe more consideration should be taken in choosing compatible annotation policies across the datasets in unstructured outdoor environments.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# クリフォード強化マトリックス製品状態を用いた量子状態設計

Quantum State Designs with Clifford Enhanced Matrix Product States ( http://arxiv.org/abs/2404.18751v1 )

ライセンス: Link先を確認
Guglielmo Lami, Tobias Haug, Jacopo De Nardis, (参考訳) 非安定化性(英: Nonstabilizerness)は、量子状態の非古典的な複雑さを特徴づける重要な量子資源である。 本稿では、乱数行列積状態(RMPS)の平均的非安定度を定量化する問題に対処する。 RMPSは、結合次元$\chi$と対数的にスケールする有界絡みを持つランダム積状態の一般化を表す。 2$-Stabilizer R\'enyi Entropy は、システムサイズが$N/\chi^2$として、Haarランダム状態の値に収束することを示した。 これは、緩やかな結合次元を持つMPSがジェネリック状態と同じくらい魔法的であることを示している。 次に、クリフォードのRMPS上のユニタリの作用によって構築された行列積状態(\mathcal{C}$MPS)のアンサンブルを紹介する。 以上の結果から,$\mathcal{C}$MPSは任意の精度で4ドルの球面設計を近似できることを示した。 具体的には、一定の$N$の場合、$\mathcal{C}$MPS は $\chi^{-2}$ のスケーリングで 4$-designs に近くなる。 その結果,クリフォードユニタリと多項式複雑テンソルネットワーク状態を組み合わせることで,非自明な量子状態が生成できることが示唆された。

Nonstabilizerness, or `magic', is a critical quantum resource that, together with entanglement, characterizes the non-classical complexity of quantum states. Here, we address the problem of quantifying the average nonstabilizerness of random Matrix Product States (RMPS). RMPS represent a generalization of random product states featuring bounded entanglement that scales logarithmically with the bond dimension $\chi$. We demonstrate that the $2$-Stabilizer R\'enyi Entropy converges to that of Haar random states as $N/\chi^2$, where $N$ is the system size. This indicates that MPS with a modest bond dimension are as magical as generic states. Subsequently, we introduce the ensemble of Clifford enhanced Matrix Product States ($\mathcal{C}$MPS), built by the action of Clifford unitaries on RMPS. Leveraging our previous result, we show that $\mathcal{C}$MPS can approximate $4$-spherical designs with arbitrary accuracy. Specifically, for a constant $N$, $\mathcal{C}$MPS become close to $4$-designs with a scaling as $\chi^{-2}$. Our findings indicate that combining Clifford unitaries with polynomially complex tensor network states can generate highly non-trivial quantum states.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# K-CIRCT:CIRCTハードウェアIRのための層状・構成可能・実行可能な形式意味論

K-CIRCT: A Layered, Composable, and Executable Formal Semantics for CIRCT Hardware IRs ( http://arxiv.org/abs/2404.18756v1 )

ライセンス: Link先を確認
Jianhong Zhao, Jinhui Kang, Yongwang Zhao, (参考訳) CIRCTはLLVMに似たオープンソースのEDAフレームワークで、様々なハードウェア記述言語の基礎となっている。 その重要な役割にもかかわらず、CIRCTの形式的な意味論の欠如は厳格なハードウェア検証を必要とする。 そこで本研究では,RISC-Vプロセッサをシミュレートするのに適する相当なCIRCTサブセットについて,K-CIRCTを紹介した。 1)ドメイン間の基本的なMLIR概念を包含するMLIR静的セマンティクス,(2)方言間で重要なハードウェア特徴をキャプチャする汎用ハードウェアモデルを備えたCIRCT共通セマンティクス,(3)特定の方言に対する構成可能で拡張可能なセマンティクス,などである。 この手法はCIRCTコア方言の形式化に応用されている。 我々は,本手法をフルルールカバレッジテストにより検証し,RISC-V ハードウェア設計の riscv-mini を用いて実用性を評価した。

CIRCT, an open-source EDA framework akin to LLVM for software, is a foundation for various hardware description languages. Despite its crucial role, CIRCT's lack of formal semantics challenges necessary rigorous hardware verification. Thus, this paper introduces K-CIRCT, the first formal semantics in {\K} for a substantial CIRCT subset adequate for simulating a RISC-V processor. Our semantics are structured into multiple layers: (1) MLIR static semantics, which covers fundamental MLIR concepts across domains; (2) CIRCT common semantics, featuring a generic hardware model that captures key hardware features across dialects; and (3) composable and extensible semantics for specific dialects, formalized individually using a unified approach. This approach has been applied to formalize CIRCT core dialects. We validated our semantics through full-rule coverage tests and assessed its practicality using the popular RISC-V hardware design, riscv-mini.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 領域一般化のためのトランジティブ・ビジョン・ランゲージ・プロンプト学習

Transitive Vision-Language Prompt Learning for Domain Generalization ( http://arxiv.org/abs/2404.18758v1 )

ライセンス: Link先を確認
Liyuan Wang, Yan Jin, Zhen Chen, Jinlin Wu, Mengke Li, Yang Lu, Hanzi Wang, (参考訳) ビジョン言語による事前トレーニングにより、ディープモデルは、目に見えないドメインをまたがる一般化において、大きな一歩を踏み出した。 視覚言語事前学習モデルに基づく最近の学習方法は、ドメインの一般化に優れたツールであり、この問題を広範囲に解決することができる。 しかし、現在のDG問題において重要なドメイン不変性とクラス分離性の間のトレードオフによって、まだ進展に苦しむ問題がまだ残っている。 しかし、現在のDG問題において重要なドメイン不変性とクラス分離性の間のトレードオフによって、まだ進展に苦しむ問題がまだ残っている。 本稿では,クラス分離性を確保するために言語プロンプトを活用しながら,ドメイン不変性とクラス分離性のバランスをとるための適応重み付け機構と組み合わせて,ドメイン不変性に対処する新しいプロンプト学習戦略を提案する。 広範囲な実験により、ディープビジョンはドメイン不変の特徴を効果的に抽出し、ディープモデルの一般化能力を大幅に改善し、3つのデータセット上で最先端のパフォーマンスを達成することが示されている。

The vision-language pre-training has enabled deep models to make a huge step forward in generalizing across unseen domains. The recent learning method based on the vision-language pre-training model is a great tool for domain generalization and can solve this problem to a large extent. However, there are still some issues that an advancement still suffers from trading-off between domain invariance and class separability, which are crucial in current DG problems. However, there are still some issues that an advancement still suffers from trading-off between domain invariance and class separability, which are crucial in current DG problems. In this paper, we introduce a novel prompt learning strategy that leverages deep vision prompts to address domain invariance while utilizing language prompts to ensure class separability, coupled with adaptive weighting mechanisms to balance domain invariance and class separability. Extensive experiments demonstrate that deep vision prompts effectively extract domain-invariant features, significantly improving the generalization ability of deep models and achieving state-of-the-art performance on three datasets.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 法律領域における自然言語処理の活用事例の構造的概要--ドイツの視点から

Towards A Structured Overview of Use Cases for Natural Language Processing in the Legal Domain: A German Perspective ( http://arxiv.org/abs/2404.18759v1 )

ライセンス: Link先を確認
Juraj Vladika, Stephen Meisenbacher, Martina Preis, Alexandra Klymenko, Florian Matthes, (参考訳) 近年、自然言語処理(NLP)と法学の分野が合わさって法プロセスのデジタル化が進んでいるため、法務技術の分野が盛んになっている。 NLPドメインから生じる研究ソリューションの定常的な流れの中で、ユースケースの研究は遅れており、実際は場所のない革新的な技術手法が数多く生まれている。 本研究は,NLP文学を基盤として,ドイツにおける法律実務の声を補足した法律技術事例の構造化された概要を構築することを目的としている。 体系的文献レビューに基づいて、法域におけるNLP技術の7つのカテゴリを特定し、22の訴訟事例に並置して研究する。 これらの事例の調査では、倫理的、法的、社会的側面(ELSA)を15個特定し、法的領域をデジタル化することの潜在的な懸念に光を当てる。

In recent years, the field of Legal Tech has risen in prevalence, as the Natural Language Processing (NLP) and legal disciplines have combined forces to digitalize legal processes. Amidst the steady flow of research solutions stemming from the NLP domain, the study of use cases has fallen behind, leading to a number of innovative technical methods without a place in practice. In this work, we aim to build a structured overview of Legal Tech use cases, grounded in NLP literature, but also supplemented by voices from legal practice in Germany. Based upon a Systematic Literature Review, we identify seven categories of NLP technologies for the legal domain, which are then studied in juxtaposition to 22 legal use cases. In the investigation of these use cases, we identify 15 ethical, legal, and social aspects (ELSA), shedding light on the potential concerns of digitally transforming the legal domain.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# Flow AM: 潜在アライメントによるポイントクラウドグローバル説明の生成

Flow AM: Generating Point Cloud Global Explanations by Latent Alignment ( http://arxiv.org/abs/2404.18760v1 )

ライセンス: Link先を確認
Hanxiao Tan, (参考訳) 近年,ポイントクラウドモデルでは予測精度が大幅に向上しているが,信頼性は十分に調査されていない。 グローバルな説明可能性の観点からは、画像領域におけるアクティベーション最大化(AM)技術は、ポイントクラウドモデルの特別な構造のために直接移植できない。 既存の研究は、生成モデルを利用して、人間が認識できる世界的説明を生み出している。 しかし、生成モデル自体の不透明さと追加の事前の導入は、説明の妥当性と忠実さに疑問を投げかける。 本研究では,分類器がインスタンスの種類を予測した場合,中間層アクティベーションはアクティベーションフローと呼ばれる,異なるアクティベーションが活性化されることを実証する。 この特性に基づいて,生成モデルを組み込まずに認識可能なグローバルな説明を生成するアクティベーションフローに基づくAM手法を提案する。 さらに, 生成モデルに基づくAMは正当性チェックに失敗し, 忠実性の欠如が判明した。 大規模な実験により,本手法は生成モデルに基づいていない他のAM法と比較して,説明の受容性を劇的に向上させることが示された。 私たちのコードは、https://github.com/Explain3D/FlowAMで利用可能です。

Although point cloud models have gained significant improvements in prediction accuracy over recent years, their trustworthiness is still not sufficiently investigated. In terms of global explainability, Activation Maximization (AM) techniques in the image domain are not directly transplantable due to the special structure of the point cloud models. Existing studies exploit generative models to yield global explanations that can be perceived by humans. However, the opacity of the generative models themselves and the introduction of additional priors call into question the plausibility and fidelity of the explanations. In this work, we demonstrate that when the classifier predicts different types of instances, the intermediate layer activations are differently activated, known as activation flows. Based on this property, we propose an activation flow-based AM method that generates global explanations that can be perceived without incorporating any generative model. Furthermore, we reveal that AM based on generative models fails the sanity checks and thus lack of fidelity. Extensive experiments show that our approach dramatically enhances the perceptibility of explanations compared to other AM methods that are not based on generative models. Our code is available at: https://github.com/Explain3D/FlowAM
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 密度から幾何学へ:最適化構造のリバースエンジニアリングのためのYOLOv8インスタンスセグメンテーション

From Density to Geometry: YOLOv8 Instance Segmentation for Reverse Engineering of Optimized Structures ( http://arxiv.org/abs/2404.18763v1 )

ライセンス: Link先を確認
Thomas Rochefort-Beaudoin, Aurelian Vadean, Sofiane Achiche, Niels Aage, (参考訳) 本稿では, YOLOv8インスタンス分割モデルを用いて, トポロジ最適化構造を解釈可能な幾何パラメータにリバースエンジニアリングする手法であるYOLOv8-TOを紹介する。 密度に基づくトポロジ最適化手法は, 最適密度分布をCADツールと設計・統合するためのパラメトリック表現に変換するために, 後処理を必要とする。 骨格化のような伝統的な手法は複雑な地形に悩まされ、手動で介入する必要がある。 YOLOv8-TOはカスタムのYOLOv8モデルをトレーニングして、バイナリ密度分布から構造コンポーネントを自動的に検出し、再構築することで、これらの課題に対処する。 このモデルは、移動可能なコンポーネント法を用いて、最適化された構造とランダムな構造の多様なデータセットに基づいて訓練される。 予測幾何のダイス係数に基づくカスタム再構成損失関数を用いて、自己教師付き学習を通してモデルの新たな回帰ヘッドを訓練する。 本手法は, 分布外サンプルを含む様々なトポロジー最適化法から生成されたテストセットを用いて評価し, スケルトン化法との比較を行った。 その結果, YOLOv8-TOは視覚的, 構造的に類似した設計の再構築において, 骨格化を著しく上回っていることがわかった。 この方法はディース係数の平均13.84%の改善を示し、ピークは20.78%に達した。 この手法は複雑なジオメトリと高速な推論時間に優れた一般化を示し、通常のワークステーションを用いた設計ワークフローへの統合に適している。 制限には、非マックス抑制閾値に対する感度が含まれる。 YOLOv8-TOは、トポロジー最適化後処理の大幅な進歩を示し、設計の探索と製造のために最適化された構造物の効率的かつ正確なリバースエンジニアリングを可能にする。

This paper introduces YOLOv8-TO, a novel approach for reverse engineering of topology-optimized structures into interpretable geometric parameters using the YOLOv8 instance segmentation model. Density-based topology optimization methods require post-processing to convert the optimal density distribution into a parametric representation for design exploration and integration with CAD tools. Traditional methods such as skeletonization struggle with complex geometries and require manual intervention. YOLOv8-TO addresses these challenges by training a custom YOLOv8 model to automatically detect and reconstruct structural components from binary density distributions. The model is trained on a diverse dataset of both optimized and random structures generated using the Moving Morphable Components method. A custom reconstruction loss function based on the dice coefficient of the predicted geometry is used to train the new regression head of the model via self-supervised learning. The method is evaluated on test sets generated from different topology optimization methods, including out-of-distribution samples, and compared against a skeletonization approach. Results show that YOLOv8-TO significantly outperforms skeletonization in reconstructing visually and structurally similar designs. The method showcases an average improvement of 13.84% in the Dice coefficient, with peak enhancements reaching 20.78%. The method demonstrates good generalization to complex geometries and fast inference times, making it suitable for integration into design workflows using regular workstations. Limitations include the sensitivity to non-max suppression thresholds. YOLOv8-TO represents a significant advancement in topology optimization post-processing, enabling efficient and accurate reverse engineering of optimized structures for design exploration and manufacturing.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# PECC:問題抽出と符号化の課題

PECC: Problem Extraction and Coding Challenges ( http://arxiv.org/abs/2404.18766v1 )

ライセンス: Link先を確認
Patrick Haller, Jonas Golde, Alan Akbik, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、コード生成、問題解決、推論など、様々なタスクにまたがる例外的な能力を示している。 既存のベンチマークでは、タスクを独立した形で評価するが、LLMが散文スタイルのタスクを理解し、根底にある問題を特定し、適切なコードソリューションを生成することができる範囲はまだ探索されていない。 このギャップに対処するために,Advent Of Code(AoC)の課題と2396の問題を含むProject Eulerから派生した,新しいベンチマークPECCを紹介した。 従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、実行可能なコードを生成するためにLCMを必要とする。 私たちのデータセットの重要な特徴は、チャットベースの評価、実世界の教えのあいまいさを反映する、自然言語によって追加された複雑さです。 GPT-3.5-Turbo は AoC の課題の 50% を越え,Euler の問題の 8% しか通過しない。 LLMの能力の限界を探索することにより、我々のベンチマークはLLMのその後の進歩を監視・評価する枠組みを普遍的な問題解決手段として提供する。

Recent advancements in large language models (LLMs) have showcased their exceptional abilities across various tasks, such as code generation, problem-solving and reasoning. Existing benchmarks evaluate tasks in isolation, yet the extent to which LLMs can understand prose-style tasks, identify the underlying problems, and then generate appropriate code solutions is still unexplored. Addressing this gap, we introduce PECC, a novel benchmark derived from Advent Of Code (AoC) challenges and Project Euler, including 2396 problems. Unlike conventional benchmarks, PECC requires LLMs to interpret narrative-embedded problems, extract requirements, and generate executable code. A key feature of our dataset is the complexity added by natural language prompting in chat-based evaluations, mirroring real-world instruction ambiguities. Results show varying model performance between narrative and neutral problems, with specific challenges in the Euler math-based subset with GPT-3.5-Turbo passing 50% of the AoC challenges and only 8% on the Euler problems. By probing the limits of LLMs' capabilities, our benchmark provides a framework to monitor and assess the subsequent progress of LLMs as a universal problem solver.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 行列積状態における非安定度と絡み合い

Non-stabilizerness versus entanglement in matrix product states ( http://arxiv.org/abs/2404.18768v1 )

ライセンス: Link先を確認
M. Frau, P. S. Tarabunga, M. Collura, M. Dalmonte, E. Tirrito, (参考訳) 本稿では,行列積状態(MPS)における絡み合いと非安定化剤性(マジックとも呼ばれる)の関係について検討する。 スピン1異方性ハイゼンベルク鎖のマジックと相互マジックの完全状態(相互情報の非安定化アナログ、したがって境界効果のない)の2つの異なる文脈において、多体系の基底状態を近似するために用いられるマジックと結合次元の関係について検討する。 この結果から,非安定化剤性に対する収束結果の取得は,典型的には絡み合いよりもかなり容易であることが示唆された。 臨界点と十分に大きな体積での完全な状態マジックに対して、$\chi$はMPS結合次元である1/\chi^2$の収束を観測する。 小さなボリュームでは、マジック飽和が非常に速く、エラーバー内では、有限$\chi$補正を評価できない。 相互魔法はまた、結合次元との高速な収束を示すが、その特定の機能形態はサンプリングエラーによって妨げられる。 本研究の副産物として,パウリ・マルコフ連鎖(当初は魔法を評価するために定式化された)がMPSの相互情報の計算において最先端の情報をリセットする方法を示す。 臨界点における連結分割間の相互情報の対数的増加を検証することで、この最後の事実を説明する。 相互情報と相互マジックを比較することで、接続されたパーティションの場合、後者は通常、パーティションサイズとパーティションサイズとのスケーリングが遅くなります。

In this paper, we investigate the relationship between entanglement and non-stabilizerness (also known as magic) in matrix product states (MPSs). We study the relation between magic and the bond dimension used to approximate the ground state of a many-body system in two different contexts: full state of magic and mutual magic (the non-stabilizer analogue of mutual information, thus free of boundary effects) of spin-1 anisotropic Heisenberg chains. Our results indicate that obtaining converged results for non-stabilizerness is typically considerably easier than entanglement. For full state magic at critical points and at sufficiently large volumes, we observe convergence with $1/\chi^2$, with $\chi$ being the MPS bond dimension. At small volumes, magic saturation is so quick that, within error bars, we cannot appreciate any finite-$\chi$ correction. Mutual magic also shows a fast convergence with bond dimension, whose specific functional form is however hindered by sampling errors. As a by-product of our study, we show how Pauli-Markov chains (originally formulated to evaluate magic) resets the state of the art in terms of computing mutual information for MPS. We illustrate this last fact by verifying the logarithmic increase of mutual information between connected partitions at critical points. By comparing mutual information and mutual magic, we observe that, for connected partitions, the latter is typically scaling much slower - if at all - with the partition size, while for disconnected partitions, both are constant in size.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# Norm Constrained, Over-parameterized, Two-layer Neural Networks を用いた学習

Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks ( http://arxiv.org/abs/2404.18769v1 )

ライセンス: Link先を確認
Fanghui Liu, Leello Dadi, Volkan Cevher, (参考訳) 近年の研究では、再生カーネルヒルベルト空間(RKHS)は、次元性の呪い(CoD)が単一のReLUニューロンでさえも回避できないため、ニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている(Bach, 2017)。 本稿では,サンプル複雑性と一般化特性の観点から,境界ノルム(パスノルム,バロンノルム)を持つ過パラメータ化された2層ニューラルネットワークに適した関数空間について検討する。 まず、経路ノルム(およびバロンノルム)が、一様収束を保証するために、幅独立なサンプル複雑性境界を得ることができることを示す。 この結果に基づいて、$\epsilon$-covering up $\mathcal{O}(\epsilon^{-\frac{2d}{d+2}})$$$d$は入力次元であり、依存定数は凸船殻法により最も多項式次数$d$である。 第二に、この計量エントロピーの結果は、一般的なモーメント仮説設定の下でよりシャープな一般化を構築することができ、$\mathcal{O}(n^{-\frac{d+2}{2d+2}})$の速度を達成できる。 我々の分析は, 標本誤差と出力誤差の推定において, 距離エントロピー(次元$d$に明確な依存関係を持つ)とアンバウンドサンプリング(アンバウンドサンプリング)について, よりシャープで洗練された推定値を提供するという点で, 新規である。

Recent studies show that a reproducing kernel Hilbert space (RKHS) is not a suitable space to model functions by neural networks as the curse of dimensionality (CoD) cannot be evaded when trying to approximate even a single ReLU neuron (Bach, 2017). In this paper, we study a suitable function space for over-parameterized two-layer neural networks with bounded norms (e.g., the path norm, the Barron norm) in the perspective of sample complexity and generalization properties. First, we show that the path norm (as well as the Barron norm) is able to obtain width-independence sample complexity bounds, which allows for uniform convergence guarantees. Based on this result, we derive the improved result of metric entropy for $\epsilon$-covering up to $\mathcal{O}(\epsilon^{-\frac{2d}{d+2}})$ ($d$ is the input dimension and the depending constant is at most polynomial order of $d$) via the convex hull technique, which demonstrates the separation with kernel methods with $\Omega(\epsilon^{-d})$ to learn the target function in a Barron space. Second, this metric entropy result allows for building a sharper generalization bound under a general moment hypothesis setting, achieving the rate at $\mathcal{O}(n^{-\frac{d+2}{2d+2}})$. Our analysis is novel in that it offers a sharper and refined estimation for metric entropy (with a clear dependence relationship on the dimension $d$) and unbounded sampling in the estimation of the sample error and the output error.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# KBX:形式的双方向変換による検証モデル同期

KBX: Verified Model Synchronization via Formal Bidirectional Transformation ( http://arxiv.org/abs/2404.18771v1 )

ライセンス: Link先を確認
Jianhong Zhao, Yongwang Zhao, Peisen Yao, Fanlang Zeng, Bohua Zhan, Kui Ren, (参考訳) 複雑な安全クリティカルなシステムは包括的記述のために複数のモデルを必要とするため、エラーが発生しやすい開発と厳密な検証が生じる。 双方向変換(BX)は、これらのモデルを自動的に同期するアプローチである。 しかし、既存のBXフレームワークはこれらのモデルの一貫性を厳格に強制する正式な検証を欠いている。 本稿では,検証モデル同期のための形式的双方向変換フレームワークKBXを紹介する。 まず、マッチング論理に基づくBXモデルを示し、$\mathbb{K}$フレームワーク内でBX定義を構築するための論理的基盤を提供する。 第2に,一方向定義から形式的BX定義を合成するアルゴリズムを提案する。 その後、$\mathbb{K}$を使用して、一貫性の維持と検証のために合成された定義から形式的シンクロナイザを生成する。 KBXの有効性を評価するため,既存のBXフレームワークとの比較分析を行った。 さらに,UML と HCSP 間の BX 構築における KBX の応用を実世界のシナリオに適用し,$\mathbb{K}$ のマニュアル仕様記述に比べて BX 開発作業が82.8 % 削減されたことを示す。

Complex safety-critical systems require multiple models for a comprehensive description, resulting in error-prone development and laborious verification. Bidirectional transformation (BX) is an approach to automatically synchronizing these models. However, existing BX frameworks lack formal verification to enforce these models' consistency rigorously. This paper introduces KBX, a formal bidirectional transformation framework for verified model synchronization. First, we present a matching logic-based BX model, providing a logical foundation for constructing BX definitions within the $\mathbb{K}$ framework. Second, we propose algorithms to synthesize formal BX definitions from unidirectional ones, which allows developers to focus on crafting the unidirectional definitions while disregarding the reverse direction and missing information recovery for synchronization. Afterward, we harness $\mathbb{K}$ to generate a formal synchronizer from the synthesized definitions for consistency maintenance and verification. To evaluate the effectiveness of KBX, we conduct a comparative analysis against existing BX frameworks. Furthermore, we demonstrate the application of KBX in constructing a BX between UML and HCSP for real-world scenarios, showcasing an 82.8\% reduction in BX development effort compared to manual specification writing in $\mathbb{K}$.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# ニューラルネットワークと脳における視覚変換

Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain ( http://arxiv.org/abs/2404.18772v1 )

ライセンス: Link先を確認
Gustaw Opiełka, Jessica Loke, Steven Scholte, (参考訳) ディープラーニングアルゴリズムには、生の視覚入力を堅牢な意味理解に変換する方法について、人間の解釈可能な説明がない。 本研究では、神経科学からインスピレーションを得て、ニューラルネットワークが低(視覚的サリエンス)かつ高(セマンティックな類似性)の抽象レベルで情報をエンコードする方法について、表現的アプローチを採用する。 さらに,サリエントやセマンティックな情報を体系的に操作するカスタムイメージデータセットも導入する。 ResNetsは、オブジェクト分類の目的によって訓練された場合、ViTsよりも唾液度情報に敏感であることが分かりました。 ResNetsの自然言語監視(CLIP)によって強化されたプロセスである初期の階層におけるサリエンシの抑制が明らかになった。 CLIPはまた、両方のアーキテクチャにおけるセマンティックエンコーディングを強化する。 最後に、セマンティックエンコーディングはAIと人間の視覚的知覚を協調させる上で重要な要素であり、サリエンシ抑制は非脳的な戦略であることを示す。

Deep learning algorithms lack human-interpretable accounts of how they transform raw visual input into a robust semantic understanding, which impedes comparisons between different architectures, training objectives, and the human brain. In this work, we take inspiration from neuroscience and employ representational approaches to shed light on how neural networks encode information at low (visual saliency) and high (semantic similarity) levels of abstraction. Moreover, we introduce a custom image dataset where we systematically manipulate salient and semantic information. We find that ResNets are more sensitive to saliency information than ViTs, when trained with object classification objectives. We uncover that networks suppress saliency in early layers, a process enhanced by natural language supervision (CLIP) in ResNets. CLIP also enhances semantic encoding in both architectures. Finally, we show that semantic encoding is a key factor in aligning AI with human visual perception, while saliency suppression is a non-brain-like strategy.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# クロスサイロ・フェデレーション学習のためのデータセット類似性の普遍的尺度

A Universal Metric of Dataset Similarity for Cross-silo Federated Learning ( http://arxiv.org/abs/2404.18773v1 )

ライセンス: Link先を確認
Ahmed Elhussein, Gamze Gursoy, (参考訳) フェデレートラーニングは、データ共有なしに協調的なモデルトレーニングを促進するために、医療などの領域でますます使われている。 しかし、異なる場所に位置するデータセットは、多くの場合、識別できない分散であり、FLにおけるモデル性能の低下につながる。 これらの分散シフトを評価する既存の方法のほとんどは、データセットやタスク固有性によって制限されている。 さらに、これらのメトリクスは、多くのFLシナリオで制限されたデータ交換によってのみ計算できる。 これらの課題に対処するために,データセットの類似性を評価するための新しい指標を提案する。 データセットに依存しず、プライバシ保護の方法で計算され、計算効率が良く、モデルトレーニングを必要としない。 本稿では,FLにおける測定値とトレーニング力学の理論的関係を最初に確立する。 次に、合成データセット、ベンチマークデータセット、医用画像データセットを含む、さまざまなデータセットに基づいて、我々のメトリクスを広範囲に評価する。 我々は,我々の測定値がモデル性能と頑健で解釈可能な関係を示し,プライバシ保護方式で計算できることを実証した。 最初のフェデレーションデータセットの類似度指標として、この指標はサイト間のコラボレーションを成功させるのに役立つと信じています。

Federated Learning is increasingly used in domains such as healthcare to facilitate collaborative model training without data-sharing. However, datasets located in different sites are often non-identically distributed, leading to degradation of model performance in FL. Most existing methods for assessing these distribution shifts are limited by being dataset or task-specific. Moreover, these metrics can only be calculated by exchanging data, a practice restricted in many FL scenarios. To address these challenges, we propose a novel metric for assessing dataset similarity. Our metric exhibits several desirable properties for FL: it is dataset-agnostic, is calculated in a privacy-preserving manner, and is computationally efficient, requiring no model training. In this paper, we first establish a theoretical connection between our metric and training dynamics in FL. Next, we extensively evaluate our metric on a range of datasets including synthetic, benchmark, and medical imaging datasets. We demonstrate that our metric shows a robust and interpretable relationship with model performance and can be calculated in privacy-preserving manner. As the first federated dataset similarity metric, we believe this metric can better facilitate successful collaborations between sites.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 強化学習規則を用いた自己学習超伝導ニューロモルフィック回路

Self-training superconducting neuromorphic circuits using reinforcement learning rules ( http://arxiv.org/abs/2404.18774v1 )

ライセンス: Link先を確認
M. L. Schneider, E. M. Jué, M. R. Pufall, K. Segall, C. W. Anderson, (参考訳) 強化学習アルゴリズムは、ゲームやロボット工学から自動運転車まで、幅広い用途で使用されている。 本稿では,強化学習に基づく局所的重量更新規則の集合とその超伝導ハードウェアへの実装について述べる。 SPICE回路シミュレーションを用いて1ナノ秒の学習時間を持つ小型ニューラルネットワークを実装した。 このネットワークは、ネットワークの外部調整を必要とせずに、与えられた入力セットのターゲット出力を変更するだけで、新しい関数を学ぶことができる。 この実装では、全体のネットワーク応答の現在の状態と、前のアクションに関するローカルに保存された情報に基づいて重みを調整する。 これにより、ニューラルネットワークのアナログハードウェア実装が直面する主な課題の1つである、これらのネットワークで明示的な重み付け値をプログラムする必要がなくなる。 重みの調整は、回路がエラーをバックプロパゲートする必要性をなくすグローバルな強化信号に基づいている。

Reinforcement learning algorithms are used in a wide range of applications, from gaming and robotics to autonomous vehicles. In this paper we describe a set of reinforcement learning-based local weight update rules and their implementation in superconducting hardware. Using SPICE circuit simulations, we implement a small-scale neural network with a learning time of order one nanosecond. This network can be trained to learn new functions simply by changing the target output for a given set of inputs, without the need for any external adjustments to the network. In this implementation the weights are adjusted based on the current state of the overall network response and locally stored information about the previous action. This removes the need to program explicit weight values in these networks, which is one of the primary challenges that analog hardware implementations of neural networks face. The adjustment of weights is based on a global reinforcement signal that obviates the need for circuitry to back-propagate errors.
翻訳日:2024-04-30 13:18:30 公開日:2024-04-29
# 変位熱状態をもつ量子鍵分布

Quantum key distribution with displaced thermal states ( http://arxiv.org/abs/2404.18777v1 )

ライセンス: Link先を確認
Adam Walton, Anne Ghesquière, Benjamin Varcoe, (参考訳) 秘密鍵交換は、セキュアな通信のためのリソースとして機能する相関信号の生成に依存している。 熱状態はハンベリー・ブラウンとツイツの相関を示し、そのような信号を生成するための有望な道を提供する。 本稿ではマイクロ波領域における中心放送熱状態量子鍵分布(QKD)プロトコルの実験的実装について述べる。 本研究の目的は、利用可能な放送機器を利用したQKDの簡単な方法を示すことである。 従来の熱状態QKDのアプローチとは異なり、変位した熱状態を利用する。 これらの状態は、導波路と自由空間の両方を通して、アリス、ボブ、イブの間で熱源の出力を共有することができる。 計測とビット文字列への変換により,特殊機器を必要とせずにキー可読ビット文字列を生成する。 サーマルブロードキャストにおける固有ノイズを利用することにより,各関係者による異なるビット列の復元が容易になる。

Secret key exchange relies on the creation of correlated signals, serving as the raw resource for secure communication. Thermal states, exhibit Hanbury Brown and Twiss correlations, which offer a promising avenue for generating such signals. In this paper, we present an experimental implementation of a central broadcast thermal state quantum key distribution (QKD) protocol in the microwave region. Our objective is to showcase a straightforward method of QKD utilizing readily available broadcasting equipment. Unlike conventional approaches to thermal state QKD, we leverage displaced thermal states. These states enable us to share the output of a thermal source among Alice, Bob, and Eve via both waveguide channels and free space. Through measurement and conversion into bit strings, our protocol produces key-ready bit strings without the need for specialized equipment. By harnessing the inherent noise in thermal broadcasts, our setup facilitates the recovery of distinct bit strings by all parties involved.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 物理インフォームドニューラルネットワークにおける最適時間サンプリング

Optimal time sampling in physics-informed neural networks ( http://arxiv.org/abs/2404.18780v1 )

ライセンス: Link先を確認
Gabriel Turinici, (参考訳) 物理インフォームドニューラルネットワーク(英: Physics-informed Neural Network、PINN)は、科学計算応用における方程式の解法として非常に強力なパラダイムである。 手順の重要な部分は、方程式が時間依存であるとき、時間サンプリングを含む方程式残差の最小化である。 文献では、サンプリングは均一である必要はないが、初期時間は過重であるべきだと論じられたが、これらの選択には厳密な説明は提供されなかった。 本稿では, ニューラルネットワーク収束に関する標準的な仮説として, 最適時間サンプリングが不規則な指数分布に従うことを示す。 特に、時間サンプリングが最も適した時期と、そうでない時期について説明する。 この結果は、線形方程式、バーガーズ方程式、ローレンツ系に関する数値的な例で示される。

Physics-informed neural networks (PINN) is a extremely powerful paradigm used to solve equations encountered in scientific computing applications. An important part of the procedure is the minimization of the equation residual which includes, when the equation is time-dependent, a time sampling. It was argued in the literature that the sampling need not be uniform but should overweight initial time instants, but no rigorous explanation was provided for these choice. In this paper we take some prototypical examples and, under standard hypothesis concerning the neural network convergence, we show that the optimal time sampling follows a truncated exponential distribution. In particular we explain when the time sampling is best to be uniform and when it should not be. The findings are illustrated with numerical examples on linear equation, Burgers' equation and the Lorenz system.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# ユーザはどこにいるか?: ノイズの多い多言語ユーザ入力のためのジオエンティティリンク

Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input ( http://arxiv.org/abs/2404.18784v1 )

ライセンス: Link先を確認
Tessa Masis, Brendan O'Connor, (参考訳) ジオエンタリティリンク(Geo-entity Linking)は、現実世界の位置情報に言及した位置情報をリンクするタスクである。 本稿では,ノイズの多い多言語ソーシャルメディアデータに対するジオエンタリティリンクの課題について検討する。 利用可能なオープンソースの多言語ジオエンタリティリンクツールはほとんどなく、既存のものはしばしばルールベースで、ソーシャルメディアの設定やLLMベースで簡単に壊れるが、大規模なデータセットには高すぎる。 本稿では,実世界の位置情報をラベル付きユーザ・インプット・ロケーション名から平均的な埋め込みとして表現し,解釈可能な信頼度スコアによる選択的予測を可能にする手法を提案する。 提案手法は,グローバルかつ多言語なソーシャルメディアデータセット上でのジオエンタリティリンクを改善し,異なる地理的粒度で評価する際の進歩と課題を議論する。

Geo-entity linking is the task of linking a location mention to the real-world geographic location. In this paper we explore the challenging task of geo-entity linking for noisy, multilingual social media data. There are few open-source multilingual geo-entity linking tools available and existing ones are often rule-based, which break easily in social media settings, or LLM-based, which are too expensive for large-scale datasets. We present a method which represents real-world locations as averaged embeddings from labeled user-input location names and allows for selective prediction via an interpretable confidence score. We show that our approach improves geo-entity linking on a global and multilingual social media dataset, and discuss progress and problems with evaluating at different geographic granularities.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 付加摂動に対する話者認識モデルの認証

Certification of Speaker Recognition Models to Additive Perturbations ( http://arxiv.org/abs/2404.18791v1 )

ライセンス: Link先を確認
Dmitrii Korzh, Elvir Karimov, Mikhail Pautov, Oleg Y. Rogov, Ivan Oseledets, (参考訳) 話者認識技術は、パーソナルバーチャルアシスタントからセキュアアクセスシステムまで様々なタスクに応用されている。 しかし、敵対的攻撃、特に加法的摂動に対するシステムの堅牢性は依然として大きな課題である。 本稿では,画像領域向けに開発された話者認識にロバストネス認証技術を適用した先駆者について述べる。 本研究は,話者認識に対する正規有界加法摂動に対するランダム化平滑化認証手法の伝達と改善により,このギャップをカバーしている。 いくつかのモデルに対して,VoxCeleb 1と2のデータセットに対して,これらの手法の有効性を示す。 この研究は、音声バイオメトリの堅牢性を改善し、新しい認証ベンチマークを確立し、オーディオ領域における認証方法の研究を加速することを期待している。

Speaker recognition technology is applied in various tasks ranging from personal virtual assistants to secure access systems. However, the robustness of these systems against adversarial attacks, particularly to additive perturbations, remains a significant challenge. In this paper, we pioneer applying robustness certification techniques to speaker recognition, originally developed for the image domain. In our work, we cover this gap by transferring and improving randomized smoothing certification techniques against norm-bounded additive perturbations for classification and few-shot learning tasks to speaker recognition. We demonstrate the effectiveness of these methods on VoxCeleb 1 and 2 datasets for several models. We expect this work to improve voice-biometry robustness, establish a new certification benchmark, and accelerate research of certification methods in the audio domain.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 陪審員による審査員のリプレース:多変量モデルによるLCM生成の評価

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models ( http://arxiv.org/abs/2404.18796v1 )

ライセンス: Link先を確認
Pat Verga, Sebastian Hofstatter, Sophia Althammer, Yixuan Su, Aleksandra Piktus, Arkady Arkhangorodsky, Minjie Xu, Naomi White, Patrick Lewis, (参考訳) LLM(Large Language Models)がさらに進歩するにつれて、その品質を正確に評価する能力が向上しました。 特定のモデル特性を適切に調査するデータを見つけることは困難であるだけでなく、モデルの自由形式生成のみの正確性を評価することが困難である。 これを解決するために、多くの評価は、他のLLMからの出力の質を評価するために、LLM自体を審査員として使用することに頼っている。 評価はGPT4のような単一の大きなモデルを使用するのが一般的である。 この手法は広く普及しているが、コストが高く、モデル内バイアスをもたらすことが示されており、本研究では、非常に大きなモデルがしばしば不要であることが判明している。 代わりに、LLm評価器(PoLL)のパネルを用いてモデルを評価することを提案する。 3つの異なる判断設定と6つの異なるデータセットにまたがって、より多数の小さなモデルで構成されたPoLLは、1つの大きな判断よりも優れており、不整合モデルファミリーの構成によるモデル内バイアスが小さく、しかも7倍以上のコストがかかる。

As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model's freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# TensorFlowモデルガーデンのためのTPU上のTensorFlowにおけるMaskFormerの部分的レプリケーション

A Partial Replication of MaskFormer in TensorFlow on TPUs for the TensorFlow Model Garden ( http://arxiv.org/abs/2404.18801v1 )

ライセンス: Link先を確認
Vishal Purohit, Wenxin Jiang, Akshath R. Ravikiran, James C. Davis, (参考訳) 本稿では、TensorFlowエコシステム内でPyTorchフレームワークを用いて開発された汎用画像分割モデルであるMaskFormerモデルを、Tensor Processing Units (TPUs)上での実行に特に最適化したタスクを実行する。 我々の実装では、TensorFlow Model Garden(TFMG)内で利用可能なモジュール構造を利用して、データローダ、トレーニングオーケストレータ、およびさまざまなアーキテクチャコンポーネントを含む、MaskFormerモデルの仕様に合わせて調整および適合する。 レプリケーションや非収束問題,遅いトレーニング,損失関数の適応,TPU固有の機能の統合といった課題に対処する。 再現された実装を検証するとともに,COCOデータセット上で定性的な結果を示す。 私たちの実装は、エンドツーエンドの再現性の目標の一部を満たしていますが、TensorFlowでMaskFormerのPyTorchバージョンを複製する際の課題に直面しました。 この複製プロセスは単純ではなく、かなりのエンジニアリング努力を必要とする。 具体的には、TFMG内の様々なコンポーネントのカスタマイズと、徹底的な検証とハイパーパラメータチューニングが必要である。 https://github.com/PurdueDualityLab/tf-maskformer/tree/main/official/projects/maskformer

This paper undertakes the task of replicating the MaskFormer model a universal image segmentation model originally developed using the PyTorch framework, within the TensorFlow ecosystem, specifically optimized for execution on Tensor Processing Units (TPUs). Our implementation exploits the modular constructs available within the TensorFlow Model Garden (TFMG), encompassing elements such as the data loader, training orchestrator, and various architectural components, tailored and adapted to meet the specifications of the MaskFormer model. We address key challenges encountered during the replication, non-convergence issues, slow training, adaptation of loss functions, and the integration of TPU-specific functionalities. We verify our reproduced implementation and present qualitative results on the COCO dataset. Although our implementation meets some of the objectives for end-to-end reproducibility, we encountered challenges in replicating the PyTorch version of MaskFormer in TensorFlow. This replication process is not straightforward and requires substantial engineering efforts. Specifically, it necessitates the customization of various components within the TFMG, alongside thorough verification and hyper-parameter tuning. The replication is available at: https://github.com/PurdueDualityLab/tf-maskformer/tree/main/official/projects/maskformer
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 機械学習による展開の風景

The Landscape of Unfolding with Machine Learning ( http://arxiv.org/abs/2404.18807v1 )

ライセンス: Link先を確認
Nathan Huetsch, Javier Mariño Villadamigo, Alexander Shmakov, Sascha Diefenbacher, Vinicius Mikuni, Theo Heimel, Michael Fenton, Kevin Greif, Benjamin Nachman, Daniel Whiteson, Anja Butter, Tilman Plehn, (参考訳) 機械学習による最近のイノベーションは、データの展開を可能にし、多くの次元にまたがる相関を含む。 MLベースの展開のための、既知の、アップグレードされた、そして新しい方法のセットについて説明する。 これらの手法の性能は、同じ2つのデータセットで評価される。 すべての技術が複雑な観測可能な領域で粒子レベルのスペクトルを正確に再現できることがわかった。 これらのアプローチが概念的に多様であることを考えると、彼らは新しい種類の測定のエキサイティングなツールキットを提供し、標準モデルを前例のないレベルの詳細で探究し、新しい現象に対する感度を高めることができる。

Recent innovations from machine learning allow for data unfolding, without binning and including correlations across many dimensions. We describe a set of known, upgraded, and new methods for ML-based unfolding. The performance of these approaches are evaluated on the same two datasets. We find that all techniques are capable of accurately reproducing the particle-level spectra across complex observables. Given that these approaches are conceptually diverse, they offer an exciting toolkit for a new class of measurements that can probe the Standard Model with an unprecedented level of detail and may enable sensitivity to new phenomena.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 最適化されたRydbergゲートを用いたqLDPC符号の高速実装のためのアーキテクチャ

Architecture for fast implementation of qLDPC codes with optimized Rydberg gates ( http://arxiv.org/abs/2404.18809v1 )

ライセンス: Link先を確認
C. Poole, T. M. Graham, M. A. Perlin, M. Otten, M. Saffman, (参考訳) 静止中性原子量子ビット間の長距離Rydbergゲートに基づく二変量自転車符号(Nature {\bf 627}, 778 (2024))の実装を提案する。 データとアシラキュービットの最適化されたレイアウトは、非局所パリティチェック演算子に必要な最大ユークリッド通信距離を減少させる。 最適化されたRydbergゲートパルス設計により、$\sf CZ$ entangling Operation with fidelity ${\mathcal F}>0.999$を12〜\mu\rm m$以上の距離で使用することができる。 最適化されたレイアウトとゲート設計の組み合わせは、以前の設計よりも大幅に改善された[[144,12,12]]コードに対して$\sim 1.2~\rm ms$の量子エラー補正サイクル時間をもたらす。

We propose an implementation of bivariate bicycle codes (Nature {\bf 627}, 778 (2024)) based on long-range Rydberg gates between stationary neutral atom qubits. An optimized layout of data and ancilla qubits reduces the maximum Euclidean communication distance needed for non-local parity check operators. An optimized Rydberg gate pulse design enables $\sf CZ$ entangling operations with fidelity ${\mathcal F}>0.999$ at a distance greater than $12~\mu\rm m$. The combination of optimized layout and gate design leads to a quantum error correction cycle time of $\sim 1.2~\rm ms$ for a $[[144,12,12]]$ code, an order of magnitude improvement over previous designs.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 未知のスクリプト: スクリプトが言語間移動に与える影響

Unknown Script: Impact of Script on Cross-Lingual Transfer ( http://arxiv.org/abs/2404.18810v1 )

ライセンス: Link先を確認
Wondimagegnhue Tsegaye Tufa, Ilia Markov, Piek Vossen, (参考訳) 言語間移動は、言語間で知識を伝達する効果的な方法となっている。 本稿では,この領域においてしばしば見過ごされる側面として,ベース言語モデルのソース言語が伝達性能に与える影響について考察する。 我々は,事前学習モデルで使用するスクリプトとトークン化器が下流タスクの性能に与える影響を判定するために,一連の実験を行った。 本研究により, スクリプトの共有, 言語型, モデルサイズに比較して, トークン化の重要性が示唆された。

Cross-lingual transfer has become an effective way of transferring knowledge between languages. In this paper, we explore an often-overlooked aspect in this domain: the influence of the source language of the base language model on transfer performance. We conduct a series of experiments to determine the effect of the script and tokenizer used in the pre-trained model on the performance of the downstream task. Our findings reveal the importance of the tokenizer as a stronger factor than the sharing of the script, the language typology match, and the model size.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# ニューラルバリア認証による安全なリーチセット計算

Safe Reach Set Computation via Neural Barrier Certificates ( http://arxiv.org/abs/2404.18813v1 )

ライセンス: Link先を確認
Alessandro Abate, Sergiy Bogomolov, Alec Edwards, Kostiantyn Potomkin, Sadegh Soudjani, Paolo Zuliani, (参考訳) 本稿では,自律システムのオンライン安全性検証のための新しい手法を提案する。これは,ニューラルネットワークバリア証明書を用いることで,有界地平線と非有界地平線の両方に対して,効率よく到達可能性解析を行う。 我々のアプローチでは、パラメータ化されたニューラルネットワークが与えられた初期セット、安全でないセット、時間的地平線に依存する障壁証明書を使用する。 このようなネットワークは、状態空間の領域からサンプリングされたシステムシミュレーションを用いて、効率的にオフラインで訓練される。 次に、トレーニングセット外にある状態空間領域にバリア証明書を一般化するために、メタニューラルネットワークを用いる。 これらの証明書は、到達可能な状態の健全な過度な近似としてオンラインで生成され、検証されるため、システムの安全性を保証するか、安全でないシナリオで適切な代替アクションを実行するかのいずれかである。 本稿では,オンライン自律運転シナリオにおける線形モデルから非線形制御依存モデルへのケーススタディについて紹介する。

We present a novel technique for online safety verification of autonomous systems, which performs reachability analysis efficiently for both bounded and unbounded horizons by employing neural barrier certificates. Our approach uses barrier certificates given by parameterized neural networks that depend on a given initial set, unsafe sets, and time horizon. Such networks are trained efficiently offline using system simulations sampled from regions of the state space. We then employ a meta-neural network to generalize the barrier certificates to state space regions that are outside the training set. These certificates are generated and validated online as sound over-approximations of the reachable states, thus either ensuring system safety or activating appropriate alternative actions in unsafe scenarios. We demonstrate our technique on case studies from linear models to nonlinear control-dependent models for online autonomous driving scenarios.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# Belt and Brace: フェデレーション学習が差別的なプライバシに直面するとき

Belt and Brace: When Federated Learning Meets Differential Privacy ( http://arxiv.org/abs/2404.18814v1 )

ライセンス: Link先を確認
Xuebin Ren, Shusen Yang, Cong Zhao, Julie McCann, Zongben Xu, (参考訳) Federated Learning(FL)は、生データを公開せずに大規模機械学習(ML)に大きな可能性を秘めており、差分プライバシー(DP)は証明可能な保証を備えたプライバシー保護の事実上の標準である。 そのため、DPで実用的に利用できるFLの実現に多大な努力が注がれているが、これは依然として困難であり、実践者は開発や分類を十分に認識していないだけでなく、プライバシーとユーティリティのどちらにも厳しい選択を迫られることが多い。 そのため、現在の進歩の総括的なレビューと、DP保証付き高度に使用可能なFLシステムの課題と機会の調査が求められている。 本稿では、まずFLとDPの主な概念を紹介し、統合の利点を強調します。 次に、異なるパラダイムと概念を分類することで、現在の展開をレビューします。 DPを用いたFLの実現を目指して,モデルユーティリティとプライバシ損失のトレードオフを改善するための最適化原則を提案する。 最後に、創発的な分野における今後の課題と関連する研究課題について論じる。

Federated learning (FL) has great potential for large-scale machine learning (ML) without exposing raw data.Differential privacy (DP) is the de facto standard of privacy protection with provable guarantees.Advances in ML suggest that DP would be a perfect fit for FL with comprehensive privacy preservation. Hence, extensive efforts have been devoted to achieving practically usable FL with DP, which however is still challenging.Practitioners often not only are not fully aware of its development and categorization, but also face a hard choice between privacy and utility. Therefore, it calls for a holistic review of current advances and an investigation on the challenges and opportunities for highly usable FL systems with a DP guarantee. In this article, we first introduce the primary concepts of FL and DP, and highlight the benefits of integration. We then review the current developments by categorizing different paradigms and notions. Aiming at usable FL with DP, we present the optimization principles to seek a better tradeoff between model utility and privacy loss. Finally, we discuss future challenges in the emergent areas and relevant research topics.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# AppPoet:マルチビュープロンプトエンジニアリングによる大規模言語モデルに基づくAndroidマルウェア検出

AppPoet: Large Language Model based Android malware detection via multi-view prompt engineering ( http://arxiv.org/abs/2404.18816v1 )

ライセンス: Link先を確認
Wenxiang Zhao, Juntao Wu, Zhaoyi Meng, (参考訳) 膨大な数のAndroidアプリケーション、その多言語機能、複雑な行動意味論のため、攻撃者は、正当な機能内に真の攻撃意図を隠すために、さまざまな戦術を適用できる。 しかし、多くの特徴工学に基づく手法は、行動意味情報のマイニングの限界に悩まされており、Androidのマルウェア検出の精度と効率を損なう。 さらに、既存の特徴工学に基づく手法のほとんどは弱い解釈であり、研究者に効果的で読みやすい検知レポートを提示することができない。 自然言語理解におけるLarge Language Models(LLMs)の成功に触発されて,LLMを利用したAndroidマルウェア検出用マルチビューシステムであるAppPoetを提案する。 まず、AppPoetは静的メソッドを使用して、アプリケーション機能を包括的に収集し、さまざまな観察ビューを定式化する。 その後、LLMは、細心の注意を払って考案された多視点プロンプトエンジニアリング技術を用いて、ビューに関する機能記述と行動要約を作成し、ビューセマンティクスの深いマイニングを実現する。 最後に,マルチビュー情報を融合して,ディープニューラルネットワーク(DNN)分類器を通じてマルウェアを効率的にかつ正確に検出し,ヒューリスティックな診断レポートを生成する。 実験の結果,本手法は検出精度97.15%,F1スコア97.21%であり,Drebinとその変種よりも優れていることがわかった。 さらに, 本症例では, 診断報告の有効性について検討した。

Due to the vast array of Android applications, their multifarious functions and intricate behavioral semantics, attackers can adopt various tactics to conceal their genuine attack intentions within legitimate functions. However, numerous feature engineering based methods suffer from a limitation in mining behavioral semantic information, thus impeding the accuracy and efficiency of Android malware detection. Besides, the majority of existing feature engineering based methods are weakly interpretive and fail to furnish researchers with effective and readable detection reports. Inspired by the success of the Large Language Models (LLMs) in natural language understanding, we propose AppPoet, a LLM-assisted multi-view system for Android malware detection. Firstly, AppPoet employs a static method to comprehensively collect application features and formulate various observation views. Subsequently, it steers the LLM to produce function descriptions and behavioral summaries for views via our meticulously devised multi-view prompt engineering technique to realize the deep mining of view semantics. Finally, we collaboratively fuse the multi-view information to efficiently and accurately detect malware through a deep neural network (DNN) classifier and then generate the heuristic diagnostic reports. Experimental results demonstrate that our method achieves a detection accuracy of 97.15% and an F1 score of 97.21%, which is superior to the baseline method Drebin and its variant. Furthermore, the case study evaluates the effectiveness of our generated diagnostic reports.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# FacebookのHiding: 相関攻撃に耐性のある暗号化プロトコル

Hiding from Facebook: An Encryption Protocol resistant to Correlation Attacks ( http://arxiv.org/abs/2404.18817v1 )

ライセンス: Link先を確認
Chen-Da Liu, Simone Santini, (参考訳) 多くのソーシャルネットワークでは、公開したい情報(例えば、友達の写真)と、プライバシー侵害につながる情報(例えば、その人たちの名前)を公開している。 暗号化して復号鍵を信頼できる人だけと共有することで、この機密情報を隠したいと思うかもしれないが、これでは十分ではないかもしれない。 顔に関連付けられた暗号が常に同じである場合、顔認識システムの出力と暗号との相関は有用な手がかりを与え、認識者が顔の未タグのインスタンスを識別するのに役立つ。 これを「相関攻撃」と呼ぶ。 本稿では,顔の各インスタンスに同一タグの異なる暗号化を関連付けることで,相関攻撃に対処する符号化システムを提案する。 さらに,画像の所有者のみにタグをエンコードできるようにするとともに,信頼された友人のグループにデコードさせるキー配布コードを提案する。

In many social networks, one publishes information that one wants to reveal (e.g., the photograph of some friends) together with information that may lead to privacy breaches (e.g., the name of these people). One might want to hide this sensitive information by encrypting it and sharing the decryption key only with trusted people, but this might not be enough. If the cipher associated to a face is always the same, correlation between the output of a face recognition system and the cipher can give useful clues and help train recognizers to identify untagged instances of the face. We refer to these as "correlation attacks". In this paper we present a coding system that attempts to counter correlation attacks by associating to each instance of a face a different encryption of the same tag in such a way that the correlation between different instances is minimal. In addition, we present a key distribution code that allows only the owner of the images to encode the tags, but allows a group of trusted friends to decode them.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 量子スイッチの容量領域の計算

Calculating the Capacity Region of a Quantum Switch ( http://arxiv.org/abs/2404.18818v1 )

ライセンス: Link先を確認
Ian Tillman, Thirupathaiah Vasantam, Don Towsley, Kaushik P. Seshadreesan, (参考訳) 量子リピータは、新しい量子インターネットの能力、特に長距離の絡み合いを分散するアプリケーションを完全に実現するために必要である。 これのより一般的な概念は、多くのユーザと接続する量子スイッチ(quantum switch)と呼ばれ、リピータとして機能して、これらのユーザの異なるサブセット間のエンドツーエンドの絡み合いを生成することができる。 本稿では、離散および連続変数の量子スイッチの容量領域を計算する方法を提案する。 この方法は凸解析のツールを用いて容量領域の境界を生成する。 本稿では,実測的なトポロジを用いた実例計算を行い,解析結果を支援するシミュレーションを行う。

Quantum repeaters are necessary to fully realize the capabilities of the emerging quantum internet, especially applications involving distributing entanglement across long distances. A more general notion of this can be called a quantum switch, which connects to many users and can act as a repeater to create end-to-end entanglement between different subsets of these users. Here we present a method of calculating the capacity region of both discrete- and continuous-variable quantum switches that in general support mixed-partite entanglement generation. The method uses tools from convex analysis to generate the boundaries of the capacity region. We show example calculations with illustrative topologies and perform simulations to support the analytical results.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて

Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior ( http://arxiv.org/abs/2404.18820v1 )

ライセンス: Link先を確認
Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang, (参考訳) 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))で画像を圧縮することは、かなりの情報損失のため重要な課題である。 既存の極端な画像圧縮法は、通常、重い圧縮アーティファクトや低忠実度再構成に悩まされる。 そこで本研究では,圧縮型VAEと事前学習したテキスト・ツー・イメージ拡散モデルをエンドツーエンドで組み合わせた,新たな極端な画像圧縮フレームワークを提案する。 具体的には,圧縮VAEに基づく遅延特徴誘導圧縮モジュールを提案する。 このモジュールは画像を圧縮し、最初に圧縮された情報をコンテンツ変数にデコードする。 コンテンツ変数と拡散空間のアライメントを高めるために,中間特徴写像を変調するための外部ガイダンスを導入する。 その後、事前学習した拡散モデルを利用して、これらのコンテンツ変数をさらにデコードする条件付き拡散復号モジュールを開発した。 事前学習した拡散モデルの生成能力を維持するため、パラメータを固定し、制御モジュールを使用してコンテンツ情報を注入する。 また、遅延特徴誘導圧縮モジュールに十分な制約を与えるために、空間アライメント損失を設計する。 超低ビットレートでの視覚的性能と画像忠実度の両方の観点から,本手法が最先端の手法より優れていることを示す。

Compressing images at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. Existing extreme image compression methods generally suffer from heavy compression artifacts or low-fidelity reconstructions. To address this problem, we propose a novel extreme image compression framework that combines compressive VAEs and pre-trained text-to-image diffusion models in an end-to-end manner. Specifically, we introduce a latent feature-guided compression module based on compressive VAEs. This module compresses images and initially decodes the compressed information into content variables. To enhance the alignment between content variables and the diffusion space, we introduce external guidance to modulate intermediate feature maps. Subsequently, we develop a conditional diffusion decoding module that leverages pre-trained diffusion models to further decode these content variables. To preserve the generative capability of pre-trained diffusion models, we keep their parameters fixed and use a control module to inject content information. We also design a space alignment loss to provide sufficient constraints for the latent feature-guided compression module. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches in terms of both visual performance and image fidelity at extremely low bitrates.
翻訳日:2024-04-30 13:08:44 公開日:2024-04-29
# 強化学習に基づくエネルギー配置戦略のための制御ポリシー補正フレームワーク

Control Policy Correction Framework for Reinforcement Learning-based Energy Arbitrage Strategies ( http://arxiv.org/abs/2404.18821v1 )

ライセンス: Link先を確認
Seyed Soroush Karimi Madahi, Gargya Gokhale, Marie-Sophie Verwee, Bert Claessens, Chris Develder, (参考訳) 再生可能エネルギー源の継続的な普及は、単一不均衡価格の使用とともに、不均衡解決機構におけるエネルギー仲裁を通じて、責任ある当事者がコストを削減できる新たな機会を提供する。 モデルフリー強化学習(RL)法は、複雑な確率的逐次問題の解法において、その優れた性能のために、エネルギー仲裁問題を解くのに適した選択である。 しかし、RLの学習ポリシーは実行フェーズの安全性を必ずしも保証しないため、現実世界のアプリケーションにRLがデプロイされることは滅多にない。 そこで本稿では,不均衡解決機構における安全なエネルギー仲裁戦略を実現するために,電池用RLベースの新しい制御フレームワークを提案する。 提案する制御フレームワークでは、当初、仲裁収入の最適化を目的としていた。 後処理工程では,人間の直感に追従する特性に基づいて,知識蒸留プロセスに従って学習方針を修正(拘束)する。 我々の後処理ステップは汎用的な手法であり、エネルギー仲裁領域に制限されない。 提案手法の性能評価には,2023年のベルギーの不均衡価格を用いる。 さらに,提案する制御フレームワークを実際のバッテリー上に展開し,実環境におけるその能力を示す。

A continuous rise in the penetration of renewable energy sources, along with the use of the single imbalance pricing, provides a new opportunity for balance responsible parties to reduce their cost through energy arbitrage in the imbalance settlement mechanism. Model-free reinforcement learning (RL) methods are an appropriate choice for solving the energy arbitrage problem due to their outstanding performance in solving complex stochastic sequential problems. However, RL is rarely deployed in real-world applications since its learned policy does not necessarily guarantee safety during the execution phase. In this paper, we propose a new RL-based control framework for batteries to obtain a safe energy arbitrage strategy in the imbalance settlement mechanism. In our proposed control framework, the agent initially aims to optimize the arbitrage revenue. Subsequently, in the post-processing step, we correct (constrain) the learned policy following a knowledge distillation process based on properties that follow human intuition. Our post-processing step is a generic method and is not restricted to the energy arbitrage domain. We use the Belgian imbalance price of 2023 to evaluate the performance of our proposed framework. Furthermore, we deploy our proposed control framework on a real battery to show its capability in the real world.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# 大規模言語モデルにおけるベンチマークリークのベンチマーク

Benchmarking Benchmark Leakage in Large Language Models ( http://arxiv.org/abs/2404.18824v1 )

ライセンス: Link先を確認
Ruijie Xu, Zengzhi Wang, Run-Ze Fan, Pengfei Liu, (参考訳) 事前トレーニングデータの利用が拡大する中、ベンチマークデータセットのリーク現象は、不透明なトレーニングプロセスや、現代Large Language Models (LLMs) に教師付きデータを含めることによって悪化し、ますます顕著になっている。 この問題は、ベンチマークの有効性を歪め、潜在的に不公平な比較を奨励し、この分野の健全な発展を妨げる。 そこで本研究では,PerplexityとN-gramの精度を利用した検出パイプラインを提案する。 数学的推論の文脈で31個のLSMを解析することにより、テストセットの誤用さえもかなりの訓練例を明らかにし、潜在的に不公平な比較を行う。 これらの結果から,モデルドキュメンテーションやベンチマーク設定,今後の評価について,いくつかの推奨事項を提供することができた。 特に,ベンチマーク利用の明確なドキュメンテーション,透明性の促進,LCMの健全な開発を促進するために,ベンチマーク透明性カードを提案する。 リーダーボード、パイプライン実装、モデル予測を公開し、将来の研究を奨励しました。

Amid the expanding use of pre-training data, the phenomenon of benchmark dataset leakage has become increasingly prominent, exacerbated by opaque training processes and the often undisclosed inclusion of supervised data in contemporary Large Language Models (LLMs). This issue skews benchmark effectiveness and fosters potentially unfair comparisons, impeding the field's healthy development. To address this, we introduce a detection pipeline utilizing Perplexity and N-gram accuracy, two simple and scalable metrics that gauge a model's prediction precision on benchmark, to identify potential data leakages. By analyzing 31 LLMs under the context of mathematical reasoning, we reveal substantial instances of training even test set misuse, resulting in potentially unfair comparisons. These findings prompt us to offer several recommendations regarding model documentation, benchmark setup, and future evaluations. Notably, we propose the "Benchmark Transparency Card" to encourage clear documentation of benchmark utilization, promoting transparency and healthy developments of LLMs. we have made our leaderboard, pipeline implementation, and model predictions publicly available, fostering future research.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# ハーモニック機械学習モデルはロバストである

Harmonic Machine Learning Models are Robust ( http://arxiv.org/abs/2404.18825v1 )

ライセンス: Link先を確認
Nicholas S. Kersting, Yi Li, Aman Mohanty, Oyindamola Obisesan, Raphael Okochu, (参考訳) トレーニング中, あるいはブラックボックスのリアルタイム推論監視において, 地味ラベルを使わずに, 任意の機械学習モデルのロバスト性をテストするための, 強力で直感的な手法であるハーモニックロバストネスを導入する。 これは高調波平均値特性からの関数的偏差に基づいており、不安定性と説明可能性の欠如を示している。 本稿では,低次元木やフィードフォワードNNにおける実装例を示すとともに,画像クラス間の敵対的脆弱性を効率的に測定するResNet-50やVision Transformerなどの複雑な高次元モデルについて述べる。

We introduce Harmonic Robustness, a powerful and intuitive method to test the robustness of any machine-learning model either during training or in black-box real-time inference monitoring without ground-truth labels. It is based on functional deviation from the harmonic mean value property, indicating instability and lack of explainability. We show implementation examples in low-dimensional trees and feedforward NNs, where the method reliably identifies overfitting, as well as in more complex high-dimensional models such as ResNet-50 and Vision Transformer where it efficiently measures adversarial vulnerability across image classes.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# ボースガスの極端断片化

Extreme fragmentation of a Bose gas ( http://arxiv.org/abs/2404.18827v1 )

ライセンス: Link先を確認
Nathan Dupont, Amit Vashisht, Nathan Goldman, (参考訳) 相互作用するボース気体のフラグメンテーションは、有限個の単一粒子固有状態のマクロな占有を指す。 この現象は、量子光学における粒子番号のスクイーズの概念と関係している。 これまでのところ、断片化はいくつかのモードで大量のN$のボソンを含む実験で部分的にしか達成されていない。 本稿では,$L$-mode Bose-Hubbardモデルを実現するシステムにおいて,フラグメント状態を作成するための実用的で効率的な手法を提案する。 極端に短い準備時間でボースガスを破砕する実用的な制御パラメータとして, モード間の大きなエネルギー差をいかに利用できるかを実証する。 現実的な実験的制約に最適制御アプローチを適用することで、数回のトンネル時間で数百のボソンを持つフォック状態の$\ket{N/L,...,N/L}$ Fock状態を実現し、高い充填率で全フラグメンテーションが得られる。

Fragmentation of an interacting Bose gas refers to the macroscopic occupation of a finite set of single-particle eigenstates. This phenomenon is related to the notion of particle-number squeezing in quantum optics, an exquisite property of quantum states that can offer metrological gain. So far, fragmentation has only been partially achieved in experiments involving a large number $N$ of bosons in few modes. Here, we introduce a practical and efficient scheme to prepare fragmented states in systems realizing the $L$-mode Bose-Hubbard model. We demonstrate how a large energy detuning between the modes can be used as a practical control parameter to successfully fragment a Bose gas over an extremely short preparation time. Applying an optimal-control approach within realistic experimental constraints, we obtain total fragmentation at a high filling factor, realizing $\ket{N/L,...,N/L}$ Fock states with hundreds of bosons in very few modes over a few tunneling times.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# ゲート型量子コンピュータにおけるシステムバス物理の実証

Demonstration of system-bath physics on gate-based quantum computer ( http://arxiv.org/abs/2404.18828v1 )

ライセンス: Link先を確認
Pascal Stadler, Matteo Lodi, Andisheh Khedri, Rolando Reiner, Kirsten Bark, Nicolas Vogt, Michael Marthaler, Juha Leppäkangas, (参考訳) 我々は,IBM-Qデバイス上でのアルゴリズム冷却を実演する。 本研究では, 発散補助スピン浴と結合した場合に, 相互作用するスピン系の基底状態への平衡をシミュレートするために, 固有量子ビット雑音を利用する。 系の定常相関はハミルトニアン系によって定義され、アルゴリズムの実行が可能である限り安定である。 特に、ハミルトニアンの定義によって制御される強磁性および反強磁性秩序への系スピンの緩和を実証する。 最大3つの系スピンと4つの補助スピンのグローバルシステムに対してシミュレーション冷却を行うことができる。

We demonstrate algorithmic cooling on IBM-Q devices. We utilize inherent qubit noise to simulate the equilibration of an interacting spin system towards its ground state, when coupled to a dissipative auxiliary-spin bath. The steady-state correlations in the system are defined by the system Hamiltonian and are stable as long as the algorithm can be executed. In particular, we demonstrate the relaxation of system spins to ferromagnetic and antiferromagnetic ordering, controlled by the definition of the Hamiltonian. We are able to perform simulated cooling for global systems of up to three system spins and four auxiliary spins.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# ConPro:コントラスト学習と優先最適化を用いた医用画像の重症度表現の学習

ConPro: Learning Severity Representation for Medical Images using Contrastive Learning and Preference Optimization ( http://arxiv.org/abs/2404.18831v1 )

ライセンス: Link先を確認
Hong Nguyen, Hoang Nguyen, Melinda Chang, Hieu Pham, Shrikanth Narayanan, Michael Pazzani, (参考訳) 診断における画像の重症度を理解することは, 臨床評価, 治療, 縦断的進行評価のキーガイドとして重要である。 本稿では,Contrastive Learningintegrated Preference Optimization を用いた医用画像の重症度評価のための新しい表現学習手法であるCon-PrOを提案する。 クラス間の距離を最大化する従来のコントラスト学習法とは異なり、ConPrOは様々な重度クラスと通常のクラスの間の距離優先知識を潜在ベクトルに注入する。 予測タスクがいかに価値ある表現を獲得するかを明らかにするために,我々のフレームワークの重要な構成要素を体系的に検討する。 提案する表現学習フレームワークは,特徴空間における重大度順序付けを実現するとともに,従来の最先端手法よりも高い性能を示すことを示す。 教師付きベースラインと自己監督型ベースラインと比較して, 6%, 20%の相対的な改善を実現した。 さらに、重症度指標とその医療領域における嗜好比較への応用について検討した。

Understanding the severity of conditions shown in images in medical diagnosis is crucial, serving as a key guide for clinical assessment, treatment, as well as evaluating longitudinal progression. This paper proposes Con- PrO: a novel representation learning method for severity assessment in medical images using Contrastive learningintegrated Preference Optimization. Different from conventional contrastive learning methods that maximize the distance between classes, ConPrO injects into the latent vector the distance preference knowledge between various severity classes and the normal class. We systematically examine the key components of our framework to illuminate how contrastive prediction tasks acquire valuable representations. We show that our representation learning framework offers valuable severity ordering in the feature space while outperforming previous state-of-the-art methods on classification tasks. We achieve a 6% and 20% relative improvement compared to a supervised and a self-supervised baseline, respectively. In addition, we derived discussions on severity indicators and related applications of preference comparison in the medical domain.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# 人間とLLMに基づく患者コメントの感性アノテーションは中性であることが困難である

It's Difficult to be Neutral -- Human and LLM-based Sentiment Annotation of Patient Comments ( http://arxiv.org/abs/2404.18832v1 )

ライセンス: Link先を確認
Petter Mæhlum, David Samuel, Rebecka Maria Norman, Elma Jelin, Øyvind Andresen Bjertnæs, Lilja Øvrelid, Erik Velldal, (参考訳) センチメント分析は、患者の声を集約する重要なツールであり、医療サービスのターゲットとなる改善を提供する。 これの前提条件は、感情にアノテートされたドメイン内のデータが利用できることだ。 本稿では,ノルウェー公衆衛生研究所(NIPH)が収集した患者調査において,感情アノテーションを自由テキストコメントに追加する取り組みについて述べる。 しかし、特にドメインの専門知識を必要とする場合、アノテーションは時間がかかり、リソース集約的なプロセスになり得る。 そこで我々は,大型言語モデル (LLM) をアノテーションとして,人間のアノテーションに代わる可能性も評価した。 ノルウェーの2つのオープンな事前訓練型LLMに対するアプローチを広範囲に評価し、プロンプトの異なる構成とコンテキスト内学習を試行し、その性能を人間のアノテーションと比較した。 ゼロショットの実行であっても、モデルはバイナリ感情のベースラインよりもはるかに高いパフォーマンスを保っていますが、完全なデータセット上の人間アノテータと競合することはできません。

Sentiment analysis is an important tool for aggregating patient voices, in order to provide targeted improvements in healthcare services. A prerequisite for this is the availability of in-domain data annotated for sentiment. This article documents an effort to add sentiment annotations to free-text comments in patient surveys collected by the Norwegian Institute of Public Health (NIPH). However, annotation can be a time-consuming and resource-intensive process, particularly when it requires domain expertise. We therefore also evaluate a possible alternative to human annotation, using large language models (LLMs) as annotators. We perform an extensive evaluation of the approach for two openly available pretrained LLMs for Norwegian, experimenting with different configurations of prompts and in-context learning, comparing their performance to human annotators. We find that even for zero-shot runs, models perform well above the baseline for binary sentiment, but still cannot compete with human annotators on the full dataset.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# リーマン勾配蛍光による高速量子プロセストモグラフィ

Fast Quantum Process Tomography via Riemannian Gradient Descent ( http://arxiv.org/abs/2404.18840v1 )

ライセンス: Link先を確認
Daniel Volya, Andrey Nikitin, Prabhat Mishra, (参考訳) 制約付き最適化は量子物理学や量子情報科学の分野において重要な役割を担い、特に高次元の複雑な構造問題において困難となる。 量子プロセストモグラフィー(quantum process tomography)は、特定の測定データに基づいて基礎となる量子プロセスを取得することを目的としている。 本稿では、リーマン多様体上の確率勾配勾配の修正版を導入し、リーマン最適化の数値的手法の最近の進歩を統合する。 このアプローチは本質的には、量子プロセスの物理的に駆動される制約をサポートし、最先端の大規模確率的目的最適化を生かし、最大推定や射影最小二乗といった従来の手法よりも優れた性能を持つ。 データ駆動型アプローチは、正確で高精度な結果を可能にし、不完全なデータを扱う。 量子コンピュータ上でのエンジニアリングプロセスの特徴を特徴付けることにより,量子プロセスのシミュレーションやハードウェア上での本手法を実証する。

Constrained optimization plays a crucial role in the fields of quantum physics and quantum information science and becomes especially challenging for high-dimensional complex structure problems. One specific issue is that of quantum process tomography, in which the goal is to retrieve the underlying quantum process based on a given set of measurement data. In this paper, we introduce a modified version of stochastic gradient descent on a Riemannian manifold that integrates recent advancements in numerical methods for Riemannian optimization. This approach inherently supports the physically driven constraints of a quantum process, takes advantage of state-of-the-art large-scale stochastic objective optimization, and has superior performance to traditional approaches such as maximum likelihood estimation and projected least squares. The data-driven approach enables accurate, order-of-magnitude faster results, and works with incomplete data. We demonstrate our approach on simulations of quantum processes and in hardware by characterizing an engineered process on quantum computers.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# VISION:全国レベルでの放射線画像管理の標準化プロセスに向けて

VISION: Toward a Standardized Process for Radiology Image Management at the National Level ( http://arxiv.org/abs/2404.18842v1 )

ライセンス: Link先を確認
Kathryn Knight, Ioana Danciu, Olga Ovchinnikova, Jacob Hinkle, Mayanka Chandra Shekar, Debangshu Mukherjee, Eileen McAllister, Caitlin Rizy, Kelly Cho, Amy C. Justice, Joseph Erdos, Peter Kuzmak, Lauren Costa, Yuk-Lam Ho, Reddy Madipadga, Suzanne Tamang, Ian Goethert, (参考訳) 放射線画像の編集と解析は、研究者に多くの課題をもたらす。 膨大な量のデータと、画像上で操作できるアルゴリズムの計算的ニーズは広範囲に及んでいる。 さらに、これらの画像の組み立ては、臨床的文脈、モデルトレーニング、モダリティ、患者識別子に利用できる構造的アノテーションという点で大きく異なる可能性があるため、単独で行うことは困難である。 本稿では,米国退役軍人局(VA)電子健康記録データベースに関連付けられた放射線画像の信頼できる収集を行う上での経験と課題について述べる。 また,このレポジトリを医療研究者に活用する上での意義についても論じる。 主な洞察は、臨床から研究可能な環境に画像を転送するために必要な特定の手順を明らかにすること、そしてこのプロセスにおける障害やボトルネックが、自動化における将来の努力を妨げる可能性がある。

The compilation and analysis of radiological images poses numerous challenges for researchers. The sheer volume of data as well as the computational needs of algorithms capable of operating on images are extensive. Additionally, the assembly of these images alone is difficult, as these exams may differ widely in terms of clinical context, structured annotation available for model training, modality, and patient identifiers. In this paper, we describe our experiences and challenges in establishing a trusted collection of radiology images linked to the United States Department of Veterans Affairs (VA) electronic health record database. We also discuss implications in making this repository research-ready for medical investigators. Key insights include uncovering the specific procedures required for transferring images from a clinical to a research-ready environment, as well as roadblocks and bottlenecks in this process that may hinder future efforts at automation.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# ランダム動的量子マップによる量子ベンチマーク

Quantum Benchmarking via Random Dynamical Quantum Maps ( http://arxiv.org/abs/2404.18846v1 )

ライセンス: Link先を確認
Daniel Volya, Prabhat Mishra, (参考訳) 本稿では、ランダムな動的量子マップのシミュレーションによって達成された、普遍量子コンピュータのためのベンチマークプロトコルを提案する。 このプロトコルはシステム全体のエラー率を総合的に評価し、ゲート不正確さと中周期キュービットの測定とリセットに関連するエラーの両方をカプセル化する。 ランダムな量子回路を用いて、中間回路の量子ビット測定とリセットを繰り返し行うことにより、量子ビットの系を定常状態のアンサンブルに操る。 これらの定常状態はランダムウィッシュアート行列によって記述され、普遍性を含むランダムリンドブラディアン力学において以前に同定された定常特性と一致する。 このプロトコルは、計算ベースで測定されたアンサンブル確率分布を評価し、トモグラフィー再構成を効果的に回避する。 各種数値シミュレーションは最終分布と異なる誤差源の関係を実証する。 さらに、我々は、IBM Quantumによって提供される最先端のトランスモン量子ビットのプロトコルを実装し、実験結果、理論的な期待値、デバイスに搭載されたノイズモデルから得られたシミュレーションの比較を行う。

We present a benchmarking protocol for universal quantum computers, achieved through the simulation of random dynamical quantum maps. This protocol provides a holistic assessment of system-wide error rates, encapsulating both gate inaccuracies and the errors associated with mid-circuit qubit measurements and resets. By employing random quantum circuits and segmenting mid-circuit qubit measurement and reset in a repeated fashion, we steer the system of qubits to an ensemble of steady-states. These steady-states are described by random Wishart matrices, and align with the steady-state characteristics previously identified in random Lindbladian dynamics, including the universality property. The protocol assesses the resulting ensemble probability distribution measured in the computational basis, effectively avoiding a tomographic reconstruction. Our various numerical simulations demonstrate the relationship between the final distribution and different error sources. Additionally, we implement the protocol on state-of-the-art transmon qubits provided by IBM Quantum, drawing comparisons between empirical results, theoretical expectations, and simulations derived from a fitted noise model of the device.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# サイクル計測と簡易量子状態トモグラフィー

Cyclic measurements and simplified quantum state tomography ( http://arxiv.org/abs/2404.18847v1 )

ライセンス: Link先を確認
Victor Gonzalez Avella, Jakub Czartowski, Dardo Goyeneche, Karol Życzkowski, (参考訳) 量子状態のトモグラフィー再構成は、量子システムをベンチマークし、量子コンピュータから情報を取得する上で、基本的な役割を果たす。 情報的に完備な量子測定セットのうち、タイトなものは線形再構成公式を提供し、統計的誤差の伝播を最小化する。 しかし、実験室で厳密な測定を行うことは、一連の実験的な準備を含む大量の必要な測定予測のために困難である。 本研究では,測定段階における単一ユニタリ型量子デバイスの繰り返し適用のみを考慮しつつ,完全な量子状態トモグラフィを実現できるサイクリック・タイトな測定の概念を導入する。 このタイプの測定は、物理系の量子状態を取得するのに必要な実験的なセットアップの複雑さを著しく単純化する。 さらに, 任意の有限次元において, 十分に近似されたサイクリック・タイトな測定を行うことが可能なセットアップ準備手順を設計する。

Tomographic reconstruction of quantum states plays a fundamental role in benchmarking quantum systems and retrieving information from quantum computers. Among the informationally complete sets of quantum measurements the tight ones provide a linear reconstruction formula and minimize the propagation of statistical errors. However, implementing tight measurements in the lab is challenging due to the high number of required measurement projections, involving a series of experimental setup preparations. In this work, we introduce the notion of cyclic tight measurements, that allow us to perform full quantum state tomography while considering only repeated application of a single unitary-based quantum device during the measurement stage process. This type of measurements significantly simplifies the complexity of the experimental setup required to retrieve the quantum state of a physical system. Additionally, we design feasible setup preparation procedure that produce well-approximated cyclic tight measurements, in every finite dimension.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# FeDeRA:Federated Learning Leveraging Weight Decompositionにおける言語モデルの効率的な微調整

FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition ( http://arxiv.org/abs/2404.18848v1 )

ライセンス: Link先を確認
Yuxuan Yan, Shunpu Tang, Zhiguo Shi, Qianqian Yang, (参考訳) プレトレーニング言語モデル(PLM)は、微調整後、様々な下流タスクにおいて優れた性能を示した。 それでも、ユーザのプライバシに関する懸念がエスカレートし、広範なデータ収集に依存する集中トレーニングに重大な課題をもたらしている。 クライアントのトレーニングのみを必要とし、データを共有せずにサーバの重みを集約するフェデレートラーニング(FL)がソリューションとして登場した。 しかし、PLMのかなりのパラメータサイズは、クライアントデバイスの計算資源に大きな負担を与え、通信コストも高くつく。 パラメータ効率の良いファインチューニング(PEFT)をFLに導入することは、この問題に効果的に対処できる。 しかし,フェデレート学習における非IIDデータは,PEFT法とフルパラメータファインチューニング(FT)における性能のギャップを生じさせる。 これを解決するために,FL における LoRA 法の改良である FeDeRA を提案する。 FeDeRAはLoRAと同じアダプタモジュールを使用する。 しかし、FeDeRAのアダプタモジュールの初期化には、事前学習された行列上でSingular Value Decomposition (SVD)を実行し、その主成分を選択することで違いがある。 我々は3つのタスクと6つのデータセットに対してRoBERTaとDeBERTaV3を用いて広範な実験を行い、FTを含む他の3つのPEFT手法と比較した。 FeDeRAは他のPEFTメソッドよりも優れており、FTメソッドのパフォーマンスに匹敵する。 また,Jetson AGX Orin上でのフェデレーション学習も実施し,特定のタスクに対する目標精度を達成するために,異なる手法で必要な時間を比較した。 FTと比較して、FeDeRAはRoBERTaとDeBERTaV3の3つのタスクでそれぞれ95.9%、97.9%、96.9%、97.3%、96.5%、96.5%のトレーニング時間を短縮している。 総合実験の結果,FeDeRAは効率を保ちながら良好な性能を発揮することが示された。

Pre-trained Language Models (PLMs) have shown excellent performance on various downstream tasks after fine-tuning. Nevertheless, the escalating concerns surrounding user privacy have posed significant challenges to centralized training reliant on extensive data collection. Federated learning(FL), which only requires training on the clients and aggregates weights on the server without sharing data, has emerged as a solution. However, the substantial parameter size of PLMs places a significant burden on the computational resources of client devices, while also leading to costly communication expenses. Introducing Parameter-Efficient Fine-Tuning(PEFT) into FL can effectively address this problem. However, we observe that the non-IID data in federated learning leads to a gap in performance between the PEFT method and full parameter fine-tuning(FT). To overcome this, we propose FeDeRA, an improvement over the LoRA method in FL. FeDeRA uses the same adapter module as LoRA. However, the difference lies in FeDeRA's initialization of the adapter module by performing Singular Value Decomposition (SVD) on the pre-trained matrix and selecting its principal components. We conducted extensive experiments, using RoBERTa and DeBERTaV3, on three tasks and six datasets, comparing the methods including FT and the other three different PEFT methods. FeDeRA outperforms all other PEFT methods and is comparable to or even surpasses the performance of FT methods. We also deployed federated learning on Jetson AGX Orin and compared the time required by different methods to achieve the target accuracy on specific tasks. Compared to FT, FeDeRA reduces the training time by 95.9%, 97.9%, 96.9%, and 97.3%, 96.5%, and 96.5% respectively on three tasks using RoBERTa and DeBERTaV3. The overall experiments indicate that FeDeRA achieves good performance while also maintaining efficiency.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# MiPa:Mixed Patch Infrared-VisibleModality Agnostic Object Detection

MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection ( http://arxiv.org/abs/2404.18849v1 )

ライセンス: Link先を確認
Heitor R. Medeiros, David Latortue, Fidel Guerrero Pena, Eric Granger, Marco Pedersoli, (参考訳) 本稿では,2つのモダリティを用いて,一方のモダリティと他方のモダリティを1つのモデルで見る方法を示す。 これは、限られた計算予算を尊重しながらより多くの情報を活用するために、ユニモーダルモデルを適用する際に有用である。 これは、どんなモダリティにも対処できる単一のモデルを持つことを意味する。 これを説明するために、我々は"nonmodal learning"という言葉を作った。 例えば、照明が点灯している部屋の監視は、赤外線モダリティを使ってより価値の高いものになり、可視光が点灯している時により差別的な情報を提供するユースケースである。 本研究は, 変圧器を用いた物体検出バックボーンにおいて, 可視・赤外・熱的モダリティを効率的に利用し, 任意のアーキテクチャを構築する方法について検討する。 私たちの研究は、トレーニング中の2つのモダリティを効果的に活用する方法を探りながら、テスト中に推論オーバーヘッドを発生させません。 このような課題を達成するために、我々は新しい非モーダルトレーニング手法であるMiPa(Mixed Patches)とパッチワイドなドメイン非依存モジュールを併用して、両方のモダリティの共通表現を見つける最良の方法を学ぶ。 このアプローチは、個別のモダリティベンチマークで競合する結果に到達して、異なる3つの異なる可視赤外線オブジェクト検出データセットでユニモーダルアーキテクチャを使用することによって、モダリティのバランスをとることができることを証明している。 最後に,本提案手法は,最強モダリティの正規化として用いる場合,推論中に単一モダリティしか必要とせず,マルチモーダル融合法の性能に打ち勝つことができる。 特に、MiPaはLLVIPの可視/赤外線ベンチマークの最先端となった。 コード:https://github.com/heitorrapela/MiPa

In this paper, we present a different way to use two modalities, in which either one modality or the other is seen by a single model. This can be useful when adapting an unimodal model to leverage more information while respecting a limited computational budget. This would mean having a single model that is able to deal with any modalities. To describe this, we coined the term anymodal learning. An example of this, is a use case where, surveillance in a room when the lights are off would be much more valuable using an infrared modality while a visible one would provide more discriminative information when lights are on. This work investigates how to efficiently leverage visible and infrared/thermal modalities for transformer-based object detection backbone to create an anymodal architecture. Our work does not create any inference overhead during the testing while exploring an effective way to exploit the two modalities during the training. To accomplish such a task, we introduce the novel anymodal training technique: Mixed Patches (MiPa), in conjunction with a patch-wise domain agnostic module, which is responsible of learning the best way to find a common representation of both modalities. This approach proves to be able to balance modalities by reaching competitive results on individual modality benchmarks with the alternative of using an unimodal architecture on three different visible-infrared object detection datasets. Finally, our proposed method, when used as a regularization for the strongest modality, can beat the performance of multimodal fusion methods while only requiring a single modality during inference. Notably, MiPa became the state-of-the-art on the LLVIP visible/infrared benchmark. Code: https://github.com/heitorrapela/MiPa
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# 病的音声に注釈を付けるための包括的ルーブリック

A Comprehensive Rubric for Annotating Pathological Speech ( http://arxiv.org/abs/2404.18851v1 )

ライセンス: Link先を確認
Mario Corrales-Astorgano, David Escudero-Mancebo, Lourdes Aguilar, Valle Flores-Lucas, Valentín Cardeñoso-Payo, Carlos Vivaracho-Pascual, César González-Ferreras, (参考訳) ルーブリックは声質評価において音声コーパスをラベル付けするための一般的なツールであるが、その病態的音声の文脈における応用は比較的限られている。 本研究では, 音韻, 流音, 韻律など, 音声品質の様々な次元に基づく包括的ルーリックについて紹介する。 本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための基準を標準化し,自動評価システムの開発を可能にすることである。 この目的を達成するために,我々はPrautocal corpusを利用した。 本報では, 音韻と流音に着目し, 注釈の質を評価するために2つの実験を行った。 音韻的評価にはGoodness of Pronunciation(GoP)測定を用い,自動区分けシステムを利用して,専門的な音声セラピストによる評価と相関した。 相関値は顕著に高くなかったが, 正の傾向がみられた。 流速評価では,wav2vecのような深層学習モデルを用いて音声特徴を抽出し,流速問題を特定することを目的としたSVM分類器を用いて,Prautocal corpusサンプルを分類した。 これらの結果は, 検出された特定の拡散の種類によって変動が変化する, このような現象を評価する複雑さを浮き彫りにしている。

Rubrics are a commonly used tool for labeling voice corpora in speech quality assessment, although their application in the context of pathological speech remains relatively limited. In this study, we introduce a comprehensive rubric based on various dimensions of speech quality, including phonetics, fluency, and prosody. The objective is to establish standardized criteria for identifying errors within the speech of individuals with Down syndrome, thereby enabling the development of automated assessment systems. To achieve this objective, we utilized the Prautocal corpus. To assess the quality of annotations using our rubric, two experiments were conducted, focusing on phonetics and fluency. For phonetic evaluation, we employed the Goodness of Pronunciation (GoP) metric, utilizing automatic segmentation systems and correlating the results with evaluations conducted by a specialized speech therapist. While the obtained correlation values were not notably high, a positive trend was observed. In terms of fluency assessment, deep learning models like wav2vec were used to extract audio features, and we employed an SVM classifier trained on a corpus focused on identifying fluency issues to categorize Prautocal corpus samples. The outcomes highlight the complexities of evaluating such phenomena, with variability depending on the specific type of disfluency detected.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# VERT: わずかなショット学習で検証された等価なRustトランスパイレーション

VERT: Verified Equivalent Rust Transpilation with Few-Shot Learning ( http://arxiv.org/abs/2404.18852v1 )

ライセンス: Link先を確認
Aidan Z. H. Yang, Yoshiki Takashima, Brandon Paulsen, Josiah Dodds, Daniel Kroening, (参考訳) Rustはメモリ安全性と低レベルのコントロールを組み合わせたプログラミング言語で、デフォルトでは未定義の動作がないことを保証しながら、Cライクなパフォーマンスを提供する。 Rustの人気が高まっているため、既存のコードベースをRustに安全かつ正しく移行する研究が進められている。 既存の作業はルールベースと大規模言語モデル(LLM)という2つのカテゴリに分類される。 ルールベースのアプローチは理論上、インプット・アウトプットの等価性をオリジナルに維持する正しいトランスパイルを生成することができるが、多くの場合、Rust言語の安全でないサブセットを使用する可読性のないRustコードを生成する。 一方、LLMベースのアプローチは一般的により読みやすく、保守性があり、安全なコードを生成するが、正確性に関する保証は提供しない。 本研究では,可読性のあるRustトランスパイルを,正式な正確性を保証するツールであるVERTを紹介する。 VERTの唯一の要件は、ソース言語にWebアセンブリコンパイラが存在することだ。 VERTはまず、Web Assemblyコンパイラを使用して、オラクルRustプログラムを取得する。 並行して、VERTはLLMを使用して読み取り可能な候補Rustプログラムを生成する。 この候補はオラクルに対して検証され、検証が失敗した場合、検証が成功するまで新しい候補の複製を再生する。 我々は、競合プログラミングスタイルのベンチマークから得られた1,394個のプログラムをトランスパイルすることで、VERTを評価する。 AnthropicのClaude-2とVERTを組み合わせることで、プロパティベースのテストに合格するRustのトランスパイルが31%から54%に増加し、モデルチェックのバウンドが1%から42%に増加した。 さらに、ポインタを多用する現実世界のCプロジェクトから取得したプログラムに対して、VERTが非自明な安全なRustを生成する能力を評価した。 我々の結果は、安全なRustを書くためのLLMの制限に関する洞察を与えてくれます。

Rust is a programming language that combines memory safety and low-level control, providing C-like performance while guaranteeing the absence of undefined behaviors by default. Rust's growing popularity has prompted research on safe and correct transpiling of existing code-bases to Rust. Existing work falls into two categories: rule-based and large language model (LLM)-based. While rule-based approaches can theoretically produce correct transpilations that maintain input-output equivalence to the original, they often yield unreadable Rust code that uses unsafe subsets of the Rust language. On the other hand, while LLM-based approaches typically produce more readable, maintainable, and safe code, they do not provide any guarantees about correctness. In this work, we present VERT, a tool that can produce readable Rust transpilations with formal guarantees of correctness. VERT's only requirement is that there is Web Assembly compiler for the source language, which is true for most major languages. VERT first uses the Web Assembly compiler to obtain an oracle Rust program. In parallel, VERT uses an LLM to generate a readable candidate Rust program. This candidate is verified against the oracle, and if verification fails, we regenerate a new candidate transpilation until verification succeeds. We evaluate VERT by transpiling a suite of 1,394 programs taken from competitive programming style benchmarks. Combining Anthropic's Claude-2 and VERT increases Rust transpilations passing property-based testing from 31% to 54% and bounded model-checking from 1% to 42% compared to using Claude alone. In addition, we evaluate VERT's ability to generate non-trivial safe Rust on programs taken from real-world C projects that make significant use of pointers. Our results provide insights into the limitations of LLMs to write safe Rust.
翻訳日:2024-04-30 12:58:45 公開日:2024-04-29
# ビジョン・マンバに関する調査:モデル,応用,課題

A Survey on Vision Mamba: Models, Applications and Challenges ( http://arxiv.org/abs/2404.18861v1 )

ライセンス: Link先を確認
Rui Xu, Shu Yang, Yihui Wang, Bo Du, Hao Chen, (参考訳) 最近の選択的構造化状態空間モデルであるMambaは、長いシーケンスモデリングタスクにおいて優れた性能を発揮する。 Mambaは畳み込みニューラルネットワークのモデリング制約を緩和し、グローバルな受容場と動的重み付けを通じてトランスフォーマーと同様の高度なモデリング機能を提供する。 重要なことに、トランスフォーマーに典型的に関連する2次計算複雑性を生じさせることなく、これを達成している。 以前の2つの主流基盤モデルよりも優位性があるため、Mambaは視覚的基礎モデルになる大きな可能性を秘めている。 研究者は、様々なコンピュータビジョンタスクにMambaを積極的に応用し、多くの新しい作品を生み出している。 本稿では,コンピュータビジョンの急速な進歩に対応するために,視覚的マンバのアプローチを包括的に検証することを目的とする。 この論文は、オリジナルのマンバモデルの定式化を記述することから始まる。 その後、視覚的マンバをいくつかの代表的なバックボーンネットワークに分解し、視覚的マンバのコアインサイトを解明する。 次に、画像、ビデオ、ポイントクラウド、マルチモーダルなど、さまざまなモダリティを用いて関連する作品を分類する。 具体的には、画像アプリケーションに対して、より構造化された議論を促進するために、それらを個別のタスクに整理する。 最後に,視覚的マンバの課題と今後の研究方向性について論じ,この急速に発展する領域における今後の研究への洞察を提供する。 この作業でレビューされた視覚的マンバモデルの包括的なリストはhttps://github.com/Ruixxxx/Awesome-Vision-Mamba-Modelsで公開されている。

Mamba, a recent selective structured state space model, performs excellently on long sequence modeling tasks. Mamba mitigates the modeling constraints of convolutional neural networks and offers advanced modeling capabilities similar to those of Transformers, through global receptive fields and dynamic weighting. Crucially, it achieves this without incurring the quadratic computational complexity typically associated with Transformers. Due to its advantages over the former two mainstream foundation models, Mamba exhibits great potential to be a visual foundation model. Researchers are actively applying Mamba to various computer vision tasks, leading to numerous emerging works. To help keep pace with the rapid advancements in computer vision, this paper aims to provide a comprehensive review of visual Mamba approaches. This paper begins by delineating the formulation of the original Mamba model. Subsequently, our review of visual Mamba delves into several representative backbone networks to elucidate the core insights of the visual Mamba. We then categorize related works using different modalities, including image, video, point cloud, multi-modal, and others. Specifically, for image applications, we further organize them into distinct tasks to facilitate a more structured discussion. Finally, we discuss the challenges and future research directions for visual Mamba, providing insights for future research in this quickly evolving area. A comprehensive list of visual Mamba models reviewed in this work is available at https://github.com/Ruixxxx/Awesome-Vision-Mamba-Models.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# 高速コード生成のための性能調整型LLM

Performance-Aligned LLMs for Generating Fast Code ( http://arxiv.org/abs/2404.18864v1 )

ライセンス: Link先を確認
Daniel Nichols, Pranav Polasam, Harshitha Menon, Aniruddha Marathe, Todd Gamblin, Abhinav Bhatele, (参考訳) コードベースは大規模で複雑であり、パフォーマンスはアルゴリズムや実装、ハードウェアなど、いくつかの要因に依存する可能性があるため、科学的ソフトウェアを最適化することは難しい作業である。 パフォーマンスの低下の原因は、異なるソースから生じる可能性があり、診断が困難である。 近年,大規模言語モデル(LLM)を使ってソフトウェア開発タスクを支援する作業が数多く行われている。 しかしながら、これらのツールは、コードの配布をテキストとしてモデル化するように訓練されており、特にコードのパフォーマンス面を理解するように設計されていない。 本研究では,LLMの出力と性能を一致させる強化学習に基づく手法を提案する。 これにより、LLMの現在のコードモデリング機能の上に構築し、それらを拡張してより良いパフォーマンスのコードを生成することができます。 我々は,本モデルにより,一連のベンチマークタスクのベースモデル上でのコード生成速度が,シリアルコードで0.9から1.6,OpenMPコードで1.9から4.5に向上することが実証された。

Optimizing scientific software is a difficult task because codebases are often large and complex, and performance can depend upon several factors including the algorithm, its implementation, and hardware among others. Causes of poor performance can originate from disparate sources and be difficult to diagnose. Recent years have seen a multitude of work that use large language models (LLMs) to assist in software development tasks. However, these tools are trained to model the distribution of code as text, and are not specifically designed to understand performance aspects of code. In this work, we introduce a reinforcement learning based methodology to align the outputs of code LLMs with performance. This allows us to build upon the current code modeling capabilities of LLMs and extend them to generate better performing code. We demonstrate that our fine-tuned model improves the expected speedup of generated code over base models for a set of benchmark tasks from 0.9 to 1.6 for serial code and 1.9 to 4.5 for OpenMP code.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# 言語モデルにおける真の価値判定:信念の方向は文脈に敏感である

Truth-value judgment in language models: belief directions are context sensitive ( http://arxiv.org/abs/2404.18865v1 )

ライセンス: Link先を確認
Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen, (参考訳) 近年の研究では、大きな言語モデル(LLM)の潜在空間には、文の真理を予測する方向が含まれていることが示されている。 複数の手法がそのような方向を復元し、モデルの"知識"や"信条"に到達したと説明されるプローブを構築する。 本研究では、この現象を調査し、文脈がプローブに与える影響を詳しく検討する。 我々の実験は、LLMにおいて、プローブの予測が前回の(関連する)文で条件付きであると記述できる場所を確立する。 具体的には,質問文の存在と矛盾する文の存在に対するプローブの応答性を定量化し,その整合性について評価する。 我々はまた、これらの信念方向に沿って前提の表現を移動させることが、同じ方向に沿って仮説の位置に影響を与えるかどうかを調査する因果介入実験を行った。 テスト対象のプローブは一般的にコンテキストに敏感だが、真実に影響を与えないようなコンテキストは、プローブの出力に影響を与えていることが多い。 実験の結果,エラーの種類は層,(タイプの)モデル,データの種類に依存することがわかった。 最後に,本研究の結果から,信念の方向性は,文脈内情報を含む推論過程における因果媒介者(因果媒介者)であることが示唆された。

Recent work has demonstrated that the latent spaces of large language models (LLMs) contain directions predictive of the truth of sentences. Multiple methods recover such directions and build probes that are described as getting at a model's "knowledge" or "beliefs". We investigate this phenomenon, looking closely at the impact of context on the probes. Our experiments establish where in the LLM the probe's predictions can be described as being conditional on the preceding (related) sentences. Specifically, we quantify the responsiveness of the probes to the presence of (negated) supporting and contradicting sentences, and score the probes on their consistency. We also perform a causal intervention experiment, investigating whether moving the representation of a premise along these belief directions influences the position of the hypothesis along that same direction. We find that the probes we test are generally context sensitive, but that contexts which should not affect the truth often still impact the probe outputs. Our experiments show that the type of errors depend on the layer, the (type of) model, and the kind of data. Finally, our results suggest that belief directions are (one of the) causal mediators in the inference process that incorporates in-context information.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# 拡散モデルを用いたガウスの混合学習

Learning Mixtures of Gaussians Using Diffusion Models ( http://arxiv.org/abs/2404.18869v1 )

ライセンス: Link先を確認
Khashayar Gatmiry, Jonathan Kelner, Holden Lee, (参考訳) 我々は、$k$ Gaussians ($\mathbb{R}^n$)から$\varepsilon$, with quasi-polynomial ($O(n^{\text{poly log}\left(\frac{n+k}{\varepsilon}\right)}) 時間とサンプルの複雑さを最小の重みの仮定で学習する新しいアルゴリズムを提供する。 従来のアプローチとは異なり、ほとんどのアプローチは本質的に代数的であるが、我々のアプローチは解析的であり、拡散モデルの枠組みに依存している。 拡散モデル(diffusion model)は、生成モデリングの現代的なパラダイムであり、通常、純粋なノイズ分布をガウス的(Gaussian)からデータ分布に変換するプロセスに沿ってスコア関数(gradient log-pdf)を学ぶことに依存する。 画像生成などのタスクにおけるダッズ性能にもかかわらず、非自明な分布の族を効率的に学習できるというエンドツーエンドの理論的保証はほとんどない。 ガウス混合のスコア関数に対する高次ガウス雑音感度境界を導出し、各成分が分数次多項式回帰(最大多対数次数)を用いて帰納的に学習できることを示し、これを拡散モデルに対する既知の収束結果と組み合わせる。 我々の結果は、混合分布が一定半径の$k$の球の和で支えられるガウスの連続混合にまで拡張される。 特に、これは低次元多様体上の分布のガウス的畳み込みの場合に当てはまる。

We give a new algorithm for learning mixtures of $k$ Gaussians (with identity covariance in $\mathbb{R}^n$) to TV error $\varepsilon$, with quasi-polynomial ($O(n^{\text{poly log}\left(\frac{n+k}{\varepsilon}\right)})$) time and sample complexity, under a minimum weight assumption. Unlike previous approaches, most of which are algebraic in nature, our approach is analytic and relies on the framework of diffusion models. Diffusion models are a modern paradigm for generative modeling, which typically rely on learning the score function (gradient log-pdf) along a process transforming a pure noise distribution, in our case a Gaussian, to the data distribution. Despite their dazzling performance in tasks such as image generation, there are few end-to-end theoretical guarantees that they can efficiently learn nontrivial families of distributions; we give some of the first such guarantees. We proceed by deriving higher-order Gaussian noise sensitivity bounds for the score functions for a Gaussian mixture to show that that they can be inductively learned using piecewise polynomial regression (up to poly-logarithmic degree), and combine this with known convergence results for diffusion models. Our results extend to continuous mixtures of Gaussians where the mixing distribution is supported on a union of $k$ balls of constant radius. In particular, this applies to the case of Gaussian convolutions of distributions on low-dimensional manifolds, or more generally sets with small covering number.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# よりRLHF、より信頼か? 言語モデル信頼性に対する人間の嗜好アライメントの影響

More RLHF, More Trust? On The Impact of Human Preference Alignment On Language Model Trustworthiness ( http://arxiv.org/abs/2404.18870v1 )

ライセンス: Link先を確認
Aaron J. Li, Satyapriya Krishna, Himabindu Lakkaraju, (参考訳) LLM(Large Language Models)の開発が急増し、認知タスクのパフォーマンスが向上すると同時に、これらのモデルを人間の価値と整合させることで、そのパワーを安全に活用する必要性が高まっている。 Reinforcement Learning From Human Feedback (RLHF) のような選好学習アルゴリズムが人間の選好の調整に有効であるにもかかわらず、モデル信頼性の改善は十分に検証されていない。 本研究は, 有害性, ステレオタイプバイアス, 機械倫理, 真理性, プライバシの5分野において, 有用性と無害性に関する汎用的嗜好データと整合したモデルについて検討する。 モデルアライメントでは,Servised Finetuning (SFT), Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO)の3種類のRLHF変異体に着目した。 広範な実証調査により、RLHFによる信頼性の向上は保証されるには程遠いことが分かり、嗜好データ、アライメントアルゴリズム、および特定の信頼性の側面の間には複雑な相互作用が存在することが判明した。 我々の結果は、モデルアライメントのためのよりニュアンスなアプローチの必要性を浮き彫りにした。 モデルアライメントにおけるこれらのコンポーネントの複雑なダイナミクスに光を当てることで、この研究が、能力と信頼性の両方を備えた言語モデルの開発に向けてコミュニティを導くことを期待します。

The surge in Large Language Models (LLMs) development has led to improved performance on cognitive tasks as well as an urgent need to align these models with human values in order to safely exploit their power. Despite the effectiveness of preference learning algorithms like Reinforcement Learning From Human Feedback (RLHF) in aligning human preferences, their assumed improvements on model trustworthiness haven't been thoroughly testified. Toward this end, this study investigates how models that have been aligned with general-purpose preference data on helpfulness and harmlessness perform across five trustworthiness verticals: toxicity, stereotypical bias, machine ethics, truthfulness, and privacy. For model alignment, we focus on three widely used RLHF variants: Supervised Finetuning (SFT), Proximal Policy Optimization (PPO), and Direct Preference Optimization (DPO). Through extensive empirical investigations, we discover that the improvement in trustworthiness by RLHF is far from guaranteed, and there exists a complex interplay between preference data, alignment algorithms, and specific trustworthiness aspects. Together, our results underscore the need for more nuanced approaches for model alignment. By shedding light on the intricate dynamics of these components within model alignment, we hope this research will guide the community towards developing language models that are both capable and trustworthy.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# OpenStreetView-5M: グローバルなビジュアルジオロケーションへの多くの道

OpenStreetView-5M: The Many Roads to Global Visual Geolocation ( http://arxiv.org/abs/2404.18873v1 )

ライセンス: Link先を確認
Guillaume Astruc, Nicolas Dufour, Ioannis Siglidis, Constantin Aronssohn, Nacim Bouia, Stephanie Fu, Romain Loiseau, Van Nguyen Nguyen, Charles Raude, Elliot Vincent, Lintao XU, Hongyu Zhou, Loic Landrieu, (参考訳) 地球上のどこでも画像の位置を決定することは、複雑な視覚的タスクであり、コンピュータビジョンアルゴリズムの評価に特に関係している。 しかし、画像が確実にローカライズ可能な標準で大規模なオープンアクセスデータセットが存在しないため、そのポテンシャルは制限されている。 この問題に対処するため、我々は225か国と領域をカバーする5100万以上のストリートビュー画像からなる大規模なオープンアクセスデータセットOpenStreetView-5Mを紹介した。 既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴が単なる記憶以上の関連性を評価することができる。 データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。 関連するコードとモデルはすべてhttps://github.com/gastruc/osv5m.comにある。

Determining the location of an image anywhere on Earth is a complex visual task, which makes it particularly relevant for evaluating computer vision algorithms. Yet, the absence of standard, large-scale, open-access datasets with reliably localizable images has limited its potential. To address this issue, we introduce OpenStreetView-5M, a large-scale, open-access dataset comprising over 5.1 million geo-referenced street view images, covering 225 countries and territories. In contrast to existing benchmarks, we enforce a strict train/test separation, allowing us to evaluate the relevance of learned geographical features beyond mere memorization. To demonstrate the utility of our dataset, we conduct an extensive benchmark of various state-of-the-art image encoders, spatial representations, and training strategies. All associated codes and models can be found at https://github.com/gastruc/osv5m.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# 実世界のシナリオにおける人々の追跡を改善するためのマルチレベル戦略

A Multilevel Strategy to Improve People Tracking in a Real-World Scenario ( http://arxiv.org/abs/2404.18876v1 )

ライセンス: Link先を確認
Cristiano B. de Oliveira, Joao C. Neves, Rafael O. Ribeiro, David Menotti, (参考訳) ブラジル大統領府のPal\'acio do Planaltoは2023年1月8日に抗議者によって侵略された。 建物内部から撮影された監視ビデオは、その後ブラジル最高裁判所によって公共の監視のために公開された。 UFPR-Planalto801データセットを作成するために,このような映像のセグメントを使用して,現実のシナリオにおける人物の追跡と再同定を行った。 このデータセットは50万枚以上の画像で構成されている。 本稿では,このデータセットを対象とした追跡手法を提案する。 本稿では,トラジェクトリ上のID関連を補正するために,既知の最先端トラッカーを多層階層に組み合わせた手法を提案する。 IDF1,MOTA,MOTP,HOTAを用いて評価を行った。 その結果、実験で使用されるすべてのトラッカーの改善が示され、IDF1スコアは9.5%まで上昇した。

The Pal\'acio do Planalto, office of the President of Brazil, was invaded by protesters on January 8, 2023. Surveillance videos taken from inside the building were subsequently released by the Brazilian Supreme Court for public scrutiny. We used segments of such footage to create the UFPR-Planalto801 dataset for people tracking and re-identification in a real-world scenario. This dataset consists of more than 500,000 images. This paper presents a tracking approach targeting this dataset. The method proposed in this paper relies on the use of known state-of-the-art trackers combined in a multilevel hierarchy to correct the ID association over the trajectories. We evaluated our method using IDF1, MOTA, MOTP and HOTA metrics. The results show improvements for every tracker used in the experiments, with IDF1 score increasing by a margin up to 9.5%.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# スピンカップリングは必要なすべて:量子コンピュータ上で強い電子相関を符号化する

Spin coupling is all you need: Encoding strong electron correlation on quantum computers ( http://arxiv.org/abs/2404.18878v1 )

ライセンス: Link先を確認
Daniel Marti-Dafcik, Hugh G. A. Burton, David P. Tew, (参考訳) ハミルトンスペクトル計算のような固有値問題に対する量子アルゴリズムの性能は、初期波動関数と目標固有ベクトルの重複に強く依存する。 スレーター行列式に基づく場合、N$強い相関電子を持つ系のエネルギー固有状態の表現は、N$で指数関数的にスケールする多くの行列式を必要とする。 古典的なプロセッサでは、$N$が小さいシステムにシミュレーションを制限する。 ここでは、スピン結合初期状態の形で支配的絡み合い構造を直接符号化することにより、量子コンピュータが強相関分子系を効率的にシミュレートできることを示す。 これにより、高価な古典的または量子状態の準備ヒューリスティックに頼らず、代わりに波動関数の対称性を利用する。 スピン固有関数の族を${N \choose N/2}$ Slater determinants with depth $\mathcal{O}(N)$と$\mathcal{O}(N^2)$ローカルゲートで決定的に生成する量子回路を提供する。 量子アルゴリズムにおける強い絡み合った初期状態としての使用は、量子位相推定と関連するフォールトトレラント法の総実行時間を桁違いに削減する。 さらに, スピン結合型波動関数を, 実時間進化状態に基づくQSDを含む量子サブスペース対角化(QSD)の変分量子固有解法, 断熱状態準備, および異なるバージョンの量子サブスペース対角化(QSD)の初期状態として評価する。 また、適応量子固有解法により得られた状態を利用する新しいQSDアルゴリズムを提案する。 すべてのアルゴリズムに対して、スピン結合初期状態を用いることで、強い相関した基底状態と励起状態のシミュレートに必要な量子資源が大幅に減少することを示した。 我々の研究は、古典的な挑戦的なシステムのための電子構造のスケーラブルな量子シミュレーションへの道を開いた。

The performance of quantum algorithms for eigenvalue problems, such as computing Hamiltonian spectra, depends strongly on the overlap of the initial wavefunction and the target eigenvector. In a basis of Slater determinants, the representation of energy eigenstates of systems with $N$ strongly correlated electrons requires a number of determinants that scales exponentially with $N$. On classical processors, this restricts simulations to systems where $N$ is small. Here, we show that quantum computers can efficiently simulate strongly correlated molecular systems by directly encoding the dominant entanglement structure in the form of spin-coupled initial states. This avoids resorting to expensive classical or quantum state preparation heuristics and instead exploits symmetries in the wavefunction. We provide quantum circuits for deterministic preparation of a family of spin eigenfunctions with ${N \choose N/2}$ Slater determinants with depth $\mathcal{O}(N)$ and $\mathcal{O}(N^2)$ local gates. Their use as highly entangled initial states in quantum algorithms reduces the total runtime of quantum phase estimation and related fault-tolerant methods by orders of magnitude. Furthermore, we assess the application of spin-coupled wavefunctions as initial states for a range of heuristic quantum algorithms, namely the variational quantum eigensolver, adiabatic state preparation, and different versions of quantum subspace diagonalization (QSD) including QSD based on real-time-evolved states. We also propose a novel QSD algorithm that exploits states obtained through adaptive quantum eigensolvers. For all algorithms, we demonstrate that using spin-coupled initial states drastically reduces the quantum resources required to simulate strongly correlated ground and excited states. Our work paves the way towards scalable quantum simulation of electronic structure for classically challenging systems.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# Spivavtor:ウクライナのテキスト編集モデル

Spivavtor: An Instruction Tuned Ukrainian Text Editing Model ( http://arxiv.org/abs/2404.18880v1 )

ライセンス: Link先を確認
Aman Saini, Artem Chernodub, Vipul Raheja, Vivek Kulkarni, (参考訳) ウクライナ語に焦点をあてたテキスト編集のためのデータセットであるSpivavtorを紹介した。 Spivavtorは、英語のみのCoEdITモデルのウクライナ版である。 CoEdITと同様に、Spivavtorはウクライナ語で指示に従うことによってテキスト編集タスクを実行する。 本稿では,Spivavtor-InstructデータセットとSpivavtorモデルの詳細について述べる。 ウクライナの文法的誤り訂正 (GEC) やテキスト単純化, コヒーレンス, パラフレージングなど, 様々なテキスト編集タスクにおいて, Spivavtor の評価を行い, その優れた性能を示した。 私たちは、この分野のさらなる研究を進めるために、コミュニティのリソースとして、最高のパフォーマンスのモデルとデータを公開します。

We introduce Spivavtor, a dataset, and instruction-tuned models for text editing focused on the Ukrainian language. Spivavtor is the Ukrainian-focused adaptation of the English-only CoEdIT model. Similar to CoEdIT, Spivavtor performs text editing tasks by following instructions in Ukrainian. This paper describes the details of the Spivavtor-Instruct dataset and Spivavtor models. We evaluate Spivavtor on a variety of text editing tasks in Ukrainian, such as Grammatical Error Correction (GEC), Text Simplification, Coherence, and Paraphrasing, and demonstrate its superior performance on all of them. We publicly release our best-performing models and data as resources to the community to advance further research in this space.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# Provenance Trackingを用いたHuman-in-the-Loop Synthetic Text Data Inspection

Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking ( http://arxiv.org/abs/2404.18881v1 )

ライセンス: Link先を確認
Hong Jin Kang, Fabrice Harel-Canada, Muhammad Ali Gulzar, Violet Peng, Miryung Kim, (参考訳) データ拡張技術は、既存のテキストに変換を適用して追加データを生成する。 変換は低品質のテキストを生成し、そこではテキストの意味が変化し、テキストは人間の理解を越えて隠蔽される。 合成されたテキストとそのラベルの分析は遅く、要求される。 そこで我々は,不正確なラベル付きテキストを抽出するために,人間のループデータ検査技術であるINSPECTORを開発した。 INSPECTORは、前立腺追跡技術の強みと補助的ラベリングを組み合わせる。 INSPECTORは、ユーザーが関連するテキストを変換フォーマンス、すなわち、元のテキストに適用された変換、または元のテキストの言語的特徴によってグループ化することができる。 補助的なラベリングのために、INSPECTORはデータ品質を近似するメトリクスを計算し、ユーザーはそれぞれのテキストのラベルを大きな言語モデルの予測と比較することができる。 ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。 参加者は、それらの共通変換によって合成されたテキストをグループ化することが最も有用なテクニックであることがわかった。 驚くべきことに、共通の言語的特徴によるテキストのグループ化は不便であると認識された。 先行研究とは対照的に,本研究では,ヒト検診の必要性を排除できる手法が1つも存在しないことが判明した。 これは、人間の検査作業を減らすために、データの出所分析と補助的ラベル付けの両方を組み合わせたINSPECTORの設計を検証する。

Data augmentation techniques apply transformations to existing texts to generate additional data. The transformations may produce low-quality texts, where the meaning of the text is changed and the text may even be mangled beyond human comprehension. Analyzing the synthetically generated texts and their corresponding labels is slow and demanding. To winnow out texts with incorrect labels, we develop INSPECTOR, a human-in-the-loop data inspection technique. INSPECTOR combines the strengths of provenance tracking techniques with assistive labeling. INSPECTOR allows users to group related texts by their transformation provenance, i.e., the transformations applied to the original text, or feature provenance, the linguistic features of the original text. For assistive labeling, INSPECTOR computes metrics that approximate data quality, and allows users to compare the corresponding label of each text against the predictions of a large language model. In a user study, INSPECTOR increases the number of texts with correct labels identified by 3X on a sentiment analysis task and by 4X on a hate speech detection task. The participants found grouping the synthetically generated texts by their common transformation to be the most useful technique. Surprisingly, grouping texts by common linguistic features was perceived to be unhelpful. Contrary to prior work, our study finds that no single technique obviates the need for human inspection effort. This validates the design of INSPECTOR which combines both analysis of data provenance and assistive labeling to reduce human inspection effort.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# 時系列・時空間データの拡散モデルに関する調査

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data ( http://arxiv.org/abs/2404.18886v1 )

ライセンス: Link先を確認
Yiyuan Yang, Ming Jin, Haomin Wen, Chaoli Zhang, Yuxuan Liang, Lintao Ma, Yi Wang, Chenghao Liu, Bin Yang, Zenglin Xu, Jiang Bian, Shirui Pan, Qingsong Wen, (参考訳) 時系列データの研究は、時間とともにトレンドや異常を理解するために不可欠であり、様々な分野にわたる予測的な洞察を可能にする。 一方、時空間データは空間と時間の両方の現象を解析するのに不可欠であり、複雑なシステム相互作用のダイナミックな視点を提供する。 近年,拡散モデルが時系列や時空間データマイニングに広く応用されている。 シーケンシャルなデータや時間的なデータの生成能力や推論能力を向上するだけでなく、他の下流タスクにも拡張する。 本研究では,時系列および時空間データにおける拡散モデルの使用状況について,モデルカテゴリ,タスクタイプ,データモダリティ,実践的アプリケーション領域で分類し,包括的かつ徹底的にレビューする。 本稿では,拡散モデルを非条件型と条件付き型に分類し,時系列データと時空間データを別々に議論する。 教師なしモデル(unconditioned model)は確率ベースモデルとスコアベースモデルに分けられ、予測、異常検出、分類、計算などの予測および生成タスクを提供する。 一方、条件付きモデルでは、余分な情報を利用して性能を向上し、予測的タスクと生成的タスクの両方で同様に分割される。 本調査では,医療,レコメンデーション,気候,エネルギー,オーディオ,交通など,さまざまな分野の応用を幅広く取り上げ,これらのモデルがどのようにデータを分析し,生成するかの基本的な理解を提供する。 この構造的概要を通じて,従来の課題に対処し,拡散モデルフレームワーク内で革新的なソリューションを探求することによって,将来的なイノベーションと応用を導くことを目的として,時系列および時空間データ分析のための拡散モデルに関する包括的理解を研究者や実践者に提供することを目的とする。

The study of time series data is crucial for understanding trends and anomalies over time, enabling predictive insights across various sectors. Spatio-temporal data, on the other hand, is vital for analyzing phenomena in both space and time, providing a dynamic perspective on complex system interactions. Recently, diffusion models have seen widespread application in time series and spatio-temporal data mining. Not only do they enhance the generative and inferential capabilities for sequential and temporal data, but they also extend to other downstream tasks. In this survey, we comprehensively and thoroughly review the use of diffusion models in time series and spatio-temporal data, categorizing them by model category, task type, data modality, and practical application domain. In detail, we categorize diffusion models into unconditioned and conditioned types and discuss time series data and spatio-temporal data separately. Unconditioned models, which operate unsupervised, are subdivided into probability-based and score-based models, serving predictive and generative tasks such as forecasting, anomaly detection, classification, and imputation. Conditioned models, on the other hand, utilize extra information to enhance performance and are similarly divided for both predictive and generative tasks. Our survey extensively covers their application in various fields, including healthcare, recommendation, climate, energy, audio, and transportation, providing a foundational understanding of how these models analyze and generate data. Through this structured overview, we aim to provide researchers and practitioners with a comprehensive understanding of diffusion models for time series and spatio-temporal data analysis, aiming to direct future innovations and applications by addressing traditional challenges and exploring innovative solutions within the diffusion model framework.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# PrescientFuzz: グレーボックスファジングのより効果的な探索手法

PrescientFuzz: A more effective exploration approach for grey-box fuzzing ( http://arxiv.org/abs/2404.18887v1 )

ライセンス: Link先を確認
Daniel Blackwell, David Clark, (参考訳) 本稿では,灰色ボックスファジィングキャンペーンの早期探索を改良し,ファジィアがより早く興味深い範囲に到達できるようにするためのアプローチを提案する。 これを実現するために、テスト対象のシステム(SUT)制御フローグラフからの情報を活用し、どの入力が変更時にほとんどのカバレッジを発見するかを決定する。

In this paper, we introduce an approach for improving the early exploration of grey-box fuzzing campaigns; allowing the fuzzer to reach the interesting coverage earlier. To do this, it leverages information from the system under test's (SUT's) control flow graph in order to decide which inputs are likely to lead to discovering most coverage when mutated.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# Hide and Seek: 透かしは顔認識にどのように影響するか?

Hide and Seek: How Does Watermarking Impact Face Recognition? ( http://arxiv.org/abs/2404.18890v1 )

ライセンス: Link先を確認
Yuguang Yao, Steven Grosz, Sijia Liu, Anil Jain, (参考訳) 生成モデルの最近の進歩は、顔画像を含む非常に現実的な画像の合成に革命をもたらした。 この技術開発は、高い認識精度とデータプライバシのためのトレーニングデータ拡張のような、顔認識に間違いなく役立っている。 しかし、コンピュータ生成画像の責任ある使用と適切な属性に関する新たな課題も導入している。 画像に所有権署名を埋め込むデジタル透かしが顔認識モデルの有効性に与える影響について検討する。 本稿では,この課題を体系的に検討するために,顔画像生成,透かし,顔認識を統合した包括的パイプラインを提案する。 提案手法は,エンコーダデコーダアーキテクチャをベースとして,実顔画像と合成顔画像の両方からの署名を埋め込んで回収する。 ワイドな実験を通して、透かしは頑健な画像帰属を可能にするが、顔の認識精度はわずかに低下し、特に難解なポーズや表情を持つ顔画像には顕著であることを明らかにした。 さらに,透かし画像の顔認識モデルを直接訓練することで,この性能低下の緩和に限界があることがわかった。 以上の結果から,透かしと顔認識の精度の複雑なトレードオフが浮き彫りになった。 この研究は、顔認識における生成モデルの責任ある利用に向けた重要なステップであり、バイオメトリックスにおける透かしの広範な意味に関する議論を始めるのに役立っている。

The recent progress in generative models has revolutionized the synthesis of highly realistic images, including face images. This technological development has undoubtedly helped face recognition, such as training data augmentation for higher recognition accuracy and data privacy. However, it has also introduced novel challenges concerning the responsible use and proper attribution of computer generated images. We investigate the impact of digital watermarking, a technique for embedding ownership signatures into images, on the effectiveness of face recognition models. We propose a comprehensive pipeline that integrates face image generation, watermarking, and face recognition to systematically examine this question. The proposed watermarking scheme, based on an encoder-decoder architecture, successfully embeds and recovers signatures from both real and synthetic face images while preserving their visual fidelity. Through extensive experiments, we unveil that while watermarking enables robust image attribution, it results in a slight decline in face recognition accuracy, particularly evident for face images with challenging poses and expressions. Additionally, we find that directly training face recognition models on watermarked images offers only a limited alleviation of this performance decline. Our findings underscore the intricate trade off between watermarking and face recognition accuracy. This work represents a pivotal step towards the responsible utilization of generative models in face recognition and serves to initiate discussions regarding the broader implications of watermarking in biometrics.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# IPixMatch:Pixel間の関係を考慮した半教師付きセマンティックセマンティックセグメンテーション

IPixMatch: Boost Semi-supervised Semantic Segmentation with Inter-Pixel Relation ( http://arxiv.org/abs/2404.18891v1 )

ライセンス: Link先を確認
Kebin Wu, Wenbin Li, Xiaofei Xiao, (参考訳) 実世界のシナリオにおけるラベル付きデータの不足は、ディープラーニングの有効性の重要なボトルネックである。 半教師付きセマンティックセグメンテーションは、アノテーションコストとセグメンテーション性能の間の望ましいトレードオフを達成するための典型的なソリューションである。 しかし、以前のアプローチは、一貫性の正則化や自己学習に基づいても、ピクセル間の関係に埋め込まれた文脈的知識を無視する傾向にある。 この無視は準最適性能と限定的な一般化をもたらす。 本稿では,セミ教師付き学習において,無視されるが価値のあるインターピクセル情報をマイニングするために設計された新しいアプローチIPixMatchを提案する。 具体的には、IPixMatchは標準的な教師/学生ネットワークの拡張として構築され、ピクセル間の関係を捉えるために追加の損失項が組み込まれている。 限られたラベル付きデータを効率的に活用し、利用可能なラベルなしデータから最大限のユーティリティを抽出することで、低データのレシエーションで輝く。 さらに、IPixMatchはモデル修正や追加のコンポーネントを必要とせずに、ほとんどの教師向けフレームワークにシームレスに統合できる。 我々の単純なIPixMatchメソッドは、異なるパーティショニングプロトコルの下で、様々なベンチマークデータセット間で一貫したパフォーマンス改善を示す。

The scarcity of labeled data in real-world scenarios is a critical bottleneck of deep learning's effectiveness. Semi-supervised semantic segmentation has been a typical solution to achieve a desirable tradeoff between annotation cost and segmentation performance. However, previous approaches, whether based on consistency regularization or self-training, tend to neglect the contextual knowledge embedded within inter-pixel relations. This negligence leads to suboptimal performance and limited generalization. In this paper, we propose a novel approach IPixMatch designed to mine the neglected but valuable Inter-Pixel information for semi-supervised learning. Specifically, IPixMatch is constructed as an extension of the standard teacher-student network, incorporating additional loss terms to capture inter-pixel relations. It shines in low-data regimes by efficiently leveraging the limited labeled data and extracting maximum utility from the available unlabeled data. Furthermore, IPixMatch can be integrated seamlessly into most teacher-student frameworks without the need of model modification or adding additional components. Our straightforward IPixMatch method demonstrates consistent performance improvements across various benchmark datasets under different partitioning protocols.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# 効率的なスコアマッチングを用いた一般ガウス混合の学習

Learning general Gaussian mixtures with efficient score matching ( http://arxiv.org/abs/2404.18893v1 )

ライセンス: Link先を確認
Sitan Chen, Vasilis Kontonis, Kulin Shah, (参考訳) 我々は、$d$次元で$k$ガウシアンの混合を学習する問題を研究する。 共分散行列は有界な条件数を持ち、その手段と共分散は有界な半径の球の中に置かれることしか要求しない。 対象混合物から$d^{\mathrm{poly}(k/\varepsilon")$サンプルを抽出し、サンプル-ポリノミカル時間で実行し、総変量で未知混合物から出力分布が$\varepsilon$-farのサンプルを合成するアルゴリズムを提案する。 この問題の事前処理も行う。 (i)次元$d$の指数的実行を必要とする。 (ii)インスタンス(例えば球面共分散やクラスタビリティ)に強い仮定を置く、又は (iii) 成分数に2倍の指数依存が認められた。 私たちのアプローチは、モーメントの方法のような、この問題によく使われるテクニックから離れています。 代わりに、分布学習から、スコアマッチングと呼ばれる教師付き学習タスクまで、拡散モデルに基づく最近開発された還元を利用する。 本稿では,ガウス混合のスコア関数が一括多項式関数で近似可能であることを示す構造的結果の証明により,後者のアルゴリズムを提案する。 我々の知る限り、これは、教師なし学習タスクに対する最先端の理論的保証を達成するための拡散モデルの最初の例である。

We study the problem of learning mixtures of $k$ Gaussians in $d$ dimensions. We make no separation assumptions on the underlying mixture components: we only require that the covariance matrices have bounded condition number and that the means and covariances lie in a ball of bounded radius. We give an algorithm that draws $d^{\mathrm{poly}(k/\varepsilon)}$ samples from the target mixture, runs in sample-polynomial time, and constructs a sampler whose output distribution is $\varepsilon$-far from the unknown mixture in total variation. Prior works for this problem either (i) required exponential runtime in the dimension $d$, (ii) placed strong assumptions on the instance (e.g., spherical covariances or clusterability), or (iii) had doubly exponential dependence on the number of components $k$. Our approach departs from commonly used techniques for this problem like the method of moments. Instead, we leverage a recently developed reduction, based on diffusion models, from distribution learning to a supervised learning task called score matching. We give an algorithm for the latter by proving a structural result showing that the score function of a Gaussian mixture can be approximated by a piecewise-polynomial function, and there is an efficient algorithm for finding it. To our knowledge, this is the first example of diffusion models achieving a state-of-the-art theoretical guarantee for an unsupervised learning task.
翻訳日:2024-04-30 12:48:52 公開日:2024-04-29
# RSCaMa:状態空間モデルによるリモートセンシング画像変更キャプション

RSCaMa: Remote Sensing Image Change Captioning with State Space Model ( http://arxiv.org/abs/2404.18895v1 )

ライセンス: Link先を確認
Chenyang Liu, Keyan Chen, Bowen Chen, Haotian Zhang, Zhengxia Zou, Zhenwei Shi, (参考訳) リモートセンシング画像変化キャプション(RSICC)は、多時間リモートセンシング画像の表面変化を特定し、それらを自然言語で記述することを目的としている。 現在の手法は典型的にはエンコーダ・デコーダアーキテクチャに依存しており、バックボーンから抽出されたバイテンポラルな特徴を処理するための洗練されたネックの設計に重点を置いている。 近年、ステートスペースモデル(SSM)、特にマンバは、効率的な特徴選択的モデリング能力のため、多くの分野で優れた性能を発揮している。 しかし、RSICCタスクにおける彼らのポテンシャルは未解明のままである。 本稿では,マンバをRSCCに導入し,RSCaMa(Remote Sensing Change Captioning Mamba)と呼ばれる新しいアプローチを提案する。 具体的には,SSM(Spatial difference-guided SSM)とTemporal Traveling SSM(TT-SSM)からなる複数のCaMa層を通して処理されるバイテンポラルな特徴を抽出するために,シームズバックボーンを用いる。 SD-SSMは変化知覚を高めるために差分特徴を使用し、TT-SSMはトークンワイドクロススキャン方式でバイテンポラル相互作用を促進する。 実験により, RSCaMaのCaMa層の有効性を検証し, RSCaMaの優れた性能, RSICCタスクにおけるMambaの可能性を示した。 さらに,3つの言語デコーダの効果を体系的に比較した。Mamba,GPT型デコーダと因果注意機構,Transformerデコーダとクロスアテンション機構である。 これは将来のRSICC研究に貴重な洞察を与える。 コードはhttps://github.com/Chen-Yang-Liu/RSCaMaで入手できる。

Remote Sensing Image Change Captioning (RSICC) aims to identify surface changes in multi-temporal remote sensing images and describe them in natural language. Current methods typically rely on an encoder-decoder architecture and focus on designing a sophisticated neck to process bi-temporal features extracted by the backbone. Recently, State Space Models (SSMs), especially Mamba, have demonstrated outstanding performance in many fields, owing to their efficient feature-selective modelling capability. However, their potential in the RSICC task remains unexplored. In this paper, we introduce Mamba into RSICC and propose a novel approach called RSCaMa (Remote Sensing Change Captioning Mamba). Specifically, we utilize Siamese backbones to extract bi-temporal features, which are then processed through multiple CaMa layers consisting of Spatial Difference-guided SSM (SD-SSM) and Temporal Traveling SSM (TT-SSM). SD-SSM uses differential features to enhance change perception, while TT-SSM promotes bitemporal interactions in a token-wise cross-scanning manner. Experimental results validate the effectiveness of CaMa layers and demonstrate the superior performance of RSCaMa, as well as the potential of Mamba in the RSICC task. Additionally, we systematically compare the effects of three language decoders, including Mamba, GPT-style decoder with causal attention mechanism, and Transformer decoder with cross-attention mechanism. This provides valuable insights for future RSICC research. The code will be available at https://github.com/Chen-Yang-Liu/RSCaMa
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# 知識バリアを克服する - 事前学習された世界モデルによる観察からのオンライン模倣学習

Overcoming Knowledge Barriers: Online Imitation Learning from Observation with Pretrained World Models ( http://arxiv.org/abs/2404.18896v1 )

ライセンス: Link先を確認
Xingyuan Zhang, Philip Becker-Ehmck, Patrick van der Smagt, Maximilian Karl, (参考訳) 近年,コンピュータビジョンと自然言語処理から意思決定への事前学習と微調整を成功させるパラダイムが普及している。 本稿では,事前学習モデルを用いた観察からの模倣学習について検討し,BCO や AIME などの既存手法,特に EKB (Embodiment Knowledge Barrier) と DKB (Demonstration Knowledge Barrier) の2つのアプローチについて述べる。 EKBは、事前訓練されたモデルが目に見えない観察に関する知識を欠いているときに発生し、行動推論の誤りを引き起こす。 DKBは、限られたデモンストレーションで訓練されたポリシーの結果であり、多様なシナリオへの適応性を妨げている。 我々はこれらの障壁の基盤となるメカニズムを徹底的に分析し、AIME を解法として AIME-v2 を提案する。 AIME-v2は、データ駆動型正規化システムとオンラインインタラクションを使用して、EKBを緩和し、ポリシートレーニングを強化するために代理報酬関数を導入することでDKBを緩和する。 DeepMind Control SuiteとMeta-Worldベンチマークのタスクに関する実験結果は、サンプル効率と収束性能の両方を改善する上で、これらの修正の有効性を実証している。 この研究は、事前学習に基づくアプローチにおける意思決定を強化するための知識障壁の解決に関する貴重な洞察に貢献する。 コードはhttps://github.com/argmax-ai/aime-v2.comから入手できる。

Incorporating the successful paradigm of pretraining and finetuning from Computer Vision and Natural Language Processing into decision-making has become increasingly popular in recent years. In this paper, we study Imitation Learning from Observation with pretrained models and find existing approaches such as BCO and AIME face knowledge barriers, specifically the Embodiment Knowledge Barrier (EKB) and the Demonstration Knowledge Barrier (DKB), greatly limiting their performance. The EKB arises when pretrained models lack knowledge about unseen observations, leading to errors in action inference. The DKB results from policies trained on limited demonstrations, hindering adaptability to diverse scenarios. We thoroughly analyse the underlying mechanism of these barriers and propose AIME-v2 upon AIME as a solution. AIME-v2 uses online interactions with data-driven regulariser to alleviate the EKB and mitigates the DKB by introducing a surrogate reward function to enhance policy training. Experimental results on tasks from the DeepMind Control Suite and Meta-World benchmarks demonstrate the effectiveness of these modifications in improving both sample-efficiency and converged performance. The study contributes valuable insights into resolving knowledge barriers for enhanced decision-making in pretraining-based approaches. Code will be available at https://github.com/argmax-ai/aime-v2.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# NISQデバイスにおけるNMR分光シミュレーションにおけるノイズの影響

The impact of noise on the simulation of NMR spectroscopy on NISQ devices ( http://arxiv.org/abs/2404.18903v1 )

ライセンス: Link先を確認
Andisheh Khedri, Pascal Stadler, Kirsten Bark, Matteo Lodi, Rolando Reiner, Nicolas Vogt, Michael Marthaler, Juha Leppäkangas, (参考訳) 超伝導量子ビットをベースとしたIBMの量子プロセッサと、Amazon Bracketを介して処理されたIonQのAriaトラップイオン量子コンピュータの2つの有望な量子コンピューティングプラットフォームを持つ小さな有機分子の核磁気共鳴(NMR)分光シミュレーションを提案する。 得られたNMRスペクトルに対するノイズの影響を解析し、提案アルゴリズムが許容できる閾値ノイズを定量化する効果的なデコヒーレンス率を定式化する。 さらに、ノイズ分析によってスペクトルが改善されることを示す。 我々の調査は、現在のノイズの多い量子デバイス上で、このようなアプリケーション駆動の量子タスクをよりうまく活用する方法を開拓する。

We present the simulation of nuclear magnetic resonance (NMR) spectroscopy of small organic molecules with two promising quantum computing platforms, namely IBM's quantum processors based on superconducting qubits and IonQ's Aria trapped ion quantum computer addressed via Amazon Bracket. We analyze the impact of noise on the obtained NMR spectra, and we formulate an effective decoherence rate that quantifies the threshold noise that our proposed algorithm can tolerate. Furthermore we showcase how our noise analysis allows us to improve the spectra. Our investigations pave the way to better employ such application-driven quantum tasks on current noisy quantum devices.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# 小集団における致死的治療効果バイアスの検出

Detecting critical treatment effect bias in small subgroups ( http://arxiv.org/abs/2404.18905v1 )

ライセンス: Link先を確認
Piersilvio De Bartolomeis, Javier Abad, Konstantin Donhauser, Fanny Yang, (参考訳) ランダム化臨床試験は、医学においてインフォームド・ディベロップメントを行うための金の基準と考えられているが、臨床実践において患者集団に一般化性に欠けることが多い。 一方、観察的研究は幅広い患者をカバーしているが、様々なバイアスが伴う傾向がある。 したがって、意思決定に観察的研究を使う前に、ランダム化試験から得られた結果と比較し、治療効果の推定をベンチマークすることが重要である。 本研究では, 平均治療効果以上の観察研究をベンチマークするための新しい手法を提案する。 まず, 2つの研究から推定される治療効果が, 関連する特徴のセットに基づいて, ある程度の許容範囲で異なるという, ヌル仮説の統計的試験を設計する。 次に、観測研究における任意の部分群に対する最大バイアス強度の漸近的に有効な下限を推定する。 最後に,我々のベンチマーク戦略を実世界の環境で検証し,確立した医療知識と整合した結論に至ることを示す。

Randomized trials are considered the gold standard for making informed decisions in medicine, yet they often lack generalizability to the patient populations in clinical practice. Observational studies, on the other hand, cover a broader patient population but are prone to various biases. Thus, before using an observational study for decision-making, it is crucial to benchmark its treatment effect estimates against those derived from a randomized trial. We propose a novel strategy to benchmark observational studies beyond the average treatment effect. First, we design a statistical test for the null hypothesis that the treatment effects estimated from the two studies, conditioned on a set of relevant features, differ up to some tolerance. We then estimate an asymptotically valid lower bound on the maximum bias strength for any subgroup in the observational study. Finally, we validate our benchmarking strategy in a real-world setting and show that it leads to conclusions that align with established medical knowledge.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# 環境不確かさに直面した実効的ロバスト多エージェント強化学習

Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty ( http://arxiv.org/abs/2404.18909v1 )

ライセンス: Link先を確認
Laixi Shi, Eric Mazumdar, Yuejie Chi, Adam Wierman, (参考訳) 強化学習(RL)におけるシモン・トゥ・リアルギャップを克服するためには、学習政策は環境の不確実性に対する堅牢性を維持する必要がある。 頑健なRLは単一エージェント体制、マルチエージェント環境において広く研究されているが、環境の不確実性に起因する問題は戦略的な相互作用によって悪化することが多いにもかかわらず、問題は未検討のままである。 この研究は、標準マルコフゲーム(RMG)の堅牢な変形である分散ロバストなマルコフゲーム(RMG)の学習に焦点を当て、各エージェントは、デプロイされた環境が所定の不確実性セット内で逸脱した場合の最悪のパフォーマンスを最大化するポリシーを学ぶことを目的としている。 この結果、ゲーム理論平衡の古典的な概念と整合する全てのエージェントに対して、堅牢な平衡戦略のセットが得られる。 生成モデルから非適応サンプリング機構を仮定し、ゲーム理論平衡の様々な概念の頑健な変種を学習するための有限サンプル複雑性保証付きサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。 また、状態空間のサイズ、目標精度、地平線長といった問題に依存した要因に関して、DRNVIのほぼ最適サンプル複雑性を確認するための情報理論の下限を確立した。

To overcome the sim-to-real gap in reinforcement learning (RL), learned policies must maintain robustness against environmental uncertainties. While robust RL has been widely studied in single-agent regimes, in multi-agent environments, the problem remains understudied -- despite the fact that the problems posed by environmental uncertainties are often exacerbated by strategic interactions. This work focuses on learning in distributionally robust Markov games (RMGs), a robust variant of standard Markov games, wherein each agent aims to learn a policy that maximizes its own worst-case performance when the deployed environment deviates within its own prescribed uncertainty set. This results in a set of robust equilibrium strategies for all agents that align with classic notions of game-theoretic equilibria. Assuming a non-adaptive sampling mechanism from a generative model, we propose a sample-efficient model-based algorithm (DRNVI) with finite-sample complexity guarantees for learning robust variants of various notions of game-theoretic equilibria. We also establish an information-theoretic lower bound for solving RMGs, which confirms the near-optimal sample complexity of DRNVI with respect to problem-dependent factors such as the size of the state space, the target accuracy, and the horizon length.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# Kangaroo: ダブルアーリーエグジットによる無意味な自己投機的デコーディング

Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting ( http://arxiv.org/abs/2404.18911v1 )

ライセンス: Link先を確認
Fangcheng Liu, Yehui Tang, Zhenhua Liu, Yunsheng Ni, Kai Han, Yunhe Wang, (参考訳) 投機的復号化は,一貫したサンプリング分布を維持しながら,大規模言語モデルの推論を高速化する効果を示した。 しかし,従来は,トークン受入率を満足させるために,個別のドラフトモデルをトレーニングする手法はコストがかかる。 早期退避からインスピレーションを得た新しい自己投機的復号化フレームワーク \emph{Kangaroo} を提案する。これは固定された浅いサブネットワークを自己ドラフトモデルとして使用し、残りのレイヤがより大きなターゲットモデルとして機能する。 サブネットワーク上の軽量で効率的なアダプタモジュールをトレーニングし、サブネットワークとフルモデルの表現能力のギャップを埋める。 自己ドラフトモデルの推論遅延は,大規模モデルと比較して無視できない可能性があり,小型モデルの起草工程を最小化しながらトークンの受け入れ率を高める戦略が必要である。 この課題に対処するために、ドラフトトークンを生成するための早期終了メカニズムを導入します。 具体的には、現在のトークンの信頼レベルが一定の閾値以下になると、起草段階での小型モデルのその後の予測を停止する。 Spec-Benchに関する大規模な実験は、カンガルーの有効性を実証している。 シングルシーケンス検証では、KangarooはSpec-Bench上で最大1.68\times$を達成し、Medusa-1を88.7\%で上回り、追加パラメータ(591Mと比較して67M)を減らした。 Kangarooのコードはhttps://github.com/Equationliu/Kangaroo.comで公開されている。

Speculative decoding has demonstrated its effectiveness in accelerating the inference of large language models while maintaining a consistent sampling distribution. However, the conventional approach of training a separate draft model to achieve a satisfactory token acceptance rate can be costly. Drawing inspiration from early exiting, we propose a novel self-speculative decoding framework \emph{Kangaroo}, which uses a fixed shallow sub-network as a self-draft model, with the remaining layers serving as the larger target model. We train a lightweight and efficient adapter module on top of the sub-network to bridge the gap between the sub-network and the full model's representation ability. It is noteworthy that the inference latency of the self-draft model may no longer be negligible compared to the large model, necessitating strategies to increase the token acceptance rate while minimizing the drafting steps of the small model. To address this challenge, we introduce an additional early exiting mechanism for generating draft tokens. Specifically, we halt the small model's subsequent prediction during the drafting phase once the confidence level for the current token falls below a certain threshold. Extensive experiments on the Spec-Bench demonstrate the effectiveness of Kangaroo. Under single-sequence verification, Kangaroo achieves speedups up to $1.68\times$ on Spec-Bench, outperforming Medusa-1 with 88.7\% fewer additional parameters (67M compared to 591M). The code for Kangaroo is available at https://github.com/Equationliu/Kangaroo.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# TheaterGen: 一貫性のあるマルチターン画像生成のためのLCMによる文字管理

TheaterGen: Character Management with LLM for Consistent Multi-turn Image Generation ( http://arxiv.org/abs/2404.18919v1 )

ライセンス: Link先を確認
Junhao Cheng, Baiqiao Yin, Kaixin Cai, Minbin Huang, Hanhui Li, Yuxin He, Xi Lu, Yue Li, Yifei Li, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang, (参考訳) 拡散モデルの最近の進歩は、テキストから高品質で素晴らしい画像を生成することができる。 しかし、実世界のシナリオでは高い需要があるマルチターン画像生成は、画像とテキスト間のセマンティックな一貫性を維持する上での課題と、複数のインタラクティブなターンをまたいで同じ主題のコンテキスト的一貫性に直面する。 この問題に対処するために,大規模言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルを統合した,マルチターン画像生成機能を備えたトレーニングフリーフレームワークであるStaceGenを紹介した。 このフレームワーク内では、LLMは"Screenwriter"として機能し、マルチターンインタラクションを行い、ターゲット画像の各文字のプロンプトとレイアウト設計を含む標準化されたプロンプトブックを生成し管理する。 これらに基づいて、シアターゲンは「リハーサル」に似たキャラクターイメージのリストを作成し、ガイダンス情報を抽出する。 その後、T2I拡散モデルの逆復調過程にプロンプトブックとガイダンス情報を組み込むことで、シアターゲンは最終画像を生成し、「ファイナルパフォーマンス」を実行する。 プロンプトブックとキャラクタイメージの効果的な管理により、StaceGenは合成画像のセマンティックとコンテキスト整合性を大幅に改善する。 さらに,8000個のマルチターン命令を持つ専用ベンチマークCMIGBench(Consistent Multi-turn Image Generation Benchmark)を導入する。 以前のマルチターンベンチマークとは異なり、CMIGBenchは事前に文字を定義していない。 CMIGBenchには、ストーリー生成とマルチターン編集の両方のタスクが包括的評価のために含まれている。 大規模な実験結果から、StaceGenは最先端の手法よりも優れています。 これは、最先端のMini DALLE 3モデルのパフォーマンスバーを、平均的な文字-文字類似度で21%、平均的なテキスト-画像類似度で19%上昇させる。

Recent advances in diffusion models can generate high-quality and stunning images from text. However, multi-turn image generation, which is of high demand in real-world scenarios, still faces challenges in maintaining semantic consistency between images and texts, as well as contextual consistency of the same subject across multiple interactive turns. To address this issue, we introduce TheaterGen, a training-free framework that integrates large language models (LLMs) and text-to-image (T2I) models to provide the capability of multi-turn image generation. Within this framework, LLMs, acting as a "Screenwriter", engage in multi-turn interaction, generating and managing a standardized prompt book that encompasses prompts and layout designs for each character in the target image. Based on these, Theatergen generate a list of character images and extract guidance information, akin to the "Rehearsal". Subsequently, through incorporating the prompt book and guidance information into the reverse denoising process of T2I diffusion models, Theatergen generate the final image, as conducting the "Final Performance". With the effective management of prompt books and character images, TheaterGen significantly improves semantic and contextual consistency in synthesized images. Furthermore, we introduce a dedicated benchmark, CMIGBench (Consistent Multi-turn Image Generation Benchmark) with 8000 multi-turn instructions. Different from previous multi-turn benchmarks, CMIGBench does not define characters in advance. Both the tasks of story generation and multi-turn editing are included on CMIGBench for comprehensive evaluation. Extensive experimental results show that TheaterGen outperforms state-of-the-art methods significantly. It raises the performance bar of the cutting-edge Mini DALLE 3 model by 21% in average character-character similarity and 19% in average text-image similarity.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# DPOとPPO: RLHFのための強化トークン最適化

DPO Meets PPO: Reinforced Token Optimization for RLHF ( http://arxiv.org/abs/2404.18922v1 )

ライセンス: Link先を確認
Han Zhong, Guhao Feng, Wei Xiong, Li Zhao, Di He, Jiang Bian, Liwei Wang, (参考訳) 古典的なRLHF(Reinforcement Learning from Human Feedback)フレームワークでは、PPO(Proximal Policy Optimization)が、粗末な文レベルの報酬から学ぶために使用される。 最先端のクローズドソース言語モデル(LLM)のアライメントにおいてPPOは大きな成功を収めたが、多くの研究で広く報告されているように、そのオープンソース実装はいまだに準最適である。 これらの問題に対処するために,RLHF問題をマルコフ決定プロセス(MDP)としてモデル化するフレームワークを導入する。 さらに,従来の文レベルの帯域幅の定式化よりもMDPフレームワークの方が優れていることを示す理論的知見を提供する。 この枠組みでは, 優先データからトークンワイド報酬関数を学習し, この学習したトークンワイド報酬信号に基づいてポリシー最適化を行うReinforced Token Optimization (\texttt{RTO}) と呼ばれるアルゴリズムを導入する。 理論的には、‘texttt{RTO} は、ほぼ最適のポリシーをサンプリング効率良く見つける能力を持つことが証明されている。 実践的な実装として、 \texttt{RTO} は、DPO(Direct Preference Optimization)とPPO(PPO)を革新的に統合している。 DPOは、もともとスパース文の報酬から派生したもので、驚くべきことに、反応の質をトークン的に評価し、その後のPPOトレーニングステージにシームレスに組み込まれています。 大規模な実世界のアライメント実験により,提案手法の有効性が検証された。

In the classical Reinforcement Learning from Human Feedback (RLHF) framework, Proximal Policy Optimization (PPO) is employed to learn from sparse, sentence-level rewards -- a challenging scenario in traditional deep reinforcement learning. Despite the great successes of PPO in the alignment of state-of-the-art closed-source large language models (LLMs), its open-source implementation is still largely sub-optimal, as widely reported by numerous research studies. To address these issues, we introduce a framework that models RLHF problems as a Markov decision process (MDP), enabling the capture of fine-grained token-wise information. Furthermore, we provide theoretical insights that demonstrate the superiority of our MDP framework over the previous sentence-level bandit formulation. Under this framework, we introduce an algorithm, dubbed as Reinforced Token Optimization (\texttt{RTO}), which learns the token-wise reward function from preference data and performs policy optimization based on this learned token-wise reward signal. Theoretically, \texttt{RTO} is proven to have the capability of finding the near-optimal policy sample-efficiently. For its practical implementation, \texttt{RTO} innovatively integrates Direct Preference Optimization (DPO) and PPO. DPO, originally derived from sparse sentence rewards, surprisingly provides us with a token-wise characterization of response quality, which is seamlessly incorporated into our subsequent PPO training stage. Extensive real-world alignment experiments verify the effectiveness of the proposed approach.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# Holmes: 言語モデルの言語能力のベンチマーク

Holmes: Benchmark the Linguistic Competence of Language Models ( http://arxiv.org/abs/2404.18923v1 )

ライセンス: Link先を確認
Andreas Waldis, Yotam Perlitz, Leshem Choshen, Yufang Hou, Iryna Gurevych, (参考訳) 言語モデル(LM)の言語能力を評価するためのベンチマークであるHolmesを紹介した。 事前のプロンプトに基づく評価とは異なり、ホームズは分類器に基づく探索を用いて内部表現を通してLMの言語能力を評価する。 そこで本研究では,テキストによる指示に従うような認知能力から,特定の現象(例えば,単語の一部)を解き放つとともに,LMの言語能力の独立性を評価するための近年の呼びかけに答える。 ホームズによる250以上の探索研究を概観し,200以上のデータセットを特徴付け,構文,形態,意味論,推論,談話現象を評価する。 50 LM以上を分析してみると、既知の傾向に合わせて、言語能力はモデルのサイズと相関していることがわかる。 しかし、驚くべきことに、モデルアーキテクチャと命令チューニングは、特に形態学や構文において、パフォーマンスにも大きな影響を与えている。 最後に,FlashHolmesを提案する。Holmesの合理化バージョンは高い計算負荷を低減し,高い精度を維持しつつ,高い計算負荷を低減できる。

We introduce Holmes, a benchmark to assess the linguistic competence of language models (LMs) - their ability to grasp linguistic phenomena. Unlike prior prompting-based evaluations, Holmes assesses the linguistic competence of LMs via their internal representations using classifier-based probing. In doing so, we disentangle specific phenomena (e.g., part-of-speech of words) from other cognitive abilities, like following textual instructions, and meet recent calls to assess LMs' linguistic competence in isolation. Composing Holmes, we review over 250 probing studies and feature more than 200 datasets to assess syntax, morphology, semantics, reasoning, and discourse phenomena. Analyzing over 50 LMs reveals that, aligned with known trends, their linguistic competence correlates with model size. However, surprisingly, model architecture and instruction tuning also significantly influence performance, particularly in morphology and syntax. Finally, we propose FlashHolmes, a streamlined version of Holmes designed to lower the high computation load while maintaining high-ranking precision.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# Swin2-MoSE: リモートセンシングのための新しい単一画像超解像モデル

Swin2-MoSE: A New Single Image Super-Resolution Model for Remote Sensing ( http://arxiv.org/abs/2404.18924v1 )

ライセンス: Link先を確認
Leonardo Rossi, Vittorio Bernuzzi, Tomaso Fontanini, Massimo Bertozzi, Andrea Prati, (参考訳) 現在の光学・センサー技術の限界と更新コストの高騰により、衛星のスペクトル分解能と空間分解能は常に望ましい要件を満たすとは限らない。 これらの理由から、RS-SISR(Remote-Sensing Single-Image Super-Resolution)技術が注目されている。 本稿では,Swin2SRの拡張版であるSwin2-MoSEモデルを提案する。 このモデルでは、すべてのTransformerブロック内のFeed-Forwardを置き換えるために、Mixture-of-Experts (MoE) を拡張したMoE-SMを導入している。 MoE-SMはSmart-Mergerと、個々の専門家のアウトプットをマージする新しいレイヤで設計されており、専門家間で作業を分割する新しい方法として、一般的に使用される個々の専門家ではなく、新しいサンプルごとの戦略を定義する。 さらに、位置エンコーディングが相互にどのように相互作用するかを分析し、チャネルごとのバイアスと頭ごとのバイアスが正に協調することを示した。 最後に, 正規化相関(NCC)と構造類似度指数(SSIM)の損失を組み合わせ, 典型的なMSE損失の制限を回避することを提案する。 実験の結果,Swin2-MoSEは2x,3x,4x解像度アップスケーリング(Sen2VenusおよびOLI2MSIデータセット)のタスクにおいて最大0.377 ~0.958 dB(PSNR)でSOTAを上回った。 セマンティックセグメンテーションタスク(SeasoNetデータセット)に適用し,Swin2-MoSEの有効性を示す。 コードと事前トレーニングはhttps://github.com/IMPLabUniPr/swin2-mose/tree/official_codeで利用可能である。

Due to the limitations of current optical and sensor technologies and the high cost of updating them, the spectral and spatial resolution of satellites may not always meet desired requirements. For these reasons, Remote-Sensing Single-Image Super-Resolution (RS-SISR) techniques have gained significant interest. In this paper, we propose Swin2-MoSE model, an enhanced version of Swin2SR. Our model introduces MoE-SM, an enhanced Mixture-of-Experts (MoE) to replace the Feed-Forward inside all Transformer block. MoE-SM is designed with Smart-Merger, and new layer for merging the output of individual experts, and with a new way to split the work between experts, defining a new per-example strategy instead of the commonly used per-token one. Furthermore, we analyze how positional encodings interact with each other, demonstrating that per-channel bias and per-head bias can positively cooperate. Finally, we propose to use a combination of Normalized-Cross-Correlation (NCC) and Structural Similarity Index Measure (SSIM) losses, to avoid typical MSE loss limitations. Experimental results demonstrate that Swin2-MoSE outperforms SOTA by up to 0.377 ~ 0.958 dB (PSNR) on task of 2x, 3x and 4x resolution-upscaling (Sen2Venus and OLI2MSI datasets). We show the efficacy of Swin2-MoSE, applying it to a semantic segmentation task (SeasoNet dataset). Code and pretrained are available on https://github.com/IMPLabUniPr/swin2-mose/tree/official_code
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# ポイントクラウドモデルによるロボット学習者の視覚的ロバスト性の改善

Point Cloud Models Improve Visual Robustness in Robotic Learners ( http://arxiv.org/abs/2404.18926v1 )

ライセンス: Link先を確認
Skand Peri, Iain Lee, Chanho Kim, Li Fuxin, Tucker Hermans, Stefan Lee, (参考訳) 視覚的なコントロールポリシーは、照明やカメラの位置といった視覚的な条件がトレーニング中に見られるものと異なる場合、パフォーマンスが著しく低下する可能性がある。 本研究では,RGB-Dとポイントクラウドに基づく視覚制御ポリシに対する,このような視覚的変化の集合に対する堅牢性について検討する。 モデルフリーおよびモデルベース強化学習者の両方でこれらの実験を行うため、新しいポイントクラウドワールドモデル(PCWM)とポイントクラウドベースの制御ポリシーを導入する。 我々の実験によると、ポイントクラウドを明示的にエンコードするポリシーは、RGB-Dのポリシーよりもはるかに堅牢である。 さらに,提案したPCWMは,トレーニング中のサンプル効率において,先行作業よりも有意に優れていた。 これらの結果は、点雲を通して3Dシーンを推論することで、パフォーマンスを改善し、学習時間を短縮し、ロボット学習者の堅牢性を高めることを示唆している。 プロジェクトWebページ: https://pvskand.github.io/projects/PCWM

Visual control policies can encounter significant performance degradation when visual conditions like lighting or camera position differ from those seen during training -- often exhibiting sharp declines in capability even for minor differences. In this work, we examine robustness to a suite of these types of visual changes for RGB-D and point cloud based visual control policies. To perform these experiments on both model-free and model-based reinforcement learners, we introduce a novel Point Cloud World Model (PCWM) and point cloud based control policies. Our experiments show that policies that explicitly encode point clouds are significantly more robust than their RGB-D counterparts. Further, we find our proposed PCWM significantly outperforms prior works in terms of sample efficiency during training. Taken together, these results suggest reasoning about the 3D scene through point clouds can improve performance, reduce learning time, and increase robustness for robotic learners. Project Webpage: https://pvskand.github.io/projects/PCWM
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# Stylus:拡散モデルの自動アダプタ選択

Stylus: Automatic Adapter Selection for Diffusion Models ( http://arxiv.org/abs/2404.18928v1 )

ライセンス: Link先を確認
Michael Luo, Justin Wong, Brandon Trabucco, Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica, (参考訳) より多くのデータやパラメータでベースモデルをスケーリングする以外に、微調整のアダプタは、コスト削減で高忠実でカスタムなイメージを生成する代替手段を提供する。 そのため、アダプタはオープンソースコミュニティで広く採用されており、100K以上のアダプタのデータベースを蓄積している。 本稿では, 実装アダプタの性能向上を浮き彫りにした最近の研究に基づいて, 関連するアダプタの集合にプロンプトを合わせる問題について考察する。 本稿では,プロンプトのキーワードに基づいて,タスク固有のアダプタを効率的に選択し,自動生成するStylusを紹介する。 Stylus氏はまず、改善された記述と埋め込みでアダプタを要約し、関連するアダプタを検索し、さらにプロンプトのキーワードに基づいてアダプタを組み立てる3段階のアプローチを概説している。 Stylusの評価のために,75Kアダプタとプレ計算アダプタを組み込んだキュレートデータセットであるStylusDocsを開発した。 安定拡散チェックポイントの評価において、StylusはCLIP-FID Pareto効率を向上し、ベースモデルよりも人間やマルチモーダルモデルの方が2倍好適である。 詳しくは stylus-diffusion.github.io を参照。

Beyond scaling base models with more data or parameters, fine-tuned adapters provide an alternative way to generate high fidelity, custom images at reduced costs. As such, adapters have been widely adopted by open-source communities, accumulating a database of over 100K adapters-most of which are highly customized with insufficient descriptions. This paper explores the problem of matching the prompt to a set of relevant adapters, built on recent work that highlight the performance gains of composing adapters. We introduce Stylus, which efficiently selects and automatically composes task-specific adapters based on a prompt's keywords. Stylus outlines a three-stage approach that first summarizes adapters with improved descriptions and embeddings, retrieves relevant adapters, and then further assembles adapters based on prompts' keywords by checking how well they fit the prompt. To evaluate Stylus, we developed StylusDocs, a curated dataset featuring 75K adapters with pre-computed adapter embeddings. In our evaluation on popular Stable Diffusion checkpoints, Stylus achieves greater CLIP-FID Pareto efficiency and is twice as preferred, with humans and multimodal models as evaluators, over the base model. See stylus-diffusion.github.io for more.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# DGE: 一貫性のあるマルチビュー編集による直接ガウス3D編集

DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing ( http://arxiv.org/abs/2404.18929v1 )

ライセンス: Link先を確認
Minghao Chen, Iro Laina, Andrea Vedaldi, (参考訳) オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。 この問題を解決するための確立されたパラダイムは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。 しかし、これは神経放射場のような計算コストのかかる3D表現を更新する必要があるため、本質的にマルチビュー一貫性のない2Dモデルからの矛盾したガイダンスを使用することで、しばしば遅くなる。 そこで我々は,これらの問題に2つの方法で対処する手法であるDirect Gaussian Editor (DGE)を導入する。 まず、InstructPix2Pixのような高品質の画像エディタをマルチビュー一貫性に修正する。 我々は、シーンの3次元幾何学からヒントを取り入れた、トレーニング不要なアプローチを活用する。 第二に、オブジェクトの画像を複数ビューで一貫した編集シーケンスにすると、3Dガウススプラッティングに基づく3Dオブジェクト表現を直接的かつ効率的に最適化する。 編集をインクリメンタルかつ反復的に行う必要はないため、DGEは既存のアプローチよりもはるかに効率的であり、シーンの一部の選択的編集が可能である。

We consider the problem of editing 3D objects and scenes based on open-ended language instructions. The established paradigm to solve this problem is to use a 2D image generator or editor to guide the 3D editing process. However, this is often slow as it requires do update a computationally expensive 3D representations such as a neural radiance field, and to do so by using contradictory guidance from a 2D model which is inherently not multi-view consistent. We thus introduce the Direct Gaussian Editor (DGE), a method that addresses these issues in two ways. First, we modify a given high-quality image editor like InstructPix2Pix to be multi-view consistent. We do so by utilizing a training-free approach which integrates cues from the underlying 3D geometry of the scene. Second, given a multi-view consistent edited sequence of images of the object, we directly and efficiently optimize the 3D object representation, which is based on 3D Gaussian Splatting. Because it does not require to apply edits incrementally and iteratively, DGE is significantly more efficient than existing approaches, and comes with other perks such as allowing selective editing of parts of the scene.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# マルチモーダル大言語モデルの幻覚化に関する調査

Hallucination of Multimodal Large Language Models: A Survey ( http://arxiv.org/abs/2404.18930v1 )

ライセンス: Link先を確認
Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou, (参考訳) 本研究では,マルチモーダル大規模言語モデル(MLLM)における幻覚現象の包括的解析を行い,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。 これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力を生成することが多く、幻覚と呼ばれる課題は、実際の展開にかなりの障害を生じさせ、現実のアプリケーションにおける信頼性に関する懸念を提起する。 この問題は注目され、そのような不正確さを検知し緩和する努力が促された。 我々は、これらの幻覚を特定し、評価し、緩和する最近の進歩をレビューし、この問題に対処するために開発された根本原因、評価ベンチマーク、メトリクス、戦略の詳細な概要を提供する。 さらに、我々は現在の課題と限界を分析し、今後の研究の道筋を示すオープンな質問を定式化します。 本調査は, 幻覚原因, 評価基準, 緩和方法の詳細な分類と景観を図示することにより, MLLMにおける幻覚の理解を深め, この分野のさらなる発展を促すことを目的としている。 我々は,徹底的かつ詳細なレビューを通じて,MLLMの堅牢性と信頼性の向上に関する対話の継続に寄与し,研究者や実践者にも貴重な洞察とリソースを提供する。 リソースは、https://github.com/showlab/Awesome-MLLM-Hallucination.comで入手できる。

This survey presents a comprehensive analysis of the phenomenon of hallucination in multimodal large language models (MLLMs), also known as Large Vision-Language Models (LVLMs), which have demonstrated significant advancements and remarkable abilities in multimodal tasks. Despite these promising developments, MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination, which poses substantial obstacles to their practical deployment and raises concerns regarding their reliability in real-world applications. This problem has attracted increasing attention, prompting efforts to detect and mitigate such inaccuracies. We review recent advances in identifying, evaluating, and mitigating these hallucinations, offering a detailed overview of the underlying causes, evaluation benchmarks, metrics, and strategies developed to address this issue. Additionally, we analyze the current challenges and limitations, formulating open questions that delineate potential pathways for future research. By drawing the granular classification and landscapes of hallucination causes, evaluation benchmarks, and mitigation methods, this survey aims to deepen the understanding of hallucinations in MLLMs and inspire further advancements in the field. Through our thorough and in-depth review, we contribute to the ongoing dialogue on enhancing the robustness and reliability of MLLMs, providing valuable insights and resources for researchers and practitioners alike. Resources are available at: https://github.com/showlab/Awesome-MLLM-Hallucination.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# moiré Bose-HubbardモデルにおけるTunable Exiton Valley-pseudospin位数

Tunable exciton valley-pseudospin orders in moiré Bose-Hubbard model ( http://arxiv.org/abs/2404.18931v1 )

ライセンス: Link先を確認
Richen Xiong, Samuel L. Brantly, Kaixiang Su, Jacob H. Nie, Zihan Zhang, Rounak Banerjee, Hayley Ruddick, Kenji Watanabe, Takashi Taniguchi, Sefaattin Tongay, Cenke Xu, Chenhao Jin, (参考訳) スピンと電荷は電子の2つの最も重要な自由度である。 それらの相互作用は、ハバード模型物理学や高温超伝導など、多くの強い相関する現象の中心にある。 一方、ボソンのこのような相互作用は、凝縮物質系においてほとんど解明されていない。 ここでは、半超伝導モワール超格子における励起子によるスピン-1/2ボース-ハッバードモデルのユニークな実現法を示す。 過渡的な面内強磁性(FM-$xy$)のエクシトンスピンの位 - ここでのバレー擬スピン - エクシトンフィリング$\nu_{ex}$ = 1 は、エクシトンフィリングの増加と10 mTの小さな磁場の両方でFM-$z$位に遷移する。 我々の研究は、スピノルボソンからの物質のエキゾチックな位相のエンジニアリング方法と、光学や量子情報科学における非伝統的な装置の道を開いた。

Spin and charge are the two most important degrees of freedom of electrons. Their interplay lies at the heart of numerous strongly correlated phenomena including Hubbard model physics and high temperature superconductivity. Such interplay for bosons, on the other hand, is largely unexplored in condensed matter systems. Here we demonstrate a unique realization of the spin-1/2 Bose-Hubbard model through excitons in a semiconducting moir\'e superlattice. We find evidence of a transient in-plane ferromagnetic (FM-$xy$) order of exciton spin - here valley pseudospin - around exciton filling $\nu_{ex}$ = 1, which transitions into a FM-$z$ order both with increasing exciton filling and a small magnetic field of 10 mT. The phase diagram is different from the fermion case and is qualitatively captured by a simple phenomenological model, highlighting the unique consequence of Bose-Einstein statistics. Our study paves the way for engineering exotic phases of matter from spinor bosons, as well as for unconventional devices in optics and quantum information science.
翻訳日:2024-04-30 12:39:07 公開日:2024-04-29
# LayerSkip: 早期の排他推論と自己投機的デコーディングを実現する

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding ( http://arxiv.org/abs/2404.16710v2 )

ライセンス: Link先を確認
Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich, Basil Hosmer, Bram Wasti, Liangzhen Lai, Anas Mahmoud, Bilge Acun, Saurabh Agarwal, Ahmed Roman, Ahmed A Aly, Beidi Chen, Carole-Jean Wu, (参考訳) 本稿では,大規模言語モデル(LLM)の高速化のためのエンドツーエンドソリューションであるLayerSkipを紹介する。 まず、トレーニング中に、以前のレイヤのドロップアウト率を低くし、後のレイヤのドロップアウト率を高くし、すべてのトランスフォーマーレイヤが同じ出口を共有する早期のエグアウトロスを適用します。 次に, モデルに補助層やモジュールを追加することなく, 早期退避の精度が向上することを示す。 第三に、我々は初期の層から出て、モデルの残りの層で検証と修正を行う、新しい自己投機的復号化ソリューションを提案する。 提案する自己投機的復号化手法は,他の投機的復号化手法よりもメモリフットプリントが小さく,ドラフトと検証段階の共有計算とアクティベーションの利点がある。 私たちは、スクラッチからの事前トレーニング、連続的な事前トレーニング、特定のデータ領域の微調整、特定のタスクの微調整など、さまざまなタイプのトレーニングで異なるLlamaモデルサイズで実験を実行します。 我々は,提案手法を実装し,CNN/DM文書の要約における最大2.16倍,符号化における1.82倍,TOPv2セマンティック解析タスクにおける2.0倍の高速化を示す。

We present LayerSkip, an end-to-end solution to speed-up inference of large language models (LLMs). First, during training we apply layer dropout, with low dropout rates for earlier layers and higher dropout rates for later layers, and an early exit loss where all transformer layers share the same exit. Second, during inference, we show that this training recipe increases the accuracy of early exit at earlier layers, without adding any auxiliary layers or modules to the model. Third, we present a novel self-speculative decoding solution where we exit at early layers and verify and correct with remaining layers of the model. Our proposed self-speculative decoding approach has less memory footprint than other speculative decoding approaches and benefits from shared compute and activations of the draft and verification stages. We run experiments on different Llama model sizes on different types of training: pretraining from scratch, continual pretraining, finetuning on specific data domain, and finetuning on specific task. We implement our inference solution and show speedups of up to 2.16x on summarization for CNN/DM documents, 1.82x on coding, and 2.0x on TOPv2 semantic parsing task.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# COCOLA:Coherence-Oriented Contrastive Learning of Musical Audio Representations

COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations ( http://arxiv.org/abs/2404.16969v2 )

ライセンス: Link先を確認
Ruben Ciranni, Emilian Postolache, Giorgio Mariani, Michele Mancusi, Luca Cosmo, Emanuele Rodolà, (参考訳) サンプル間の調和的・リズム的コヒーレンスをキャプチャする音声表現のコントラスト学習手法であるCOCOLA(Coherence-Oriented Contrastive Learning for Audio)を提案する。 提案手法は,音楽トラックを構成する幹(あるいはそれらの組み合わせ)のレベルで動作し,伴奏生成作業における楽曲合成モデルの客観的評価を可能にする。 また,MSDMのタスクを一般化したControlNetに基づくCompoNetという楽曲生成のための新しいベースラインを導入し,COCOLAを用いて後者に対して定量化する。 MUSDB18-HQ、MoisesDB、Slakh2100、CocoChorales)を含むパブリックデータセットでトレーニングされたすべてのモデルをリリースします。

We present COCOLA (Coherence-Oriented Contrastive Learning for Audio), a contrastive learning method for musical audio representations that captures the harmonic and rhythmic coherence between samples. Our method operates at the level of stems (or their combinations) composing music tracks and allows the objective evaluation of compositional models for music in the task of accompaniment generation. We also introduce a new baseline for compositional music generation called CompoNet, based on ControlNet, generalizing the tasks of MSDM, and quantify it against the latter using COCOLA. We release all models trained on public datasets containing separate stems (MUSDB18-HQ, MoisesDB, Slakh2100, and CocoChorales).
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# PLLaVA : 映像から映像へのパラメータフリーLLaVA拡張

PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning ( http://arxiv.org/abs/2404.16994v2 )

ライセンス: Link先を確認
Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, Jiashi Feng, (参考訳) 視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。 しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算資源とデータ資源を必要としており、ビデオ言語モデルの進歩を妨げる。 本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。 予備実験では、ビデオデータセットの入力として複数のフレームを持つ事前訓練済み画像言語モデルを直接調整することで、パフォーマンスの飽和や低下につながることが明らかとなった。 我々のさらなる調査は、学習された高ノルムの視覚的特徴のバイアスに起因することが明らかにされている。 この発見を動機として,時間次元に沿った特徴分布を円滑にし,極端特徴から支配的な影響を減らし,簡易かつ効果的なプーリング戦略を提案する。 新しいモデルはPooling LLaVA、略称PLLaVAと呼ばれる。 PLLaVAは、ビデオ質問応答タスクとキャプションタスクの両方に対して、最新のベンチマークデータセット上で、最先端のパフォーマンスを新たに実現している。 特に、最近人気のVideoChatGPTベンチマークでは、PLLaVAは5つの評価次元の平均で5点中3.48点のスコアを達成し、GPT4V(IG-VLM)の以前のSOTA結果よりも9%上回っている。 最新のマルチ選択ベンチマークMVBenchでは、PLLaVAはGPT4V(IG-VLM)よりも14.5%高い20のサブタスクで平均58.1%の精度を達成した。 コードはhttps://pllava.github.io/で公開されている。

Vision-language pre-training has significantly elevated performance across a wide range of image-language applications. Yet, the pre-training process for video-related tasks demands exceptionally large computational and data resources, which hinders the progress of video-language models. This paper investigates a straight-forward, highly efficient, and resource-light approach to adapting an existing image-language pre-trained model for dense video understanding. Our preliminary experiments reveal that directly fine-tuning pre-trained image-language models with multiple frames as inputs on video datasets leads to performance saturation or even a drop. Our further investigation reveals that it is largely attributed to the bias of learned high-norm visual features. Motivated by this finding, we propose a simple but effective pooling strategy to smooth the feature distribution along the temporal dimension and thus reduce the dominant impacts from the extreme features. The new model is termed Pooling LLaVA, or PLLaVA in short. PLLaVA achieves new state-of-the-art performance on modern benchmark datasets for both video question-answer and captioning tasks. Notably, on the recent popular VideoChatGPT benchmark, PLLaVA achieves a score of 3.48 out of 5 on average of five evaluated dimensions, exceeding the previous SOTA results from GPT4V (IG-VLM) by 9%. On the latest multi-choice benchmark MVBench, PLLaVA achieves 58.1% accuracy on average across 20 sub-tasks, 14.5% higher than GPT4V (IG-VLM). Code is available at https://pllava.github.io/
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# MER 2024: 半教師付き学習, ノイズロバスト性, オープン語彙マルチモーダル感情認識

MER 2024: Semi-Supervised Learning, Noise Robustness, and Open-Vocabulary Multimodal Emotion Recognition ( http://arxiv.org/abs/2404.17113v2 )

ライセンス: Link先を確認
Zheng Lian, Haiyang Sun, Licai Sun, Zhuofan Wen, Siyuan Zhang, Shun Chen, Hao Gu, Jinming Zhao, Ziyang Ma, Xie Chen, Jiangyan Yi, Rui Liu, Kele Xu, Bin Liu, Erik Cambria, Guoying Zhao, Björn W. Schuller, Jianhua Tao, (参考訳) マルチモーダル感情認識は人工知能における重要な研究課題である。 過去数十年間、研究者はデータセットのサイズを拡大し、より効果的なアーキテクチャを構築することで驚くべき進歩を遂げてきた。 しかし、様々な理由(複雑な環境や不正確なラベルなど)により、現在のシステムは依然として実用アプリケーションの要求を満たすことができない。 そこで我々は,この分野の発展を促進するために,感情認識に関する一連の課題を整理する。 昨年、私たちはMER2023を立ち上げ、マルチラベル学習、ノイズの堅牢性、半教師付き学習という3つのトピックに焦点を当てました。 今年もMER2024を組織し続けます。 データセットサイズの拡大に加えて、オープン語彙感情認識に関する新たなトラックを導入する。 このトラックの主な考慮事項は、既存のデータセットがしばしばラベル空間を固定し、アノテータの一貫性を高めるために過半数投票を使用することであるが、このプロセスは微妙な感情を記述するモデルの能力を制限する可能性がある。 本トラックでは,参加者に対して,感情状態を可能な限り正確に記述することを目的とした,任意のカテゴリのラベルの生成を奨励する。 私たちのベースラインはMERToolsに基づいており、コードはhttps://github.com/zeroQiaoba/MERTools/tree/master/MER2024で利用可能です。

Multimodal emotion recognition is an important research topic in artificial intelligence. Over the past few decades, researchers have made remarkable progress by increasing dataset size and building more effective architectures. However, due to various reasons (such as complex environments and inaccurate labels), current systems still cannot meet the demands of practical applications. Therefore, we plan to organize a series of challenges around emotion recognition to further promote the development of this field. Last year, we launched MER2023, focusing on three topics: multi-label learning, noise robustness, and semi-supervised learning. This year, we continue to organize MER2024. In addition to expanding the dataset size, we introduce a new track around open-vocabulary emotion recognition. The main consideration for this track is that existing datasets often fix the label space and use majority voting to enhance annotator consistency, but this process may limit the model's ability to describe subtle emotions. In this track, we encourage participants to generate any number of labels in any category, aiming to describe the emotional state as accurately as possible. Our baseline is based on MERTools and the code is available at: https://github.com/zeroQiaoba/MERTools/tree/master/MER2024.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# 2 in 1 Go:デカップリング型主語変換器を用いた単段階感情認識

Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer ( http://arxiv.org/abs/2404.17205v2 )

ライセンス: Link先を確認
Xinpeng Li, Teng Wang, Jian Zhao, Shuyi Mao, Jinbao Wang, Feng Zheng, Xiaojiang Peng, Xuelong Li, (参考訳) 感情認識は、イメージ内の被験者の感情状態を、主観的・文脈的な視覚的手がかりに依存して識別することを目的としている。 現在のアプローチは典型的には2段階のパイプラインに従っており、まず被験者を棚外の検出器でローカライズし、その後、被写体と文脈の特徴の後期融合を通じて感情分類を行う。 しかし、複雑なパラダイムは、相容れない訓練段階と、微粒な主語-文脈要素間の限定的な相互作用に悩まされている。 この課題に対処するため、単段階の感情認識アプローチとして、DCT(Decoupled Subject-Context Transformer)を用いて、同時主題の局所化と感情分類を行う。 学習段階の区分化ではなく,ボックス信号と感情信号を協調的に活用し,主観的特徴学習を充実させる。 さらに、DSCTを導入して、細粒度な主語-文脈間の相互作用を、分離・テーマ-フューズ方式で促進する。 分離されたクエリトークン--オブジェクトクエリとコンテキストクエリ--DSCT内の層に徐々に介入し、空間的および意味的関係を利用して集約する。 広範に使われている2つの文脈認識型感情認識データセットであるCAER-SとEMOTIC上での単一ステージフレームワークの評価を行った。 提案手法は,CAER-SデータセットとEMOTICデータセットでそれぞれ平均6.46%の精度向上と3.39%の精度向上を実現している。

Emotion recognition aims to discern the emotional state of subjects within an image, relying on subject-centric and contextual visual cues. Current approaches typically follow a two-stage pipeline: first localize subjects by off-the-shelf detectors, then perform emotion classification through the late fusion of subject and context features. However, the complicated paradigm suffers from disjoint training stages and limited interaction between fine-grained subject-context elements. To address the challenge, we present a single-stage emotion recognition approach, employing a Decoupled Subject-Context Transformer (DSCT), for simultaneous subject localization and emotion classification. Rather than compartmentalizing training stages, we jointly leverage box and emotion signals as supervision to enrich subject-centric feature learning. Furthermore, we introduce DSCT to facilitate interactions between fine-grained subject-context cues in a decouple-then-fuse manner. The decoupled query token--subject queries and context queries--gradually intertwine across layers within DSCT, during which spatial and semantic relations are exploited and aggregated. We evaluate our single-stage framework on two widely used context-aware emotion recognition datasets, CAER-S and EMOTIC. Our approach surpasses two-stage alternatives with fewer parameter numbers, achieving a 3.39% accuracy improvement and a 6.46% average precision gain on CAER-S and EMOTIC datasets, respectively.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# SDFD: 多様な属性を持つヴァーサタイル合成顔画像データセットの構築

SDFD: Building a Versatile Synthetic Face Image Dataset with Diverse Attributes ( http://arxiv.org/abs/2404.17255v2 )

ライセンス: Link先を確認
Georgia Baltsou, Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, (参考訳) AIシステムは、さまざまなタスクに対処するために、大規模なデータセットの広範なトレーニングに依存している。 しかし、画像ベースのシステム、特に人口統計学的属性予測に使用されるシステムは、重大な課題に直面している。 現在の顔画像データセットの多くは、主に年齢、性別、肌のトーンなどの人口統計要因に焦点を当てており、ヘアスタイルやアクセサリーのような他の重要な顔の特徴を見下ろしている。 この狭い焦点はデータの多様性を制限し、結果としてトレーニングされたAIシステムの堅牢性も制限される。 この研究は、顔の多様性の幅広いスペクトルをキャプチャする合成顔画像データセットを生成する方法論を提案することで、この制限に対処することを目的としている。 具体的には、人口統計学やバイオメトリックスだけでなく、メイクアップ、ヘアスタイル、アクセサリーといった非永続的な特徴を包含する、体系的な迅速な定式化戦略を統合する。 これらのプロンプトは、高品質なリアル画像の包括的なデータセットを生成する際に、最先端のテキスト・トゥ・イメージモデルを示し、顔分析システムで評価セットとして使用できる。 既存のデータセットと比較して,提案データセットは画像分類タスクにおいて,サイズがはるかに小さく,等しく,あるいはそれ以上の困難さを証明している。

AI systems rely on extensive training on large datasets to address various tasks. However, image-based systems, particularly those used for demographic attribute prediction, face significant challenges. Many current face image datasets primarily focus on demographic factors such as age, gender, and skin tone, overlooking other crucial facial attributes like hairstyle and accessories. This narrow focus limits the diversity of the data and consequently the robustness of AI systems trained on them. This work aims to address this limitation by proposing a methodology for generating synthetic face image datasets that capture a broader spectrum of facial diversity. Specifically, our approach integrates a systematic prompt formulation strategy, encompassing not only demographics and biometrics but also non-permanent traits like make-up, hairstyle, and accessories. These prompts guide a state-of-the-art text-to-image model in generating a comprehensive dataset of high-quality realistic images and can be used as an evaluation set in face analysis systems. Compared to existing datasets, our proposed dataset proves equally or more challenging in image classification tasks while being much smaller in size.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# MV-VTON:拡散モデルを用いたマルチビューバーチャルトライオン

MV-VTON: Multi-View Virtual Try-On with Diffusion Models ( http://arxiv.org/abs/2404.17364v2 )

ライセンス: Link先を確認
Haoyu Wang, Zhilu Zhang, Donglin Di, Shiliang Zhang, Wangmeng Zuo, (参考訳) 画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。 しかし、既存の方法のほとんどは、正面服を用いた正面試着にのみ焦点をあてている。 衣服や人の視線が著しく矛盾している場合、特に人の視線が正面ではない場合、その結果は満足できない。 この課題に対処するために,指定した衣服を用いて複数のビューから人のドレッシング結果を再構築することを目的とした,マルチビュー仮想トライオン(MV-VTON)を導入する。 一方,単視服はMV-VTONに不十分な情報を提供するため,服の正面と後方の視界を可能な限り包含する2つの画像を用いる。 一方, 優れた能力を示す拡散モデルを用いて, MV-VTONを実現する。 特に,グローバルな衣服の特徴抽出にハードセレクションとソフトセレクションをそれぞれ適用したビューアダプティブ選択法を提案する。 これにより、衣服の特徴が人の視界にほぼ一致することが保証される。 続いて,衣服の特徴と人的特徴を一致させて融合させる共同注意ブロックを提案する。 さらに、MV-VTONデータセット、すなわち、MVG(Multi-View Garment)を収集し、各人が多様なビューとポーズを持つ複数の写真を持つ。 実験により,提案手法はMVGデータセットを用いたMV-VTONタスクの最先端結果だけでなく,VITON-HDおよびDressCodeデータセットを用いたフロントビュー仮想試行タスクにも優れていることがわかった。 コードとデータセットはhttps://github.com/hywang2002/MV-VTON で公開される。

The goal of image-based virtual try-on is to generate an image of the target person naturally wearing the given clothing. However, most existing methods solely focus on the frontal try-on using the frontal clothing. When the views of the clothing and person are significantly inconsistent, particularly when the person's view is non-frontal, the results are unsatisfactory. To address this challenge, we introduce Multi-View Virtual Try-ON (MV-VTON), which aims to reconstruct the dressing results of a person from multiple views using the given clothes. On the one hand, given that single-view clothes provide insufficient information for MV-VTON, we instead employ two images, i.e., the frontal and back views of the clothing, to encompass the complete view as much as possible. On the other hand, the diffusion models that have demonstrated superior abilities are adopted to perform our MV-VTON. In particular, we propose a view-adaptive selection method where hard-selection and soft-selection are applied to the global and local clothing feature extraction, respectively. This ensures that the clothing features are roughly fit to the person's view. Subsequently, we suggest a joint attention block to align and fuse clothing features with person features. Additionally, we collect a MV-VTON dataset, i.e., Multi-View Garment (MVG), in which each person has multiple photos with diverse views and poses. Experiments show that the proposed method not only achieves state-of-the-art results on MV-VTON task using our MVG dataset, but also has superiority on frontal-view virtual try-on task using VITON-HD and DressCode datasets. Codes and datasets will be publicly released at https://github.com/hywang2002/MV-VTON .
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29
# 大規模言語モデルを用いた機能オントロジーの生成について

On the Use of Large Language Models to Generate Capability Ontologies ( http://arxiv.org/abs/2404.17524v2 )

ライセンス: Link先を確認
Luis Miguel Vieira da Silva, Aljosha Köcher, Felix Gehlhoff, Alexander Fay, (参考訳) 機能オントロジーは、システムやマシンの機能のモデル化にますます利用されている。 あらゆる性質と能力の制約を持つそのような存在論的モデルの作成は非常に複雑であり、オントロジーの専門家によってのみ可能である。 しかし、Large Language Models (LLMs) は、自然言語テキスト入力から機械解釈可能なモデルを生成することができ、したがってエンジニアやオントロジーの専門家をサポートすることを示した。 そこで本研究では,LLMを用いて機能オントロジーを創出する方法について検討する。 本稿では、異なるプロンプト技術と異なるLLMを用いて、様々な複雑さを持つ能力を生成する一連の実験について述べる。 生成されたオントロジーのエラーを記録し、比較する。 生成されたオントロジーの品質を分析するために、RDF構文チェック、OWL推論、SHACL制約に基づく半自動アプローチを用いる。 この研究結果は、複雑な能力であっても生成したオントロジにはほとんど誤りがないため、非常に有望である。

Capability ontologies are increasingly used to model functionalities of systems or machines. The creation of such ontological models with all properties and constraints of capabilities is very complex and can only be done by ontology experts. However, Large Language Models (LLMs) have shown that they can generate machine-interpretable models from natural language text input and thus support engineers / ontology experts. Therefore, this paper investigates how LLMs can be used to create capability ontologies. We present a study with a series of experiments in which capabilities with varying complexities are generated using different prompting techniques and with different LLMs. Errors in the generated ontologies are recorded and compared. To analyze the quality of the generated ontologies, a semi-automated approach based on RDF syntax checking, OWL reasoning, and SHACL constraints is used. The results of this study are very promising because even for complex capabilities, the generated ontologies are almost free of errors.
翻訳日:2024-04-30 12:29:16 公開日:2024-04-29