このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240409となっている論文です。

PDF登録状況(公開日: 20240409)

TitleAuthorsAbstract論文公表日・翻訳日
# 「Hey.!この薬で病気になった」:機械学習を用いたユーザ生成医薬品レビューの感性分析

"Hey..! This medicine made me sick": Sentiment Analysis of User-Generated Drug Reviews using Machine Learning Techniques ( http://arxiv.org/abs/2404.13057v1 )

ライセンス: Link先を確認
Abhiram B. Nair, Abhinand K., Anamika U., Denil Tom Jaison, Ajitha V., V. S. Anoop, (参考訳) 感覚分析は医療、特にバイオメディカルおよび医薬品分野においてますます重要になっている。 一般大衆が生み出した、効果、副作用、有害薬物反応に関するデータは、人々の関心事や反応を理解するための様々な機関や医療従事者にとっての金鉱である。 薬物関連問題に関するデータセットを取得するという課題にもかかわらず、この話題に関する感情分析はこの分野にとって大きな恩恵となるだろう。 本研究は、特定の薬物に関するユーザレビューを、ポジティブ、ネガティブ、中立などの異なるクラスに分類する薬物レビュー分類システムを提案する。 このアプローチでは、ドラッグ.comのような薬物レビューを含む公開されているソースから収集されるデータセットを使用する。 収集されたデータは手動でラベル付けされ、ラベルが正しいことを保証するために手動で検証される。 BERT(英語版)、SciBERT(英語版)、BioBERT(英語版)などの事前訓練された3つの言語モデルは、後に決定木、サポートベクターマシン、ランダムフォレスト、およびリカレントニューラルネットワークのようなディープラーニングアルゴリズムのような異なる機械学習分類器の機能として使用された埋め込みを得るために使用される。 これらの分類器の性能は、精度、リコール、f1スコアを用いて定量化され、提案手法は、異なる薬物に関する人々の感情を分析するのに有用であることを示す。

Sentiment analysis has become increasingly important in healthcare, especially in the biomedical and pharmaceutical fields. The data generated by the general public on the effectiveness, side effects, and adverse drug reactions are goldmines for different agencies and medicine producers to understand the concerns and reactions of people. Despite the challenge of obtaining datasets on drug-related problems, sentiment analysis on this topic would be a significant boon to the field. This project proposes a drug review classification system that classifies user reviews on a particular drug into different classes, such as positive, negative, and neutral. This approach uses a dataset that is collected from publicly available sources containing drug reviews, such as drugs.com. The collected data is manually labeled and verified manually to ensure that the labels are correct. Three pre-trained language models, such as BERT, SciBERT, and BioBERT, are used to obtain embeddings, which were later used as features to different machine learning classifiers such as decision trees, support vector machines, random forests, and also deep learning algorithms such as recurrent neural networks. The performance of these classifiers is quantified using precision, recall, and f1-score, and the results show that the proposed approaches are useful in analyzing the sentiments of people on different drugs.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-09
# Text2Grasp:物体把握部のテキストプロンプトによるグラフ合成

Text2Grasp: Grasp synthesis by text prompts of object grasping parts ( http://arxiv.org/abs/2404.15189v1 )

ライセンス: Link先を確認
Xiaoyun Chang, Yi Sun, (参考訳) 手は、物体をつかみ、操作する人間の能力において重要な役割を担い、制御可能なグリップ合成が下流タスクを成功させる鍵である。 人間の意図やタスクレベルの言語を、本来のあいまいさを把握するための制御信号として利用する既存の方法。 この課題に対処するために、より精密な制御を提供する対象把握部分のテキストプロンプトであるText2Graspによって導かれるグリップ合成手法を提案する。 具体的には,テキスト誘導拡散モデルTextGraspDiffを含む2段階の手法を提案する。 さらに,Large Language Modelを活用することで,タスクレベルとパーソナライズされたテキスト記述を手作業のアノテーションなしで手作業で理解しやすくする。 広範囲な実験により,本手法は精度の高い部分レベルグリップ制御だけでなく,グリップ品質に匹敵する性能を達成できることが実証された。

The hand plays a pivotal role in human ability to grasp and manipulate objects and controllable grasp synthesis is the key for successfully performing downstream tasks. Existing methods that use human intention or task-level language as control signals for grasping inherently face ambiguity. To address this challenge, we propose a grasp synthesis method guided by text prompts of object grasping parts, Text2Grasp, which provides more precise control. Specifically, we present a two-stage method that includes a text-guided diffusion model TextGraspDiff to first generate a coarse grasp pose, then apply a hand-object contact optimization process to ensure both plausibility and diversity. Furthermore, by leveraging Large Language Model, our method facilitates grasp synthesis guided by task-level and personalized text descriptions without additional manual annotations. Extensive experiments demonstrate that our method achieves not only accurate part-level grasp control but also comparable performance in grasp quality.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-09
# ウェアラブルセンサを用いた歩行周期データを用いたパーキンソン病早期検出のための統合的ディープラーニングフレームワーク:CNN-GRU-GNNアプローチ

Integrative Deep Learning Framework for Parkinson's Disease Early Detection using Gait Cycle Data Measured by Wearable Sensors: A CNN-GRU-GNN Approach ( http://arxiv.org/abs/2404.15335v1 )

ライセンス: Link先を確認
Alireza Rashnu, Armin Salimi-Badr, (参考訳) 時間的介入は症状の進行を著しく軽減し、患者の予後を改善するため、パーキンソン病の複雑さに対処する上で、効果的な早期診断が最重要である。 本稿では,パーキンソン病の早期発見を容易にするために歩行周期データセットを用いて,被験者のバイナリ分類に適した先駆的な深層学習アーキテクチャを提案する。 我々のモデルは1D-畳み込みニューラルネットワーク(CNN)、GRU(Gated Recurrent Units)、グラフニューラルネットワーク(GNN)レイヤのパワーを活用し、データ内の時間的ダイナミクスと空間的関係を相乗的に捉える。 本研究は,垂直地中反応力(vGRF)を測定するための被験者の靴端に位置する16個のウェアラブルセンサをグラフの頂点とみなし,その隣接度をグラフのエッジとしてモデル化し,各センサの計測データを対応する頂点の特徴ベクトルとみなす。 したがって、GNN層は適切な表現を学習することで、これらのセンサ間の関係を抽出することができる。 これらの測定の動的性質に関して、GRUとCNNはそれらを空間的・時間的に分析し、埋め込み空間にマッピングする。 注目すべきことに、提案モデルでは、それぞれ99.51%、99.57%、99.71%、99.64%の精度、精度、リコール、F1スコアを誇った、例外的なパフォーマンス指標を達成している。

Efficient early diagnosis is paramount in addressing the complexities of Parkinson's disease because timely intervention can substantially mitigate symptom progression and improve patient outcomes. In this paper, we present a pioneering deep learning architecture tailored for the binary classification of subjects, utilizing gait cycle datasets to facilitate early detection of Parkinson's disease. Our model harnesses the power of 1D-Convolutional Neural Networks (CNN), Gated Recurrent Units (GRU), and Graph Neural Network (GNN) layers, synergistically capturing temporal dynamics and spatial relationships within the data. In this work, 16 wearable sensors located at the end of subjects' shoes for measuring the vertical Ground Reaction Force (vGRF) are considered as the vertices of a graph, their adjacencies are modelled as edges of this graph, and finally, the measured data of each sensor is considered as the feature vector of its corresponding vertex. Therefore, The GNN layers can extract the relations among these sensors by learning proper representations. Regarding the dynamic nature of these measurements, GRU and CNN are used to analyze them spatially and temporally and map them to an embedding space. Remarkably, our proposed model achieves exceptional performance metrics, boasting accuracy, precision, recall, and F1 score values of 99.51%, 99.57%, 99.71%, and 99.64%, respectively.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-09
# GUIDE: 実行のためのグラフィカルユーザインタフェースデータ

GUIDE: Graphical User Interface Data for Execution ( http://arxiv.org/abs/2404.16048v1 )

ライセンス: Link先を確認
Rajat Chawla, Adarsh Jha, Muskaan Kumar, Mukunda NS, Ishaan Bhola, (参考訳) 本稿では,MLLM(Multimodal Large Language Model)アプリケーションの開発に適した新しいデータセットであるGUIDEを紹介し,特にロボットプロセス自動化(RPA)のユースケースに着目した。 このデータセットは、Apollo(62.67\%)、Gmail(3.43\%)、Calendar(10.98\%)、Canva(22.92\%)など、さまざまなWebサイトからの多様なデータを含んでいる。 各データエントリには、イメージ、タスク記述、取るべき最後のアクション、CoTおよび次のアクションと、実行すべきアクションの実行場所のグラウンド情報が含まれている。 データは社内の高度なアノテーションツールNEXTAG(Next Action Grounding and Annotation Tool)を使って収集されます。 データは複数のOS、ブラウザ、ディスプレイタイプに対応している。 複数のアノテータによって収集され、デザインのバリエーションと人がウェブサイトを使う方法を把握する。 本データセットは,グラフィカルユーザインタフェース,特にRPAに関連するタスクにおいて,LLMの領域における研究と開発を容易にすることを目的としている。 データセットのマルチプラットフォームの性質と多様なWebサイトのカバレッジにより、自動化タスクにおけるクロスプラットフォーム機能の調査が可能になる。 当社のデータセットは,マルチプラットフォーム LLM の実用的応用能力の向上,自動化と自然言語理解の分野におけるイノベーションの促進に有用なリソースになると考えています。 GUIDEを使って、V-Zenという、ホームオートメーションツールAUTONODEを使って複数のWebサイトを自動化する最初のRPAモデルを構築しました。

In this paper, we introduce GUIDE, a novel dataset tailored for the advancement of Multimodal Large Language Model (MLLM) applications, particularly focusing on Robotic Process Automation (RPA) use cases. Our dataset encompasses diverse data from various websites including Apollo(62.67\%), Gmail(3.43\%), Calendar(10.98\%) and Canva(22.92\%). Each data entry includes an image, a task description, the last action taken, CoT and the next action to be performed along with grounding information of where the action needs to be executed. The data is collected using our in-house advanced annotation tool NEXTAG (Next Action Grounding and Annotation Tool). The data is adapted for multiple OS, browsers and display types. It is collected by multiple annotators to capture the variation of design and the way person uses a website. Through this dataset, we aim to facilitate research and development in the realm of LLMs for graphical user interfaces, particularly in tasks related to RPA. The dataset's multi-platform nature and coverage of diverse websites enable the exploration of cross-interface capabilities in automation tasks. We believe that our dataset will serve as a valuable resource for advancing the capabilities of multi-platform LLMs in practical applications, fostering innovation in the field of automation and natural language understanding. Using GUIDE, we build V-Zen, the first RPA model to automate multiple websites using our in-House Automation tool AUTONODE
翻訳日:2024-04-28 10:36:53 公開日:2024-04-09
# Photoplethysmography 信号を用いた血圧推定の限界の探索

Exploring the limitations of blood pressure estimation using the photoplethysmography signal ( http://arxiv.org/abs/2404.16049v1 )

ライセンス: Link先を確認
Felipe M. Dias, Diego A. C. Cardenas, Marcelo A. F. Toledo, Filipe A. C. Oliveira, Estela Ribeiro, Jose E. Krieger, Marco A. Gutierrez, (参考訳) 高血圧は心臓血管障害の主因であり、正確な血圧モニタリング(BP)の必要性を浮き彫りにしている。 Photoplethysmography (PPG) はこの目的に対して有望なアプローチを示す。 しかしながら, PPG信号から推定されるBP推定精度は, その有効性や制約の包括的評価を必要とする議論の対象となっている。 BP推定のためのキャリブレーションに基づくSiamese ResNetモデルを開発した。 正常化PPG (N-PPG) と正常化浸潤性動脈圧 (N-IABP) を入力として比較した。 N-IABP信号は、直接的に収縮と拡張の値を示すのではなく、理論的には体内の直接圧力センサーであるため、PPG信号よりも正確なBP測度を提供する。 我々の戦略は,PPGのBP推定能力に対する期待を現実的に調整し,PPGの性能評価のための重要なベンチマークを確立する。 それにもかかわらず、異なる信号フィルタリング条件を用いてモデルの性能を比較し、フィルタが結果に与える影響を評価した。 VitalDBデータセットを用いたAAMIおよびBHS標準を用いて,本手法の評価を行った。 N-IABP信号は、SBP(Systolic Blood Pressure)とDBP(Distolic Blood Pressure)の両方のAAMI標準と一致し、収縮圧は1.29+-6.33mmHg、生のN-IABP信号は1.17+-5.78mmHgである。 対照的に、N-PPG信号は、最も優れた設定で、それぞれ収縮圧と拡張圧に対して1.49+-11.82mmHgと0.89+-7.27mmHgのN-IABPよりも低い性能を示した。 以上の結果から,BP推定にPPGを用いる可能性や限界が指摘され,BPと相関する情報を含むが,正確に予測するには不十分である可能性が示唆された。

Hypertension, a leading contributor to cardiovascular morbidity, underscores the need for accurate and continuous blood pressure (BP) monitoring. Photoplethysmography (PPG) presents a promising approach to this end. However, the precision of BP estimates derived from PPG signals has been the subject of ongoing debate, necessitating a comprehensive evaluation of their effectiveness and constraints. We developed a calibration-based Siamese ResNet model for BP estimation, using a signal input paired with a reference BP reading. We compared the use of normalized PPG (N-PPG) against the normalized Invasive Arterial Blood Pressure (N-IABP) signals as input. The N-IABP signals do not directly present systolic and diastolic values but theoretically provide a more accurate BP measure than PPG signals since it is a direct pressure sensor inside the body. Our strategy establishes a critical benchmark for PPG performance, realistically calibrating expectations for PPG's BP estimation capabilities. Nonetheless, we compared the performance of our models using different signal-filtering conditions to evaluate the impact of filtering on the results. We evaluated our method using the AAMI and the BHS standards employing the VitalDB dataset. The N-IABP signals meet with AAMI standards for both Systolic Blood Pressure (SBP) and Diastolic Blood Pressure (DBP), with errors of 1.29+-6.33mmHg for systolic pressure and 1.17+-5.78mmHg for systolic and diastolic pressure respectively for the raw N-IABP signal. In contrast, N-PPG signals, in their best setup, exhibited inferior performance than N-IABP, presenting 1.49+-11.82mmHg and 0.89+-7.27mmHg for systolic and diastolic pressure respectively. Our findings highlight the potential and limitations of employing PPG for BP estimation, showing that these signals contain information correlated to BP but may not be sufficient for predicting it accurately.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-09
# Graph Vertexの埋め込み: 距離、正規化、コミュニティ検出

Graph Vertex Embeddings: Distance, Regularization and Community Detection ( http://arxiv.org/abs/2404.10784v1 )

ライセンス: Link先を確認
Radosław Nowak, Adam Małkowski, Daniel Cieślak, Piotr Sokół, Paweł Wawrzyński, (参考訳) グラフ埋め込みは、低次元空間における複雑なネットワーク構造を表現する強力なツールとして登場し、データのトポロジ的構造のプロキシとして、埋め込み空間のメートル法構造を利用する効率的な手法が利用できるようになった。 本稿では,グラフ構造化データの頂点埋め込みの品質に影響を与えるいくつかの側面について考察する。 この効果のために、まず異なる頂点間の位相的距離を忠実に捉えるフレキシブルな距離関数の族を示す。 第二に、最適化の直接的な結果ではなく、距離行列の適合変換の結果として頂点埋め込みを解析する。 最後に,提案手法の有効性を,ベンチマークデータセットのホスト上でコミュニティ検出を行うことにより評価する。 報告された結果は、グラフ全体で動作する古典的なアルゴリズムと競合する一方で、表現の次元の減少による計算の複雑さが大幅に低減されている。

Graph embeddings have emerged as a powerful tool for representing complex network structures in a low-dimensional space, enabling the use of efficient methods that employ the metric structure in the embedding space as a proxy for the topological structure of the data. In this paper, we explore several aspects that affect the quality of a vertex embedding of graph-structured data. To this effect, we first present a family of flexible distance functions that faithfully capture the topological distance between different vertices. Secondly, we analyze vertex embeddings as resulting from a fitted transformation of the distance matrix rather than as a direct result of optimization. Finally, we evaluate the effectiveness of our proposed embedding constructions by performing community detection on a host of benchmark datasets. The reported results are competitive with classical algorithms that operate on the entire graph while benefitting from a substantially reduced computational complexity due to the reduced dimensionality of the representations.
翻訳日:2024-04-21 19:45:03 公開日:2024-04-09
# 機械学習を用いたプライバシポリシー文書の抽出テキスト要約

Extractive text summarisation of Privacy Policy documents using machine learning approaches ( http://arxiv.org/abs/2404.08686v1 )

ライセンス: Link先を確認
Chanwoo Choi, (参考訳) 本研究は,K平均クラスタリングとPDCクラスタリングという,2つの異なるクラスタリングアルゴリズムに基づく2つのプライバシポリシ(PP)要約モデルを示す。 K-meansは10のクラスタリングアルゴリズムを広範囲に評価した後、最初のモデルで使用されることが決定される。 PDCクラスタリングアルゴリズムに基づく要約モデルは、各文から予め定義されたクラスタセンターまでのユークリッド距離で個々の文を分離することでPP文書を要約する。 クラスタセンターは、GDPR(General Data Protection Regulation)の14の重要トピックに従って定義されており、すべてのプライバシ通知に含めなければならない。 PDCモデルでは,2つの評価手法 (SSD) とROUGE(それぞれ27%, 24%) において, K平均モデルよりも優れていた。 この結果は、タスク固有の評価を実行する前に、文ベクトルの一般的なクラスタリングにおいて、K平均モデルのより良い性能と対照的である。 これは教師なし機械学習モデルにおけるタスク固有の微調整手法の有効性を示す。 本稿では,どのPP文書にも含めるべき必須文を効率的に抽出する方法を実証する。 要約モデルは、PP文書のGDPR準拠性(またはデータプライバシ法)をテストするアプリケーションにさらに発展させることができる。

This work demonstrates two Privacy Policy (PP) summarisation models based on two different clustering algorithms: K-means clustering and Pre-determined Centroid (PDC) clustering. K-means is decided to be used for the first model after an extensive evaluation of ten commonly used clustering algorithms. The summariser model based on the PDC-clustering algorithm summarises PP documents by segregating individual sentences by Euclidean distance from each sentence to the pre-defined cluster centres. The cluster centres are defined according to General Data Protection Regulation (GDPR)'s 14 essential topics that must be included in any privacy notices. The PDC model outperformed the K-means model for two evaluation methods, Sum of Squared Distance (SSD) and ROUGE by some margin (27% and 24% respectively). This result contrasts the K-means model's better performance in the general clustering of sentence vectors before running the task-specific evaluation. This indicates the effectiveness of operating task-specific fine-tuning measures on unsupervised machine-learning models. The summarisation mechanisms implemented in this paper demonstrates an idea of how to efficiently extract essential sentences that should be included in any PP documents. The summariser models could be further developed to an application that tests the GDPR-compliance (or any data privacy legislation) of PP documents.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-09
# 代替関係の推論に関する調査:定義・方法・方向性

A Survey of Reasoning for Substitution Relationships: Definitions, Methods, and Directions ( http://arxiv.org/abs/2404.08687v1 )

ライセンス: Link先を確認
Anxin Yang, Zhijuan Du, Tao Sun, (参考訳) 代替関係は、諸藩の日常生活に欠かせないものである。 本研究の目的は、機械学習アルゴリズム、自然言語処理、その他の技術の適用を広範囲に分析し、多様な分野における製品間の代用関係を理解し、予測することである。 本研究は,代用関係の定義,代用関係の表現,学習,代用推論など,異なる領域にわたるモデル手法を比較することにより,代用関係を深く掘り下げるための方法論的基礎を提供する。 研究とイノベーションを通じて、代替レコメンデーションシステムのパーソナライズと精度をさらに向上させ、この分野の開発と応用を進めることができる。

Substitute relationships are fundamental to people's daily lives across various domains. This study aims to comprehend and predict substitute relationships among products in diverse fields, extensively analyzing the application of machine learning algorithms, natural language processing, and other technologies. By comparing model methodologies across different domains, such as defining substitutes, representing and learning substitute relationships, and substitute reasoning, this study offers a methodological foundation for delving deeper into substitute relationships. Through ongoing research and innovation, we can further refine the personalization and accuracy of substitute recommendation systems, thus advancing the development and application of this field.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-09
# ロバストな毒性予測器の構築に向けて

Towards Building a Robust Toxicity Predictor ( http://arxiv.org/abs/2404.08690v1 )

ライセンス: Link先を確認
Dmitriy Bespalov, Sourav Bhabesh, Yi Xiang, Liutong Zhou, Yanjun Qi, (参考訳) 最近のNLP文献は、毒性言語予測器の堅牢性にはほとんど注意を払わないが、これらのシステムは敵の文脈で使用される可能性が高い。 本稿では,SOTAテキスト分類器を騙し,有害なテキストサンプルを良し悪しとして予測するために,単語レベルの小さな摂動を導入した新たな攻撃法である「texttt{ToxicTrap}」を提案する。 ToxicTrapは、欲求に基づく検索戦略を利用して、有害な敵の高速かつ効果的な生成を可能にする。 2つの新しい目標関数の設計により、ToxicTrapはマルチクラスおよびマルチラベルの有害言語検知器の弱点を特定することができる。 実験の結果,SOTA毒性テキスト分類器は,提案した攻撃に対して脆弱であり,多ラベル症例では98%以上の攻撃成功率を達成できた。 また,バニラ逆行訓練とその改良版は,無害な攻撃に対しても毒性検知器の堅牢性を高めるのにどう役立つかを示す。

Recent NLP literature pays little attention to the robustness of toxicity language predictors, while these systems are most likely to be used in adversarial contexts. This paper presents a novel adversarial attack, \texttt{ToxicTrap}, introducing small word-level perturbations to fool SOTA text classifiers to predict toxic text samples as benign. ToxicTrap exploits greedy based search strategies to enable fast and effective generation of toxic adversarial examples. Two novel goal function designs allow ToxicTrap to identify weaknesses in both multiclass and multilabel toxic language detectors. Our empirical results show that SOTA toxicity text classifiers are indeed vulnerable to the proposed attacks, attaining over 98\% attack success rates in multilabel cases. We also show how a vanilla adversarial training and its improved version can help increase robustness of a toxicity detector even against unseen attacks.
翻訳日:2024-04-16 19:11:58 公開日:2024-04-09
# ポリシーグラディエント更新による非同期フェデレーション強化学習:アルゴリズム設計と収束解析

Asynchronous Federated Reinforcement Learning with Policy Gradient Updates: Algorithm Design and Convergence Analysis ( http://arxiv.org/abs/2404.08003v1 )

ライセンス: Link先を確認
Guangchen Lan, Dong-Jun Han, Abolfazl Hashemi, Vaneet Aggarwal, Christopher G. Brinton, (参考訳) そこで我々は,AFedPGと呼ばれる非同期フェデレーション強化学習フレームワークを提案する。これは政策勾配(PG)更新を用いたN$エージェント間の協調によるグローバルモデルの構築である。 非同期設定におけるタグ付けポリシーの課題に対処するため、遅延適応型ルックアヘッドと正規化された更新手法を設計し、ポリシー勾配の不均一な到着時間を効果的に扱えるようにした。 AFedPGの理論的大域収束境界を解析し、サンプルの複雑さと時間複雑性の両方の観点から提案アルゴリズムの利点を特徴づける。 具体的には,AFedPG法は各エージェントの平均値に対して$\mathcal{O}(\frac{{\epsilon}^{-2.5}}{N})のサンプル複雑性を実現する。 サンプル複雑性を$\mathcal{O}(\epsilon^{-2.5}) とする単一のエージェントセットと比較して、エージェントの数に関して線形スピードアップを楽しむ。 さらに、同期FedPGと比較して、AFedPGは時間複雑性を$\mathcal{O}(\frac{t_{\max}}{N})$から$\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$に改善する。 後者の複雑性 $\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$ は常に以前のものよりも小さくなり、この改善は異種コンピューティングパワー(t_{\max}\gg t_{\min}$)を持つ大規模なフェデレーション設定において重要である。 最後に,MuJoCo環境におけるAFedPGの性能改善を,エージェント数によって実証的に検証した。 また、異なる計算の不均一性による改善を実証する。

To improve the efficiency of reinforcement learning, we propose a novel asynchronous federated reinforcement learning framework termed AFedPG, which constructs a global model through collaboration among $N$ agents using policy gradient (PG) updates. To handle the challenge of lagged policies in asynchronous settings, we design delay-adaptive lookahead and normalized update techniques that can effectively handle the heterogeneous arrival times of policy gradients. We analyze the theoretical global convergence bound of AFedPG, and characterize the advantage of the proposed algorithm in terms of both the sample complexity and time complexity. Specifically, our AFedPG method achieves $\mathcal{O}(\frac{{\epsilon}^{-2.5}}{N})$ sample complexity at each agent on average. Compared to the single agent setting with $\mathcal{O}(\epsilon^{-2.5})$ sample complexity, it enjoys a linear speedup with respect to the number of agents. Moreover, compared to synchronous FedPG, AFedPG improves the time complexity from $\mathcal{O}(\frac{t_{\max}}{N})$ to $\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$, where $t_{i}$ denotes the time consumption in each iteration at the agent $i$, and $t_{\max}$ is the largest one. The latter complexity $\mathcal{O}(\frac{1}{\sum_{i=1}^{N} \frac{1}{t_{i}}})$ is always smaller than the former one, and this improvement becomes significant in large-scale federated settings with heterogeneous computing powers ($t_{\max}\gg t_{\min}$). Finally, we empirically verify the improved performances of AFedPG in three MuJoCo environments with varying numbers of agents. We also demonstrate the improvements with different computing heterogeneity.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-09
# GRANP: 車両軌道予測のためのグラフリカレント注意ニューラルプロセスモデル

GRANP: A Graph Recurrent Attentive Neural Process Model for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2404.08004v1 )

ライセンス: Link先を確認
Yuhao Luo, Kehua Chen, Meixin Zhu, (参考訳) 自動運転において重要な要素として、正確な軌道予測は交通事故を効果的に防止し、運転効率を向上させる。 複雑な空間的・時間的ダイナミクスと社会的相互作用を捉えるため、最近の研究では高度な深層学習法に基づくモデルを開発した。 一方、近年の研究では、軌跡の不確実性をさらに考慮するために、深部生成モデルの利用について検討されている。 しかしながら、非決定性を示す現在のアプローチは、訓練されたモデルからのサンプリングのような非効率で時間を要するプラクティスである。 このギャップを埋めるため,予測の不確実性を効率的に定量化しつつ,車両軌道予測のためのGRANP(Graph Recurrent Attentive Neural Process)と呼ばれる新しいモデルを提案した。 特に、GRANPは決定論的パスと遅延パスを持つエンコーダと、予測のためのデコーダを含んでいる。 重ねられたグラフアテンションネットワーク、LSTM、および1次元畳み込み層を含むエンコーダを用いて、空間的時間的関係を抽出する。 デコーダは潜伏分布を学習し、予測の不確実性を定量化する。 本モデルの有効性を明らかにするため,高次元データセット上でのGRANPの性能評価を行った。 大規模な実験により、GRANPは最先端の結果を達成し、不確実性を効果的に定量化できることが示されている。 さらに,提案手法の解釈可能性を示す直感的なケーススタディも実施する。 コードはhttps://github.com/joy-driven/GRANP.comで公開されている。

As a vital component in autonomous driving, accurate trajectory prediction effectively prevents traffic accidents and improves driving efficiency. To capture complex spatial-temporal dynamics and social interactions, recent studies developed models based on advanced deep-learning methods. On the other hand, recent studies have explored the use of deep generative models to further account for trajectory uncertainties. However, the current approaches demonstrating indeterminacy involve inefficient and time-consuming practices such as sampling from trained models. To fill this gap, we proposed a novel model named Graph Recurrent Attentive Neural Process (GRANP) for vehicle trajectory prediction while efficiently quantifying prediction uncertainty. In particular, GRANP contains an encoder with deterministic and latent paths, and a decoder for prediction. The encoder, including stacked Graph Attention Networks, LSTM and 1D convolutional layers, is employed to extract spatial-temporal relationships. The decoder is used to learn a latent distribution and thus quantify prediction uncertainty. To reveal the effectiveness of our model, we evaluate the performance of GRANP on the highD dataset. Extensive experiments show that GRANP achieves state-of-the-art results and can efficiently quantify uncertainties. Additionally, we undertake an intuitive case study that showcases the interpretability of the proposed approach. The code is available at https://github.com/joy-driven/GRANP.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-09
# Accel-NASBench: Accelerator-Aware NASのための持続可能なベンチマーク

Accel-NASBench: Sustainable Benchmarking for Accelerator-Aware NAS ( http://arxiv.org/abs/2404.08005v1 )

ライセンス: Link先を確認
Afzal Ahmad, Linfeng Du, Zhiyao Xie, Wei Zhang, (参考訳) ニューラルアーキテクチャサーチ(NAS)の進歩を妨げる主な課題の1つは、外部の計算資源に依存することである。 NASベンチマークは、NAS実験の実行をゼロコストでシミュレートすることを目的としており、広範な計算の必要性を再考している。 しかし、既存のNASベンチマークでは、合成データセットとモデルプロキシを使用して、これらのデータセットとモデルの特徴に関する仮定を単純化し、非現実的な評価につながっている。 本研究では,ベンチマーク構築コストを大幅に削減し,大規模データセットを対象とした現実的なNASベンチマーク構築を可能にする手法を提案する。 この手法を用いて、ImageNet2012データセットのためのオープンソースの双方向NASベンチマークを構築し、GPU、TPU、FPGAなどのアクセラレータのオンデバイス性能と組み合わせる。 各種NASオプティマイザとハードウェアプラットフォームによる広範な実験により,ベンチマークは正確であり,最先端のハードウェア対応モデルをコストゼロで検索できることを示した。

One of the primary challenges impeding the progress of Neural Architecture Search (NAS) is its extensive reliance on exorbitant computational resources. NAS benchmarks aim to simulate runs of NAS experiments at zero cost, remediating the need for extensive compute. However, existing NAS benchmarks use synthetic datasets and model proxies that make simplified assumptions about the characteristics of these datasets and models, leading to unrealistic evaluations. We present a technique that allows searching for training proxies that reduce the cost of benchmark construction by significant margins, making it possible to construct realistic NAS benchmarks for large-scale datasets. Using this technique, we construct an open-source bi-objective NAS benchmark for the ImageNet2012 dataset combined with the on-device performance of accelerators, including GPUs, TPUs, and FPGAs. Through extensive experimentation with various NAS optimizers and hardware platforms, we show that the benchmark is accurate and allows searching for state-of-the-art hardware-aware models at zero cost.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-09
# 不確実性を考慮した協調型ロボットの順序決定のための学習効率と公正性

Learning Efficient and Fair Policies for Uncertainty-Aware Collaborative Human-Robot Order Picking ( http://arxiv.org/abs/2404.08006v1 )

ライセンス: Link先を確認
Igor G. Smit, Zaharah Bukhsh, Mykola Pechenizkiy, Kostas Alogariastos, Kasper Hendriks, Yingqian Zhang, (参考訳) 協調的な人間ロボットのオーダーピッキングシステムでは、人間のピッカーと自律移動ロボット(AMR)は倉庫内を独立して移動し、ピッカーがアイテムをAMRに積む場所で会う。 本稿では,確率環境下でのAMRにピッカーを割り当てるシステムにおける最適化問題について考察する。 本稿では,多目的深層強化学習(DRL)アプローチを提案する。 提案手法では,グラフを用いて倉庫の状態をモデル化し,地域情報を捕捉し,効率性や作業負荷に関連する表現を効果的に抽出するニューラルネットワークアーキテクチャを定義する。 そこで我々は,DRL手法の訓練と評価に使用する離散イベントシミュレーションモデルを開発した。 実験では, 公平性と効率性の両目標との良好なトレードオフを概説する, 支配的でない政策集合を見出すことが実証された。 トレーニングされたポリシーは、効率性と公平性の両面でベンチマークを上回っます。 さらに、異なる倉庫サイズのシナリオでテストした場合、優れたトランスファービリティ特性を示す。 シミュレーションモデルの実装,提案手法,実験について報告する。

In collaborative human-robot order picking systems, human pickers and Autonomous Mobile Robots (AMRs) travel independently through a warehouse and meet at pick locations where pickers load items onto the AMRs. In this paper, we consider an optimization problem in such systems where we allocate pickers to AMRs in a stochastic environment. We propose a novel multi-objective Deep Reinforcement Learning (DRL) approach to learn effective allocation policies to maximize pick efficiency while also aiming to improve workload fairness amongst human pickers. In our approach, we model the warehouse states using a graph, and define a neural network architecture that captures regional information and effectively extracts representations related to efficiency and workload. We develop a discrete-event simulation model, which we use to train and evaluate the proposed DRL approach. In the experiments, we demonstrate that our approach can find non-dominated policy sets that outline good trade-offs between fairness and efficiency objectives. The trained policies outperform the benchmarks in terms of both efficiency and fairness. Moreover, they show good transferability properties when tested on scenarios with different warehouse sizes. The implementation of the simulation model, proposed approach, and experiments are published.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-09
# 電子カルテモデリングのための解釈可能なニューラル・テンポラル・ポイント・プロセス

Interpretable Neural Temporal Point Processes for Modelling Electronic Health Records ( http://arxiv.org/abs/2404.08007v1 )

ライセンス: Link先を確認
Bingqing Liu, (参考訳) 電子健康記録(Electronic Health Records, EHR)は、患者からの出来事(医療訪問)を記録する一時的なシーケンスとして表すことができる。 ニューラル・テンポラル・ポイント・プロセス (NTPP) は連続時間空間で発生する事象列のモデル化において大きな成功を収めた。 しかしながら、ニューラルネットワークのブラックボックスの性質のため、既存のNTPPモデルは、異なるイベントタイプ間の依存関係を説明するには不十分である。 本稿では, word2vec と Hawkes プロセスにインスパイアされたイベントシーケンスモデリングのための解釈可能なフレームワーク inf2vec を提案する。 実験では,イベント予測におけるモデルの有効性と,型型学習の影響を実証した。

Electronic Health Records (EHR) can be represented as temporal sequences that record the events (medical visits) from patients. Neural temporal point process (NTPP) has achieved great success in modeling event sequences that occur in continuous time space. However, due to the black-box nature of neural networks, existing NTPP models fall short in explaining the dependencies between different event types. In this paper, inspired by word2vec and Hawkes process, we propose an interpretable framework inf2vec for event sequence modelling, where the event influences are directly parameterized and can be learned end-to-end. In the experiment, we demonstrate the superiority of our model on event prediction as well as type-type influences learning.
翻訳日:2024-04-15 16:54:09 公開日:2024-04-09
# エンティティの時間的側面を考慮に入れた複数モデル

Multiple Models for Recommending Temporal Aspects of Entities ( http://arxiv.org/abs/1803.07890v4 )

ライセンス: Link先を確認
Tu Nguyen, Nattiya Kanhabua, Wolfgang Nejdl, (参考訳) エンティティアスペクトレコメンデーションは、ユーザがエンティティに関するセレンディピティーで顕著な情報を見つけるのに役立つセマンティック検索における新しいタスクである。 しかしながら、エンティティの側面は時間的に動的であり、時間とともに発生するイベントによって駆動されることが多い。 このような場合、サリエンス機能のみに基づくアスペクト提案は、2つの理由から不満足な結果をもたらす可能性がある。 第一に、塩分濃度は長期間にわたって蓄積されることが多く、再発を考慮しない。 第二に、イベントエンティティに関連する多くの側面は、強く時間に依存します。 本稿では、検索体験を改善するために、最も関連性の高い側面を推奨し、考慮すべき時間を考慮した、あるエンティティの時間的アスペクトレコメンデーションの課題について検討する。 本稿では,複数時間およびタイプ依存モデルから学習し,サリエンスとリレーシ特性を動的に交換するイベント中心アンサンブルランキング手法を提案する。 実世界の問合せログに関する広範な実験を通じて,本手法が堅牢であり,競合するベースラインよりも有効であることを示す。

Entity aspect recommendation is an emerging task in semantic search that helps users discover serendipitous and prominent information with respect to an entity, of which salience (e.g., popularity) is the most important factor in previous work. However, entity aspects are temporally dynamic and often driven by events happening over time. For such cases, aspect suggestion based solely on salience features can give unsatisfactory results, for two reasons. First, salience is often accumulated over a long time period and does not account for recency. Second, many aspects related to an event entity are strongly time-dependent. In this paper, we study the task of temporal aspect recommendation for a given entity, which aims at recommending the most relevant aspects and takes into account time in order to improve search experience. We propose a novel event-centric ensemble ranking method that learns from multiple time and type-dependent models and dynamically trades off salience and recency characteristics. Through extensive experiments on real-world query logs, we demonstrate that our method is robust and achieves better effectiveness than competitive baselines.
翻訳日:2024-04-14 16:55:44 公開日:2024-04-09
# パーソナライズされたレコメンデーションのための非CGM糖尿病データの予測可能性について

On the Predictability of non-CGM Diabetes Data for Personalized Recommendation ( http://arxiv.org/abs/1808.07380v5 )

ライセンス: Link先を確認
Tu Nguyen, Markus Rokicki, (参考訳) 連続グルコースモニタリング(CGM)では、血糖予測のデータ駆動モデルが関連する研究に有効であることが示されている。 しかし、そのようなシステム(CGM)は必ずしも家庭の患者のために利用できるわけではない。 本研究では,9人の患者を対象とした調査を行い,患者レベルの血糖予測に基づくデータ駆動型(いわゆる機械学習)モデルのオンライン予測可能性について検討した。 そこで本研究では,これらのデータのノイズ特性を考慮に入れた予測後手法を提案し,その性能を極端に向上させる。

With continuous glucose monitoring (CGM), data-driven models on blood glucose prediction have been shown to be effective in related work. However, such (CGM) systems are not always available, e.g., for a patient at home. In this work, we conduct a study on 9 patients and examine the online predictability of data-driven (aka. machine learning) based models on patient-level blood glucose prediction; with measurements are taken only periodically (i.e., after several hours). To this end, we propose several post-prediction methods to account for the noise nature of these data, that marginally improves the performance of the end system.
翻訳日:2024-04-14 16:55:44 公開日:2024-04-09
# 甲状腺癌診断における放射線と人工知能の進歩

Advancements in Radiomics and Artificial Intelligence for Thyroid Cancer Diagnosis ( http://arxiv.org/abs/2404.07239v1 )

ライセンス: Link先を確認
Milad Yousefi, Shadi Farabi Maleki, Ali Jafarizadeh, Mahya Ahmadpour Youshanlui, Aida Jafari, Siamak Pedrammehr, Roohallah Alizadehsani, Ryszard Tadeusiewicz, Pawel Plawiak, (参考訳) 甲状腺癌は、高度な診断方法を必要とする世界的な健康上の問題である。 本総説では, 甲状腺癌診断におけるAIおよび放射線治療の応用について概説する。 PRISMAガイドラインに準拠した複数のデータベースのレビューは2023年10月まで行われた。 キーワードの組み合わせにより、甲状腺癌と関連する被験者に関するイギリスの学術出版物が発見された。 109件の複製が削除された後、267件の書類が元の捜索から返却された。 論文114項目を要約・題名試験により削除した後, 関連研究を所定基準に従って選択した。 総合的な分析の結果、追加の6つの研究が除外された。 28種類の研究のうち、超音波(US)画像を含む放射能分析は、甲状腺癌を診断する効果を実証した。 様々な結果が指摘され、いくつかの研究は現状を上回り、新たな戦略を提示した。 この文献は、解釈可能性の問題、データセットの制約、オペレータ依存など、AIモデルが直面するさまざまな課題を強調している。 28件の総合的な研究は、標準化の取り組みとこれらの懸念に対処するための先進的なマルチセンター研究の必要性について言及した。 さらに、説明可能なAI技術の進歩やパーソナライズされた医療技術など、これらの障害を克服するためのアプローチが特定された。 このレビューは、AIと放射線医学が甲状腺癌の診断と治療をどう変えるかに焦点を当てている。 課題にもかかわらず、今後の多分野連携、臨床応用性検証、アルゴリズム改善の研究は、甲状腺癌の治療における患者結果と診断精度を改善する可能性を秘めている。

Thyroid cancer is an increasing global health concern that requires advanced diagnostic methods. The application of AI and radiomics to thyroid cancer diagnosis is examined in this review. A review of multiple databases was conducted in compliance with PRISMA guidelines until October 2023. A combination of keywords led to the discovery of an English academic publication on thyroid cancer and related subjects. 267 papers were returned from the original search after 109 duplicates were removed. Relevant studies were selected according to predetermined criteria after 124 articles were eliminated based on an examination of their abstract and title. After the comprehensive analysis, an additional six studies were excluded. Among the 28 included studies, radiomics analysis, which incorporates ultrasound (US) images, demonstrated its effectiveness in diagnosing thyroid cancer. Various results were noted, some of the studies presenting new strategies that outperformed the status quo. The literature has emphasized various challenges faced by AI models, including interpretability issues, dataset constraints, and operator dependence. The synthesized findings of the 28 included studies mentioned the need for standardization efforts and prospective multicenter studies to address these concerns. Furthermore, approaches to overcome these obstacles were identified, such as advances in explainable AI technology and personalized medicine techniques. The review focuses on how AI and radiomics could transform the diagnosis and treatment of thyroid cancer. Despite challenges, future research on multidisciplinary cooperation, clinical applicability validation, and algorithm improvement holds the potential to improve patient outcomes and diagnostic precision in the treatment of thyroid cancer.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-09
# バッハのカノン分析におけるブライヤー構成代数と古典的クリプトアナリシスの相互作用

Interactions Between Brauer Configuration Algebras and Classical Cryptanalysis to Analyze Bach's Canons ( http://arxiv.org/abs/2404.07240v1 )

ライセンス: Link先を確認
Agustín Moreno Cañadas, Pedro Fernando Fernández Espinosa, José Gregorio Rodríguez Nieto, Odette M. Mendez, Ricardo Hugo Arteaga Bastidas, (参考訳) ブラウアー構成代数(BCA)とその特殊メッセージは、導入以来、数学と科学のいくつかの分野の研究に役立っている。 本稿では,古典的暗号理論と音楽理論の理論的枠組みとして,そのような代数を用いる新たな視点について論じる。 いくつかのブロック暗号がブライヤー構成代数(英語版)とラベル付けされていることが証明されている。 特に、Vigenere暗号システムの暗号文のみの攻撃に関連するBCAの寸法は、対応するキーの長さとキャプチャされた暗号文の一致インデックスによって与えられる。 一方、歴史的に、バッハのカノンは解決された音楽パズルと見なされてきた。 しかしながら、バッハがそのようなカノンをどう提案したかという点で、その解決策が音楽的な問題に限られているかどうかに疑問が残る。 本稿では、バッハが提唱したBWV 1079 (Musical Offering) とカノン \^a 4 Voc: Perpetuus (BWV 1073) において、ブライヤー構成代数の理論に基づく代替解を与える。 具体的には、Canon \^a 6 Voc (BWV 1076)、Canon 1 \^a2 (Canon canon)、Canon \^a4 Quaerendo Invenietisである。 これらの解は、特定のブラウアーメッセージの暗号文(ルートとトランスポジション暗号)として解釈することで得られる。 特に、そのようなカノンで使われる音符の構造や形は、バッハの作品で最も使われている記号の形を通して記述できる。

Since their introduction, Brauer configuration algebras (BCAs) and their specialized messages have helped research in several fields of mathematics and sciences. This paper deals with a new perspective on using such algebras as a theoretical framework in classical cryptography and music theory. It is proved that some block cyphers define labeled Brauer configuration algebras. Particularly, the dimension of the BCA associated with a ciphertext-only attack of the Vigenere cryptosystem is given by the corresponding key's length and the captured ciphertext's coincidence index. On the other hand, historically, Bach's canons have been considered solved music puzzles. However, due to how Bach posed such canons, the question remains whether their solutions are only limited to musical issues. This paper gives alternative solutions based on the theory of Brauer configuration algebras to some of the puzzle canons proposed by Bach in his Musical Offering (BWV 1079) and the canon \^a 4 Voc: Perpetuus (BWV 1073). Specifically to the canon \^a 6 Voc (BWV 1076), canon 1 \^a2 (also known as the crab canon), and canon \^a4 Quaerendo Invenietis. These solutions are obtained by interpreting such canons as ciphertexts (via route and transposition cyphers) of some specialized Brauer messages. In particular, it is noted that the structure or form of the notes used in such canons can be described via the shape of the most used symbols in Bach's works.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-09
# OpenHPIにおけるMOOCを用いた広帯域オーディエンスへの量子情報と計算の導入

Introducing Quantum Information and Computation to a Broader Audience with MOOCs at OpenHPI ( http://arxiv.org/abs/2404.07241v1 )

ライセンス: Link先を確認
Gerhard Hellstern, Jörg Hettel, Bettina Just, (参考訳) 量子コンピューティングは破壊的なポテンシャルを持つエキサイティングな分野であるが、アクセスは非常に困難である。 このため、量子コンピューティングの教え方に関する多くの概念が世界中で開発されている。 これは常に、実践的な概念、実際に教えられる内容、そして、教える概念の成功を測定する方法に関する疑問を提起する。 2022年と2023年に著者らは、Hasso Plattner InstituteのOpenHPIプラットフォーム上で異なる学習パスを持つ2週間のMOOC(大規模なオープンオンラインコース)を合計9回提供した。 このプラットフォームの目的は、コンピュータサイエンスの教育を誰でも無料で利用できるようにすることである。 9つの量子コースは自己完結したカリキュラムを形成する。 合計で17157のコースが7413人の自然人が参加しており、現在も増加傾向にある。 本稿では,コースの概念を提示し,参加者の背景,コースにおける行動,学習成功に関する匿名化データを評価する。 本稿では,MOOCに基づく量子コンピューティング教育の大規模なデータセットを初めて分析する。 要約された結果は、IT専門家に偏った参加者の不均一な個人的背景であり、その大多数はドクティカルレコメンデーションに従っており、高い成功率であり、ドクティカルレコメンデーションに強く関連している。 このような量子コンピューティング学習者の大規模なグループからのデータの量は、量子コンピューティング教育の分野におけるさらなる研究の出発点となる。

Quantum computing is an exciting field with high disruptive potential, but very difficult to access. For this reason, numerous concepts are being developed worldwide on how quantum computing can be taught. This always raises questions about the didactic concept, the content actually taught, and how to measure the success of the teaching concept. In 2022 and 2023, the authors gave a total of nine two-week MOOCs (massive open online courses) with different possible learning paths on the Hasso Plattner Institute's OpenHPI platform. The platform's purpose is to make computer science education available to everyone free of charge. The nine quantum courses form a self-contained curriculum. A total of 17157 course attendances have been taken by 7413 natural persons, and the number is still rising. This paper presents the course concept and then evaluates the anonymized data on the background of the participants, their behavior in the courses, and their learning success. In the present paper for the first time such a large dataset of MOOC-based quantum computing education is analyzed. The summarized results are a heterogeneous personal background of the participants biased towards IT professionals, a majority following the didactic recommendations, and a high success rate, which is strongly correlatatd to following the didactic recommendations. The amount of data from such a large group of quantum computing learners offers numerous starting points for further research in the field of quantum computing education.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-09
# サンドウィッチ攻撃:LLMに対する多言語混合適応攻撃

Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs ( http://arxiv.org/abs/2404.07242v1 )

ライセンス: Link先を確認
Bibek Upadhayay, Vahid Behzadan, (参考訳) 大規模言語モデル(LLM)はますます開発と適用が進んでいるが、広く使われていることは課題に直面している。 これらの中には、LLMの応答を人間の値と整合させて有害な出力を防止し、安全訓練手法を通じて対処することが含まれる。 それでも悪役や悪質なユーザーは、学校実験室で爆弾を作る方法、有害薬物のレシピ、プライバシーの権利を回避する方法など、有害な質問に対する誤った対応をLLMを操作することに成功している。 もうひとつの課題は、モデルを複数の言語で理解し、応答できるようにするLLMの多言語機能である。 その結果、攻撃者は異なる言語におけるLLMの非バランスな事前学習データセットと、低リソース言語における比較的低いモデル性能を利用することができた。 その結果、攻撃者は低リソース言語を使用して、故意にモデルを操作し、有害な応答を生成する。 同様の攻撃ベクトルの多くはモデルプロバイダによってパッチされているため、LLMは言語ベースの操作に対してより堅牢である。 本稿では,多言語混合攻撃法である「emph{Sandwich attack}」と呼ばれるブラックボックス攻撃ベクトルを導入する。 GoogleのBard、Gemini Pro、LLaMA-2-70-B-Chat、GPT-3.5-Turbo、GPT-4、Claude-3-OPUSの5つの異なるモデルを用いた実験により、この攻撃ベクトルが敵によって悪質な応答を生成し、これらのモデルから不一致の応答を引き出すことができることを示した。 本研究は,サンドウィッチ攻撃のメカニズムと影響を詳述することにより,より安全でレジリエントなLDMに向けた今後の研究・開発を指導し,誤用の可能性を最小限に抑えながら公共の利益に貢献することを目的とする。

Large Language Models (LLMs) are increasingly being developed and applied, but their widespread use faces challenges. These include aligning LLMs' responses with human values to prevent harmful outputs, which is addressed through safety training methods. Even so, bad actors and malicious users have succeeded in attempts to manipulate the LLMs to generate misaligned responses for harmful questions such as methods to create a bomb in school labs, recipes for harmful drugs, and ways to evade privacy rights. Another challenge is the multilingual capabilities of LLMs, which enable the model to understand and respond in multiple languages. Consequently, attackers exploit the unbalanced pre-training datasets of LLMs in different languages and the comparatively lower model performance in low-resource languages than high-resource ones. As a result, attackers use a low-resource languages to intentionally manipulate the model to create harmful responses. Many of the similar attack vectors have been patched by model providers, making the LLMs more robust against language-based manipulation. In this paper, we introduce a new black-box attack vector called the \emph{Sandwich attack}: a multi-language mixture attack, which manipulates state-of-the-art LLMs into generating harmful and misaligned responses. Our experiments with five different models, namely Google's Bard, Gemini Pro, LLaMA-2-70-B-Chat, GPT-3.5-Turbo, GPT-4, and Claude-3-OPUS, show that this attack vector can be used by adversaries to generate harmful responses and elicit misaligned responses from these models. By detailing both the mechanism and impact of the Sandwich attack, this paper aims to guide future research and development towards more secure and resilient LLMs, ensuring they serve the public good while minimizing potential for misuse.
翻訳日:2024-04-12 15:48:02 公開日:2024-04-09
# 行動認識ネットワークを用いた車線変化の分類と予測

Lane Change Classification and Prediction with Action Recognition Networks ( http://arxiv.org/abs/2208.11650v3 )

ライセンス: Link先を確認
Kai Liang, Jun Wang, Abhir Bhalerao, (参考訳) 周囲の車両の車線変更意図を予測することは、自律運転システムにおいて効率的かつ安全な運転決定に不可欠である。 以前の研究では、車線変更分類に駆動速度、加速度などの物理変数をしばしば採用していた。 しかし、物理変数には意味情報が含まれていない。 3D CNNは急速に発展してきたが、車線変化認識のための行動認識モデルと外観特徴を利用する手法は少なく、すべて前処理データに付加的な情報を必要とする。 本研究では,カメラで収集した映像データを用いて,車線変化認識のための2つの行動認識手法を含むエンドツーエンドフレームワークを提案する。 提案手法は,PreVENTIONデータセットのRGBビデオデータのみを用いて,最適なレーン変更分類結果を得る。 クラスアクティベーションマップは、行動認識モデルが車線変化運動を効率的に抽出できることを実証する。 本稿では,動きの手がかりを抽出する手法を提案する。

Anticipating lane change intentions of surrounding vehicles is crucial for efficient and safe driving decision making in an autonomous driving system. Previous works often adopt physical variables such as driving speed, acceleration and so forth for lane change classification. However, physical variables do not contain semantic information. Although 3D CNNs have been developing rapidly, the number of methods utilising action recognition models and appearance feature for lane change recognition is low, and they all require additional information to pre-process data. In this work, we propose an end-to-end framework including two action recognition methods for lane change recognition, using video data collected by cameras. Our method achieves the best lane change classification results using only the RGB video data of the PREVENTION dataset. Class activation maps demonstrate that action recognition models can efficiently extract lane change motions. A method to better extract motion clues is also proposed in this paper.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-09
# 潜在力学から意味表現へ

From latent dynamics to meaningful representations ( http://arxiv.org/abs/2209.00905v4 )

ライセンス: Link先を確認
Dedi Wang, Yihang Wang, Luke Evans, Pratyush Tiwary, (参考訳) 表現学習は、機械学習と人工知能の台頭の中心であるが、学習された表現を意味のあるものにする上で重要な問題は依然として残っている。 これに対し、典型的なアプローチは、事前確率分布を通して学習された表現を規則化することである。 しかし、そのような先行は一般に利用できないかアドホックである。 この問題に対処するため、近年の取り組みは、学習プロセスの指針となる物理的な原則からの洞察の活用に傾いている。 本稿では,純粋に動的に制約された表現学習フレームワークを提案する。 事前定義された確率に頼る代わりに、遅延表現は学習可能な遷移密度を持つ過度に損傷されたランゲヴィン力学に従うように制限する。 これは確率力学系における表現学習のより自然な制約であり、基底真理表現を一意に識別する重要な能力を持つことを示す。 我々は,現実の蛍光DNAフィルムデータセットを含む様々なシステムに対して,我々の枠組みを検証する。 本アルゴリズムは直交的,等尺的,有意義な潜在表現を一意に識別できることを示す。

While representation learning has been central to the rise of machine learning and artificial intelligence, a key problem remains in making the learned representations meaningful. For this, the typical approach is to regularize the learned representation through prior probability distributions. However, such priors are usually unavailable or are ad hoc. To deal with this, recent efforts have shifted towards leveraging the insights from physical principles to guide the learning process. In this spirit, we propose a purely dynamics-constrained representation learning framework. Instead of relying on predefined probabilities, we restrict the latent representation to follow overdamped Langevin dynamics with a learnable transition density - a prior driven by statistical mechanics. We show this is a more natural constraint for representation learning in stochastic dynamical systems, with the crucial ability to uniquely identify the ground truth representation. We validate our framework for different systems including a real-world fluorescent DNA movie dataset. We show that our algorithm can uniquely identify orthogonal, isometric and meaningful latent representations.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-09
# 3次元分類の地域的特徴

Local Neighborhood Features for 3D Classification ( http://arxiv.org/abs/2212.05140v2 )

ライセンス: Link先を確認
Shivanand Venkanna Sheshappanavar, Chandra Kambhamettu, (参考訳) ディープラーニングモデルの訓練戦略の進歩により、ポイントクラウド分類法の訓練は大幅に改善されている。 例えば、PointNet++に著名なトレーニングテクニックとInvResNetレイヤを採用するPointNeXtは、現実世界のScanObjectNNデータセットで7%以上の改善を実現している。 しかし、これらのモデルのほとんどは、ネットワーク層に供給する前に計算された近傍点の特徴を無視しながら、高次元空間にマッピングされた近傍点の点座標特徴を用いる。 本稿では,これらの近傍特徴の活用と有用性を検討するために,PointNeXtモデルを再検討する。 我々はModelNet40(合成)、ScanObjectNN(実世界)、そして最近の大規模で現実世界の食料品データセットである3DGrocery100でPointNeXtをトレーニングし評価する。 さらに、分類精度を向上させるために、PointNeXtの上位2つのチェックポイントを平均化するための追加の推論戦略を提供する。 上記のアイデアと合わせて、現実世界のデータセットを持つPointNeXtモデル、ScanObjectNN(最強の亜種)、3DGrocery100のApple10、Fruits、Valgetables、Packagesサブセットで、それぞれ0.5%、1%、4.8%、3.4%、および1.6%の全体的な精度が得られます。 また、ModelNet40の精度も0.2%向上しました。

With advances in deep learning model training strategies, the training of Point cloud classification methods is significantly improving. For example, PointNeXt, which adopts prominent training techniques and InvResNet layers into PointNet++, achieves over 7% improvement on the real-world ScanObjectNN dataset. However, most of these models use point coordinates features of neighborhood points mapped to higher dimensional space while ignoring the neighborhood point features computed before feeding to the network layers. In this paper, we revisit the PointNeXt model to study the usage and benefit of such neighborhood point features. We train and evaluate PointNeXt on ModelNet40 (synthetic), ScanObjectNN (real-world), and a recent large-scale, real-world grocery dataset, i.e., 3DGrocery100. In addition, we provide an additional inference strategy of weight averaging the top two checkpoints of PointNeXt to improve classification accuracy. Together with the abovementioned ideas, we gain 0.5%, 1%, 4.8%, 3.4%, and 1.6% overall accuracy on the PointNeXt model with real-world datasets, ScanObjectNN (hardest variant), 3DGrocery100's Apple10, Fruits, Vegetables, and Packages subsets, respectively. We also achieve a comparable 0.2% accuracy gain on ModelNet40.
翻訳日:2024-04-11 20:04:52 公開日:2024-04-09
# フィルタ時系列を用いたハイブリッド量子ギャップ推定アルゴリズム

Hybrid quantum gap estimation algorithm using a filtered time series ( http://arxiv.org/abs/2212.14039v4 )

ライセンス: Link先を確認
Woo-Ram Lee, Ryan Scott, V. W. Scarola, (参考訳) 古典的なメモリ制限よりも有利な量子シミュレーションにより、コンパクトな量子回路は、難解な量子多体問題に対する洞察を得ることができるが、量子時間進化とノイズにおける大きな回路深さの相互関係の障害は、近い将来に非バイアスの量子シミュレーションを除外しているように見える。 我々は、古典的な後処理、すなわちオフライン時系列の長時間フィルタリングが、量子時間進化に必要な回路深さを指数関数的に改善することを証明する。 このフィルタリング手法をハイブリッド量子古典アルゴリズムの構築に適用し,エネルギーギャップを推定する。 我々は、最小スピンモデルの有限スケールスケーリングにおける概念実証シミュレーションにおいて、フィルタの動作範囲内で、アルゴリズムの成功を実証する。 我々の発見は、短期的にメモリの優位性を提供するために、非バイアス量子シミュレーションのステージを設定した。

Quantum simulation advantage over classical memory limitations would allow compact quantum circuits to yield insight into intractable quantum many-body problems, but the interrelated obstacles of large circuit depth in quantum time evolution and noise seem to rule out unbiased quantum simulation in the near term. We prove that classical post-processing, i.e., long-time filtering of an offline time series, exponentially improves the circuit depth needed for quantum time evolution. We apply the filtering method to the construction of a hybrid quantum-classical algorithm to estimate energy gap, an important observable not governed by the variational theorem. We demonstrate, within an operating range of filtering, the success of the algorithm in proof-of-concept simulation for finite-size scaling of a minimal spin model. Our findings set the stage for unbiased quantum simulation to offer memory advantage in the near term.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-09
# 画像・動画における説明可能な異常検出:調査

Explainable Anomaly Detection in Images and Videos: A Survey ( http://arxiv.org/abs/2302.06670v3 )

ライセンス: Link先を確認
Yizhou Wang, Dongliang Guo, Sheng Li, Octavia Camps, Yun Fu, (参考訳) 画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習のアカデミックと実世界のシナリオの両方において非常に重要である。 近年の視覚異常検出技術の急速な発展にもかかわらず、これらのブラックボックスモデルの解釈や、なぜ異常を区別できるのかの合理的な説明は乏しい。 本稿では,説明可能な視覚異常検出法に焦点をあてた最初の調査を行う。 まず,画像レベルの異常検出とビデオレベルの異常検出の基本的背景を紹介する。 次に,本調査の主な内容として,画像とビデオの両方に対する説明可能な異常検出方法に関する総合的かつ徹底的な文献レビューを紹介する。 次に、画像とビデオの両方に説明可能な異常検出方法が適用可能である理由と、他の方法が1つのモダリティにのみ適用可能である理由を分析する。 さらに、現在の2次元視覚異常検出データセットと評価指標の要約を提供する。 最後に、2次元視覚異常検出の可否を説明するために、将来有望ないくつかの方向とオープンな課題について論じる。 関連するリソースコレクションはhttps://github.com/wyzjack/Awesome-XAD.comで公開されている。

Anomaly detection and localization of visual data, including images and videos, are of great significance in both machine learning academia and applied real-world scenarios. Despite the rapid development of visual anomaly detection techniques in recent years, the interpretations of these black-box models and reasonable explanations of why anomalies can be distinguished out are scarce. This paper provides the first survey concentrated on explainable visual anomaly detection methods. We first introduce the basic background of image-level and video-level anomaly detection. Then, as the main content of this survey, a comprehensive and exhaustive literature review of explainable anomaly detection methods for both images and videos is presented. Next, we analyze why some explainable anomaly detection methods can be applied to both images and videos and why others can be only applied to one modality. Additionally, we provide summaries of current 2D visual anomaly detection datasets and evaluation metrics. Finally, we discuss several promising future directions and open problems to explore the explainability of 2D visual anomaly detection. The related resource collection is given at https://github.com/wyzjack/Awesome-XAD.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-09
# 信用販売リスクの分類のための変量量子固有解法

Variational Quantum Eigensolver for Classification in Credit Sales Risk ( http://arxiv.org/abs/2303.02797v2 )

ライセンス: Link先を確認
Joanna Wiśniewska, Marek Sawerwain, (参考訳) データ分類タスクは、科学の様々な分野で広く利用されており、様々な既知のアプローチ(例えばニューラルネットワーク)によって実現される。 しかし、この研究において、量子計算は問題を解くために利用された。 本稿では、変動量子固有解器(VQE)といわゆるSWAP-Testに基づいて、クレジットカード販売に関連する分類問題を解くことができる量子回路について考察する。 具体的には、選択された決定変数(例えば、ターンオーバー、協力の歴史)の値に基づいて顧客の信頼性を決定する決定問題に対処する。 古典的なデータサンプルは正規化された量子状態に変換される。 この操作の後、サンプルは量子ゲートの回路によって処理される。 VQEアプローチでは、量子回路(いわゆるアンサッツ)のパラメータをトレーニングして、各クラスのパターンステートを出力することができる。 活用されたデータセットでは、2つのクラスが観察できる。 しかしながら、VQE回路は2つ以上のクラスを区別し(より詳細なケースを導入)、上述のSWAP-Testを用いて最終的な結果を得る。 精巧な解はコンパクトであり、(量子レジスタの指数的な容量のため)対数的に増加する量子ビットだけを必要とする。 提示された量子回路の複雑さが低いため、ノイズ中間スケール量子(NISQ)デバイスを含む現在利用可能な量子コンピュータで実験を行うことができる。 このタイプのデバイスは、ノイズがあるにもかかわらず、この研究で分析されたタスクを解くことができる。 計算、シミュレーション、プロット、比較はすべてPython言語環境で実装され、再現された。 量子分類の例のソースコードは、ソースコードリポジトリにある。

The data classification task is broadly utilized in numerous fields of science and it may be realized by different known approaches (e.g. neural networks). However, in this work, quantum computations were harnessed to solve the problem. We take into consideration a quantum circuit which is based on the Variational Quantum Eigensolver (VQE) and so-called SWAP-Test what allows us to solve a classification problem connected with credit sales. More specifically, we cope with a decision problem of determining customer's reliability based on values of selected decision variables (e.g. generated turnover, history of cooperation). The classical data samples are converted into normalized quantum states. After this operation, samples may be processed by a circuit of quantum gates. The VQE approach allows training the parameters of a quantum circuit (so-called ansatz) to output pattern-states for each class. In the utilized data set, two classes may be observed -- cases with low and high credit risk. However, the VQE circuit differentiates more classes than two (introduces more detailed cases) and the final results are obtained with the use of aforementioned SWAP-Test. The elaborated solution is compact and requires only logarithmically increasing number of qubits (due to the exponential capacity of quantum registers). Because of the low complexity of the presented quantum circuit, it is possible to perform experiments on currently available quantum computers, including the Noisy Intermediate-Scale Quantum (NISQ) devices. This type of devices, despite the presence of noise, is capable of solving the task analyzed in this work. All calculations, simulations, plots, and comparisons were implemented and conduced in the Python language environment. Source codes for each example of quantum classification can be found in the source code repository.
翻訳日:2024-04-11 19:55:03 公開日:2024-04-09
# モデル所有者決定に対する虚偽の主張

False Claims against Model Ownership Resolution ( http://arxiv.org/abs/2304.06607v7 )

ライセンス: Link先を確認
Jian Liu, Rui Zhang, Sebastian Szyller, Kui Ren, N. Asokan, (参考訳) ディープニューラルネットワーク(DNN)モデルは、モデル所有者の貴重な知的特性であり、競争上の優位性を構成する。 そのため,モデル盗難防止技術の開発が不可欠である。 モデルオーナシップ解決(モデルオーナシップ解決、MOR)は、モデル盗難を抑える手法のクラスである。 MORスキームにより、被疑者が被疑者モデルに対して、透かしや指紋などの証拠を提示することにより、被疑者が被疑者モデルから盗まれたか、又は被疑者が所有するソースモデルから引き出されたかを示すことによって、被疑者モデルの所有権主張を主張することができる。 既存のMORスキームのほとんどは、悪意のある被疑者に対して堅牢性を優先し、被疑者が実際に盗まれたモデルであれば、被疑者が勝つことを保証している。 本稿では,文学における一般的なMORスキームが,異なる,等しく重要だが不十分な,頑健な,悪意のある告発者に対して脆弱であることを示す。 我々は、悪質な告発者が、盗まれていない独立した容疑者モデルに対して、いかに偽の主張を下せるかを示す。 我々の中核的な考え方は、悪意のある告発者は、独立した被疑者モデルに対する証拠としてうまく機能する(伝達可能な)逆例を見つけることによって、特定されたMORプロセスから(検出なしで)逸脱することができるということです。 この目的のために、我々はまず共通のMORスキームの手順を一般化し、この一般化の下では、偽主張に対する防御は、(伝達可能な)逆例を防ぐのと同じくらい困難であることを示す。 体系的な経験的評価から、我々の偽のクレーム攻撃は、実世界のモデルであるAmazonのRekognition APIを含む、我々の一般化に続くMORスキームで常に成功することを示す。

Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation, we show that our false claim attacks always succeed in the MOR schemes that follow our generalization, including in a real-world model: Amazon's Rekognition API.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-09
# 航空・宇宙ネットワークにおけるフェデレーション学習モデルアグリゲーション

Federated Learning Model Aggregation in Heterogenous Aerial and Space Networks ( http://arxiv.org/abs/2305.16351v2 )

ライセンス: Link先を確認
Fan Dong, Ali Abbasi, Steve Drew, Henry Leung, Xin Wang, Jiayu Zhou, (参考訳) フェデレートラーニング(Federated Learning)は、航空・宇宙ネットワーク(ASN)におけるネットワークとデータプライバシの制約の下で、ドローン、気球、衛星からの大規模プライベートエッジデータを活用する、有望なアプローチを提供する。 既存の研究は、学習プロセスの最適化、計算効率、通信オーバーヘッドを幅広く研究してきた。 重要かつしばしば見落とされがちな側面は、参加者が様々な知識で予測的知識を貢献し、学習されたフェデレーションモデルの品質に影響を与えることである。 本稿では、高多様性クライアントからの更新を強調し、低多様性クライアントからのクライアントの影響を小さくするWeiAvgCS(Weighted Averaging and Client Selection)フレームワークを導入することにより、この問題に対処する新しいアプローチを提案する。 データ配布の直接の共有は、クライアントから送られた追加のプライベート情報のために禁止される可能性がある。 そこで,提案手法を用いて多様性を推定する手法を提案する。 WeiAvgCSの有効性を示す大規模な実験が行われた。 WeiAvgCSはFashionMNISTで46%、CIFAR10で38%の速度で収束できる。

Federated learning offers a promising approach under the constraints of networking and data privacy constraints in aerial and space networks (ASNs), utilizing large-scale private edge data from drones, balloons, and satellites. Existing research has extensively studied the optimization of the learning process, computing efficiency, and communication overhead. An important yet often overlooked aspect is that participants contribute predictive knowledge with varying diversity of knowledge, affecting the quality of the learned federated models. In this paper, we propose a novel approach to address this issue by introducing a Weighted Averaging and Client Selection (WeiAvgCS) framework that emphasizes updates from high-diversity clients and diminishes the influence of those from low-diversity clients. Direct sharing of the data distribution may be prohibitive due to the additional private information that is sent from the clients. As such, we introduce an estimation for the diversity using a projection-based method. Extensive experiments have been performed to show WeiAvgCS's effectiveness. WeiAvgCS could converge 46% faster on FashionMNIST and 38% faster on CIFAR10 than its benchmarks on average in our experiments.
翻訳日:2024-04-11 19:45:16 公開日:2024-04-09
# 最小コッチェンスペクトル問題に対するSATソルバーとコンピュータ代数攻撃

A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v7 )

ライセンス: Link先を確認
Zhengyu Li, Curtis Bright, Vijay Ganesh, (参考訳) 量子基盤の基本的な結果の1つは、Kochen-Specker (KS) の定理であり、この定理は、予測が量子力学と一致する理論は文脈的でなければならない、すなわち、量子観測は既存の値を明らかにするものとしては理解できない、と述べている。 この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。 多くのKSベクトル系が知られているが、3次元の最小KSベクトル系(3D)を見つけるという問題は55年以上も頑固に開き続けている。 最小KS問題に対処するため,探索空間の大部分を抽出するのに非常に有効な等方性のない順序生成技術を用いて,ブール充足可能性 (SAT) と計算機代数システム (CAS) を組み合わせた検証可能な新しい証明生成手法を提案する。 提案手法は、3次元のKS系が少なくとも24個のベクトルを含む必要があることを示す。 逐次かつ並列なCube-and-Conquer (CnC) SAT+CAS法は,SAT法,CAS法,Uijlen法,Westerbaan法よりも大幅に高速であることを示す。 さらに、我々の並列パイプラインは、最近導入されたSatisfiability Modulo Theories (SMS) メソッドの並列CnCバージョンよりもやや遅いが、これは部分的には証明生成のオーバーヘッドのためである。 最後に,KS問題に対する下位境界が 40.3 TiB である最初のコンピュータ検証証明証明書を順序23で提供する。

One of the fundamental results in quantum foundations is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known, the problem of finding the minimum KS vector system in three dimensions (3D) has remained stubbornly open for over 55 years. To address the minimum KS problem, we present a new verifiable proof-producing method based on a combination of a Boolean satisfiability (SAT) solver and a computer algebra system (CAS) that uses an isomorph-free orderly generation technique that is very effective in pruning away large parts of the search space. Our method shows that a KS system in 3D must contain at least 24 vectors. We show that our sequential and parallel Cube-and-Conquer (CnC) SAT+CAS methods are significantly faster than SAT-only, CAS-only, and a prior CAS-based method of Uijlen and Westerbaan. Further, while our parallel pipeline is somewhat slower than the parallel CnC version of the recently introduced Satisfiability Modulo Theories (SMS) method, this is in part due to the overhead of proof generation. Finally, we provide the first computer-verifiable proof certificate of a lower bound to the KS problem with a size of 40.3 TiB in order 23.
翻訳日:2024-04-11 19:35:32 公開日:2024-04-09
# 深層学習における塑性維持

Maintaining Plasticity in Deep Continual Learning ( http://arxiv.org/abs/2306.13812v3 )

ライセンス: Link先を確認
Shibhansh Dohare, J. Fernando Hernandez-Garcia, Parash Rahman, A. Rupam Mahmood, Richard S. Sutton, (参考訳) 現代のディープラーニングシステムは、トレーニングが継続的に行われる連続的な学習環境とは対照的に、トレーニングが1度、そして二度と起こらない問題設定に特化している。 深層学習システムが連続的な学習環境に応用された場合、初期の例を思い出せないことはよく知られている。 より根本的だがあまり知られていないのは、プラスチックの喪失と呼ばれる新しい例について学ぶ能力を失うかもしれないということだ。 MNIST と ImageNet のデータセットを用いて,連続学習をタスクのシーケンスとして用いることで,可塑性損失の直接的実演を行う。 ImageNetでは、初期タスクではバイナリ分類性能が89%から77%に低下し、2000年タスクでは線形ネットワークのレベルが低下した。 可塑性の喪失は、幅広いディープネットワークアーキテクチャ、オプティマイザ、アクティベーション機能、バッチ正規化、ドロップアウトで発生したが、特に重量摂動と組み合わせた場合、L2正規化によって著しく緩和された。 さらに, 従来のバックプロパゲーションをわずかに修正して, 使用頻度の低い単位のごく一部を再初期化し, 可塑性を無限に維持する新しいアルゴリズム, 連続的バックプロパゲーションを導入する。

Modern deep-learning systems are specialized to problem settings in which training occurs once and then never again, as opposed to continual-learning settings in which training occurs continually. If deep-learning systems are applied in a continual learning setting, then it is well known that they may fail to remember earlier examples. More fundamental, but less well known, is that they may also lose their ability to learn on new examples, a phenomenon called loss of plasticity. We provide direct demonstrations of loss of plasticity using the MNIST and ImageNet datasets repurposed for continual learning as sequences of tasks. In ImageNet, binary classification performance dropped from 89% accuracy on an early task down to 77%, about the level of a linear network, on the 2000th task. Loss of plasticity occurred with a wide range of deep network architectures, optimizers, activation functions, batch normalization, dropout, but was substantially eased by L2-regularization, particularly when combined with weight perturbation. Further, we introduce a new algorithm -- continual backpropagation -- which slightly modifies conventional backpropagation to reinitialize a small fraction of less-used units after each example and appears to maintain plasticity indefinitely.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-09
# 大規模言語モデルの概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v9 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian, (参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。 LLMの成功は、この方向に多くの研究貢献をもたらした。 これらの作業には、アーキテクチャの革新、より良いトレーニング戦略、コンテキスト長の改善、微調整、マルチモーダルLLM、ロボティクス、データセット、ベンチマーク、効率など、さまざまなトピックが含まれている。 LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。 LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。 本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。 LLM研究の最前線における先進的なトピックを取り上げ,その背景概念について概観した。 このレビュー記事は、体系的な調査だけでなく、研究者や実践者が既存の研究の広範な情報的要約から洞察を得てLLM研究を進めるための、迅速な総合的な参考となることを意図している。

Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations, better training strategies, context length improvements, fine-tuning, multi-modal LLMs, robotics, datasets, benchmarking, efficiency, and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides an overview of the existing literature on a broad range of LLM-related concepts. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of research in LLMs. This review article is intended to not only provide a systematic survey but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-09
# 2-Way量子時間移動 : 日時空間-地球リンクの方法

Two-Way Quantum Time Transfer: A Method for Daytime Space-Earth Links ( http://arxiv.org/abs/2307.07371v2 )

ライセンス: Link先を確認
Randy Lafler, Mark L. Eickhoff, Scott C. Newey, Yamil Nieves Gonzalez, Kurt E. Stoltenburg, J. Frank Camacho, Mark A. Harris, Denis W. Oesch, Adrian J. Lewis, R. Nicholas Lanning, (参考訳) 多くの古典的および量子ネットワークアプリケーションにおいて、高精度なリモートクロック同期が不可欠である。 スペースアースリンクのオプションを評価すると、従来のソリューションでは低軌道の同期が得られず、必要以上に複雑な量子ネットワークアーキテクチャが生じる可能性がある。 代替策として、市販の市販量子光子源と検出装置を用いて、二方向量子時間転送(QTT)と呼ばれる手法を用いて、自由空間テストベッドを横断する2つのリモートクロックを同期させる。 日中スペースアースリンクとソフトウェアエミュレートされた衛星の動きを表す、非常に損失が多くノイズの多いチャネル条件下で、ピコ秒スケールのタイミング精度に達する。 この研究は、QTTが日中の宇宙空間における量子ネットワークや、GPSを用いた環境での高精度なタイミングにどのように関係しているかを実証する。

High-precision remote clock synchronization is crucial for many classical and quantum network applications. Evaluating options for space-Earth links, we find that traditional solutions may not produce the desired synchronization for low Earth orbits and unnecessarily complicate quantum-networking architectures. Demonstrating an alternative, we use commercial off-the-shelf quantum-photon sources and detection equipment to synchronize two remote clocks across our freespace testbed utilizing a method called two-way quantum time transfer (QTT). We reach picosecond-scale timing precision under very lossy and noisy channel conditions representative of daytime space-Earth links and software-emulated satellite motion. This work demonstrates how QTT is potentially relevant for daytime space-Earth quantum networking and/or providing high-precision timing in GPS-denied environments.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-09
# 広告オークションリアリズムの推進 : 実践的洞察とモデリング的含意

Advancing Ad Auction Realism: Practical Insights & Modeling Implications ( http://arxiv.org/abs/2307.11732v2 )

ライセンス: Link先を確認
Ming Chen, Sareh Nabi, Marciano Siniscalchi, (参考訳) 現代のリアルワールドオンライン広告のオークションは、標準モデル(Edelman et al , 2007; Varian, 2009)と、少なくとも4つの点で異なる: (1) 値とクリックスルーレートはユーザーの検索クエリに依存するが、広告主は特定のクエリに対する入札を部分的に「修正」できる; (2) 広告主は競合する入札者の数、アイデンティティ、正確な価値分布を知らない; 3) 広告主は、部分的、集約的なフィードバックのみを受け取っており、(4) 支払いルールは入札者に対して部分的にのみ知られている。 これらの特徴により、平衡入札行動を完全に特徴づけることは事実上不可能である。 本論文は,広告主を敵の帯域幅アルゴリズムが支配するエージェントとしてモデル化することで,売出し機構の複雑さによらず,現代広告の競売に関する有用な洞察を得ることが可能であることを示唆している。 このアプローチを実証するために、我々はまず、完全な平衡特性が知られていない複雑な実世界の価格ルールである「ソフトフロア」オークション(Zeithammer, 2019)をシミュレートした。 私たちはそれを見つける。 (i)値とクリックスルー率がクエリ依存の場合、入札者が同じ分布から引かれる場合でも、ソフトフロアは標準オークション形式と比較して収益を向上させることができる。 (i) 現実のシナリオを反映した分布的非対称性により、ソフトフロアは適切な選択された予備価格よりも低い収益をもたらし、単一のクエリに注意を向けることさえできる。 次に、さまざまな価格設定の入札から広告主の価値分布を推定する方法を実証し、Eコマースのウェブサイトから収集したデータを用いて、我々のアプローチを例示する。

Contemporary real-world online ad auctions differ from canonical models [Edelman et al., 2007; Varian, 2009] in at least four ways: (1) values and click-through rates can depend upon users' search queries, but advertisers can only partially "tune" their bids to specific queries; (2) advertisers do not know the number, identity, and precise value distribution of competing bidders; (3) advertisers only receive partial, aggregated feedback, and (4) payment rules are only partially known to bidders. These features make it virtually impossible to fully characterize equilibrium bidding behavior. This paper shows that, nevertheless, one can still gain useful insight into modern ad auctions by modeling advertisers as agents governed by an adversarial bandit algorithm, independent of auction mechanism intricacies. To demonstrate our approach, we first simulate "soft-floor" auctions [Zeithammer, 2019], a complex, real-world pricing rule for which no complete equilibrium characterization is known. We find that (i) when values and click-through rates are query-dependent, soft floors can improve revenues relative to standard auction formats even if bidder types are drawn from the same distribution; and (ii) with distributional asymmetries that reflect relevant real-world scenario, we find that soft floors yield lower revenues than suitably chosen reserve prices, even restricting attention to a single query. We then demonstrate how to infer advertiser value distributions from observed bids for a variety of pricing rules, and illustrate our approach with aggregate data from an e-commerce website.
翻訳日:2024-04-11 19:35:31 公開日:2024-04-09
# 非線型超伝導マイクロ波系のスペクトル理論:緩和率の抽出とモードハイブリダイゼーション

Spectral Theory for Non-linear Superconducting Microwave Systems: Extracting Relaxation Rates and Mode Hybridization ( http://arxiv.org/abs/2309.03435v3 )

ライセンス: Link先を確認
Dung N. Pham, Richard D. Li, Hakan E. Türeci, (参考訳) モードハイブリダイゼーションの正確なモデリングと放射緩和率の計算は超伝導量子デバイスの設計と最適化に不可欠である。 本研究では,超伝導体の一般的な3次元分布における励起の緩和速度の抽出を可能にする超伝導体の電気流体力学のスペクトル理論を紹介する。 提案手法は, 効率が高く, 放射型ハイブリダイゼーション場を2次量子化できるオープンシステムのモーダル記述を定式化する, 長年の課題に対処する。 これは、放射が計算領域内と外へ伝播できる有限だが透明な境界を実装することで達成される。 結果として生じるスペクトル問題は、多スケール超伝導量子系の非平衡力学の解析に適した電気流体力学方程式の粗粒の定式化の中で定義される。

The accurate modeling of mode hybridization and calculation of radiative relaxation rates have been crucial to the design and optimization of superconducting quantum devices. In this work, we introduce a spectral theory for the electrohydrodynamics of superconductors that enables the extraction of the relaxation rates of excitations in a general three-dimensional distribution of superconducting bodies. Our approach addresses the long-standing problem of formulating a modal description of open systems that is both efficient and allows for second quantization of the radiative hybridized fields. This is achieved through the implementation of finite but transparent boundaries through which radiation can propagate into and out of the computational domain. The resulting spectral problem is defined within a coarse-grained formulation of the electrohydrodynamical equations that is suitable for the analysis of the non-equilibrium dynamics of multiscale superconducting quantum systems.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-09
# ファインマン図形の組合せ和: 2次元SU(N)ハバードモデルの状態方程式

Combinatorial summation of Feynman diagrams: Equation of state of the 2D SU(N) Hubbard model ( http://arxiv.org/abs/2309.13774v3 )

ライセンス: Link先を確認
Evgeny Kozik, (参考訳) ファインマンの図式級数(英: Feynman's diagrammatic series)は、無限に多くの相互作用する量子粒子の系の公式な理論記述のための共通言語であり、精度計算の基礎である。 ここでは、一般量子多体系に対する連結あるいはスケルトン・ファインマン図の効率的な和を求める普遍的な枠組みを紹介する。 これは、古典的コンピュータ上のダイアグラム順序と量子コンピュータ上の潜在的多項式でのみ指数関数化できる計算コストで、動的プログラミングによるインテグレードの和を明示的に組み合わせた構成に基づいている。 実験系における2D$$SU(N)$ Hubbardモデルの状態方程式の非バイアス図式モンテカルロ計算による手法について述べる。

Feynman's diagrammatic series is a common language for a formally exact theoretical description of systems of infinitely-many interacting quantum particles, as well as a foundation for precision computational techniques. Here we introduce a universal framework for efficient summation of connected or skeleton Feynman diagrams for generic quantum many-body systems. It is based on an explicit combinatorial construction of the sum of the integrands by dynamic programming, at a computational cost that can be made only exponential in the diagram order on a classical computer and potentially polynomial on a quantum computer. We illustrate the technique by an unbiased diagrammatic Monte Carlo calculation of the equation of state of the $2D$ $SU(N)$ Hubbard model in an experimentally relevant regime, which has remained challenging for state-of-the-art numerical methods.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-09
# 量子コンピュータ上のハミルトンシミュレーションのための三角行列分解

Tridiagonal matrix decomposition for Hamiltonian simulation on a quantum computer ( http://arxiv.org/abs/2310.00121v2 )

ライセンス: Link先を確認
Boris Arseniev, Dmitry Guskov, Richik Sengupta, Igor Zacharov, (参考訳) ハミルトン進化をシミュレートする量子回路の構築は多くの量子アルゴリズムの中心である。 State-of-the-artサーキットは、実装が省略されることが多いオラクルに基づいており、アルゴリズムの複雑さはオラクルクエリを数えることによって推定される。 しかし、実際的な応用では、オラクルの実装はアルゴリズムの全体的な複雑さに大きな定数要素をもたらす。 この研究の鍵となる発見は、三対角行列をパウリ基底で表現するための効率的な手順であり、これにより、オラクルを使わずにハミルトニアン進化回路を構築することができる。 この手順は、分解に存在する全てのパウリ弦を体系的に決定し、それらを可換部分集合に分割することで、一般的な三対角行列 $2^n \times 2^n$ を表す。 効率性は通勤部分集合の数が$O(n)$である。 この手法は1次元波動方程式を用いて実証され、量子ビット数の関数としてのゲート複雑性が、n < 15$ のオラクルベースのアプローチよりも低く、量子ビットの数が半分必要であることを示す。 この方法は、三対角行列に基づいて他のハミルトン系にも適用できる。

The construction of quantum circuits to simulate Hamiltonian evolution is central to many quantum algorithms. State-of-the-art circuits are based on oracles whose implementation is often omitted, and the complexity of the algorithm is estimated by counting oracle queries. However, in practical applications, an oracle implementation contributes a large constant factor to the overall complexity of the algorithm. The key finding of this work is the efficient procedure for representation of a tridiagonal matrix in the Pauli basis, which allows one to construct a Hamiltonian evolution circuit without the use of oracles. The procedure represents a general tridiagonal matrix $2^n \times 2^n$ by systematically determining all Pauli strings present in the decomposition, dividing them into commuting subsets. The efficiency is in the number of commuting subsets $O(n)$. The method is demonstrated using the one-dimensional wave equation, verifying numerically that the gate complexity as function of the number of qubits is lower than the oracle based approach for $n < 15$ and requires half the number of qubits. This method is applicable to other Hamiltonians based on the tridiagonal matrices.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-09
# 知識グラフ推論の基礎モデルに向けて

Towards Foundation Models for Knowledge Graph Reasoning ( http://arxiv.org/abs/2310.04562v2 )

ライセンス: Link先を確認
Mikhail Galkin, Xinyu Yuan, Hesham Mostafa, Jian Tang, Zhaocheng Zhu, (参考訳) 言語と視覚の基盤モデルは、言語におけるトークンの語彙のような転送可能な表現のおかげで、任意のテキストおよび視覚入力で推論を実行することができる。 知識グラフ(KG)は、一般に重複しない異なる実体と関係語彙を持つ。 KGs 上で基礎モデルを設計する上での鍵となる課題は、任意の実体と関係語彙を持つ任意のグラフ上の推論を可能にするような伝達可能な表現を学習することである。 本研究では,そのような基礎モデルへの一歩を踏み出し,普遍的かつ伝達可能なグラフ表現を学習するためのアプローチであるULTRAを提示する。 ULTRAはリレーショナル表現を、それらの相互作用に条件付けられた関数として構築する。 このような条件付け戦略により、事前訓練されたULTRAモデルは任意の関係語彙を持つ任意の未知のKGに誘導的に一般化し、任意のグラフ上で微調整することができる。 57個の異なるKG上でリンク予測実験を行い、様々な大きさの未知グラフ上の1つの事前学習されたULTRAモデルのゼロショット帰納的推論性能は、特定のグラフ上で訓練された強いベースラインよりもしばしば同等かそれ以上であることを示した。 微調整はパフォーマンスをさらに向上させる。

Foundation models in language and vision have the ability to run inference on any textual and visual inputs thanks to the transferable representations such as a vocabulary of tokens in language. Knowledge graphs (KGs) have different entity and relation vocabularies that generally do not overlap. The key challenge of designing foundation models on KGs is to learn such transferable representations that enable inference on any graph with arbitrary entity and relation vocabularies. In this work, we make a step towards such foundation models and present ULTRA, an approach for learning universal and transferable graph representations. ULTRA builds relational representations as a function conditioned on their interactions. Such a conditioning strategy allows a pre-trained ULTRA model to inductively generalize to any unseen KG with any relation vocabulary and to be fine-tuned on any graph. Conducting link prediction experiments on 57 different KGs, we find that the zero-shot inductive inference performance of a single pre-trained ULTRA model on unseen graphs of various sizes is often on par or better than strong baselines trained on specific graphs. Fine-tuning further boosts the performance.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-09
# SALMON: インストラクタブルリワードモデルによる自己調整

SALMON: Self-Alignment with Instructable Reward Models ( http://arxiv.org/abs/2310.05910v2 )

ライセンス: Link先を確認
Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan, (参考訳) RLHF(Reinforcement Learning from Human Feedback)と組み合わせた、レスポンシブデモのための監視ファインチューニング(SFT)は、LLMベースのAIエージェントを調整するための強力なパラダイムである。 しかし、このようなアプローチの重大な制限は、高品質な人的アノテーションに依存しているため、一貫性のある応答の実証や配布内応答の嗜好を得るのが難しいため、複雑なタスクに応用することが困難である。 本稿では,基本言語モデルに最小限の人的監督力を持たせるための新しいアプローチ,すなわちSALMONを提案する。 私たちのアプローチの中心は、命令可能な報酬モデルです。 このモデルは、合成選好データに基づいて、任意の人間定義原則に基づいて報酬スコアを生成することができる。 RLトレーニング期間中にこれらの原則を調整するだけで、インストラクタブル報酬モデルによる嗜好を完全にコントロールでき、その後、RLトレーニングされた政策モデルの振る舞いに影響を与え、オンライン人の嗜好の収集への依存を減らすことができる。 提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。 コンテキスト内学習の6つの例と31の人間定義原則によって、Dromedary-2は、さまざまなベンチマークデータセット上のLLaMA-2-Chat-70bなど、最先端のAIシステムのパフォーマンスを大幅に上回っている。 コードとモデルの重み付けをオープンソースとして公開し、LLMベースのAIエージェントの整合性、監督効率の向上、制御性の向上、スケーラブルな監視を奨励しています。

Supervised Fine-Tuning (SFT) on response demonstrations combined with Reinforcement Learning from Human Feedback (RLHF) constitutes a powerful paradigm for aligning LLM-based AI agents. However, a significant limitation of such an approach is its dependency on high-quality human annotations, making its application to intricate tasks challenging due to difficulties in obtaining consistent response demonstrations and in-distribution response preferences. This paper presents a novel approach, namely SALMON, to align base language models with minimal human supervision, using only a small set of human-defined principles, yet achieving superior performance. Central to our approach is an instructable reward model. Trained on synthetic preference data, this model can generate reward scores based on arbitrary human-defined principles. By merely adjusting these principles during the RL training phase, we gain full control over the preferences with the instructable reward model, subsequently influencing the behavior of the RL-trained policy models, and reducing the reliance on the collection of online human preferences. Applying our method to the LLaMA-2-70b base language model, we developed an AI assistant named Dromedary-2. With only 6 exemplars for in-context learning and 31 human-defined principles, Dromedary-2 significantly surpasses the performance of several state-of-the-art AI systems, including LLaMA-2-Chat-70b, on various benchmark datasets. We have open-sourced the code and model weights to encourage further research into aligning LLM-based AI agents with enhanced supervision efficiency, improved controllability, and scalable oversight.
翻訳日:2024-04-11 19:25:41 公開日:2024-04-09
# EqDrive: 自律運転のためのマルチモードによる効率的な同変運動予測

EqDrive: Efficient Equivariant Motion Forecasting with Multi-Modality for Autonomous Driving ( http://arxiv.org/abs/2310.17540v2 )

ライセンス: Link先を確認
Yuping Wang, Jier Chen, (参考訳) 自律走行における車両運動の予測には、エージェント相互作用の深い理解とユークリッド幾何学的変換の下での運動同値の保存が必要である。 従来のモデルでは、自動運転車に固有の複雑なダイナミクスや、現場のエージェント間の相互作用を扱うための高度な技術が欠如していることが多い。 結果として、これらのモデルはモデルのキャパシティが低くなり、予測エラーがより多くなり、トレーニング効率が低下する。 本研究では,マルチエージェント車両運動予測のタスクにおいて,先行する同変粒子であるEqMotionと,不変エージェントの相互作用を考慮に入れた人間の予測モデルを用いる。 さらに,複数の将来の経路を確率論的に考慮するために,多モード予測機構を用いる。 EqMotionを利用することで、パラメータが少なく(120万)、トレーニング時間を著しく短縮し(2時間以内)、最先端のSOTA(State-of-the-art)のパフォーマンスを実現します。

Forecasting vehicular motions in autonomous driving requires a deep understanding of agent interactions and the preservation of motion equivariance under Euclidean geometric transformations. Traditional models often lack the sophistication needed to handle the intricate dynamics inherent to autonomous vehicles and the interaction relationships among agents in the scene. As a result, these models have a lower model capacity, which then leads to higher prediction errors and lower training efficiency. In our research, we employ EqMotion, a leading equivariant particle, and human prediction model that also accounts for invariant agent interactions, for the task of multi-agent vehicle motion forecasting. In addition, we use a multi-modal prediction mechanism to account for multiple possible future paths in a probabilistic manner. By leveraging EqMotion, our model achieves state-of-the-art (SOTA) performance with fewer parameters (1.2 million) and a significantly reduced training time (less than 2 hours).
翻訳日:2024-04-11 19:15:52 公開日:2024-04-09
# エントロピーに基づくELBOを用いたスパース符号の学習

Learning Sparse Codes with Entropy-Based ELBOs ( http://arxiv.org/abs/2311.01888v2 )

ライセンス: Link先を確認
Dmytro Velychko, Simon Damm, Asja Fischer, Jörg Lücke, (参考訳) 標準的な確率的スパース符号は、ラプラス、潜在値から可観測値への線型写像、ガウス可観測分布を前提としている。 ここでは,標準スパース符号のパラメータに対してのみエントロピーに基づく学習目標を導出する。 A)MAP近似とは異なり、確率的推論に非自明な後続近似を用い、(B)従来の非自明な近似とは異なり、新規目的は完全に分析的であり、(C)この目的は新規な原理的アニーリングを許容する。 この目的は、まず標準ELBOの目的がエントロピーの和に収束することを示し、これはガウス以前の生成モデルと同様の結果と一致する。 ELBOがエントロピーと等しくなる条件は解析解を持つことが示され、完全な解析目的が導かれる。 数値実験は、そのようなエントロピーに基づくELBOを用いた学習の実現可能性を示すために用いられる。 関連する潜伏剤と深部償却近似を含む後部近似について検討した。 さらに,エントロピーに基づくアニーリングを数値的に検討し,学習の改善を図った。 しかし,本研究の主な貢献は理論的であり,(1)非自明な後続近似に対しては,(著者の知識に)標準確率的スパース符号化のための最初の解析的ELBO目標,(2)最近示されたELBOのエントロピー和への収束を学習に利用するための最初のデモを提供する。

Standard probabilistic sparse coding assumes a Laplace prior, a linear mapping from latents to observables, and Gaussian observable distributions. We here derive a solely entropy-based learning objective for the parameters of standard sparse coding. The novel variational objective has the following features: (A) unlike MAP approximations, it uses non-trivial posterior approximations for probabilistic inference; (B) unlike for previous non-trivial approximations, the novel objective is fully analytical; and (C) the objective allows for a novel principled form of annealing. The objective is derived by first showing that the standard ELBO objective converges to a sum of entropies, which matches similar recent results for generative models with Gaussian priors. The conditions under which the ELBO becomes equal to entropies are then shown to have analytical solutions, which leads to the fully analytical objective. Numerical experiments are used to demonstrate the feasibility of learning with such entropy-based ELBOs. We investigate different posterior approximations including Gaussians with correlated latents and deep amortized approximations. Furthermore, we numerically investigate entropy-based annealing which results in improved learning. Our main contributions are theoretical, however, and they are twofold: (1) for non-trivial posterior approximations, we provide the (to the knowledge of the authors) first analytical ELBO objective for standard probabilistic sparse coding; and (2) we provide the first demonstration on how a recently shown convergence of the ELBO to entropy sums can be used for learning.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-09
# マルチストリーム不完全信号アプリケーションのためのフェデレーションデータ融合に基づく確率モデル

A Federated Data Fusion-Based Prognostic Model for Applications with Multi-Stream Incomplete Signals ( http://arxiv.org/abs/2311.07474v2 )

ライセンス: Link先を確認
Madi Arabi, Xiaolei Fang, (参考訳) ほとんどの確率的手法は、モデルトレーニングに十分な量のデータを必要とする。 しかし、実際には、単一の組織が所有する履歴データの量は、信頼性の高い予後モデルを訓練するのに十分な大きさまたは大きさである可能性がある。 この課題に対処するため,本論文では,複数のユーザがマルチストリーム,高次元,不完全なデータを用いて,各ユーザのデータをローカルかつ機密に保ちながら,共同で障害時間予測モデルを構築することのできる,フェデレーション付き予測モデルを提案する。 確率モデルは、まず多変量関数主成分分析を用いて、マルチストリーム劣化信号を融合する。 次に, 故障予測のための (log) 位置スケール回帰モデルを構築するために, 時間と障害を結合した融合特徴を利用する。 分散データセットを用いてパラメータを推定し、すべての参加者のデータプライバシーを維持するために、特徴抽出のための新しいフェデレーションアルゴリズムを提案する。 数値解析により,提案モデルの性能は従来の非フェデレーションモデルと同等であり,各ユーザ自身が構築したモデルよりも優れていることが示された。

Most prognostic methods require a decent amount of data for model training. In reality, however, the amount of historical data owned by a single organization might be small or not large enough to train a reliable prognostic model. To address this challenge, this article proposes a federated prognostic model that allows multiple users to jointly construct a failure time prediction model using their multi-stream, high-dimensional, and incomplete data while keeping each user's data local and confidential. The prognostic model first employs multivariate functional principal component analysis to fuse the multi-stream degradation signals. Then, the fused features coupled with the times-to-failure are utilized to build a (log)-location-scale regression model for failure prediction. To estimate parameters using distributed datasets and keep the data privacy of all participants, we propose a new federated algorithm for feature extraction. Numerical studies indicate that the performance of the proposed model is the same as that of classic non-federated prognostic models and is better than that of the models constructed by each user itself.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-09
# MAFALDA: 誤検出と分類のベンチマークと総合的研究

MAFALDA: A Benchmark and Comprehensive Study of Fallacy Detection and Classification ( http://arxiv.org/abs/2311.09761v2 )

ライセンス: Link先を確認
Chadi Helwe, Tom Calamai, Pierre-Henri Paris, Chloé Clavel, Fabian Suchanek, (参考訳) 我々は、以前の誤検出データセットをマージし、結合する誤検出分類のベンチマークであるMAFALDAを紹介する。 ファラシーの既存の分類を調整し、洗練し、統一する分類法が付属している。 さらに、データセットの一部に関する手動のアノテーションと、各アノテーションに関する手動の説明も提供します。 主観的NLPタスクに適した新しいアノテーションスキームと主観性を扱うための新しい評価手法を提案する。 次に、ゼロショット学習環境下での複数の言語モデルの評価と、MAFALDAによる人為的な性能評価を行い、誤検出の検出と分類の能力を評価する。

We introduce MAFALDA, a benchmark for fallacy classification that merges and unites previous fallacy datasets. It comes with a taxonomy that aligns, refines, and unifies existing classifications of fallacies. We further provide a manual annotation of a part of the dataset together with manual explanations for each annotation. We propose a new annotation scheme tailored for subjective NLP tasks, and a new evaluation method designed to handle subjectivity. We then evaluate several language models under a zero-shot learning setting and human performances on MAFALDA to assess their capability to detect and classify fallacies.
翻訳日:2024-04-11 19:15:52 公開日:2024-04-09
# ソーシャルCounterfactuals: 対実例を用いた視覚・言語モデルにおける間欠的社会バイアスの探索と緩和

SocialCounterfactuals: Probing and Mitigating Intersectional Social Biases in Vision-Language Models with Counterfactual Examples ( http://arxiv.org/abs/2312.00825v2 )

ライセンス: Link先を確認
Phillip Howard, Avinash Madasu, Tiep Le, Gustavo Lujan Moreno, Anahita Bhiwandiwalla, Vasudev Lal, (参考訳) 視覚言語モデル(VLM)は近年顕著な性能向上を遂げているが、性別や人種などの社会的属性に関して有害なバイアスが生じる証拠も増えている。 以前の研究では、主に、社会的属性間の交差に関連するバイアスを無視しながら、そのようなバイアス特性を個別に探索することに焦点を当てていた。 これは、様々な社会的属性の組み合わせに対して、画像とテキストのペアを徹底的に集めることの難しさによる可能性がある。 この課題に対処するために、我々はテキスト・ツー・イメージ拡散モデルを用いて、大規模に交叉する社会的バイアスを探索する対実例を作成する。 提案手法では,対物的イメージテキストの対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的対物的的 性別,人種,身体特性に関連する交叉バイアスを推定するための171kの画像テキストペアを含む高品質なデータセットであるSocialCounterfactualsを作成した。 我々は、最先端のVLMにおける交叉社会的バイアスの探索と緩和に生成されたデータセットの有用性を実証するために、広範囲にわたる実験を行った。

While vision-language models (VLMs) have achieved remarkable performance improvements recently, there is growing evidence that these models also posses harmful biases with respect to social attributes such as gender and race. Prior studies have primarily focused on probing such bias attributes individually while ignoring biases associated with intersections between social attributes. This could be due to the difficulty of collecting an exhaustive set of image-text pairs for various combinations of social attributes. To address this challenge, we employ text-to-image diffusion models to produce counterfactual examples for probing intersectional social biases at scale. Our approach utilizes Stable Diffusion with cross attention control to produce sets of counterfactual image-text pairs that are highly similar in their depiction of a subject (e.g., a given occupation) while differing only in their depiction of intersectional social attributes (e.g., race & gender). Through our over-generate-then-filter methodology, we produce SocialCounterfactuals, a high-quality dataset containing 171k image-text pairs for probing intersectional biases related to gender, race, and physical characteristics. We conduct extensive experiments to demonstrate the usefulness of our generated dataset for probing and mitigating intersectional social biases in state-of-the-art VLMs.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-09
# 異常運転行動検出のためのサロゲート安全対策を用いたデータ駆動半教師付き機械学習

Data-driven Semi-supervised Machine Learning with Surrogate Safety Measures for Abnormal Driving Behavior Detection ( http://arxiv.org/abs/2312.04610v2 )

ライセンス: Link先を確認
Lanxin Zhang, Yongqi Dong, Haneen Farah, Arkady Zgonnikov, Bart van Arem, (参考訳) 道路交通の安全と運転者の行動評価には,異常運転行動の検出が重要である。 機械学習(ML)アルゴリズムの進歩と自然主義駆動データの蓄積により、多くのMLモデルが異常運転行動検出に採用されている。 既存のMLベースの検出器の多くは(完全に)教師付きML法に依存しており、かなりのラベル付きデータを必要とする。 しかし、地上の真理ラベルは必ずしも現実世界で利用できておらず、大量のデータをラベル付けするのは面倒である。 したがって、異常検出プロセスをより効果的かつ効果的にするために、教師なしまたは半教師なしの手法を検討する必要がある。 このギャップを埋めるために,本研究では,複数の異常運転行動(例えば,急激な加速,高速車線変更)を明らかにする大規模実世界のデータを分析し,部分ラベル付きデータを用いて階層的エクストリーム学習マシン(HELM)に基づく半教師付きML法を開発し,その異常運転動作を正確に検出する。 さらに、従来のMLベースアプローチでは、基本車両の動作特性(速度や加速度など)を利用して異常運転行動のラベル付けと検出を行うのに対して、本研究では、MLモデルの入力機能としてサロゲート安全対策(SSM)を導入し、検出性能を向上させることを目的とする。 実験結果から,提案した半教師付きMLモデルの有効性を示すとともに,SSMが重要な特徴であることを示す。 提案した半教師付きML法は、様々な指標(例えば、99.58%で最高の精度、0.9913で最高のF-1測定値)に関して、他のベースラインの半教師付きあるいは教師なしの手法よりも優れている。 アブレーション研究は, 検出性能向上におけるSSMsの重要性をさらに強調した。

Detecting abnormal driving behavior is critical for road traffic safety and the evaluation of drivers' behavior. With the advancement of machine learning (ML) algorithms and the accumulation of naturalistic driving data, many ML models have been adopted for abnormal driving behavior detection. Most existing ML-based detectors rely on (fully) supervised ML methods, which require substantial labeled data. However, ground truth labels are not always available in the real world, and labeling large amounts of data is tedious. Thus, there is a need to explore unsupervised or semi-supervised methods to make the anomaly detection process more feasible and efficient. To fill this research gap, this study analyzes large-scale real-world data revealing several abnormal driving behaviors (e.g., sudden acceleration, rapid lane-changing) and develops a Hierarchical Extreme Learning Machines (HELM) based semi-supervised ML method using partly labeled data to accurately detect the identified abnormal driving behaviors. Moreover, previous ML-based approaches predominantly utilize basic vehicle motion features (such as velocity and acceleration) to label and detect abnormal driving behaviors, while this study seeks to introduce Surrogate Safety Measures (SSMs) as the input features for ML models to improve the detection performance. Results from extensive experiments demonstrate the effectiveness of the proposed semi-supervised ML model with the introduced SSMs serving as important features. The proposed semi-supervised ML method outperforms other baseline semi-supervised or unsupervised methods regarding various metrics, e.g., delivering the best accuracy at 99.58% and the best F-1 measure at 0.9913. The ablation study further highlights the significance of SSMs for advancing detection performance.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-09
# Quilt-LLaVA: オープンソースの病理ビデオから局所的物語を抽出した視覚的指導チューニング

Quilt-LLaVA: Visual Instruction Tuning by Extracting Localized Narratives from Open-Source Histopathology Videos ( http://arxiv.org/abs/2312.04746v2 )

ライセンス: Link先を確認
Mehmet Saygin Seyfioglu, Wisdom O. Ikezogwo, Fatemeh Ghezloo, Ranjay Krishna, Linda Shapiro, (参考訳) 病理組織学における診断には大域的な全スライド画像(WSI)解析が必要であり、病理学者は様々なWSIパッチから証拠を合成する必要がある。 WSIsのギガピクセルスケールは、病理組織学的マルチモーダルモデルに挑戦する。 病理組織学のためのマルチモデルモデルのトレーニングには、現在個々のイメージパッチに関する情報を含む命令チューニングデータセットが必要であり、各パッチ内の概念の空間的基盤を必要とせず、WSIの広い視野も必要としない。 そのため、病理組織学に十分な診断能力が欠如している。 このギャップを埋めるために、WSIを構成する診断関連画像パッチの中に、107,131の病理組織特異的な命令質問/回答ペアからなる大規模なデータセットであるQuilt-Instructを導入する。 ナレーターの位置を自動的に抽出することで,ナレーションの空間的局所化を可能にする。 Quilt-Instructは、WSI全体から診断と事実を抽出し、コンテキスト推論をサポートする。 Quilt-Instructを使ってQult-LLaVAをトレーニングします。 Quilt-LLaVAを評価するために,985の画像と1283人の質問回答から作成した包括的評価データセットを提案する。 また,公共の病理組織学的データセットを用いてQuilt-LLaVAを徹底的に評価し,相対的なGPT-4スコアではQuilt-LLaVAが10%以上,開集合VQAでは4%,クローズド集合VQAでは9%以上,SOTAを有意に上回った。 私たちのコード、データ、モデルはquilt-llava.github.ioで公開されています。

Diagnosis in histopathology requires a global whole slide images (WSIs) analysis, requiring pathologists to compound evidence from different WSI patches. The gigapixel scale of WSIs poses a challenge for histopathology multi-modal models. Training multi-model models for histopathology requires instruction tuning datasets, which currently contain information for individual image patches, without a spatial grounding of the concepts within each patch and without a wider view of the WSI. Therefore, they lack sufficient diagnostic capacity for histopathology. To bridge this gap, we introduce Quilt-Instruct, a large-scale dataset of 107,131 histopathology-specific instruction question/answer pairs, grounded within diagnostically relevant image patches that make up the WSI. Our dataset is collected by leveraging educational histopathology videos from YouTube, which provides spatial localization of narrations by automatically extracting the narrators' cursor positions. Quilt-Instruct supports contextual reasoning by extracting diagnosis and supporting facts from the entire WSI. Using Quilt-Instruct, we train Quilt-LLaVA, which can reason beyond the given single image patch, enabling diagnostic reasoning across patches. To evaluate Quilt-LLaVA, we propose a comprehensive evaluation dataset created from 985 images and 1283 human-generated question-answers. We also thoroughly evaluate Quilt-LLaVA using public histopathology datasets, where Quilt-LLaVA significantly outperforms SOTA by over 10% on relative GPT-4 score and 4% and 9% on open and closed set VQA. Our code, data, and model are publicly accessible at quilt-llava.github.io.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-09
# TAM-VT: セグメンテーションとトラッキングのための変換対応マルチスケールビデオトランス

TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking ( http://arxiv.org/abs/2312.08514v2 )

ライセンス: Link先を確認
Raghav Goyal, Wan-Cyuan Fan, Mennatullah Siam, Leonid Sigal, (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、より大きなデータセットとより複雑で現実的な設定(例えば、エゴセントリックな設定で)を伴い、より厳密で非厳密な(状態を含む)変形を行う小さなオブジェクトを描写する、ますます重要な問題として浮上している。 この課題に対して、近年多くのアプローチが検討されているが、これらのデータ特性は依然として課題を呈している。 本研究では、上記の課題を体系的に分析し、対処することに焦点を当てた、クリップベースのDETR方式のエンコーダ・デコーダアーキテクチャを提案する。 具体的には、オブジェクトが大きな変形を行うビデオの一部(ソフトなハードサンプルマイニングの形式で)を学習することに焦点を当てた、トランスフォーメーション対応の新たな損失を提案する。 さらに,バニラ付加的な位置エンコーディングを超越した多重化時間符号化メモリを提案する。 最後に,これをマルチスケールメモリマッチングと復号化によるトラッキングのための総合的マルチスケールビデオトランスに組み込んで,長大なビデオや小さなオブジェクトに対する感度と精度を確保する。 本モデルでは,映像をクリップに分割し,コンテキストを伝播することにより,長いビデオのオンライン推論を可能にする。 短いクリップ長と学習時間符号化によるメモリ長は、性能向上のために重要な設計選択であることを示す。 これらの技術的貢献により、従来のVOSベンチマークであるDAVIS'17でSoTAに匹敵する結果を達成しつつ、2つの複雑なエゴセントリックデータセット(VISORとVOST)でSoTA(State-of-the-art)のパフォーマンスを達成することができる。 パラメータの選択の重要性と、そのパフォーマンスへの影響に関する洞察を提供すると同時に、設計上の選択を検証した一連の詳細な説明があります。

Video Object Segmentation (VOS) has emerged as an increasingly important problem with availability of larger datasets and more complex and realistic settings, which involve long videos with global motion (e.g, in egocentric settings), depicting small objects undergoing both rigid and non-rigid (including state) deformations. While a number of recent approaches have been explored for this task, these data characteristics still present challenges. In this work we propose a novel, clip-based DETR-style encoder-decoder architecture, which focuses on systematically analyzing and addressing aforementioned challenges. Specifically, we propose a novel transformation-aware loss that focuses learning on portions of the video where an object undergoes significant deformations -- a form of "soft" hard examples mining. Further, we propose a multiplicative time-coded memory, beyond vanilla additive positional encoding, which helps propagate context across long videos. Finally, we incorporate these in our proposed holistic multi-scale video transformer for tracking via multi-scale memory matching and decoding to ensure sensitivity and accuracy for long videos and small objects. Our model enables on-line inference with long videos in a windowed fashion, by breaking the video into clips and propagating context among them. We illustrate that short clip length and longer memory with learned time-coding are important design choices for improved performance. Collectively, these technical contributions enable our model to achieve new state-of-the-art (SoTA) performance on two complex egocentric datasets -- VISOR and VOST, while achieving comparable to SoTA results on the conventional VOS benchmark, DAVIS'17. A series of detailed ablations validate our design choices as well as provide insights into the importance of parameter choices and their impact on performance.
翻訳日:2024-04-11 19:06:08 公開日:2024-04-09
# 核輸送ソルバの代理最適化による核融合燃焼プラズマの予測能力向上

Enhancing predictive capabilities in fusion burning plasmas through surrogate-based optimization in core transport solvers ( http://arxiv.org/abs/2312.12610v2 )

ライセンス: Link先を確認
P. Rodriguez-Fernandez, N. T. Howard, A. Saltzman, S. Kantamneni, J. Candy, C. Holland, M. Balandat, S. Ament, A. E. White, (参考訳) 本研究は,サロゲートモデリングと最適化技術を活用して,非線形ジャイロキネティックシミュレーションによるコアプラズマプロファイルの予測と性能を,精度を損なわずに大幅に低減した。 PortALSの効率は標準手法とベンチマークされ、その全電位はGPU加速非線形CGYROを用いたDIII-D ITER類似形状プラズマにおける一意に同時5チャネル(電子温度、イオン温度、電子密度、不純物密度、角回転)予測で示される。 また, 燃焼プラズマにおける正確な性能予測と, 核融合実験における輸送モデルの影響について概説した。

This work presents the PORTALS framework, which leverages surrogate modeling and optimization techniques to enable the prediction of core plasma profiles and performance with nonlinear gyrokinetic simulations at significantly reduced cost, with no loss of accuracy. The efficiency of PORTALS is benchmarked against standard methods, and its full potential is demonstrated on a unique, simultaneous 5-channel (electron temperature, ion temperature, electron density, impurity density and angular rotation) prediction of steady-state profiles in a DIII-D ITER Similar Shape plasma with GPU-accelerated, nonlinear CGYRO. This paper also provides general guidelines for accurate performance predictions in burning plasmas and the impact of transport modeling in fusion pilot plants studies.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-09
# 文脈分布と段階的制約を考慮した確率帯域の分散マルチタスク学習

Distributed Multi-Task Learning for Stochastic Bandits with Context Distribution and Stage-wise Constraints ( http://arxiv.org/abs/2401.11563v2 )

ライセンス: Link先を確認
Jiabin Lin, Shana Moothedath, (参考訳) 不均質なエージェントを用いた確率線形文脈帯域における保守的分散マルチタスク学習の問題点について述べる。 これにより、保守的な線形帯域幅を分散環境に拡張し、Mエージェントはステージワイドなパフォーマンス制約に固執しながら、異なるが関連するタスクに対処する。 正確な文脈は分かっておらず、市場予測や天気予報といったコンテキストを推測する予測機構を含む多くの実践的な応用と同様に、エージェントにのみコンテキスト分布が利用可能である。 本稿では,分散上信頼度境界(UCB)アルゴリズムであるDiSC-UCBを提案する。 提案アルゴリズムは,各ラウンドにおいて,制約を満たすためにプルーニングされた動作セットを構築する。 さらに、適切に構造化された同期ステップを使用して、中央サーバを介してエージェント間での見積もりの同期共有を含む。 我々はそのアルゴリズムに後悔とコミュニケーションの限界があることを証明する。 我々は、エージェントがベースライン報酬に気づいていないような設定に問題を拡張します。 そこで本研究では,修正アルゴリズムであるDiSC-UCB2を提案する。 合成データと実世界のMovielens-100Kデータに対するアルゴリズムの性能を実証的に検証した。

We present the problem of conservative distributed multi-task learning in stochastic linear contextual bandits with heterogeneous agents. This extends conservative linear bandits to a distributed setting where M agents tackle different but related tasks while adhering to stage-wise performance constraints. The exact context is unknown, and only a context distribution is available to the agents as in many practical applications that involve a prediction mechanism to infer context, such as stock market prediction and weather forecast. We propose a distributed upper confidence bound (UCB) algorithm, DiSC-UCB. Our algorithm constructs a pruned action set during each round to ensure the constraints are met. Additionally, it includes synchronized sharing of estimates among agents via a central server using well-structured synchronization steps. We prove the regret and communication bounds on the algorithm. We extend the problem to a setting where the agents are unaware of the baseline reward. For this setting, we provide a modified algorithm, DiSC-UCB2, and we show that the modified algorithm achieves the same regret and communication bounds. We empirically validated the performance of our algorithm on synthetic data and real-world Movielens-100K data.
翻訳日:2024-04-11 18:56:10 公開日:2024-04-09
# λ$-ECLIPSE:CLIP潜時空間を利用したマルチコンセプトパーソナライズされたテキスト-画像拡散モデル

$λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space ( http://arxiv.org/abs/2402.05195v2 )

ライセンス: Link先を確認
Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang, (参考訳) パーソナライズされたテキスト・ツー・イメージ(P-T2I)生成モデルが近年進歩しているにもかかわらず、資源効率のよい方法で微調整不要なマルチオブジェクト駆動型T2Iを実行することは依然として困難である。 典型的には、HypernetworksとMultimodal Large Language Models (MLLMs)のトレーニングを含む現代のアプローチでは、600から12300のGPU時間の重いコンピューティングリソースが必要となる。 これらの対象駆動型T2I法はLDM(Latent Diffusion Models)上でヒンジを行う。 LDMには明確な利点があるが、P-T2I法はこれらの拡散モデルの潜伏空間に依存しているため、リソース需要は著しく増大し、一貫性のない結果となり、1つの望まれる画像に対して多数のイテレーションが必要になる。 本稿では,プリトレーニング済みCLIPモデルの潜在空間で動作する代替事前学習戦略である$\lambda$-ECLIPSEを,拡散UNetモデルに依存しない形で提示する。 $\lambda$-ECLIPSEは、高速で効果的な多目的駆動型P-T2Iのための画像テキストインターリーブド事前学習を利用する。 広範な実験により、$\lambda$-ECLIPSEは、リソース利用率が著しく低い場合でも、コンポジションアライメントにおける既存のベースラインを超えながら、概念アライメント性能を保っていることが判明した。 $\lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。 さらに$\lambda$-ECLIPSEは、マルチコンセプト補間を実行するユニークな機能を示している。

Despite the recent advances in personalized text-to-image (P-T2I) generative models, it remains challenging to perform finetuning-free multi-subject-driven T2I in a resource-efficient manner. Predominantly, contemporary approaches, involving the training of Hypernetworks and Multimodal Large Language Models (MLLMs), require heavy computing resources that range from 600 to 12300 GPU hours of training. These subject-driven T2I methods hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. In this paper, we present $\lambda$-ECLIPSE, an alternative prior-training strategy that works in the latent space of a pre-trained CLIP model without relying on the diffusion UNet models. $\lambda$-ECLIPSE leverages the image-text interleaved pre-training for fast and effective multi-subject-driven P-T2I. Through extensive experiments, we establish that $\lambda$-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization. $\lambda$-ECLIPSE performs multi-subject driven P-T2I with just 34M parameters and is trained on a mere 74 GPU hours. Additionally, $\lambda$-ECLIPSE demonstrates the unique ability to perform multi-concept interpolations.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-09
# 電池セルの1万個以上のCT画像のデータセット

A dataset of over one thousand computed tomography scans of battery cells ( http://arxiv.org/abs/2403.02527v3 )

ライセンス: Link先を確認
Amariah Condon, Bailey Buscarino, Eric Moch, William J. Sehnert, Owen Miles, Patrick K. Herring, Peter M. Attia, (参考訳) バッテリー技術は、グローバルな電化努力にとってますます重要になっている。 しかし、電池は小さな製造のバリエーションに非常に敏感であり、信頼性や安全性の問題を引き起こす可能性がある。 電池品質管理のための重要な技術はCTスキャンであり、様々な臨床・工業分野で非破壊的な3D検査に広く利用されている。 しかし、歴史的に、高ボリューム製造におけるCTスキャンの有用性は、そのスループットの低さと、大きなファイルサイズを扱うことの難しさによって制限されてきた。 本研究では,製造済みの市販電池のCTスキャンを1万回以上行った。 データセットは、様々な化学(リチウムイオンとナトリウムイオン)と、様々な電池形成因子(円筒、ポーチ、プリスマティック)にまたがる。 合計7種類のバッテリについて検討した。 製造の多様性とバッテリーの欠陥の存在は、このデータセットを通して観察することができる。 このデータセットは、バッテリー技術、コンピュータビジョン、あるいはその両方に取り組んでいる科学者やエンジニアにとって興味深い。

Battery technology is increasingly important for global electrification efforts. However, batteries are highly sensitive to small manufacturing variations that can induce reliability or safety issues. An important technology for battery quality control is computed tomography (CT) scanning, which is widely used for non-destructive 3D inspection across a variety of clinical and industrial applications. Historically, however, the utility of CT scanning for high-volume manufacturing has been limited by its low throughput as well as the difficulty of handling its large file sizes. In this work, we present a dataset of over one thousand CT scans of as-produced commercially available batteries. The dataset spans various chemistries (lithium-ion and sodium-ion) as well as various battery form factors (cylindrical, pouch, and prismatic). We evaluate seven different battery types in total. The manufacturing variability and the presence of battery defects can be observed via this dataset. This dataset may be of interest to scientists and engineers working on battery technology, computer vision, or both.
翻訳日:2024-04-11 18:45:39 公開日:2024-04-09
# 属性編集が顔認識に与える影響について

Mitigating the Impact of Attribute Editing on Face Recognition ( http://arxiv.org/abs/2403.08092v2 )

ライセンス: Link先を確認
Sudipta Banerjee, Sai Pranaswi Mullangi, Shruti Wagle, Chinmay Hegde, Nasir Memon, (参考訳) 多様な顔画像に関する大規模な研究を通じて、現代の生成型AIモデルを用いた顔属性の編集は、顔認識システムを著しく劣化させる可能性があることを示す。 この劣化はアイデンティティ保存生成モデルでも持続する。 この問題を軽減するために,ローカルおよびグローバル属性編集のための2つの新しい手法を提案する。 CelebA, CelebAMaskHQ, LFWデータセット上のArcFaceおよびAdaFaceマーカを用いて, 最新の生成モデルを用いて編集した26の顔意味, 人口統計, 表現に基づく属性を比較検討した。 最後に、属性予測のための新しい視覚的質問応答フレームワークであるLLaVAを用いて、編集手法の検証を行う。 本手法は,顔の編集における最先端技術(BLIP, InstantID)より優れ,アイデンティティ保持率を著しく向上させる。

Through a large-scale study over diverse face images, we show that facial attribute editing using modern generative AI models can severely degrade automated face recognition systems. This degradation persists even with identity-preserving generative models. To mitigate this issue, we propose two novel techniques for local and global attribute editing. We empirically ablate twenty-six facial semantic, demographic and expression-based attributes that have been edited using state-of-the-art generative models, and evaluate them using ArcFace and AdaFace matchers on CelebA, CelebAMaskHQ and LFW datasets. Finally, we use LLaVA, an emerging visual question-answering framework for attribute prediction to validate our editing techniques. Our methods outperform the current state-of-the-art at facial editing (BLIP, InstantID) while improving identity retention by a significant extent.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-09
# KazSAnDRA: Kazakh Sentiment Analysis Dataset of Reviews and Attitudes

KazSAnDRA: Kazakh Sentiment Analysis Dataset of Reviews and Attitudes ( http://arxiv.org/abs/2403.19335v2 )

ライセンス: Link先を確認
Rustem Yeshpanov, Huseyin Atakan Varol, (参考訳) 本稿では,カザフスタンの感情分析のためのデータセットであるKazSAnDRAについて述べる。 KazSAnDRAは、様々な情報源から得られた180,064のレビューを幅広く収集し、顧客態度の定量的表現を提供する1から5までの数値評価を含む。 この研究は、極性分類とスコア分類の両方のために訓練された4つの機械学習モデルの開発と評価を通じて、カザフ語感情分類の自動化も追求した。 実験分析では,バランスの取れたシナリオと不均衡なシナリオの両方を考慮した結果の評価を行った。 最も成功したモデルは極性分類のF1スコア0.81、試験セットのスコア0.39である。 データセットと微調整されたモデルはオープンアクセス可能で、GitHubリポジトリを通じてCreative Commons Attribution 4.0 International License (CC BY 4.0)の下でダウンロードできます。

This paper presents KazSAnDRA, a dataset developed for Kazakh sentiment analysis that is the first and largest publicly available dataset of its kind. KazSAnDRA comprises an extensive collection of 180,064 reviews obtained from various sources and includes numerical ratings ranging from 1 to 5, providing a quantitative representation of customer attitudes. The study also pursued the automation of Kazakh sentiment classification through the development and evaluation of four machine learning models trained for both polarity classification and score classification. Experimental analysis included evaluation of the results considering both balanced and imbalanced scenarios. The most successful model attained an F1-score of 0.81 for polarity classification and 0.39 for score classification on the test sets. The dataset and fine-tuned models are open access and available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.
翻訳日:2024-04-11 16:47:58 公開日:2024-04-09
# KazParC: Kazakh Parallel Corpus for Machine Translation

KazParC: Kazakh Parallel Corpus for Machine Translation ( http://arxiv.org/abs/2403.19399v3 )

ライセンス: Link先を確認
Rustem Yeshpanov, Alina Polonskaya, Huseyin Atakan Varol, (参考訳) KazParCは、カザフ語、英語、ロシア語、トルコ語にまたがる機械翻訳用に設計された並列コーパスである。 KazParCは、さまざまなドメインをカバーする371,902の並列文のコレクションを含み、人間の翻訳者の助けを借りて開発された。 我々の研究は、Tilmashと呼ばれるニューラルマシン翻訳モデルの開発にも及んでいる。 注目すべきことに、Tilmashのパフォーマンスは、BLEUやchrFといった標準的な評価指標によって測定されるように、Google TranslateやYandex Translateといった業界巨人のパフォーマンスと同等であり、場合によっては同等である。 KazParCとTilmashはどちらも、GitHubリポジトリを通じてCreative Commons Attribution 4.0 International License (CC BY 4.0)の下で、無料でダウンロードできる。

We introduce KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish. The first and largest publicly available corpus of its kind, KazParC contains a collection of 371,902 parallel sentences covering different domains and developed with the assistance of human translators. Our research efforts also extend to the development of a neural machine translation model nicknamed Tilmash. Remarkably, the performance of Tilmash is on par with, and in certain instances, surpasses that of industry giants, such as Google Translate and Yandex Translate, as measured by standard evaluation metrics, such as BLEU and chrF. Both KazParC and Tilmash are openly available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-09
# 拡散に基づくクロスモーダルセグメンテーションのためのゼロショット医用画像から画像への変換

Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation ( http://arxiv.org/abs/2404.01102v2 )

ライセンス: Link先を確認
Zihao Wang, Yingyu Yang, Yuzhou Chen, Tingting Yuan, Maxime Sermesant, Herve Delingette, Ona Wu, (参考訳) クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。 深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。 しかし、既存の多くのモダリティ画像翻訳手法は教師あり学習に依存している。 本研究では,ゼロショット学習に基づく画像翻訳タスクの課題に対処することを目的とする。 ゼロショット・クロスモダリティ画像セグメンテーションにおける生成学習を活用するために,新しい教師なし画像変換法を提案する。 このフレームワークは、拡散誘導のために、異なるモダリティ間の固有の統計的一貫性を活用することにより、画像セグメンテーションのターゲットモダリティに未知のソースイメージを変換することを学ぶ。 本フレームワークでは,ソースとターゲットドメイン間の直接マッピングに頼ることなく,拡散誘導を行う。 この利点は、リトレーニングを必要とせずに、ソースドメインの変更に適応できるので、十分なラベル付きソースドメインデータが利用できない場合には、非常に実用的になります。 提案手法は, 対角線モデル, 拡散線モデルなど, 有効な生成モデルとの比較により, ゼロショット・クロスモーダル画像分割タスクにおいて検証される。

Cross-modality image segmentation aims to segment the target modalities using a method designed in the source modality. Deep generative models can translate the target modality images into the source modality, thus enabling cross-modality segmentation. However, a vast body of existing cross-modality image translation methods relies on supervised learning. In this work, we aim to address the challenge of zero-shot learning-based image translation tasks (extreme scenarios in the target modality is unseen in the training phase). To leverage generative learning for zero-shot cross-modality image segmentation, we propose a novel unsupervised image translation method. The framework learns to translate the unseen source image to the target modality for image segmentation by leveraging the inherent statistical consistency between different modalities for diffusion guidance. Our framework captures identical cross-modality features in the statistical domain, offering diffusion guidance without relying on direct mappings between the source and target domains. This advantage allows our method to adapt to changing source domains without the need for retraining, making it highly practical when sufficient labeled source domain data is not available. The proposed framework is validated in zero-shot cross-modality image segmentation tasks through empirical comparisons with influential generative models, including adversarial-based and diffusion-based models.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-09
# AIが学習していないもの(そしてなぜ) - ロボットのためのバイオインスパイアされた基礎モデル

What AIs are not Learning (and Why): Bio-Inspired Foundation Models for Robots ( http://arxiv.org/abs/2404.04267v2 )

ライセンス: Link先を確認
Mark Stefik, (参考訳) AIはどんなアプリケーションを準備しているのか? ディープラーニングとジェネレーティブアプローチの進歩は、大規模なオンラインデータから学習し、手作業で構築したAIを上回るAIを生み出した。 これらのAIのいくつかは、人々より優れています。 今日のAI技術は、何でも何でもすることを学んでいると結論付けるのは簡単(しかし誤解を招く)です。 逆に、ビッグデータ、ディープラーニング、そして生成AIがロボット工学にほとんど影響を与えていないことは印象的だ。 例えば、今日の自律ロボットは、在宅ケアや看護助手になることを学ばない。 現在のロボットアプリケーションは、手動プログラミング、数学的モデル、計画フレームワーク、強化学習を用いて作成されている。 これらの手法は、ディープラーニングと生成AIで見られるパフォーマンスと一般性の飛躍に繋がらない。 サービスアプリケーションのためにロボットを訓練するためのより良いアプローチは、彼らの社会的役割と経済的影響を大幅に拡大するだろう。 AI研究は、ロボットのマルチモーダルセンシングとエフェクター技術と、エンボディシステムに適合したディープラーニング技術を組み合わせることで、ロボットを訓練するための"ビッグデータ"アプローチを拡張している。 これらのアプローチは、世界で知覚し行動するAIのためのロボット(または「実験的」基礎モデル(FM)を作成する。 ロボットFMアプローチは、トレーニングデータの期待、ソース、タイミングが異なる。 主流のFMアプローチと同様に、いくつかのロボットFMアプローチは、成人の専門家レベルのロボットを作成するために膨大なデータを使用する。 対照的に、発達的ロボットアプローチは、継続的に経験的に学習する進歩的FMを生成する。 希望的に、これらは児童レベルから学生レベル、見習いレベル、専門家レベルへと進化する。 彼らは自己開発と社会的に発達した能力を得た。 これらのAIは、周囲の人々の目標をモデル化する。 人々と同じように、協力し、コミュニケーションし、協力することを学ぶでしょう。

What applications is AI ready for? Advances in deep learning and generative approaches have produced AIs that learn from massive online data and outperform manually built AIs. Some of these AIs outperform people. It is easy (but misleading) to conclude that today's AI technologies are learning to do anything and everything. Conversely, it is striking that big data, deep learning, and generative AI have had so little impact on robotics. For example, today's autonomous robots do not learn to provide home care or to be nursing assistants. Current robot applications are created using manual programming, mathematical models, planning frameworks, and reinforcement learning. These methods do not lead to the leaps in performance and generality seen with deep learning and generative AI. Better approaches to train robots for service applications would greatly expand their social roles and economic impact. AI research is now extending "big data" approaches to train robots by combining multimodal sensing and effector technology from robotics with deep learning technology adapted for embodied systems. These approaches create robotic (or "experiential") foundation models (FMs) for AIs that perceive and act in the world. Robotic FM approaches differ in their expectations, sources, and timing of training data. Like mainstream FM approaches, some robotic FM approaches use vast data to create adult expert-level robots. In contrast, developmental robotic approaches would create progressive FMs that learn continuously and experientially. Aspirationally, these would progress from child-level to student-level, apprentice-level, and expert levels. They would acquire self-developed and socially developed competences. These AIs would model the goals of people around them. Like people, they would learn to coordinate, communicate, and collaborate.
翻訳日:2024-04-11 16:38:14 公開日:2024-04-09
# エリート継承とバランス探索機構を備えた強化されたグレイウルフ最適化器

An Enhanced Grey Wolf Optimizer with Elite Inheritance and Balance Search Mechanisms ( http://arxiv.org/abs/2404.06524v1 )

ライセンス: Link先を確認
Jianhua Jiang, Ziying Zhao, Weihua Li, Keqin Li, (参考訳) Grey Wolf Optimizer (GWO) は、灰色のオオカミの社会的リーダーシップ階層と狩猟メカニズムにインスパイアされた新しいメタヒューリスティックアルゴリズムとして認識されている。 単純なパラメータ設定、高速収束速度、強力な最適化能力で知られている。 オリジナルのGWOでは、基本的な最適化メカニズムに2つの重大な設計上の欠陥がある。 問題(1):オオカミ集団の次の位置を生成する際に、アルゴリズムが最上級位置から継承できないこと。 問題(2): 個体群の位置は, 局所探索とグローバルサーチのバランスの取れた機構なしに, 3つの主要なオオカミ(アルファ, ベータ, デルタ)の中央位置に基づいて更新される。 これらの問題に対処するため, EBGWOと命名されたElite Inheritance Mechanism and Balance Search Mechanismの強化したGrey Wolf Optimizerを提案する。 IEEE CEC 2014ベンチマーク関数スイートと一連のシミュレーションテストを用いて,提案アルゴリズムの性能評価を行った。 シミュレーションテストでは、EBGWOと3つのGWO変種、GWOと2つの有名なメタヒューリスティックアルゴリズムを比較した。 実験により,提案したEBGWOアルゴリズムは,精度と収束速度の両方において,他のメタヒューリスティックアルゴリズムよりも優れていることが示された。 3つの工学最適化問題は、実世界の問題を処理する能力を証明するために採用されている。 その結果,提案したEBGWOはいくつかのアルゴリズムより優れていた。

The Grey Wolf Optimizer (GWO) is recognized as a novel meta-heuristic algorithm inspired by the social leadership hierarchy and hunting mechanism of grey wolves. It is well-known for its simple parameter setting, fast convergence speed, and strong optimization capability. In the original GWO, there are two significant design flaws in its fundamental optimization mechanisms. Problem (1): the algorithm fails to inherit from elite positions from the last iteration when generating the next positions of the wolf population, potentially leading to suboptimal solutions. Problem (2): the positions of the population are updated based on the central position of the three leading wolves (alpha, beta, delta), without a balanced mechanism between local and global search. To tackle these problems, an enhanced Grey Wolf Optimizer with Elite Inheritance Mechanism and Balance Search Mechanism, named as EBGWO, is proposed to improve the effectiveness of the position updating and the quality of the convergence solutions. The IEEE CEC 2014 benchmark functions suite and a series of simulation tests are employed to evaluate the performance of the proposed algorithm. The simulation tests involve a comparative study between EBGWO, three GWO variants, GWO and two well-known meta-heuristic algorithms. The experimental results demonstrate that the proposed EBGWO algorithm outperforms other meta-heuristic algorithms in both accuracy and convergence speed. Three engineering optimization problems are adopted to prove its capability in processing real-world problems. The results indicate that the proposed EBGWO outperforms several popular algorithms.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# 変分量子アルゴリズムによる二核金属錯体の熱力学特性のシミュレーション

Simulating thermodynamic properties of dinuclear metal complexes using Variational Quantum Algorithms ( http://arxiv.org/abs/2404.06527v1 )

ライセンス: Link先を確認
Ana Clara das Neves Silva, Clebson Cruz, (参考訳) 本稿では,二核金属錯体の熱力学特性をシミュレーションするための変分量子アルゴリズムについて検討する。 我々の研究は、量子コンピューティングが高度なシミュレーションを変換し、量子システムの物理的挙動に関する洞察を与える可能性を強調している。 この結果は,低次元分子磁気系の熱状態のシミュレーションと熱力学特性の探索における変分量子アルゴリズムの有効性を実証するものである。 この研究から得られた知見は、量子システムの理解を深め、量子コンピューティングによる材料科学の今後の進歩の道を開くのに寄与する。

In this paper, we investigate the use of variational quantum algorithms for simulating the thermodynamic properties of dinuclear metal complexes. Our study highlights the potential of quantum computing to transform advanced simulations and provide insights into the physical behavior of quantum systems. The results demonstrate the effectiveness of variational quantum algorithms in simulating thermal states and exploring the thermodynamic properties of low-dimensional molecular magnetic systems. The findings from this research contribute to broadening our understanding of quantum systems and pave the way for future advancements in materials science through quantum computing.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# ViZDoom 'My Way Home' Labyrinth の創発的ブレイテンベルク式行動

Emergent Braitenberg-style Behaviours for Navigating the ViZDoom `My Way Home' Labyrinth ( http://arxiv.org/abs/2404.06529v1 )

ライセンス: Link先を確認
Caleidgh Bayer, Robert J. Smith, Malcolm I. Heywood, (参考訳) 視覚的部分観察可能な状態下での数十部屋の複雑な迷路のナビゲーションは、通常、反復的な深層強化学習アーキテクチャを用いて対処される。 本研究では,エージェントとラビリンス間の相互作用,すなわち単純なヒューリスティックスからの複雑な振る舞いを構造化する単純なブレイテントベルク式ヒューリスティックの創発的進化を通じて,ナビゲーションが実現可能であることを示す。 そのため、絡み合ったプログラムグラフのアプローチは、プログラムが協調的に共進化して、状態空間の 0.8 % しか使わないモジュラーインデックス方式を開発することを仮定する。 この単純さは、畳み込みカーネルや画像処理演算子を配置するのとは対照的に、ピクセルインデックス化の使用など、表現に暗黙的ないくつかのバイアスに起因している。

The navigation of complex labyrinths with tens of rooms under visual partially observable state is typically addressed using recurrent deep reinforcement learning architectures. In this work, we show that navigation can be achieved through the emergent evolution of a simple Braitentberg-style heuristic that structures the interaction between agent and labyrinth, i.e. complex behaviour from simple heuristics. To do so, the approach of tangled program graphs is assumed in which programs cooperatively coevolve to develop a modular indexing scheme that only employs 0.8\% of the state space. We attribute this simplicity to several biases implicit in the representation, such as the use of pixel indexing as opposed to deploying a convolutional kernel or image processing operators.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# 量子部分空間法による変分量子固有解法の局所最小化と加速収束の診断

Diagnosing local minima and accelerating convergence of variational quantum eigensolvers with quantum subspace techniques ( http://arxiv.org/abs/2404.06534v1 )

ライセンス: Link先を確認
Mark R. Hirsbrunner, J. Wayne Mullinax, Yizhi Shen, David B. Williams-Young, Katherine Klymko, Roel Van Beeumen, Norm M. Tubman, (参考訳) 近年の研究では、実時間と虚時間における波動関数の進化は、正確な基底エネルギーを得るのに有用な量子部分空間を生成することが示されている。 これらの手法に着想を得て,変分量子固有解法(VQE)と量子部分空間技術を組み合わせることを提案する。 本手法では,パラメータ化量子回路を,より小さなサブ回路に分割する。 これらのサブ回路を初期状態に順次適用すると、量子部分空間として使用する一連の波動関数が生成され、高精度な基底状態エネルギーが得られる。 この手法を回路部分空間変動量子固有解法 (CSVQE) アルゴリズムと呼ぶ。 CSVQEを様々な量子化学問題でベンチマークすることにより、従来のVQEと比較して大きな誤差低減を実現し、特に最適化の不十分な回路ではコンバージェンス率を大幅に向上することを示した。 さらに、局所的なミニマに閉じ込められた回路に適用すると、CSVQEはエネルギーランドスケープの世界最小値に近いエネルギーを発生させ、局所的なミニマを診断するための潜在的に強力なツールとなることを実証した。

Recent research has shown that wavefunction evolution in real- and imaginary-time can generate quantum subspaces with significant utility for obtaining accurate ground state energies. Inspired by these methods, we propose combining quantum subspace techniques with the variational quantum eigensolver (VQE). In our approach, the parameterized quantum circuit is divided into a series of smaller subcircuits. The sequential application of these subcircuits to an initial state generates a set of wavefunctions that we use as a quantum subspace to obtain high-accuracy groundstate energies. We call this technique the circuit subspace variational quantum eigensolver (CSVQE) algorithm. By benchmarking CSVQE on a range of quantum chemistry problems, we show that it can achieve significant error reduction compared to conventional VQE, particularly for poorly optimized circuits, greatly improving convergence rates. Furthermore, we demonstrate that when applied to circuits trapped at a local minima, CSVQE can produce energies close to the global minimum of the energy landscape, making it a potentially powerful tool for diagnosing local minima.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# ハードウェア最適化性能向上のための量子回路のランク付け学習

Learning to rank quantum circuits for hardware-optimized performance enhancement ( http://arxiv.org/abs/2404.06535v1 )

ライセンス: Link先を確認
Gavin S. Hartnett, Aaron Barbosa, Pranav S. Mundada, Michael Hush, Michael J. Biercuk, Yuval Baum, (参考訳) 実ハードウェア上でのトレーニング手順から得られた期待性能推定に基づいて,論理的に等価な量子回路をランク付けする機械学習ベースの手法を実験的に導入し,実験を行った。 本手法は,任意のデバイス上の物理量子ビットに抽象化された量子ビットを割り当てるレイアウト選択問題に適用する。 IBMハードウェア上で行われた回路測定は、論理的に等価なレイアウトの最大値と中央値の忠実度が桁違いに異なることを示唆している。 本稿では,パラメータが適合する物理に基づく現象的エラーモデルを用いて,評価されたデータセット上でランキングロス関数をトレーニングすることにより,ランキングのパラメータ化を行う回路スコアを提案する。 データセットは、様々な構造を示す量子回路で構成され、IBMハードウェア上で実行されるため、指数的にコストがかかるトモグラフィープロトコルを実行することなく、実際のデバイスノイズとエラーのコンテキスト特性を組み込むことができる。 我々は16量子ibmq_guadalupeデバイス上でモデルトレーニングと実行を行い、この手法をランダムなレイアウト選択とMapomaticと呼ばれる一般公開ベースラインの2つの一般的なアプローチと比較する。 我々のモデルは両方のアプローチを一貫して上回り、低いノイズと高いパフォーマンスを示すレイアウトを予測します。 特に、我々の最良のモデルでは、ベースラインアプローチと比較して選択誤差が1.8\times$減少し、ランダム選択と比較して3.2\times$減少することがわかった。 予測量子キャラクタリゼーション,検証,検証の新たな形態を提供する以外に,本研究の結果は,単純なプロキシ測度から外挿した性能推定値から,コンテキスト依存的かつコヒーレントなゲート誤差が発散する特定の方法を明らかにする。

We introduce and experimentally test a machine-learning-based method for ranking logically equivalent quantum circuits based on expected performance estimates derived from a training procedure conducted on real hardware. We apply our method to the problem of layout selection, in which abstracted qubits are assigned to physical qubits on a given device. Circuit measurements performed on IBM hardware indicate that the maximum and median fidelities of logically equivalent layouts can differ by an order of magnitude. We introduce a circuit score used for ranking that is parameterized in terms of a physics-based, phenomenological error model whose parameters are fit by training a ranking-loss function over a measured dataset. The dataset consists of quantum circuits exhibiting a diversity of structures and executed on IBM hardware, allowing the model to incorporate the contextual nature of real device noise and errors without the need to perform an exponentially costly tomographic protocol. We perform model training and execution on the 16-qubit ibmq_guadalupe device and compare our method to two common approaches: random layout selection and a publicly available baseline called Mapomatic. Our model consistently outperforms both approaches, predicting layouts that exhibit lower noise and higher performance. In particular, we find that our best model leads to a $1.8\times$ reduction in selection error when compared to the baseline approach and a $3.2\times$ reduction when compared to random selection. Beyond delivering a new form of predictive quantum characterization, verification, and validation, our results reveal the specific way in which context-dependent and coherent gate errors appear to dominate the divergence from performance estimates extrapolated from simple proxy measures.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# 2レート駆動プロトコルによるフレケットフラットバンドのエクササイズと加熱抑制

Exact Floquet flat band and heating suppression via two-rate drive protocols ( http://arxiv.org/abs/2404.06536v1 )

ライセンス: Link先を確認
Tista Banerjee, Sayan Choudhury, K. Sengupta, (参考訳) 閉量子多体系における固有状態熱化仮説の強い違反を示唆する正確なフロケ平面バンドの存在を、周波数$\Omega_1$と$\Omega_2=\nu \Omega_1$を特徴とする2レート駆動の存在下で示す。 特に$\nu=(2p+1)$では、$p$は整数であり、任意の$\Omega_1$に対して平方パルスと余弦駆動の両方に対してそのような平坦なバンドとなる。 これらの点の近傍では、熱はこれらの駆動系において非常に長い時間スケールで抑制され、予熱状態につながり、フレケット固有状態の分布と帯域幅、スペクトル形状係数、エンタングルメントエントロピー、実験で実現可能な有限駆動リドバーグ鎖の相関関数の正確な数値的研究によりこれを実証する。 対応するマイクロモーションは、エコーを連想させる励起のコヒーレントな反転を示す。 我々の分析は、駆動されたクローズド量子系における加熱抑制のための未解明のメカニズムを構成する。

We demonstrate the existence of exact Floquet flat bands implying strong violation of the eigenstate thermalization hypothesis in a large class of closed quantum many-body systems in the presence of a two-rate drive characterized by frequencies $\Omega_1$ and $\Omega_2=\nu \Omega_1$. We provide the exact analytic condition for this phenomenon to occur for a generic protocol; in particular, $\nu=(2p+1)$, where $p$ is an integer, leads to such flat bands for both square-pulse and cosine drive protocols for arbitrary $\Omega_1$. In the vicinity of these points, heating is suppressed up to very long timescales in such driven systems, leading to a prethermal regime; we demonstrate this by exact numerical studies of distribution and bandwidth of the Floquet eigenstates, spectral form factor, entanglement entropy, and correlation functions of an experimentally realizable finite driven Rydberg chain. The corresponding micromotion exhibits coherent reversal of excitation reminiscent of echoes. Our analysis constitutes a yet unexplored mechanism for heating suppression in driven closed quantum systems.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# オフライン拡散付加型プロトタイプ生成による学習自由なオープンボキャブラリセグメンテーション

Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation ( http://arxiv.org/abs/2404.06542v1 )

ライセンス: Link先を確認
Luca Barsellotti, Roberto Amoroso, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) Open-vocabulary semantic segmentationは、テキスト形式で表現された任意のカテゴリのセグメンテーションを目的としている。 これまでは、画素レベルのマルチモーダルアライメントを強制するために、大量の画像キャプチャペアをトレーニングしてきた。 しかし、キャプションは与えられた画像の意味についてグローバルな情報を提供するが、個々の概念の直接的位置化は欠如している。 さらに、大規模データセットのトレーニングは、必然的にかなりの計算コストをもたらす。 本稿では,開語彙セマンティックセマンティックセマンティクスのための学習自由拡散拡張手法FreeDAを提案する。これは,クラス非依存領域とセマンティクスクラスとを対応付けるために,生成した概念と局所的な類似点を視覚的にローカライズする拡散モデルの能力を利用する。 我々のアプローチは、大量のキャプションから始まり、視覚的および意味的なコンテキストを活用するために、テキスト-視覚的参照埋め込みを収集するオフラインステージを含む。 テスト時にこれらは、クラスに依存しない領域とグローバルな意味的類似性を共同で検討し、視覚的マッチングプロセスをサポートするためにクエリされる。 大規模な分析によると、FreeDAは5つのデータセットで最先端のパフォーマンスを達成し、mIoUの点で以前のメソッドを7.0ポイント以上上回り、トレーニングを必要とせずに達成している。

Open-vocabulary semantic segmentation aims at segmenting arbitrary categories expressed in textual form. Previous works have trained over large amounts of image-caption pairs to enforce pixel-level multimodal alignments. However, captions provide global information about the semantics of a given image but lack direct localization of individual concepts. Further, training on large-scale datasets inevitably brings significant computational costs. In this paper, we propose FreeDA, a training-free diffusion-augmented method for open-vocabulary semantic segmentation, which leverages the ability of diffusion models to visually localize generated concepts and local-global similarities to match class-agnostic regions with semantic classes. Our approach involves an offline stage in which textual-visual reference embeddings are collected, starting from a large set of captions and leveraging visual and semantic contexts. At test time, these are queried to support the visual matching process, which is carried out by jointly considering class-agnostic regions and global semantic similarities. Extensive analyses demonstrate that FreeDA achieves state-of-the-art performance on five datasets, surpassing previous methods by more than 7.0 average points in terms of mIoU and without requiring any training.
翻訳日:2024-04-11 16:28:25 公開日:2024-04-09
# 平均回路固有値サンプリングを用いたシンドローム抽出回路のスケーラブルノイズ特性評価

Scalable noise characterisation of syndrome extraction circuits with averaged circuit eigenvalue sampling ( http://arxiv.org/abs/2404.06545v1 )

ライセンス: Link先を確認
Evan T. Hockings, Andrew C. Doherty, Robin Harper, (参考訳) ノイズの多い量子回路の性能を特徴付けることは、試作量子コンピュータの製造の中心であり、量子デバイスで特定されたノイズバイアスを利用する量子エラー補正の改善を可能にする。 本稿では、量子回路のスケーラブルなノイズ特性化のための一般的なフレームワークである平均回路固有値サンプリング(ACES)の実装について述べる。 ACESはクリフォード回路内の全てのゲートのパウリ誤差確率を同時に推定し、回路内に同時に実装されたゲート間の平均空間相関をキャプチャする。 ACES実験の性能を厳密に分析することにより、ACES実験設計を最適化し、固定実験資源に与えられた騒音を推定する精度を向上させることができる。 量子誤り訂正符号のシンドローム抽出回路はフォールトトレラントアーキテクチャの代表的なコンポーネントであるため,1000キュービットを超える距離25面符号のシンドローム抽出回路に対する全ノイズキャラクタリゼーション手順の回路レベル数値シミュレーションにより,ACESプロトコルのスケーラビリティと性能を実証する。 以上の結果から,ノイズの詳細な特徴付け手法は短期量子デバイスに拡張可能であることが示唆された。 コードをJuliaパッケージのAveragedCircuitEigenvalueSampling.jlとしてリリースします。

Characterising the performance of noisy quantum circuits is central to the production of prototype quantum computers and can enable improved quantum error correction that exploits noise biases identified in a quantum device. We describe an implementation of averaged circuit eigenvalue sampling (ACES), a general framework for the scalable noise characterisation of quantum circuits. ACES is capable of simultaneously estimating the Pauli error probabilities of all gates in a Clifford circuit, and captures averaged spatial correlations between gates implemented simultaneously in the circuit. By rigorously analysing the performance of ACES experiments, we derive a figure of merit for their expected performance, allowing us to optimise ACES experimental designs and improve the precision to which we estimate noise given fixed experimental resources. Since the syndrome extraction circuits of quantum error correcting codes are representative components of a fault-tolerant architecture, we demonstrate the scalability and performance of our ACES protocol through circuit-level numerical simulations of the entire noise characterisation procedure for the syndrome extraction circuit of a distance 25 surface code with over 1000 qubits. Our results indicate that detailed noise characterisation methods are scalable to near-term quantum devices. We release our code in the form of the Julia package AveragedCircuitEigenvalueSampling.jl.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 深部ニューラルネットワークにおける確率勾配の変動

Variational Stochastic Gradient Descent for Deep Neural Networks ( http://arxiv.org/abs/2404.06549v1 )

ライセンス: Link先を確認
Haotian Chen, Anna Kuzina, Babak Esmaeili, Jakub M Tomczak, (参考訳) ディープニューラルネットワークの最適化は、ディープラーニングの成功における主要なタスクの1つだ。 現在の最先端オプティマイザは、Adamのような適応的勾配に基づく最適化手法である。 近年,勾配推定や不確実性をモデル化するための確率的枠組みとして,勾配に基づく最適化手法の定式化への関心が高まっている。 本稿では,2つのアプローチを組み合わせることを提案する。その結果,VSGD最適化が実現される。 本研究では,確率的モデルとして勾配更新をモデル化し,確率的変動推論(SVI)を用いて効率的な更新規則を導出する。 さらに、我々のVSGD手法が、Adamのような他の適応勾配に基づく最適化手法とどのように関係しているかを示す。 最後に、2つの画像分類データセットと4つのディープニューラルネットワークアーキテクチャの実験を行い、VSGDがAdamとSGDより優れていることを示す。

Optimizing deep neural networks is one of the main tasks in successful deep learning. Current state-of-the-art optimizers are adaptive gradient-based optimization methods such as Adam. Recently, there has been an increasing interest in formulating gradient-based optimizers in a probabilistic framework for better estimation of gradients and modeling uncertainties. Here, we propose to combine both approaches, resulting in the Variational Stochastic Gradient Descent (VSGD) optimizer. We model gradient updates as a probabilistic model and utilize stochastic variational inference (SVI) to derive an efficient and effective update rule. Further, we show how our VSGD method relates to other adaptive gradient-based optimizers like Adam. Lastly, we carry out experiments on two image classification datasets and four deep neural network architectures, where we show that VSGD outperforms Adam and SGD.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 長期的二目的最適化のための時間的真・代理性景観解析

Temporal True and Surrogate Fitness Landscape Analysis for Expensive Bi-Objective Optimisation ( http://arxiv.org/abs/2404.06557v1 )

ライセンス: Link先を確認
C. J. Rodriguez, S. L. Thomson, T. Alderliesten, P. A. N. Bosman, (参考訳) 多くの実世界の問題は、高価で計算可能なフィットネス関数を持ち、本質的には多目的である。 サロゲート支援進化アルゴリズムは、このような問題に対処するためにしばしば用いられる。 それにもかかわらず、サロゲートモデルによって引き起こされるフィットネスランドスケープの分析に関する文献は限られており、多目的問題には存在しない。 本研究は、真のフィットネス関数の景観と多目的関数の代理モデルの景観を比較することで、この重要なギャップを解消する。 また、その時点の人口の近辺において、最適化期間中に異なる地点で景観の特徴を調べることで、時間的にもそのようにしている。 BBOB双目的ベンチマーク関数を実験で検討する。 フィットネスランドスケープ分析の結果は, 最適化時の異なる時点における真の特徴と代理的特徴の間に有意な差異が認められた。 これらの違いにもかかわらず、真実と代理的な景観の特徴は、いまだに互いに高い相関関係を示している。 さらに,本研究では,どのランドスケープ特徴が検索に関連しているかを明らかにし,サロゲート特徴と真のランドスケープ特徴の両方がアルゴリズム性能を予測可能であることを示す。 これらの結果から,ランドスケープの特徴の時間的解析は,サロゲートスイッチングアプローチの設計を容易にし,多目的最適化の性能向上に役立つ可能性が示唆された。

Many real-world problems have expensive-to-compute fitness functions and are multi-objective in nature. Surrogate-assisted evolutionary algorithms are often used to tackle such problems. Despite this, literature about analysing the fitness landscapes induced by surrogate models is limited, and even non-existent for multi-objective problems. This study addresses this critical gap by comparing landscapes of the true fitness function with those of surrogate models for multi-objective functions. Moreover, it does so temporally by examining landscape features at different points in time during optimisation, in the vicinity of the population at that point in time. We consider the BBOB bi-objective benchmark functions in our experiments. The results of the fitness landscape analysis reveals significant differences between true and surrogate features at different time points during optimisation. Despite these differences, the true and surrogate landscape features still show high correlations between each other. Furthermore, this study identifies which landscape features are related to search and demonstrates that both surrogate and true landscape features are capable of predicting algorithm performance. These findings indicate that temporal analysis of the landscape features may help to facilitate the design of surrogate switching approaches to improve performance in multi-objective optimisation.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 不均質な形態評価シナリオにおける印刷・走査の影響

The Impact of Print-and-Scan in Heterogeneous Morph Evaluation Scenarios ( http://arxiv.org/abs/2404.06559v1 )

ライセンス: Link先を確認
Richard E. Neddo, Zander W. Blasingame, Chen Liu, (参考訳) 顔形態攻撃は、顔認識システムに新たな脅威をもたらす。 それに加えて、モルヒネ画像の印刷とスキャンは、モルヒネ処理中に生成されたアーティファクトを隠蔽する可能性があるため、モルヒネ画像の検出はさらに困難になる。 本研究では,印刷・走査が異種連続試験による形態形成攻撃に与える影響について検討する。 本実験により,顔認識(FR)システムにおいて,画像の印刷・スキャンを行う場合,DiMは5.64%,StyleGAN2は16.00%の偽マッチングが可能であることが確認された。 同様に、フレシェ・インセプション・ディスタンス(Frechet Inception Distance、FID)メートル法を用いて、厳密に印刷されたモルフィック攻撃は、非印刷されたデジタルモルフィックよりも平均9.185%強く行われた。

Face morphing attacks present an emerging threat to the face recognition system. On top of that, printing and scanning the morphed images could obscure the artifacts generated during the morphing process, which makes morphed image detection even harder. In this work, we investigate the impact that printing and scanning has on morphing attacks through a series of heterogeneous tests. Our experiments show that we can increase the possibility of a false match by up to 5.64% for DiM and 16.00% for StyleGAN2 when providing an image that has been printed and scanned, regardless it is morphed or bona fide, to a Face Recognition (FR) system. Likewise, using Frechet Inception Distance (FID) metric, strictly print-scanned morph attacks performed on average 9.185% stronger than non-print-scanned digital morphs.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# クラウドナビゲーションを成功させるための学習戦略

Learning Strategies For Successful Crowd Navigation ( http://arxiv.org/abs/2404.06561v1 )

ライセンス: Link先を確認
Rajshree Daulatabad, Serena Nath, (参考訳) 自律的な移動ロボットに人間の群集をうまくナビゲートさせることは、難しい課題だ。 計画だけでなく、状況によって異なる可能性のある社会的規範の維持も必要である。 ここでは,ロボットを用いて特定の戦略を学習するためにニューラルネットワークを用いて,群集ナビゲーションに焦点を当てる。 これにより、実際のロボットに対する人間の行動や反応を考慮し、そのコンテキストにおける様々なシナリオに特有の戦略を学ぶことができます。 CNNはシーンのトップダウン画像を入力として、ロボットが速度と角度で次のアクションを出力する。 本稿では,提案手法,実験結果,および我々のアプローチを定量的に評価する。

Teaching autonomous mobile robots to successfully navigate human crowds is a challenging task. Not only does it require planning, but it requires maintaining social norms which may differ from one context to another. Here we focus on crowd navigation, using a neural network to learn specific strategies in-situ with a robot. This allows us to take into account human behavior and reactions toward a real robot as well as learn strategies that are specific to various scenarios in that context. A CNN takes a top-down image of the scene as input and outputs the next action for the robot to take in terms of speed and angle. Here we present the method, experimental results, and quantitatively evaluate our approach.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 高速超ロバストな非線形幾何量子計算

Fast Super Robust Nonadiabatic Geometric Quantum Computation ( http://arxiv.org/abs/2404.06562v1 )

ライセンス: Link先を確認
Yifu Zhang, Lei Ma, (参考訳) 非断熱的幾何量子計算(NGQC)は、高速で堅牢な量子ゲートを実行する手段を提供する。 制御誤差に対するNGQCの堅牢性を高めるために、先駆者によって多くの解決策が提案されている。 しかし、これらの解は典型的には量子ゲートに対する長い演算時間をもたらす。 量子ゲートのロバスト性を維持するために,デコヒーレンスの影響を最小限に抑えるために,動作時間を短縮しながらエラーを制御するため,FSR-NGQC(Fast Super Robust NGQC)を導入する。 このアプローチは小角回転ゲートの動作において高速な高速化を実現する。 数値計算により,デコヒーレンス環境における提案手法の性能を実証した。 その結果,提案手法は高忠実度を実現し,高速かつロバストな量子計算を可能にした。

Nonadiabatic geometric quantum computation (NGQC) provides a means to perform fast and robust quantum gates. To enhance the robustness of NGQC against control errors, numerous solutions have been proposed by predecessors. However, these solutions typically result in extended operation times for quantum gates. In order to maintain the robustness of quantum gates to control errors while shortening operation times to minimize the effects of decoherence, we introduce Fast Super Robust NGQC(FSR-NGQC). This approach achieves faster speeds when operating small-angle rotation gates. Through numerical calculations, we have demonstrated the performance of our scheme in a decoherence environment. The results show that our scheme achieves higher fidelity, thus enabling fast and robust geometric quantum computing.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# MaskSearchのデモ: 機械学習ワークフローのための画像マスクの効率的なクエリ

Demonstration of MaskSearch: Efficiently Querying Image Masks for Machine Learning Workflows ( http://arxiv.org/abs/2404.06563v1 )

ライセンス: Link先を確認
Lindsey Linxi Wei, Chung Yik Edward Yeung, Hongjian Yu, Jingchuan Zhou, Dong He, Magdalena Balazinska, (参考訳) 機械学習モデルによって生成された画像マスクのデータベース上でのクエリを高速化するシステムであるMaskSearchを実演する。 MaskSearchは、マスク特性に基づいて画像とそれに対応するマスクを検索するための新しいカテゴリを形式化し、高速化する。 1) MaskSearchのグラフィカルユーザインターフェース(GUI)の導入により、マスクプロパティによるイメージデータベースのインタラクティブな探索が可能になり、(2) MaskSearchの能力と機械学習ワークフロー内での制約をユーザが探究するためのハンズオンの機会、(3) MaskSearchがイメージマスク上でクエリをどのように加速するかを理解するためのカンファレンス参加者の機会である。

We demonstrate MaskSearch, a system designed to accelerate queries over databases of image masks generated by machine learning models. MaskSearch formalizes and accelerates a new category of queries for retrieving images and their corresponding masks based on mask properties, which support various applications, from identifying spurious correlations learned by models to exploring discrepancies between model saliency and human attention. This demonstration makes the following contributions:(1) the introduction of MaskSearch's graphical user interface (GUI), which enables interactive exploration of image databases through mask properties, (2) hands-on opportunities for users to explore MaskSearch's capabilities and constraints within machine learning workflows, and (3) an opportunity for conference attendees to understand how MaskSearch accelerates queries over image masks.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# MambaAD:マルチクラスの教師なし異常検出のための状態空間モデル

MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2404.06564v1 )

ライセンス: Link先を確認
Haoyang He, Yuhu Bai, Jiangning Zhang, Qingdong He, Hongxu Chen, Zhenye Gan, Chengjie Wang, Xiangtai Li, Guanzhong Tian, Lei Xie, (参考訳) 異常検出の最近の進歩は、CNNおよびトランスフォーマーに基づくアプローチの有効性を見出した。 しかし、CNNは長距離依存に苦しむ一方、トランスフォーマーは二次計算の複雑さに悩まされている。 より優れた長距離モデリングと線形効率を備えたマンバベースのモデルは、大きな注目を集めている。 本研究では、マルチスケールでLocality-Enhanced State Space (LSS)モジュールを特徴とするMamba Decoderと、事前訓練したエンコーダで構成されるMambaADを提示する。 提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。 HSSブロックは(Hybrid Scanning)HSエンコーダを利用し、特徴マップを5つの走査方法と8つの方向にエンコードすることで、(ステートスペースモデル)SSMによるグローバル接続を強化する。 Hilbertスキャニングと8方向の使用により、特徴系列モデリングが大幅に改善される。 6つの多様な異常検出データセットと7つのメトリクスに関する総合的な実験は、SoTAの性能を示し、その方法の有効性を実証している。

Recent advancements in anomaly detection have seen the efficacy of CNN- and transformer-based approaches. However, CNNs struggle with long-range dependencies, while transformers are burdened by quadratic computational complexity. Mamba-based models, with their superior long-range modeling and linear efficiency, have garnered substantial attention. This study pioneers the application of Mamba to multi-class unsupervised anomaly detection, presenting MambaAD, which consists of a pre-trained encoder and a Mamba decoder featuring Locality-Enhanced State Space (LSS) modules at multi-scales. The proposed LSS module, integrating parallel cascaded (Hybrid State Space) HSS blocks and multi-kernel convolutions operations, effectively captures both long-range and local information. The HSS block, utilizing (Hybrid Scanning) HS encoders, encodes feature maps into five scanning methods and eight directions, thereby strengthening global connections through the (State Space Model) SSM. The use of Hilbert scanning and eight directions significantly improves feature sequence modeling. Comprehensive experiments on six diverse anomaly detection datasets and seven metrics demonstrate SoTA performance, substantiating the method's effectiveness.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 物理・数学・論理・哲学における創造的・幾何学的時代

Creative and geometric times in physics, mathematics, logic, and philosophy ( http://arxiv.org/abs/2404.06566v1 )

ライセンス: Link先を確認
Flavio Del Santo, Nicolas Gisin, (参考訳) 我々は、幾何学的時間と創造的時間という、物理学において重要な役割を果たしている2つの異なる時間の概念の区別を提案する。 前者は決定論的物理学の時代であり、単に与えられた進化をパラメトリズするだけである。 後者は、本質的に非決定論的物理学において非必要事象が決定されたときに生成される新しい情報である、実際の変化によって特徴づけられる。 これにより、決定された過去から潜在的未来を分離する瞬間として、現在を自然主義的に特徴づけることができる。 古典的・直観主義的な数学、古典的・多値な時制論理、そして時間哲学における有名なA-理論とB-理論との関係について論じる。

We propose a distinction between two different concepts of time that play a role in physics: geometric time and creative time. The former is the time of deterministic physics and merely parametrizes a given evolution. The latter is instead characterized by real change, i.e. novel information that gets created when a non-necessary event becomes determined in a fundamentally indeterministic physics. This allows us to give a naturalistic characterization of the present as the moment that separates the potential future from the determined past. We discuss how these two concepts find natural applications in classical and intuitionistic mathematics, respectively, and in classical and multivalued tensed logic, as well as how they relate to the well-known A- and B-theories in the philosophy of time.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 多目的粒子群最適化を用いたテストシーケンス生成について

On Test Sequence Generation using Multi-Objective Particle Swarm Optimization ( http://arxiv.org/abs/2404.06568v1 )

ライセンス: Link先を確認
Zain Iqbal, Kashif Zafar, Aden Iqbal, Ayesha Khan, (参考訳) ソフトウェアテストはソフトウェア開発ライフサイクルの重要な部分であり、システム開発コストの約3分の1を占める。 ソフトウェア業界では、テストコストはソフトウェアプロジェクトの総コストの約35%から40%を占めることができます。 したがって、ソフトウェアをテストする効率的な方法を提供することは、コスト、時間、労力を削減するために重要です。 Black-boxテストとWhite-boxテストは、ソフトウェアテストの重要な2つのコンポーネントである。 ブラックボックステストはソフトウェアの機能に焦点を当て、ホワイトボックステストは内部構造を調べる。 これらのテストは、ソフトウェアテストパラダイムの主要な目標の1つである、プログラムカバレッジの確保に大きく貢献します。 この領域の主な問題は、テストシーケンスと呼ばれるプログラムカバレッジの適切なパスを特定することである。 自動化された効果的なテストシーケンスを作成することは、ソフトウェアテストプロセスにおいて難しいタスクです。 提案手法では,「テストシーケンス生成」の課題は,Oracle のコストとパスを含む多目的最適化問題であると考えられる。 Multi-Objective Particle Swarm Optimization (MOPSO) は、最も優先度が高く、Oracleの最低コストが最適であるテストシーケンスを表現するために使用される。 提案手法の性能は,テストシーケンスを生成するための多目的ファイアフライアルゴリズム (MOFA) と比較される。 MOPSOベースのソリューションは、MOFAベースのアプローチよりも優れており、同時に両方の目的に対して最適なソリューションを提供する。

Software testing is an important and essential part of the software development life cycle and accounts for almost one-third of system development costs. In the software industry, testing costs can account for about 35% to 40% of the total cost of a software project. Therefore, providing efficient ways to test software is critical to reduce cost, time, and effort. Black-box testing and White-box testing are two essential components of software testing. Black-box testing focuses on the software's functionality, while White-box testing examines its internal structure. These tests contribute significantly to ensuring program coverage, which remains one of the main goals of the software testing paradigm. One of the main problems in this area is the identification of appropriate paths for program coverage, which are referred to as test sequences. Creating an automated and effective test sequence is a challenging task in the software testing process. In the proposed methodology, the challenge of "test sequence generation" is considered a multi-objective optimization problem that includes the Oracle cost and the path, both of which are optimized in a symmetrical manner to achieve optimal software testing. Multi-Objective Particle Swarm Optimization (MOPSO) is used to represent the test sequences with the highest priority and the lowest Oracle cost as optimal. The performance of the implemented approach is compared with the Multi-Objective Firefly Algorithm (MOFA) for generating test sequences. The MOPSO-based solution outperforms the MOFA-based approach and simultaneously provides the optimal solution for both objectives.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 製造サービスディスカバリにおけるチャットGPT応答強化のための知識グラフの構築

Building A Knowledge Graph to Enrich ChatGPT Responses in Manufacturing Service Discovery ( http://arxiv.org/abs/2404.06571v1 )

ライセンス: Link先を確認
Yunqing Li, Binil Starly, (参考訳) 製造システムインテグレータにとって、新たな製造パートナーの売却と特定は、グローバル経済におけるサプライチェーンの多様化によるアジリティの向上とリスク低減に不可欠である。 先進的な大規模言語モデルの出現は、幅広い知識領域にわたる包括的で明瞭な応答を生成する能力のために、大きな関心を集めている。 しかし、特に製造サービス発見のような分野において、ドメイン固有の問い合わせに応答する場合、システムは正確さと完全性に欠けることが多い。 本研究は、ChatGPTと連携して知識グラフを活用することにより、小規模製造業の特定におけるクライアントのプロセスの合理化を図るものである。 本研究では,ボトムアップオントロジーと高度な機械学習モデルを統合して,北米の小規模製造業者のデジタルフットプリントを含む,構造化および非構造化データソースの配列から製造サービス知識グラフを開発する手法を提案する。 知識グラフと学習グラフ埋め込みベクタを利用して、デジタルサプライチェーンネットワーク内の複雑なクエリに対処し、信頼性の向上と解釈可能性の向上に対応する。 このアプローチは、業界、地政学的境界、ビジネスドメインにまたがる複数のタイプの知識グラフを相互接続できる、グローバルな製造サービス知識ネットワークグラフを形成するために分散可能な数百万のエンティティにスケーラブルである。 この研究のために開発されたデータセットは、現在公開されており、13,000以上のメーカーのWebリンク、製造サービス、認証、位置エンティティタイプを含んでいる。

Sourcing and identification of new manufacturing partners is crucial for manufacturing system integrators to enhance agility and reduce risk through supply chain diversification in the global economy. The advent of advanced large language models has captured significant interest, due to their ability to generate comprehensive and articulate responses across a wide range of knowledge domains. However, the system often falls short in accuracy and completeness when responding to domain-specific inquiries, particularly in areas like manufacturing service discovery. This research explores the potential of leveraging Knowledge Graphs in conjunction with ChatGPT to streamline the process for prospective clients in identifying small manufacturing enterprises. In this study, we propose a method that integrates bottom-up ontology with advanced machine learning models to develop a Manufacturing Service Knowledge Graph from an array of structured and unstructured data sources, including the digital footprints of small-scale manufacturers throughout North America. The Knowledge Graph and the learned graph embedding vectors are leveraged to tackle intricate queries within the digital supply chain network, responding with enhanced reliability and greater interpretability. The approach highlighted is scalable to millions of entities that can be distributed to form a global Manufacturing Service Knowledge Network Graph that can potentially interconnect multiple types of Knowledge Graphs that span industry sectors, geopolitical boundaries, and business domains. The dataset developed for this study, now publicly accessible, encompasses more than 13,000 manufacturers' weblinks, manufacturing services, certifications, and location entity types.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# マシンラーニングPythonプロジェクトにおけるリファクタリングのコミッションの検出: マシンラーニングベースのアプローチ

Detecting Refactoring Commits in Machine Learning Python Projects: A Machine Learning-Based Approach ( http://arxiv.org/abs/2404.06572v1 )

ライセンス: Link先を確認
Shayan Noei, Heng Li, Ying Zou, (参考訳) リファクタリングは、機能的な振る舞いを変えることなく、ソフトウェア品質を高める。 ソフトウェアの保守性を改善するためには、開発者のリファクタリング活動を理解することが重要です。 機械学習(ML)ライブラリとフレームワークの利用が増加するにつれ、そのメンテナンス可能性の最大化が不可欠である。 MLプロジェクトのデータ駆動性のため、既存のリファクタリングツールにはML固有の検出機能がないため、さまざまなリファクタリング操作(データ操作など)を行うことが多い。 さらに、多数のMLライブラリがPythonで書かれており、リファクタリング検出のツールが限られている。 Pythonリファクタリング検出のためのルールベースで最先端のツールであるPyRefは、11種類のリファクタリング操作を識別できる。 対照的にRminerは、Javaプロジェクトの99種類のリファクタリングを検出できる。 MLRefScannerは機械学習技術を用いてML Pythonプロジェクトのリファクタリングコミットを検出するプロトタイプツールである。 MLRefScannerは、ML固有のものと一般的なリファクタリング操作の両方でコミットを特定する。 199のMLプロジェクトでMLRefScannerを評価することは、最先端のアプローチよりも優れたパフォーマンスを示し、全体的な94%の精度と82%のリコールを達成した。 PyRefと組み合わせることで、パフォーマンスはさらに95%の精度と99%のリコールに向上する。 本研究は,多種多様なプログラミング言語や技術的領域におけるリファクタリング検出におけるML駆動型アプローチの可能性を強調し,ルールベースの検出手法の限界に対処する。

Refactoring enhances software quality without altering its functional behaviors. Understanding the refactoring activities of developers is crucial to improving software maintainability. With the increasing use of machine learning (ML) libraries and frameworks, maximizing their maintainability is crucial. Due to the data-driven nature of ML projects, they often undergo different refactoring operations (e.g., data manipulation), for which existing refactoring tools lack ML-specific detection capabilities. Furthermore, a large number of ML libraries are written in Python, which has limited tools for refactoring detection. PyRef, a rule-based and state-of-the-art tool for Python refactoring detection, can identify 11 types of refactoring operations. In comparison, Rminer can detect 99 types of refactoring for Java projects. We introduce MLRefScanner, a prototype tool that applies machine-learning techniques to detect refactoring commits in ML Python projects. MLRefScanner identifies commits with both ML-specific and general refactoring operations. Evaluating MLRefScanner on 199 ML projects demonstrates its superior performance compared to state-of-the-art approaches, achieving an overall 94% precision and 82% recall. Combining it with PyRef further boosts performance to 95% precision and 99% recall. Our study highlights the potential of ML-driven approaches in detecting refactoring across diverse programming languages and technical domains, addressing the limitations of rule-based detection methods.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# フレキシブル量子データバス

A flexible quantum data bus ( http://arxiv.org/abs/2404.06578v1 )

ライセンス: Link先を確認
Julia Freund, Alexander Pirker, Wolfgang Dür, (参考訳) 量子ネットワークにおける絡み合いのマルチパスルーティングについて考察する。そこでは、あらかじめ準備されたマルチパートの絡み合った2次元クラスタ状態が、要求に応じて異なるタスクを実行するためのリソースとして機能する。 残状態の絡み合い構造を保存した対角線経路間の適切な局所的測定を行うことにより、複数の自由選択されたパーティ間の並列接続を実現する方法を示す。 データバスと同様、交差、回転、フェードイン/アウトを介して複数のベルステートを平行線に沿ってルーティングする方法を実証する。 結果はどんな規模のネットワークにも当てはまる。

We consider multi-path routing of entanglement in quantum networks, where a pre-prepared multipartite entangled 2D cluster state serves as a resource to perform different tasks on demand. We show how to achieve parallel connections between multiple, freely chosen groups of parties by performing appropriate local measurements among diagonal paths, which preserves the entanglement structure of the remaining state. We demonstrate how to route multiple Bell-states along parallel lines via crossings, turns and fade-in/-outs, analogously to a data bus. The results apply to networks at any scale.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# ファクチュアル・一貫性の自動評価の改善にむけて

Less is More for Improving Automatic Evaluation of Factual Consistency ( http://arxiv.org/abs/2404.06579v1 )

ライセンス: Link先を確認
Tong Wang, Ninad Kulkarni, Yanjun Qi, (参考訳) ソースコンテキストに関連する自動生成テキストの事実整合性を評価することは、信頼性の高い自然言語生成アプリケーションを開発する上で重要である。 近年の文献では、統合アライメントモデルを用いて事実整合性を評価し、多くのベンチマークタスクで従来の手法よりも大幅に優れるAlignScoreを提案する。 本稿では、AlignScoreで使用されるデータセットを詳しく調べ、予期せぬ発見を明らかにする。 我々は、元のAlignScoreトレーニングデータセットを処理し、ノイズを除去し、ロバスト性向上したサンプルを増量し、データの10%からなるサブセットを使用して、改善された事実整合性評価モデル(LIM-RA)をトレーニングする。 LIM-RAは優れたパフォーマンスを示し、AlignScoreやChatGPTのような強力なベースラインを4つのベンチマークで継続的に上回る。 実験の結果、LIM-RAは33の試験データセットのうち24の最高スコアを達成し、残りは競争力を維持し、新しい最先端のベンチマークを確立した。

Assessing the factual consistency of automatically generated texts in relation to source context is crucial for developing reliable natural language generation applications. Recent literature proposes AlignScore which uses a unified alignment model to evaluate factual consistency and substantially outperforms previous methods across many benchmark tasks. In this paper, we take a closer look of datasets used in AlignScore and uncover an unexpected finding: utilizing a smaller number of data points can actually improve performance. We process the original AlignScore training dataset to remove noise, augment with robustness-enhanced samples, and utilize a subset comprising 10\% of the data to train an improved factual consistency evaluation model, we call LIM-RA (Less Is More for Robust AlignScore). LIM-RA demonstrates superior performance, consistently outperforming AlignScore and other strong baselines like ChatGPT across four benchmarks (two utilizing traditional natural language generation datasets and two focused on large language model outputs). Our experiments show that LIM-RA achieves the highest score on 24 of the 33 test datasets, while staying competitive on the rest, establishing the new state-of-the-art benchmarks.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# 複製に基づく量子アニール誤差軽減

Replication-based quantum annealing error mitigation ( http://arxiv.org/abs/2404.06580v1 )

ライセンス: Link先を確認
Hristo N. Djidjev, (参考訳) D-Wave Systemsのような量子アニールは、最適化問題を解決するために断熱的量子コンピューティングを実装しているが、そのアナログの性質と制限された制御機能は、誤りの修正や軽減に挑戦している。 量子コンピューティングがアプリケーションへと進むにつれ、効果的なエラー抑制が重要な研究目標となっている。 並列量子アニールに基づくレプリケーションベース緩和(RBM)と呼ばれる新しい手法を提案する。 RBMでは、同じ論理量子ビットを表す物理量子ビットが、ハードウェアに埋め込まれた問題の異なるコピーに分散される。 これは、ハードウェアバイアスを緩和し、現在のアニーラーで限られた量子ビット接続と互換性があり、利用可能なノイズの多い中間スケール量子アニーラー(NISQ)に適している。 実験により, RBMは従来手法と同等のソリューション品質を提供するとともに, より広い範囲のハードウェア接続パターンと互換性があることが判明した。 誤差緩和のない標準的な量子アニールと比較して、RBMはパラメータ化された問題集合全体のエネルギーと基底状態の確率を一貫して改善する。

Quantum annealers like those from D-Wave Systems implement adiabatic quantum computing to solve optimization problems, but their analog nature and limited control functionalities present challenges to correcting or mitigating errors. As quantum computing advances towards applications, effective error suppression is an important research goal. We propose a new approach called replication based mitigation (RBM) based on parallel quantum annealing. In RBM, physical qubits representing the same logical qubit are dispersed across different copies of the problem embedded in the hardware. This mitigates hardware biases, is compatible with limited qubit connectivity in current annealers, and is suited for available noisy intermediate-scale quantum (NISQ) annealers. Our experimental analysis shows that RBM provides solution quality on par with previous methods while being compatible with a much wider range of hardware connectivity patterns. In comparisons against standard quantum annealing without error mitigation, RBM consistently improves the energies and ground state probabilities across parameterized problem sets.
翻訳日:2024-04-11 16:18:39 公開日:2024-04-09
# ラフパスの講義ノートと機械学習への応用

Lecture notes on rough paths and applications to machine learning ( http://arxiv.org/abs/2404.06583v1 )

ライセンス: Link先を確認
Thomas Cass, Cristopher Salvi, (参考訳) これらのノートは、データサイエンスと機械学習におけるシグネチャ変換とラフパス理論の最近の使用を説明している。 第一原理からシグネチャのコア理論を開発し、シグネチャベースカーネル法や神経粗微分方程式など、このアプローチの最近の一般的な応用について調査する。 このノートは、インペリアル・カレッジ・ロンドン(英語版)の2人の著者によるコースに基づいている。

These notes expound the recent use of the signature transform and rough path theory in data science and machine learning. We develop the core theory of the signature from first principles and then survey some recent popular applications of this approach, including signature-based kernel methods and neural rough differential equations. The notes are based on a course given by the two authors at Imperial College London.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# フィロジェニーインフォームドインタラクション推定は共進化学習を加速させる

Phylogeny-Informed Interaction Estimation Accelerates Co-Evolutionary Learning ( http://arxiv.org/abs/2404.06588v1 )

ライセンス: Link先を確認
Jack Garbus, Thomas Willkens, Alexander Lalejini, Jordan Pollack, (参考訳) 共進化は強力な問題解決アプローチである。 しかし、共進化的アルゴリズムの適合性評価は、1つの集団の個体の質が1つ以上の集団の多くの(または全て)メンバーとの相互作用によって定義されるため、計算的にコストがかかる可能性がある。 共同進化系を加速するために, 個体間の相互作用の成果を, 親類同士の相互作用がどのように行われたかに基づいて推定するために, 実行時系統解析を用いた系統情報による相互作用推定を導入する。 2つのシステムは問題解決の成功度を計測することに集中しており、もう1つは進化的開放度を計測することに焦点を当てている。 系統的インフォームド推定は、特に長期進化の初期段階において、問題解決に必要な計算を大幅に削減できることがわかった。 さらに、我々の推定手法は、最初はオープンエンドドメインの神経複雑性の進化を開始するが、十分な時間があれば、見積もり不要なシステムは最終的に"キャッチアップ"する。 より広範に、これらの系統的インフォームド相互作用推定手法の継続的な改良は、開度を維持しながら共進化的システムを実行する際の計算コストを減らし、有望な経路を提供する。

Co-evolution is a powerful problem-solving approach. However, fitness evaluation in co-evolutionary algorithms can be computationally expensive, as the quality of an individual in one population is defined by its interactions with many (or all) members of one or more other populations. To accelerate co-evolutionary systems, we introduce phylogeny-informed interaction estimation, which uses runtime phylogenetic analysis to estimate interaction outcomes between individuals based on how their relatives performed against each other. We test our interaction estimation method with three distinct co-evolutionary systems: two systems focused on measuring problem-solving success and one focused on measuring evolutionary open-endedness. We find that phylogeny-informed estimation can substantially reduce the computation required to solve problems, particularly at the beginning of long-term evolutionary runs. Additionally, we find that our estimation method initially jump-starts the evolution of neural complexity in our open-ended domain, but estimation-free systems eventually "catch-up" if given enough time. More broadly, continued refinements to these phylogeny-informed interaction estimation methods offers a promising path to reducing the computational cost of running co-evolutionary systems while maintaining their open-endedness.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# 効率的なサーモグラフィー分類とセグメンテーションのための潜水剤の有効利用

Leveraging Latents for Efficient Thermography Classification and Segmentation ( http://arxiv.org/abs/2404.06589v1 )

ライセンス: Link先を確認
Tamir Shor, Chaim Baskin, Alex Bronstein, (参考訳) 乳がんは世界中で顕著な健康上の問題であり、現在、女性の中では2番目に一般的で、2番目に遅れやすい種類のがんである。 現在の乳癌の診断は主にマンモグラフィーに頼っているが、近年は乳がん画像へのサーモグラフィーの使用が人気が高まっている。 サーモグラフィー画像は、体から放出された熱の分布を捉えるために赤外線カメラに依存している。 これらの熱シグネチャは、正確な乳癌の分類と分類のためのコンピュータビジョンシステムに有用であることが証明されているが、以前の研究は手作りの特徴工学や複雑なアーキテクチャに依存しており、これらの手法の互換性と適用性を制限する可能性がある。 本研究では,乳癌の分類とセグメンテーションのための新しいアルゴリズムを提案する。 手動の機能とアーキテクチャ工学に重点を置くのではなく、私たちのアルゴリズムは、情報に富んだ学習済みの機能空間を活用することに集中し、ソリューションを他のフレームワークや下流タスクに使いやすく拡張し、データスカース設定にもより適用できるようにします。 分類はSOTAの結果を生成するが,本論文で研究したセグメンテーション領域の創出は今回が初めてである。

Breast cancer is a prominent health concern worldwide, currently being the secondmost common and second-deadliest type of cancer in women. While current breast cancer diagnosis mainly relies on mammography imaging, in recent years the use of thermography for breast cancer imaging has been garnering growing popularity. Thermographic imaging relies on infrared cameras to capture body-emitted heat distributions. While these heat signatures have proven useful for computer-vision systems for accurate breast cancer segmentation and classification, prior work often relies on handcrafted feature engineering or complex architectures, potentially limiting the comparability and applicability of these methods. In this work, we present a novel algorithm for both breast cancer classification and segmentation. Rather than focusing efforts on manual feature and architecture engineering, our algorithm focuses on leveraging an informative, learned feature space, thus making our solution simpler to use and extend to other frameworks and downstream tasks, as well as more applicable to data-scarce settings. Our classification produces SOTA results, while we are the first work to produce segmentation regions studied in this paper.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# 類似度探索のための空間最適化型コンパクト深度学習モデル

Spatially Optimized Compact Deep Metric Learning Model for Similarity Search ( http://arxiv.org/abs/2404.06593v1 )

ライセンス: Link先を確認
Md. Farhadul Islam, Md. Tanzim Reza, Meem Arafat Manab, Mohammad Rakibul Hasan Mahin, Sarah Zabeen, Jannatun Noor, (参考訳) 空間最適化は、多くのコンピュータビジョンタスクにおいて見過ごされがちである。 フィルタは、画像のどこにあっても、オブジェクトの特徴を認識できなければならない。 類似性探索は空間的特徴が重要な出力を決定する重要なタスクである。 様々な場所で視覚パターンをとらえる畳み込みの能力は限られている。 畳み込みとは対照的に、インボリューションカーネルは、学習されたピクセル値とパラメータに基づいて各ピクセルで動的に生成される。 本研究では,コンパクトな畳み込みモデルとともに単一の畳み込み特徴抽出器の層を利用することにより,類似性探索の性能が著しく向上することを示す。 さらに,ReLUではなくGELUアクティベーション関数を用いて予測を改善する。 より優れた性能を持つコンパクトモデルとの畳み込みにおける無視できる量の重みパラメータは、実世界の実装において非常に有用である。 提案モデルは1メガバイト以下である。 CIFAR-10, FashionMNIST, MNISTデータセット上で提案手法および他のモデルの実験を行った。 提案手法は3つのデータセットにまたがって性能が向上する。

Spatial optimization is often overlooked in many computer vision tasks. Filters should be able to recognize the features of an object regardless of where it is in the image. Similarity search is a crucial task where spatial features decide an important output. The capacity of convolution to capture visual patterns across various locations is limited. In contrast to convolution, the involution kernel is dynamically created at each pixel based on the pixel value and parameters that have been learned. This study demonstrates that utilizing a single layer of involution feature extractor alongside a compact convolution model significantly enhances the performance of similarity search. Additionally, we improve predictions by using the GELU activation function rather than the ReLU. The negligible amount of weight parameters in involution with a compact model with better performance makes the model very useful in real-world implementations. Our proposed model is below 1 megabyte in size. We have experimented with our proposed methodology and other models on CIFAR-10, FashionMNIST, and MNIST datasets. Our proposed method outperforms across all three datasets.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# 超作用素マスター方程式による非分極力学の解法

Superoperator master equations for depolarizing dynamics ( http://arxiv.org/abs/2404.06595v1 )

ライセンス: Link先を確認
A. E. Teretenkov, (参考訳) この作品はスーパーオペレーターマスター方程式に特化している。 すなわち、ツイリング超プロジェクターの場合の超作用素マスター方程式はユニタリ群全体に対して導出される。 そのような超射影と整合性を持つためには、自由力学は非分極的であると仮定される。 そして、任意のゴリーニ-コサコフスキー-スダルシャン-リンドブラッド発生器によって摂動される。 この場合、2階マスター方程式の明示的な形式が示される。

The work is devoted to superoperator master equations. Namely, the superoperator master equations in the case of the twirling hyperprojector with respect to the whole unitary group are derived. To be consistent with such a hyperprojector the free dynamics is assumed to be depolarizing. And it is perturbed by the arbitrary Gorini--Kossakowski--Sudarshan--Lindblad generator. The explicit form of the second order master equations are presented in this case.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# FMDA-OT: 最適輸送による多ソースドメイン適応

FMDA-OT: Federated Multi-source Domain Adaptation Through Optimal Transport ( http://arxiv.org/abs/2404.06599v1 )

ライセンス: Link先を確認
Omar Ghannou, Younès Bennani, (参考訳) マルチソースドメイン適応(MDA)は、複数のラベル付きソースドメインでトレーニングされたモデルをラベルなしのターゲットドメインに適応させることを目的としている。 本稿では,2つの適応フェーズからなる協調型MDAフレームワークとして,我々のアプローチを紹介する。 まず、最適輸送を利用して、各ソースに対して個別にドメイン適応を行う。 そして、フレームワークの最終部分を構成する第2フェーズにおいて、N ソースを表す N モデルと協調する集中型フェデレーション学習のアーキテクチャを設計する。 このアーキテクチャは、データにアクセスせずにソースを使用することで、ドメイン適応に固有のデータのプライバシ問題を解消する利点を提供します。 さらに、このフェーズでは、サーバはターゲットドメインで利用可能な少数の擬似ラベル付きサンプルを使用して、データセットのターゲットバリデーションサブセットとして、適応をガイドし、微調整する。

Multi-source Domain Adaptation (MDA) aims to adapt models trained on multiple labeled source domains to an unlabeled target domain. In this paper, we introduce our approach as a collaborative MDA framework, which comprises two adaptation phases. Firstly, we conduct domain adaptation for each source individually with the target, utilizing optimal transport. Then, in the second phase, which constitutes the final part of the framework, we design the architecture of centralized federated learning to collaborate the N models representing the N sources. This architecture offers the advantage of using the sources without accessing their data, thus resolving data privacy issues inherent in domain adaptation. Additionally, during this phase, the server guides and fine-tunes the adaptation using a small number of pseudo-labeled samples available in the target domain, referred to as the target validation subset of the dataset.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# RoadBEV:鳥の視線で道路表面を再構築する

RoadBEV: Road Surface Reconstruction in Bird's Eye View ( http://arxiv.org/abs/2404.06605v1 )

ライセンス: Link先を確認
Tong Zhao, Lei Yang, Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Yintao Wei, (参考訳) 路面条件、特に幾何学的プロファイルは、自動運転車の走行性能に大きな影響を及ぼす。 視覚に基づくオンライン道路再建は,道路情報を事前に収集する。 モノクル深度推定やステレオマッチングといった既存のソリューションは、控えめなパフォーマンスに悩まされている。 最近のバードアイビュー(Bird's-Eye-View、BEV)の認識技術は、より信頼性と正確な再構築の可能性を秘めている。 本稿では, 単眼画像とステレオ画像で道路標高を推定する, RoadBEV-mono と RoadBEV-stereo の2つの簡易かつ効果的な道路標高復元モデルを提案する。 前者はイメージビューから検索したボクセル特徴に基づく標高値と直接適合する一方、後者は左右のボクセル特徴の相違を示すBEVボリュームに基づく道路標高パターンを効率的に認識する。 洞察に富んだ分析は、その構成と視点との相違を明らかにする。 実世界のデータセットの実験は、モデルの有効性と優越性を検証します。 RoadBEVモノとRoadBEVステレオの標高誤差はそれぞれ1.83cmと0.56cmである。 単眼画像に基づくBEVでは, 推定性能が50%向上した。 我々のモデルは実用的な応用に期待でき、自律運転における視覚に基づくBEVの認識に貴重な基準を提供する。 コードはhttps://github.com/ztsrxh/RoadBEVで公開されている。

Road surface conditions, especially geometry profiles, enormously affect driving performance of autonomous vehicles. Vision-based online road reconstruction promisingly captures road information in advance. Existing solutions like monocular depth estimation and stereo matching suffer from modest performance. The recent technique of Bird's-Eye-View (BEV) perception provides immense potential to more reliable and accurate reconstruction. This paper uniformly proposes two simple yet effective models for road elevation reconstruction in BEV named RoadBEV-mono and RoadBEV-stereo, which estimate road elevation with monocular and stereo images, respectively. The former directly fits elevation values based on voxel features queried from image view, while the latter efficiently recognizes road elevation patterns based on BEV volume representing discrepancy between left and right voxel features. Insightful analyses reveal their consistence and difference with perspective view. Experiments on real-world dataset verify the models' effectiveness and superiority. Elevation errors of RoadBEV-mono and RoadBEV-stereo achieve 1.83cm and 0.56cm, respectively. The estimation performance improves by 50\% in BEV based on monocular image. Our models are promising for practical applications, providing valuable references for vision-based BEV perception in autonomous driving. The code is released at https://github.com/ztsrxh/RoadBEV.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# GOAT-Bench:マルチモード生涯ナビゲーションのベンチマーク

GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation ( http://arxiv.org/abs/2404.06609v1 )

ライセンス: Link先を確認
Mukul Khanna, Ram Ramrakhya, Gunjan Chhablani, Sriram Yenamandra, Theophile Gervet, Matthew Chang, Zsolt Kira, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, (参考訳) Embodied AIコミュニティは、3D座標、オブジェクト、言語記述、イメージからターゲットを探索する、視覚的なナビゲーションタスクにおいて、大きな進歩を遂げている。 しかし、これらのナビゲーションモデルは、ターゲットとして単一の入力モダリティしか扱わないことが多い。 これまでの進歩により、様々な目標タイプを扱えるユニバーサルナビゲーションモデルに移行し、ロボットとのより効果的なユーザーインタラクションを実現する。 GOAT-BenchはGOAT(GOAT to AnyThing)と呼ばれるユニバーサルナビゲーションタスクのベンチマークである。 このタスクでは、エージェントは、カテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスをオープン語彙形式でナビゲートするように指示される。 我々は、GOATタスクにおけるモノリシックなRLおよびモジュラーメソッドのベンチマークを行い、その性能、明示的で暗黙的なシーンメモリの役割、目標仕様におけるノイズに対する堅牢性、生涯にわたるシナリオにおけるメモリの影響を分析した。

The Embodied AI community has made significant strides in visual navigation tasks, exploring targets from 3D coordinates, objects, language descriptions, and images. However, these navigation models often handle only a single input modality as the target. With the progress achieved so far, it is time to move towards universal navigation models capable of handling various goal types, enabling more effective user interaction with robots. To facilitate this goal, we propose GOAT-Bench, a benchmark for the universal navigation task referred to as GO to AnyThing (GOAT). In this task, the agent is directed to navigate to a sequence of targets specified by the category name, language description, or image in an open-vocabulary fashion. We benchmark monolithic RL and modular methods on the GOAT task, analyzing their performance across modalities, the role of explicit and implicit scene memories, their robustness to noise in goal specifications, and the impact of memory in lifelong scenarios.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# FairPair: ペア摂動による言語モデルにおけるバイアスのロバストな評価

FairPair: A Robust Evaluation of Biases in Language Models through Paired Perturbations ( http://arxiv.org/abs/2404.06619v1 )

ライセンス: Link先を確認
Jane Dwivedi-Yu, Raaz Dwivedi, Timo Schick, (参考訳) 特定のグループに対する言語モデルの差分処理の正確な評価は、ポジティブで安全なユーザエクスペリエンスを確保するために重要である。 理想的な評価は、ロバストで、新しいグループや属性に拡張可能であり、典型的な使用法(極端に稀な場合ではなく)に現れるバイアスを捉えることができるという特性を持つべきである。 相対的に、偏見評価は、偏見だけでなく、女性に関する外見について話す可能性など、微妙で一般的なものも提示すべきである。 常用時に発生する差分処理を評価するための評価フレームワークであるFairPairについて述べる。 FairPairはカウンターファクトのペアを通じて動作するが、重要な点として、ペアの継続は同じ人口集団に根ざされているため、同等の比較が保証される。 また,従来の研究と異なり,本手法は,サンプリングのばらつきを測定することによって,生成プロセス自体から生じる固有変数に影響を及ぼす。 本稿では,女性に対する家族や趣味を議論する上での嗜好を示す,いくつかの一般的な生成モデルの評価と質的分析について述べる。

The accurate evaluation of differential treatment in language models to specific groups is critical to ensuring a positive and safe user experience. An ideal evaluation should have the properties of being robust, extendable to new groups or attributes, and being able to capture biases that appear in typical usage (rather than just extreme, rare cases). Relatedly, bias evaluation should surface not only egregious biases but also ones that are subtle and commonplace, such as a likelihood for talking about appearances with regard to women. We present FairPair, an evaluation framework for assessing differential treatment that occurs during ordinary usage. FairPair operates through counterfactual pairs, but crucially, the paired continuations are grounded in the same demographic group, which ensures equivalent comparison. Additionally, unlike prior work, our method factors in the inherent variability that comes from the generation process itself by measuring the sampling variability. We present an evaluation of several commonly used generative models and a qualitative analysis that indicates a preference for discussing family and hobbies with regard to women.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# MLMとあなたの好きなジェンダーとは何か?多言語マスキング言語モデルにおけるジェンダーバイアス評価

What is Your Favorite Gender, MLM? Gender Bias Evaluation in Multilingual Masked Language Models ( http://arxiv.org/abs/2404.06621v1 )

ライセンス: Link先を確認
Jeongrok Yu, Seong Ug Kim, Jacob Choi, Jinho D. Choi, (参考訳) ビアスは、一方が他方に有利な偏見である。 トランスフォーマーベースのマスケプド言語モデル(MLM)の成功と多くのNLPタスクへの影響により、これらのモデルにおけるバイアスの体系的評価がこれまで以上に必要となる。 多くの研究が英語のMLMにおいて性バイアスを評価してきたが、他の言語ではいくつかの研究しか行われていない。 本稿では、中国語、英語、ドイツ語、ポルトガル語、スペイン語の5言語から、MLMの性別バイアスを推定するための多言語アプローチを提案する。 従来の研究とは異なり,本手法は英語と結合した並列コーパスに頼らず,多言語レキシコンを用いた他言語における性バイアスを検出する。 さらに,従来のレキシコン法と比較して,より頑健なジェンダーバイアス分析のための文対を生成するための新しいモデルベース手法を提案する。 各言語について、レキシコンベースとモデルベースの両方の手法を用いて、それぞれ2つのデータセットを作成し、既存の1つの測定基準と3つの評価基準を使用して、その言語のために特別に訓練されたMLMにおける性別バイアスを評価する。 以上の結果から,従来のアプローチはデータに敏感であり,性別に関係のない文脈依存を除去しないため,安定ではないことが示唆された。 実際、結果は、異なる評価指標が同じデータセットで使用される場合、しばしば反転し、ベストプラクティスのために複数の評価指標を使用して、大きなデータセットで性別バイアスを研究するべきであることを示唆している。

Bias is a disproportionate prejudice in favor of one side against another. Due to the success of transformer-based Masked Language Models (MLMs) and their impact on many NLP tasks, a systematic evaluation of bias in these models is needed more than ever. While many studies have evaluated gender bias in English MLMs, only a few works have been conducted for the task in other languages. This paper proposes a multilingual approach to estimate gender bias in MLMs from 5 languages: Chinese, English, German, Portuguese, and Spanish. Unlike previous work, our approach does not depend on parallel corpora coupled with English to detect gender bias in other languages using multilingual lexicons. Moreover, a novel model-based method is presented to generate sentence pairs for a more robust analysis of gender bias, compared to the traditional lexicon-based method. For each language, both the lexicon-based and model-based methods are applied to create two datasets respectively, which are used to evaluate gender bias in an MLM specifically trained for that language using one existing and 3 new scoring metrics. Our results show that the previous approach is data-sensitive and not stable as it does not remove contextual dependencies irrelevant to gender. In fact, the results often flip when different scoring metrics are used on the same dataset, suggesting that gender bias should be studied on a large dataset using multiple evaluation metrics for best practice.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# 事前学習型視覚変換器を用いたFew-Shotクラスインクリメンタルラーニングのための高次統計の校正

Calibrating Higher-Order Statistics for Few-Shot Class-Incremental Learning with Pre-trained Vision Transformers ( http://arxiv.org/abs/2404.06622v1 )

ライセンス: Link先を確認
Dipam Goswami, Bartłomiej Twardowski, Joost van de Weijer, (参考訳) FSCIL(Few-shot class-incremental Learning)は、学習済みのクラスを忘れずに、非常に少ないデータ(5つのサンプル)から新しいクラスにモデルを適応することを目的としている。 マルチショットCIL(MSCIL)の最近の研究は、事前訓練されたモデルを利用して、忘れを減らし、可塑性を向上した。 同様の方法で、大規模なデータセットで事前トレーニングされたViTモデルを、数ショット設定で使用しています。 FSCILメソッドは、非常に優れた特徴抽出器を学習するために、マルチショットファーストタスクから始まり、2番目のタスクから数ショット設定に移動します。 最近の研究の焦点は、多くのショットファーストタスクを学習して、モデルを将来の数ショットタスクすべてに一般化する方法にあるが、この研究では、最初のタスクがどのようにトレーニングされたかに関わらず、事前訓練されたモデルを使用して数ショットデータをより良くモデル化する方法を探る。 我々はMSCILの最近の研究に触発され、高次特徴統計の利用が少ショットクラスの分類にどのように影響するかを考察した。 そこで本研究では,少数ショットデータから良質な共分散行列を得る上での課題を特定し,多ショットベースクラスとのセマンティックな類似性に基づいて,新しいクラスに対する共分散行列の校正を提案する。 キャリブレーションされた特徴統計と既存手法を組み合わせることで、いくつかのFSCILベンチマークにおいて、数ショットの連続的な分類が大幅に改善される。 コードはhttps://github.com/dipamgoswami/FSCIL-Calibration.comで入手できる。

Few-shot class-incremental learning (FSCIL) aims to adapt the model to new classes from very few data (5 samples) without forgetting the previously learned classes. Recent works in many-shot CIL (MSCIL) (using all available training data) exploited pre-trained models to reduce forgetting and achieve better plasticity. In a similar fashion, we use ViT models pre-trained on large-scale datasets for few-shot settings, which face the critical issue of low plasticity. FSCIL methods start with a many-shot first task to learn a very good feature extractor and then move to the few-shot setting from the second task onwards. While the focus of most recent studies is on how to learn the many-shot first task so that the model generalizes to all future few-shot tasks, we explore in this work how to better model the few-shot data using pre-trained models, irrespective of how the first task is trained. Inspired by recent works in MSCIL, we explore how using higher-order feature statistics can influence the classification of few-shot classes. We identify the main challenge of obtaining a good covariance matrix from few-shot data and propose to calibrate the covariance matrix for new classes based on semantic similarity to the many-shot base classes. Using the calibrated feature statistics in combination with existing methods significantly improves few-shot continual classification on several FSCIL benchmarks. Code is available at https://github.com/dipamgoswami/FSCIL-Calibration.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# ロボットハンドにおける物体の数え方

Counting Objects in a Robotic Hand ( http://arxiv.org/abs/2404.06631v1 )

ライセンス: Link先を確認
Francis Tsow, Tianze Chen, Yu Sun, (参考訳) 多目的グリップを行うロボットは、グリップ後に手にあるオブジェクトの数を検出する必要がある。 カウントは、ロボットの次の動きと、ピック・プレース・プロセス全体の結果と効率を決定する上で重要な役割を果たす。 本稿では,ロボットの指や物体による大きな閉塞問題にもかかわらず,データ駆動型コントラスト学習型カウント分類器において,オブジェクトのカウントをシンプルかつ効果的に行う手法として,ロス関数を改良した手法を提案する。 このモデルは、シミュレーションと実際の設定で3つの異なる共通形状(球体、シリンダー、立方体)を持つ他のモデルに対して検証された。 提案手法は,実環境における3つのオブジェクトすべてに対して,96\%以上の精度を実現した。

A robot performing multi-object grasping needs to sense the number of objects in the hand after grasping. The count plays an important role in determining the robot's next move and the outcome and efficiency of the whole pick-place process. This paper presents a data-driven contrastive learning-based counting classifier with a modified loss function as a simple and effective approach for object counting despite significant occlusion challenges caused by robotic fingers and objects. The model was validated against other models with three different common shapes (spheres, cylinders, and cubes) in simulation and in a real setup. The proposed contrastive learning-based counting approach achieved above 96\% accuracy for all three objects in the real setup.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# 画像強調技術における損失関数の進化

Evolving Loss Functions for Specific Image Augmentation Techniques ( http://arxiv.org/abs/2404.06633v1 )

ライセンス: Link先を確認
Brandon Morgan, Dean Hougen, (参考訳) ニューラルロス関数探索(NLFS)におけるこれまでの研究は、より小さなサロゲート関数と大規模な畳み込みニューラルネットワークと、大規模な正規化を伴う相関関係の欠如を示している。 我々は、この研究を拡大し、別の相違点、異なる種類の画像増強技術間の相関を明らかにする。 画像増倍法では, 異なる損失関数が良好に機能し, 他では性能が良くないことを示す。 本研究は,画像拡張特異的損失関数の発見を目的とした,5種類の画像拡張手法の進化的探索を行うことにより,この格差を生かした。 その後、CIFAR-10とCIFAR-100の5つの画像拡張技術で、各進化から最高の損失関数を取り、ワイドResNet-28-10に転送した。 そこから得られたベストは、CARS、Oxford-Flowers、Caltechの5つの画像拡張テクニックのそれぞれに関する微調整のEfficientNetV2Smallによって評価され、評価された。 複数の損失関数は複数の実験において交叉エントロピーに優れていた。 その結果,逆ベッセル対数損失(逆ベッセル対数損失)と呼ばれる単一損失関数が得られた。

Previous work in Neural Loss Function Search (NLFS) has shown a lack of correlation between smaller surrogate functions and large convolutional neural networks with massive regularization. We expand upon this research by revealing another disparity that exists, correlation between different types of image augmentation techniques. We show that different loss functions can perform well on certain image augmentation techniques, while performing poorly on others. We exploit this disparity by performing an evolutionary search on five types of image augmentation techniques in the hopes of finding image augmentation specific loss functions. The best loss functions from each evolution were then taken and transferred to WideResNet-28-10 on CIFAR-10 and CIFAR-100 across each of the five image augmentation techniques. The best from that were then taken and evaluated by fine-tuning EfficientNetV2Small on the CARS, Oxford-Flowers, and Caltech datasets across each of the five image augmentation techniques. Multiple loss functions were found that outperformed cross-entropy across multiple experiments. In the end, we found a single loss function, which we called the inverse bessel logarithm loss, that was able to outperform cross-entropy across the majority of experiments.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# Perplexed: 大きな言語モデルが混同されるときの理解

Perplexed: Understanding When Large Language Models are Confused ( http://arxiv.org/abs/2404.06634v1 )

ライセンス: Link先を確認
Nathan Cooper, Torsten Scholak, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)分野において、短時間で大きな進歩をもたらした。 しかしながら、それらの制限は依然として謎であり、主に、否定や名前解決など、特定の人間レベルのスキルを分析するために、カスタマイズされたデータセットを通して調査されてきた。 本稿では,特定の言語モデルがどのようにパープリケートされているかを探索するライブラリであるperplexedを紹介する。 複雑化することによって得られる柔軟性と洞察のタイプを示すために、Codetokenizerと呼ばれるコードモデルの分析を支援するために構築した追加ツールを使用して、コード生成のためのLLMに焦点を当てたケーススタディを実施しました。 具体的には、モデルが予測しているコード構造の種類、例えば変数名や演算子、内部のメソッド呼び出しの予測がパフォーマンスに与える影響について、異なるシナリオ下でのLLMのトークンレベルでの成功事例と失敗事例について検討する。 この分析結果から,LLMは構文的に正しくないコーディング構造において,最悪の性能を示した。 さらに、内部メソッド呼び出しの予測では、外部呼び出しよりもモデルの方が一般的にパフォーマンスが悪くなることがわかりました。 我々はこれらのツールをオープンソース化し、研究コミュニティがLLMを一般的に理解できるようにし、LLMをコード生成に利用しました。

Large Language Models (LLMs) have become dominant in the Natural Language Processing (NLP) field causing a huge surge in progress in a short amount of time. However, their limitations are still a mystery and have primarily been explored through tailored datasets to analyze a specific human-level skill such as negation, name resolution, etc. In this paper, we introduce perplexed, a library for exploring where a particular language model is perplexed. To show the flexibility and types of insights that can be gained by perplexed, we conducted a case study focused on LLMs for code generation using an additional tool we built to help with the analysis of code models called codetokenizer. Specifically, we explore success and failure cases at the token level of code LLMs under different scenarios pertaining to the type of coding structure the model is predicting, e.g., a variable name or operator, and how predicting of internal verses external method invocations impact performance. From this analysis, we found that our studied code LLMs had their worst performance on coding structures where the code was not syntactically correct. Additionally, we found the models to generally perform worse at predicting internal method invocations than external ones. We have open sourced both of these tools to allow the research community to better understand LLMs in general and LLMs for code generation.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# EV充電インフラの展開とセキュリティ動向に関する調査研究

Current Affairs: A Measurement Study of Deployment and Security Trends in EV Charging Infrastructure ( http://arxiv.org/abs/2404.06635v1 )

ライセンス: Link先を確認
Marcell Szakály, Sebastian Köhler, Ivan Martinovic, (参考訳) 電気自動車の充電インフラの展開は急速に進んでいる。 同時に、重要な充電通信を定義するISO 15118のような既存の標準も改善され、さらに発展している。 本稿では,すでに展開済みの直流充電ステーションを計測し,各種プロトコルの展開状況を分析する。 本稿では,TLSおよび各種EV充電プロトコルの直接的なセキュリティへの影響,およびSLAC(Signal Level Attenuation Characterization)プロセスおよび暗号化キーの観察について紹介する。 以上の結果から,最近インストールされた充電ステーション(2023年12月)も最新の標準に準拠せず,攻撃に弱いことが示唆された。 調査対象の充電ステーションの84%はトランスポート層セキュリティ(TLS)を実装していないため,ISO 15118プロトコルの最新バージョンの実装は不可能であることがわかった。 最後に、標準の異常な振る舞いと違反を観察し、記録する。

The deployment of electric vehicle charging infrastructure is occurring at a rapid pace. Simultaneously, existing standards, such as ISO 15118, which defines critical charging communication, are being improved and further developed. In this paper, we conduct a measurement study of already deployed DC charging stations to analyze the current state of deployment for various protocols. We present the adoption of TLS, and various EV charging protocols with a direct security impact, as well as observations about the Signal Level Attenuation Characterization (SLAC) process, and encryption keys. Our results indicate that even recently installed charging stations (December 2023) do not adhere to the latest version of the standard, leaving them vulnerable to attacks. We found that 84% of the surveyed charging stations do not implement Transport Layer Security (TLS), and are thus unable to implement the latest versions of the ISO 15118 protocol, leaving them vulnerable to attacks already demonstrated years ago. Finally, we observe and document anomalous behavior and violations of the standard.
翻訳日:2024-04-11 16:08:54 公開日:2024-04-09
# GeoSynth: 環境に配慮した高分解能衛星画像合成

GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis ( http://arxiv.org/abs/2404.06637v1 )

ライセンス: Link先を確認
Srikumar Sastry, Subash Khanal, Aayush Dhakal, Nathan Jacobs, (参考訳) 衛星画像のグローバルなスタイルと画像駆動レイアウト制御による合成モデルであるGeoSynthを提案する。 グローバルなスタイルコントロールは、テキストプロンプトまたは地理的ロケーションを介して行われる。 これらはそれぞれシーンのセマンティクスや地域的な外観の仕様化を可能にし、一緒に使用することができる。 我々は、自動生成されたキャプションとOpenStreetMapデータを用いて、ペア化された衛星画像の大規模なデータセットに基づいてモデルをトレーニングする。 我々は様々な種類のレイアウト制御を含む様々な制御入力の組み合わせを評価した。 その結果,本モデルは多種多様な高品質な画像を生成することができ,ゼロショットの一般化に優れることを示した。 コードとモデルチェックポイントはhttps://github.com/mvrl/GeoSynth.comで公開されている。

We present GeoSynth, a model for synthesizing satellite images with global style and image-driven layout control. The global style control is via textual prompts or geographic location. These enable the specification of scene semantics or regional appearance respectively, and can be used together. We train our model on a large dataset of paired satellite imagery, with automatically generated captions, and OpenStreetMap data. We evaluate various combinations of control inputs, including different types of layout controls. Results demonstrate that our model can generate diverse, high-quality images and exhibits excellent zero-shot generalization. The code and model checkpoints are available at https://github.com/mvrl/GeoSynth.
翻訳日:2024-04-11 15:59:06 公開日:2024-04-09
# SAM-I-Am:Zero-shot Atomic-Scale Electron Micrograph Segmentationのためのセマンティックブースティング

SAM-I-Am: Semantic Boosting for Zero-shot Atomic-Scale Electron Micrograph Segmentation ( http://arxiv.org/abs/2404.06638v1 )

ライセンス: Link先を確認
Waqwoya Abebe, Jan Strube, Luanzheng Guo, Nathan R. Tallent, Oceane Bel, Steven Spurgeon, Christina Doty, Ali Jannesari, (参考訳) イメージセグメンテーションは、医療診断から自律運転まで、タスクにとって重要なイネーブルである。 しかし、正しいセグメンテーションセマンティクス - 境界はどこにあるのか? どのセグメントが論理的に似ていますか? - 最先端の基盤モデルが無意味で誤った結果を生み出すことができるように、ドメインによって変化します。 さらに、一部のドメインでは、ラベルの取得にはコストがかかり、時間がかかり、ドメイン画像(マイクログラフ)は指数関数的に多様性があり、データ共有(サードパーティのリトレーニング)は制限される。 最良セグメンテーション技術の迅速な適応を実現するため、ゼロショット基礎モデルが与えられた場合、セグメンテーションをガイドし、ドメインの期待に合うように結果を調整するセグメンテーションの概念を提案する。 本研究では,Segment Anything Model (SAM) にセマンティック・ブースティングを適用し,透過電子顕微鏡のためのミクロ構造セマンティック・セマンティック・セマンティック・セマンティクスを求める。 我々のブースターSAM-I-Amは、様々な中間マスクの幾何学的およびテクスチャ的特徴を抽出し、マスク除去およびマスクマージ操作を行う。 我々は、(絶対)+21.35%、+12.6%、+5.27%、平均IoU、-9.91%、-18.42%、-4.06%のゼロショット性能が、バニラSAM(ViT-L)よりも難易度の高い3つの画像にまたがって、平均偽陽性マスクを減少させることを示した。

Image segmentation is a critical enabler for tasks ranging from medical diagnostics to autonomous driving. However, the correct segmentation semantics - where are boundaries located? what segments are logically similar? - change depending on the domain, such that state-of-the-art foundation models can generate meaningless and incorrect results. Moreover, in certain domains, fine-tuning and retraining techniques are infeasible: obtaining labels is costly and time-consuming; domain images (micrographs) can be exponentially diverse; and data sharing (for third-party retraining) is restricted. To enable rapid adaptation of the best segmentation technology, we propose the concept of semantic boosting: given a zero-shot foundation model, guide its segmentation and adjust results to match domain expectations. We apply semantic boosting to the Segment Anything Model (SAM) to obtain microstructure segmentation for transmission electron microscopy. Our booster, SAM-I-Am, extracts geometric and textural features of various intermediate masks to perform mask removal and mask merging operations. We demonstrate a zero-shot performance increase of (absolute) +21.35%, +12.6%, +5.27% in mean IoU, and a -9.91%, -18.42%, -4.06% drop in mean false positive masks across images of three difficulty classes over vanilla SAM (ViT-L).
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# 術後合併症予測のためのフェデレーション学習モデル

Federated learning model for predicting major postoperative complications ( http://arxiv.org/abs/2404.06641v1 )

ライセンス: Link先を確認
Yonggi Park, Yuanfang Ren, Benjamin Shickel, Ziyuan Guan, Ayush Patela, Yingbo Ma, Zhenhong Hu, Tyler J. Loftus, Parisa Rashidi, Tezcan Ozrazgat-Baslanti, Azra Bihorac, (参考訳) 背景:Electronic Health Records(EHR)と人工知能を用いた術後合併症リスクの正確な予測は大きな可能性を示唆している。 堅牢な人工知能モデルをトレーニングするには、通常、大規模で多様なデータセットが必要である。 実際には、医療データ収集はプライバシー保護に関わる課題に直面することが多い。 方法: 本研究は, UFH Gainesville (GNV) (n = 79,850) および Jacksonville (JAX) (n = 28,636) に入院した成人例を含む。 術中および術中特徴を用いて,9つの術後合併症(長期集中治療室留置,機械的換気)を予測するためのフェデレーション学習モデルを開発した。 統合学習モデルと、一つのサイトで訓練されたローカル学習モデルと、2つのセンターから学習されたデータセットで訓練された中央学習モデルを比較した。 結果:UFH GNV センターでの長期 ICU 滞留率0.81 から,UFH GNV センターでの ICU 長期滞在率0.92 まで,AUROC 値の領域を達成できた。 UFH JAX センターでは、傷の合併症は 0.73-0.74 で、病院死亡は 0.92-0.93 であった。 フェデレーション学習モデルは、UFH GNVセンターの中央学習モデルよりもやや高いが、UFH JAXセンターではやや低いという長大なICUスタントを除いて、中央学習モデルとAUROCのパフォーマンスを同等に達成した。 さらに,我々のフェデレーション学習モデルは,各センターで最高の局所学習モデルに匹敵する性能を示し,高い一般化性を示した。 結論: フェデレーション学習は、データ保護障壁が高い複数の機関にわたる大規模データから、堅牢で一般化可能なモデルをトレーニングするための有用なツールであることが示されている。

Background: The accurate prediction of postoperative complication risk using Electronic Health Records (EHR) and artificial intelligence shows great potential. Training a robust artificial intelligence model typically requires large-scale and diverse datasets. In reality, collecting medical data often encounters challenges surrounding privacy protection. Methods: This retrospective cohort study includes adult patients who were admitted to UFH Gainesville (GNV) (n = 79,850) and Jacksonville (JAX) (n = 28,636) for any type of inpatient surgical procedure. Using perioperative and intraoperative features, we developed federated learning models to predict nine major postoperative complications (i.e., prolonged intensive care unit stay and mechanical ventilation). We compared federated learning models with local learning models trained on a single site and central learning models trained on pooled dataset from two centers. Results: Our federated learning models achieved the area under the receiver operating characteristics curve (AUROC) values ranged from 0.81 for wound complications to 0.92 for prolonged ICU stay at UFH GNV center. At UFH JAX center, these values ranged from 0.73-0.74 for wound complications to 0.92-0.93 for hospital mortality. Federated learning models achieved comparable AUROC performance to central learning models, except for prolonged ICU stay, where the performance of federated learning models was slightly higher than central learning models at UFH GNV center, but slightly lower at UFH JAX center. In addition, our federated learning model obtained comparable performance to the best local learning model at each center, demonstrating strong generalizability. Conclusion: Federated learning is shown to be a useful tool to train robust and generalizable models from large scale data across multiple institutions where data protection barriers are high.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# Khayyam Challenge (PersianMMLU):あなたのLLMはペルシア語に真に結びついているか?

Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language? ( http://arxiv.org/abs/2404.06644v1 )

ライセンス: Link先を確認
Omid Ghahroodi, Marzia Nouri, Mohammad Vali Sanian, Alireza Sahebi, Doratossadat Dastgheib, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban, (参考訳) 大規模言語モデル(LLM)の評価は、その生成性から困難であり、正確な評価手法を必要とする。 加えて、英語以外のLLM評価は英語より遅れており、多くの言語でLLMが欠落または弱体化している。 この必要性に応えて,ペルシャ試験から抽出した38の多種多様なタスクから抽出された20,192の4つのチョイスからなる精巧にキュレートされたコレクションであるKhayyam Challenge(ペルシャMMLU)を紹介した。 Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。 Khayyam Challengeの独特な特徴は何か 一 文学的理解、数学、科学、論理学、知能試験等を含む様々な話題を包括的に網羅し、中学から中学までの様々な教育段階における言語理解、推論、情報検索等のLCMの異なる側面を評価することを目的とする。 二 人的反応率、難易度、説明解答等の豊富なメタデータを含むこと。 三 既存の枠組みにおけるデータ汚染問題を避けるための新しいデータの利用 (四)ペルシア語話者向けに調整された原文の非翻訳データを使用することにより、文化的なニュアンスを包含しながら翻訳上の課題や誤りを解消する。 (v) 特別な人的努力を必要とせず、将来のデータ更新と評価に固有のスケーラビリティ。 以前の作業では、これらの機能をすべてひとつの包括的なベンチマークにまとめる評価フレームワークが欠如していた。 さらに,ペルシャ語をサポートする既存のLLMを,統計的解析と解釈により評価した。

Evaluating Large Language Models (LLMs) is challenging due to their generative nature, necessitating precise evaluation methodologies. Additionally, non-English LLM evaluation lags behind English, resulting in the absence or weakness of LLMs for many languages. In response to this necessity, we introduce Khayyam Challenge (also known as PersianMMLU), a meticulously curated collection comprising 20,192 four-choice questions sourced from 38 diverse tasks extracted from Persian examinations, spanning a wide spectrum of subjects, complexities, and ages. The primary objective of the Khayyam Challenge is to facilitate the rigorous evaluation of LLMs that support the Persian language. Distinctive features of the Khayyam Challenge are (i) its comprehensive coverage of various topics, including literary comprehension, mathematics, sciences, logic, intelligence testing, etc., aimed at assessing different facets of LLMs such as language comprehension, reasoning, and information retrieval across various educational stages, from lower primary school to upper secondary school (ii) its inclusion of rich metadata such as human response rates, difficulty levels, and descriptive answers (iii) its utilization of new data to avoid data contamination issues prevalent in existing frameworks (iv) its use of original, non-translated data tailored for Persian speakers, ensuring the framework is free from translation challenges and errors while encompassing cultural nuances (v) its inherent scalability for future data updates and evaluations without requiring special human effort. Previous works lacked an evaluation framework that combined all of these features into a single comprehensive benchmark. Furthermore, we evaluate a wide range of existing LLMs that support the Persian language, with statistical analyses and interpretations of their outputs.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# GenCHiP:高精度・コンタクトリッチ操作タスクのためのロボットポリシーコード生成

GenCHiP: Generating Robot Policy Code for High-Precision and Contact-Rich Manipulation Tasks ( http://arxiv.org/abs/2404.06645v1 )

ライセンス: Link先を確認
Kaylee Burns, Ajinkya Jain, Keegan Go, Fei Xia, Michael Stark, Stefan Schaal, Karol Hausman, (参考訳) 大言語モデル(LLM)はロボットポリシーコードの生成に成功しているが、これまでのところ、正確な動作を必要としないハイレベルなタスクに限られている。 このようなアプローチが、接触力の推論や厳格な成功の許容範囲内での作業を必要とするタスクに対して、どの程度うまく機能するかは、オープンな疑問である。 適切な行動空間では、LLMは知覚的誤りや不正確な把握といったノイズ条件下であっても、様々な接触に富んだ高精度な操作タスクのポリシーを生成することができる。 具体的には、アクション空間を再パラメータ化して、ターゲットのポーズに到達する際の相互作用力と硬さの制約に準拠するようにします。 機能操作ベンチマーク(FMB)とNISTタスクボードベンチマーク(NIST Task Board Benchmarks)から派生したサブタスクに対して,このアプローチを検証する。 オブジェクトのポーズを推定する手法と共にこのアクション空間をエクスポージングすることは、非準拠のアクション空間と比較して、LCMによるポリシー生成を3倍と4倍に改善する。

Large Language Models (LLMs) have been successful at generating robot policy code, but so far these results have been limited to high-level tasks that do not require precise movement. It is an open question how well such approaches work for tasks that require reasoning over contact forces and working within tight success tolerances. We find that, with the right action space, LLMs are capable of successfully generating policies for a variety of contact-rich and high-precision manipulation tasks, even under noisy conditions, such as perceptual errors or grasping inaccuracies. Specifically, we reparameterize the action space to include compliance with constraints on the interaction forces and stiffnesses involved in reaching a target pose. We validate this approach on subtasks derived from the Functional Manipulation Benchmark (FMB) and NIST Task Board Benchmarks. Exposing this action space alongside methods for estimating object poses improves policy generation with an LLM by greater than 3x and 4x when compared to non-compliant action spaces
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# 高次ユニタリ量子計算のためのゲームセマンティクス

Game Semantics for Higher-Order Unitary Quantum Computation ( http://arxiv.org/abs/2404.06646v1 )

ライセンス: Link先を確認
Samson Abramsky, Radha Jagadeesan, (参考訳) 我々は、高次型での量子計算をモデル化するために、和と積を組み込んだ、ゲームの対称なモノイド閉圏を開発する。 このモデルは表現力があり、全てのユニタリ演算子をベースタイプで表現することができる。 基本型と互換性があり、ユニタリ演算子によって実現可能である。

We develop a symmetric monoidal closed category of games, incorporating sums and products, to model quantum computation at higher types. This model is expressive, capable of representing all unitary operators at base types. It is compatible with base types and realizable by unitary operators.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# プロトサイエンスからエピステミックモノカルチャーへ - ベンチマークはどのようにしてディープラーニング革命の舞台に立つか

From Protoscience to Epistemic Monoculture: How Benchmarking Set the Stage for the Deep Learning Revolution ( http://arxiv.org/abs/2404.06647v1 )

ライセンス: Link先を確認
Bernard J. Koch, David Peterson, (参考訳) 過去10年間、AIの研究はずっと大きなディープラーニングモデルの構築に重点を置いてきた。 このアプローチは、科学と技術の素晴らしい成果を同時に解放し、説明可能性、倫理的害、環境効率に関する長年の制限をAIが克服するのを妨げています。 質的なインタビューと計算分析に基づいて、我々の3つのAI研究の歴史は、1990年代に起こった科学的進歩の急激な再認識にさかのぼる「画期的なモノカルチャー」の創出を辿っている。 最初のAI研究(1950年代-1980年代)の時代に、研究者とパトロンはAIを「基礎的な」科学としてアプローチし、自律的な探索と進歩の有機的評価(例えば、ピアレビュー、理論的コンセンサス)を通じて進歩するであろう。 このアプローチの失敗は1980年代に資金の強化につながった。 この「AI冬」の間、アメリカ合衆国政府の介入により、軍事的および商業的関心事のタスクの計測可能な進展に向けた分野が再編された。 ベンチマーク(benchmarking)と呼ばれる新しい評価システムは、サンプルデータセットの予測精度の向上にのみ焦点をあてることで、タスクの進捗を定量化する客観的な方法を提供した。 科学を検証可能な指標に絞り込むことで、科学者の役割を明確にし、才能を急速に統合し、重要性と進歩の明確なシグナルを提供した。 しかし、歴史は科学に対するこの合理化アプローチへのトレードオフも明らかにしている: 外部の関心とベンチマークの固有の保守主義に関する統合は、モノカルチャーのスケーリングを超えて探索を非インセンティブにした。 この議論では、AIのモノカルチャーが科学の進歩にベーシックで探索駆動的な研究が必要であるという信念に、いかに説得力のある挑戦をもたらすかを説明している。 生成AIの時代におけるAIモノカルチャーの他の科学への普及の意義についても論じる。

Over the past decade, AI research has focused heavily on building ever-larger deep learning models. This approach has simultaneously unlocked incredible achievements in science and technology, and hindered AI from overcoming long-standing limitations with respect to explainability, ethical harms, and environmental efficiency. Drawing on qualitative interviews and computational analyses, our three-part history of AI research traces the creation of this "epistemic monoculture" back to a radical reconceptualization of scientific progress that occurred in the 1990s. In the first era of AI research (1950s-late 1980s), researchers and patrons approached AI as a "basic" science that would advance through autonomous exploration and organic assessments of progress (e.g., peer-review, theoretical consensus). The failure of this approach led to a retrenchment of funding in the 1980s. Amid this "AI Winter," an intervention by the U.S. government reoriented the field towards measurable progress on tasks of military and commercial interest. A new evaluation system called "benchmarking" provided an objective way to quantify progress on tasks by focusing exclusively on increasing predictive accuracy on example datasets. Distilling science down to verifiable metrics clarified the roles of scientists, allowed the field to rapidly integrate talent, and provided clear signals of significance and progress. But history has also revealed a tradeoff to this streamlined approach to science: the consolidation around external interests and inherent conservatism of benchmarking has disincentivized exploration beyond scaling monoculture. In the discussion, we explain how AI's monoculture offers a compelling challenge to the belief that basic, exploration-driven research is needed for scientific progress. Implications for the spread of AI monoculture to other sciences in the era of generative AI are also discussed.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# 有限資源を用いた効率的な冷却量子系:熱力学幾何学からの考察

Efficiently Cooling Quantum Systems with Finite Resources: Insights from Thermodynamic Geometry ( http://arxiv.org/abs/2404.06649v1 )

ライセンス: Link先を確認
Philip Taranto, Patryk Lipka-Bartosik, Nayeli A. Rodríguez-Briones, Martí Perarnau-Llobet, Nicolai Friis, Marcus Huber, Pharnam Bakhshinezhad, (参考訳) ランダウアーの、情報消去中の放熱に関する普遍的な制限は、コンピュータ装置が縮小するにつれてますます重要になっている。 しかし、ネルンストの第3法則は、エネルギー、時間、制御の複雑さがばらばらでなければならないという無限資源要件を仮定している。 ここでは、有限資源を用いて量子システムを効率的に冷却するという現実的な課題に対処する。 本稿では, コヒーレントおよび非コヒーレント制御に関する設定において, それぞれ量子電池と熱機関に対応して, 資源のトレードオフと, 有限個のエネルギーギャップに対する効率的なプロトコルについて検討する。 エネルギー境界を熱力学的長さで表現することにより,エネルギーギャップの最適分布を解明し,実際の環境下での純状態作成の資源制限を詳述する。

Landauer's universal limit on heat dissipation during information erasure becomes increasingly crucial as computing devices shrink: minimising heat-induced errors demands optimal pure-state preparation. For this, however, Nernst's third law posits an infinite-resource requirement: either energy, time, or control complexity must diverge. Here, we address the practical challenge of efficiently cooling quantum systems using finite resources. We investigate the ensuing resource trade-offs and present efficient protocols for finite distinct energy gaps in settings pertaining to coherent or incoherent control, corresponding to quantum batteries and heat engines, respectively. Expressing energy bounds through thermodynamic length, our findings illuminate the optimal distribution of energy gaps, detailing the resource limitations of preparing pure states in practical settings.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# 周期駆動量子系における駆動プロトコルの断熱変調

Adiabatic modulation of driving protocols in periodically driven quantum systems ( http://arxiv.org/abs/2404.06651v1 )

ライセンス: Link先を確認
Ashwin Murali, Tapomoy Guha Sarkar, Jayendra N. Bandyopadhyay, (参考訳) 本稿では,高周波駆動プロトコルが一定期間内に異なる瞬間にスイッチオン・オフする一連の電位からなる周期駆動システムについて考察する。 本稿では, 電位列をオン/オフに切り換えた瞬間の緩やかな進化を考慮し, 駆動プロトコルの断熱変調を導入する可能性を検討する。 周期的に駆動される量子系の長期力学にどのように影響するかを検討する。 問題の遅い時間スケールと速い時間スケールを分離できると仮定することで、摂動理論の1階までの4段階の駆動列に対して、ストロボスコピック(効果的な)ハミルトニアンを導出する。 次に、この手法を剛性ロータに適用し、駆動プロトコルの断熱変調を選択して、ロータのスピンと相互作用する進化する創発磁場を生成する。 実効ハミルトニアンのパラメータ空間における $\textit{diabolical points}$ および $\textit{diabolical loci}$ の出現について検討する。 さらに,パラメータ空間における断熱経路の写像と実効ハミルトニアンの固有空間の位相的性質について検討する。 その結果,パラメータ空間の異なる経路を特徴とする駆動プロトコルの様々な断熱進化を選択することにより,固有状態の位相特性を調整できる手法が得られた。 この手法は、任意の周期駆動プロトコルに適用して、望ましい位相効果を達成することができる。

We consider a periodically driven system where the high-frequency driving protocol consists of a sequence of potentials switched on and off at different instants within a period. We explore the possibility of introducing an adiabatic modulation of the driving protocol by considering a slow evolution of the instants when the sequence of potentials is switched on/off. We examine how this influences the long-term dynamics of periodically driven quantum systems. By assuming that the slow and fast timescales in the problem can be decoupled, we derive the stroboscopic (effective) Hamiltonian for a four-step driving sequence up to the first order in perturbation theory. We then apply this approach to a rigid rotor, where the adiabatic modulation of the driving protocol is chosen to produce an evolving emergent magnetic field that interacts with the rotor's spin. We study the emergence of $\textit{diabolical points}$ and $\textit{diabolical loci}$ in the parameter space of the effective Hamiltonian. Further, we study the topological properties of the maps of the adiabatic paths in the parameter space to the eigenspace of the effective Hamiltonian. In effect, we obtain a technique to tune the topological properties of the eigenstates by selecting various adiabatic evolution of the driving protocol characterized by different paths in the parameter space. This technique can be applied to any periodic driving protocol to achieve desirable topological effects.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# FlameFinder: 深層学習による煙による難燃火のイルミネーション

FlameFinder: Illuminating Obscured Fire through Smoke with Attentive Deep Metric Learning ( http://arxiv.org/abs/2404.06653v1 )

ライセンス: Link先を確認
Hossein Rajoli, Sahand Khoshdel, Fatemeh Afghah, Xiaolong Ma, (参考訳) FlameFinder(フラムファインダー)は、火災監視中の消防士ドローンの熱画像を使用して、煙によって隠された場合でも、炎を正確に検出するために設計されたディープ・メトリック・ラーニング(DML)フレームワークである。 従来のRGBカメラはそのような状況では苦戦するが、熱カメラは煙を吸収する炎の特徴を捉えることができる。 しかし、絶対的な熱基準点が欠如しており、偽陽性につながるため、FlameFinderはペアの熱-RGB画像をトレーニングに利用している。 煙のない試料から潜熱火炎の特徴を学習することにより、モデルは相対的な熱勾配への偏りが小さくなる。 テストでは、同等の熱領域分布を分析して、スモーキーパッチ中の炎を識別する。 本手法は, 火炎分断法とDML支援検出フレームワークを組み込んだ, 監視と距離に基づくクラスタリングのメトリクスを用いて, 性能改善を行う。 これには、中心損失(CL)、三重項中心損失(TCL)、三重項コサイン中心損失(TCCL)を利用して、分類のための最適なクラスタ代表者を特定する。 しかし、他の損失よりも中心的損失が優位であることは、モデルがそれらに敏感な特徴を欠いていることに繋がる。 この制限に対処するため,注意機構を提案する。 このメカニズムは、DMLフレームワークにおけるコサインと三重項損失の重要な役割を増幅する、一様でない特徴の寄与を可能にする。 さらに、解釈可能性、クラス識別を改善し、クラス内の分散を減少させる。 その結果,提案モデルはFLAME2データセットでは4.4%,FLAME3データセットでは7%,未観測火炎検出精度では7%を超えている。 さらに、炎検出に適したVGG19、ResNet18、および3つのバックボーンモデルと比較して、不明瞭なシナリオにおけるクラス分離の強化を示す。

FlameFinder is a deep metric learning (DML) framework designed to accurately detect flames, even when obscured by smoke, using thermal images from firefighter drones during wildfire monitoring. Traditional RGB cameras struggle in such conditions, but thermal cameras can capture smoke-obscured flame features. However, they lack absolute thermal reference points, leading to false positives.To address this issue, FlameFinder utilizes paired thermal-RGB images for training. By learning latent flame features from smoke-free samples, the model becomes less biased towards relative thermal gradients. In testing, it identifies flames in smoky patches by analyzing their equivalent thermal-domain distribution. This method improves performance using both supervised and distance-based clustering metrics.The framework incorporates a flame segmentation method and a DML-aided detection framework. This includes utilizing center loss (CL), triplet center loss (TCL), and triplet cosine center loss (TCCL) to identify optimal cluster representatives for classification. However, the dominance of center loss over the other losses leads to the model missing features sensitive to them. To address this limitation, an attention mechanism is proposed. This mechanism allows for non-uniform feature contribution, amplifying the critical role of cosine and triplet loss in the DML framework. Additionally, it improves interpretability, class discrimination, and decreases intra-class variance. As a result, the proposed model surpasses the baseline by 4.4% in the FLAME2 dataset and 7% in the FLAME3 dataset for unobscured flame detection accuracy. Moreover, it demonstrates enhanced class separation in obscured scenarios compared to VGG19, ResNet18, and three backbone models tailored for flame detection.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# RULER: 長期言語モデルの実際のコンテキストサイズは?

RULER: What's the Real Context Size of Your Long-Context Language Models? ( http://arxiv.org/abs/2404.06654v1 )

ライセンス: Link先を確認
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Boris Ginsburg, (参考訳) 長文テキスト(haystack)から情報片(needle)を検索する能力を調べるNIAHテスト(Needle-in-a-haystack)は、長文言語モデル(LM)を評価するために広く採用されている。 しかし、この単純な検索に基づくテストは、長文理解の表面的な形式を表わすだけである。 長文LMのより包括的評価を行うため,シーケンス長やタスクの複雑さをカスタマイズできるフレキシブルな構成の合成ベンチマークRULERを開発した。 RULER はバニラ NIAH テストに拡張され、様々な種類の針と量を含む。 さらに、RULERは、コンテキストからの検索以上の振る舞いをテストするために、新しいタスクカテゴリのマルチホップトレースとアグリゲーションを導入している。 我々はRULERにおける13のタスクからなる10の長文LMを評価した。 バニラNIAHテストでほぼ完全な精度を達成したにもかかわらず、コンテキスト長が増加するにつれて、全てのモデルは大きな性能低下を示す。 これらのモデルは全て32Kトークン以上のコンテキストサイズを主張するが、GPT-4、Command-R、Yi-34B、Mixtralの4モデルのみが32K長で満足な性能を維持することができる。 コンテクスト長200KのYi-34Bを解析した結果,入力長とタスクの複雑さが増大するにつれて,大きな改善の余地が明らかとなった。 我々はRULERをオープンソース化し、Long-context LMの包括的な評価を促進する。

The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate ten long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only four models (GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# Res-U2Net: 位相検索と画像再構成のための訓練なしディープラーニング

Res-U2Net: Untrained Deep Learning for Phase Retrieval and Image Reconstruction ( http://arxiv.org/abs/2404.06657v1 )

ライセンス: Link先を確認
Carlos Osorio Quero, Daniel Leykam, Irving Rondon Ojeda, (参考訳) 従来のディープラーニングに基づく画像再構成手法では,実際に取得が困難である大量のトレーニングデータが必要である。 訓練されていないディープラーニング手法はこの制限を克服し、ネットワークをトレーニングし、画像形成過程の物理的モデルを逆転させる。 ここでは、位相探索のための未学習Res-U2Netモデルを提案する。 抽出した位相情報を用いて物体表面の変化を判定し,その3次元構造のメッシュ表現を生成する。 GDXRAYデータセットの画像を用いて,U2NetとU2Netに対するRes-U2Net位相検索の性能を比較した。

Conventional deep learning-based image reconstruction methods require a large amount of training data which can be hard to obtain in practice. Untrained deep learning methods overcome this limitation by training a network to invert a physical model of the image formation process. Here we present a novel untrained Res-U2Net model for phase retrieval. We use the extracted phase information to determine changes in an object's surface and generate a mesh representation of its 3D structure. We compare the performance of Res-U2Net phase retrieval against UNet and U2Net using images from the GDXRAY dataset.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# 会話インタフェースによるユーザエンゲージメントを高めるための関心事の活用

Leveraging Interesting Facts to Enhance User Engagement with Conversational Interfaces ( http://arxiv.org/abs/2404.06659v1 )

ライセンス: Link先を確認
Nikhita Vedula, Giuseppe Castellucci, Eugene Agichtein, Oleg Rokhlenko, Shervin Malmasi, (参考訳) Conversational Task Assistants (CTA) は、ユーザーがレシピ作成など、さまざまな活動を行うのをガイドする。 しかしながら、CTAユーザにとって、特に時間を要するタスクや困難なタスクにおいて、インタラクションが魅力的で、面白く、楽しいままであることを保証することは、簡単ではない。 人間の関心の心理学的理論を基礎として,マルチモーダルCTAとのインタラクションにおいて,ユーザに対して文脈的,興味深い言明や事実を提示し,タスク完了前の疲労やタスク放棄を減らすことを提案する。 このアイデアを運用するには,高パフォーマンスな分類器(F1スコア82%)をトレーニングし,ユーザの関心のある事実を自動的に識別する。 私たちはこれを使って、調理領域のためのタスク固有の興味深い事実の注釈付きデータセットを作成します。 最後に、ユーザエンゲージメントとタスク完了を改善するために、対話ポリシーを設計、検証し、関連性のある興味深い事実を会話に組み込む。 マルチモーダル音声アシスタントのライブテストでは、提示された事実の66%が肯定的に受け取られ、ユーザの満足度が40%上昇し、会話の長さが37%増加した。 これらの知見は,CTA体験に興味深い事実を戦略的に取り入れることで,現実のユーザ参加を促進できることを示す。

Conversational Task Assistants (CTAs) guide users in performing a multitude of activities, such as making recipes. However, ensuring that interactions remain engaging, interesting, and enjoyable for CTA users is not trivial, especially for time-consuming or challenging tasks. Grounded in psychological theories of human interest, we propose to engage users with contextual and interesting statements or facts during interactions with a multi-modal CTA, to reduce fatigue and task abandonment before a task is complete. To operationalize this idea, we train a high-performing classifier (82% F1-score) to automatically identify relevant and interesting facts for users. We use it to create an annotated dataset of task-specific interesting facts for the domain of cooking. Finally, we design and validate a dialogue policy to incorporate the identified relevant and interesting facts into a conversation, to improve user engagement and task completion. Live testing on a leading multi-modal voice assistant shows that 66% of the presented facts were received positively, leading to a 40% gain in the user satisfaction rating, and a 37% increase in conversation length. These findings emphasize that strategically incorporating interesting facts into the CTA experience can promote real-world user participation for guided task interactions.
翻訳日:2024-04-11 15:59:05 公開日:2024-04-09
# ラムゼー・ブラッグ干渉法によるフェルミ気体中の対相関の探索

Probing pair correlations in Fermi gases with Ramsey-Bragg interferometry ( http://arxiv.org/abs/2312.13960v3 )

ライセンス: Link先を確認
Théo Malas-Danzé, Alexandre Dugelay, Nir Navon, Hadrien Kurkjian, (参考訳) スピン1/2フェルミオンの気体中の対相関を探索する干渉計法を提案する。 この方法は、フェルミガスのスピン状態が静止状態と大きな反動速度の状態の重ね合わせで設定されるラムゼー系列からなる。 この2体密度行列は、転写された分数のゆらぎから再冷却状態へ抽出される。 対凝縮相では、対角外長距離秩序は、長い尋問時間の間、干渉計信号の漸近挙動に直接反映される。 インターフェロメトリー信号はバーディーン=クーパー=シュリーファー系における尋問時間の振動関数であり、分子ボース=アインシュタイン凝縮系では過大な機能となる。

We propose an interferometric method to probe pair correlations in a gas of spin-1/2 fermions. The method consists of a Ramsey sequence where both spin states of the Fermi gas are set in a superposition of a state at rest and a state with a large recoil velocity. The two-body density matrix is extracted via the fluctuations of the transferred fraction to the recoiled state. In the pair-condensed phase, the off-diagonal long-range order is directly reflected in the asymptotic behavior of the interferometric signal for long interrogation times. The method also allows to probe the spatial structure of the condensed pairs: the interferometric signal is an oscillating function of the interrogation time in the Bardeen-Cooper-Schrieffer regime; it becomes an overdamped function in the molecular Bose-Einstein condensate regime.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-09
# JUICER: ロボットアセンブリのためのデータ効率のよい模倣学習

JUICER: Data-Efficient Imitation Learning for Robotic Assembly ( http://arxiv.org/abs/2404.03729v2 )

ライセンス: Link先を確認
Lars Ankile, Anthony Simeonov, Idan Shenfeld, Pulkit Agrawal, (参考訳) 実演から学ぶことは、ビジュモータポリシーを取得する上では強力だが、大規模な実演データセットを持たないハイパフォーマンスな模倣は、正確な長時間の操作を必要とするタスクでは依然として困難である。 本稿では,人体実験予算を小さくすることで,模擬学習性能を向上させるパイプラインを提案する。 我々は,長い水平線上の複数の部分と複数のタスクフェーズを正確に把握し,再配置し,挿入する必要のあるアセンブリタスクに対して,我々のアプローチを適用する。 我々のパイプラインは、表現力のあるポリシーアーキテクチャと、データセットの拡張とシミュレーションベースのデータ拡張のための様々な技術を組み合わせています。 これらのことは、データセットのサポートを拡張し、高精度を必要とするボトルネック領域の近くで局所的な修正アクションでモデルを監督するのに役立つ。 シミュレーションで4つの家具組立タスクのパイプラインを実演し、RGB画像から直接2500時間以上のステップでマニピュレータが最大5つのパーツを組み立て、模倣やデータ拡張のベースラインを上回ります。 プロジェクトウェブサイト: https://imitation-juicer.github.io/.com

While learning from demonstrations is powerful for acquiring visuomotor policies, high-performance imitation without large demonstration datasets remains challenging for tasks requiring precise, long-horizon manipulation. This paper proposes a pipeline for improving imitation learning performance with a small human demonstration budget. We apply our approach to assembly tasks that require precisely grasping, reorienting, and inserting multiple parts over long horizons and multiple task phases. Our pipeline combines expressive policy architectures and various techniques for dataset expansion and simulation-based data augmentation. These help expand dataset support and supervise the model with locally corrective actions near bottleneck regions requiring high precision. We demonstrate our pipeline on four furniture assembly tasks in simulation, enabling a manipulator to assemble up to five parts over nearly 2500 time steps directly from RGB images, outperforming imitation and data augmentation baselines. Project website: https://imitation-juicer.github.io/.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-09
# コード表現の強化によるグラフニューラルネットによる障害位置推定の改善に向けて

Towards Better Graph Neural Neural Network-based Fault Localization Through Enhanced Code Representation ( http://arxiv.org/abs/2404.04496v2 )

ライセンス: Link先を確認
Md Nakhla Rafi, Dong Jae Kim, An Ran Chen, Tse-Hsun Chen, Shaowei Wang, (参考訳) 自動ソフトウェアフォールトローカライゼーションは、デバッグを容易にするために故障箇所をピンポイントすることで、ソフトウェア品質保証において重要な役割を果たす。 広く使われている手法であるカバレッジベースのフォールトローカライゼーションでは、被疑点スコアに基づいたコードランク付けにカバレッジスペクトルの統計を用いる。 しかし、統計的アプローチの剛性は、学習に基づく技術を要求する。 中でもグラフニューラルネットワーク(GNN)に基づくグラフニューラルネットワーク(Grace)は,特徴表現を圧縮する他の学習手法の制限を緩和する,厳密な抽象構文強化グラフ表現として,テストとソースのカバレッジ関係を保存する能力によって,最先端技術を実現している。 しかし、そのような表現は、ソフトウェアと関連するカバレッジスペクトルとASTグラフの複雑さの増大によりスケーラビリティに苦慮している。 本研究では,ノードやエッジにおけるグラフ表現の複雑さを70%削減する新しいグラフ表現であるDepGraphを提案する。 さらに,属性としてグラフ内のコード変更情報などの付加的機能を統合し,そのモデルが豊富な歴史的プロジェクトデータを活用できるようにする。 Defects4j 2.0.0を用いてDepGraphを評価し,Top-1における20%以上の障害の所在と平均一位と平均平均ランク(MAR)を50%以上改善し,GPUメモリ使用率を44%削減し,トレーニング/推論時間を85%向上させた。 さらに、クロスプロジェクト環境では、DepGraphは最先端のベースラインを超え、Top-1の精度が42%、MFRとMARが68%、MARが65%向上している。 我々の研究は、DepGraphの堅牢性、最先端の精度、将来の拡張と採用のためのスケーラビリティを実証する。

Automatic software fault localization plays an important role in software quality assurance by pinpointing faulty locations for easier debugging. Coverage-based fault localization, a widely used technique, employs statistics on coverage spectra to rank code based on suspiciousness scores. However, the rigidity of statistical approaches calls for learning-based techniques. Amongst all, Grace, a graph-neural network (GNN) based technique has achieved state-of-the-art due to its capacity to preserve coverage spectra, i.e., test-to-source coverage relationships, as precise abstract syntax-enhanced graph representation, mitigating the limitation of other learning-based technique which compresses the feature representation. However, such representation struggles with scalability due to the increasing complexity of software and associated coverage spectra and AST graphs. In this work, we proposed a new graph representation, DepGraph, that reduces the complexity of the graph representation by 70% in nodes and edges by integrating interprocedural call graph in the graph representation of the code. Moreover, we integrate additional features such as code change information in the graph as attributes so the model can leverage rich historical project data. We evaluate DepGraph using Defects4j 2.0.0, and it outperforms Grace by locating 20% more faults in Top-1 and improving the Mean First Rank (MFR) and the Mean Average Rank (MAR) by over 50% while decreasing GPU memory usage by 44% and training/inference time by 85%. Additionally, in cross-project settings, DepGraph surpasses the state-of-the-art baseline with a 42% higher Top-1 accuracy, and 68% and 65% improvement in MFR and MAR, respectively. Our study demonstrates DepGraph's robustness, achieving state-of-the-art accuracy and scalability for future extension and adoption.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-09
# StockGPT: 株価予測と取引のためのGenAIモデル

StockGPT: A GenAI Model for Stock Prediction and Trading ( http://arxiv.org/abs/2404.05101v2 )

ライセンス: Link先を確認
Dat Mai, (参考訳) 本稿では,100年近くにわたって米国株の7千万株に対して,自己回帰的「数値」モデルであるStockGPTを紹介する。 StockGPTは、各リターンシリーズをトークンのシーケンスとして扱うことで、そのアテンションメカニズムを通じて、将来のリターンを予測する隠されたパターンを自動的に学習する。 2001年から2023年までの維持試験では、StockGPT予測による日次リバランスのロングショートポートフォリオが、シャープ比6.5で毎年119%のリターンを得ている。 StockGPTベースのポートフォリオは、手作業による価格ベースの戦略の必要性を排除しつつ、モーメントと長期的・短期的逆転を完全にカバーしている。 これは、複雑な金融投資決定を下す上で、AIが人間を超えるという大きな可能性を浮き彫りにしている。

This paper introduces StockGPT, an autoregressive ``number'' model trained and tested on 70 million daily U.S. stock returns over nearly 100 years. Treating each return series as a sequence of tokens, StockGPT automatically learns the hidden patterns predictive of future returns via its attention mechanism. On a held-out test sample from 2001 to 2023, a daily rebalanced long-short portfolio formed from StockGPT predictions earns an annual return of 119% with a Sharpe ratio of 6.5. The StockGPT-based portfolio completely spans momentum and long-/short-term reversals, eliminating the need for manually crafted price-based strategies, and also encompasses most leading stock market factors. This highlights the immense promise of generative AI in surpassing human in making complex financial investment decisions.
翻訳日:2024-04-11 11:44:40 公開日:2024-04-09
# 過去からのLiDARを用いた単分子3次元検出器の改良

Better Monocular 3D Detectors with LiDAR from the Past ( http://arxiv.org/abs/2404.05139v2 )

ライセンス: Link先を確認
Yurong You, Cheng Perng Phoo, Carlos Andres Diaz-Ruiz, Katie Z Luo, Wei-Lun Chao, Mark Campbell, Bharath Hariharan, Kilian Q Weinberger, (参考訳) 正確な3Dオブジェクト検出は、自動運転に不可欠である。 LiDARベースの検出器は目覚ましい性能を達成したが、高コストのLiDARセンサーは安価な車両に広く採用されるのを妨げている。 カメラベースの検出器は安価な代替品だが、画像の奥行きの曖昧さのため、LiDARベースの検出器に比べて性能が劣ることが多い。 本研究では,未ラベルの歴史的LiDARデータを活用することにより,単分子3D検出器の改良を図る。 具体的には、推定時刻において、カメラベースの検出器は、過去のトラバーサル(LiDARセンサーを搭載した他のハイエンド車両)から複数のラベルのないLiDARスキャンにアクセスすることができると仮定する。 そこで我々はAsyncDepthと呼ばれる新しい、シンプルで、エンドツーエンドのトレーニング可能なフレームワークを提案し、モノクロ3D検出器の同じ位置にある非同期LiDARトラバーサルから関連性を効果的に抽出した。 我々は、複数の最先端モデルとデータセットにまたがって、一貫性があり、重要なパフォーマンス向上(最大9AP)を示し、追加のレイテンシは9.66ミリ秒、ストレージコストは小さくなった。

Accurate 3D object detection is crucial to autonomous driving. Though LiDAR-based detectors have achieved impressive performance, the high cost of LiDAR sensors precludes their widespread adoption in affordable vehicles. Camera-based detectors are cheaper alternatives but often suffer inferior performance compared to their LiDAR-based counterparts due to inherent depth ambiguities in images. In this work, we seek to improve monocular 3D detectors by leveraging unlabeled historical LiDAR data. Specifically, at inference time, we assume that the camera-based detectors have access to multiple unlabeled LiDAR scans from past traversals at locations of interest (potentially from other high-end vehicles equipped with LiDAR sensors). Under this setup, we proposed a novel, simple, and end-to-end trainable framework, termed AsyncDepth, to effectively extract relevant features from asynchronous LiDAR traversals of the same location for monocular 3D detectors. We show consistent and significant performance gain (up to 9 AP) across multiple state-of-the-art models and datasets with a negligible additional latency of 9.66 ms and a small storage cost.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-09
# 骨格前駆者との対人相互作用増強

Two-Person Interaction Augmentation with Skeleton Priors ( http://arxiv.org/abs/2404.05490v2 )

ライセンス: Link先を確認
Baiyi Li, Edmond S. L. Ho, Hubert P. H. Shum, He Wang, (参考訳) リッチコンタクトとの密接な継続的なインタラクションは、人間の活動(ハグ、ダンスなど)の重要な側面であり、アクティビティ認識、モーション予測、キャラクターアニメーションなど多くの領域に関心を持っている。 しかし,このような骨格運動の獲得は困難である。 直接モーションキャプチャーは高価で遅いが、トポロジカルおよび幾何学的制約を伴う複雑な接触パターンを保持する必要があるため、モーション編集/生成も簡単ではない。 そこで本研究では,両体間の重要な幾何学的・トポロジ的関係を保ちながら,身体の大きさや比率の異なる接触リッチな相互作用を生成できる,2体インタラクション運動増強のための新しい深層学習法を提案する。 我々のシステムは比較的少量のデータから効果的に学習でき、骨格サイズが大幅に異なるように一般化できる。 徹底的な評価と比較により、高品質な動きを生成でき、強力な一般化性を持ち、従来の最適化手法や代替ディープラーニングソリューションよりも優れていることを示す。

Close and continuous interaction with rich contacts is a crucial aspect of human activities (e.g. hugging, dancing) and of interest in many domains like activity recognition, motion prediction, character animation, etc. However, acquiring such skeletal motion is challenging. While direct motion capture is expensive and slow, motion editing/generation is also non-trivial, as complex contact patterns with topological and geometric constraints have to be retained. To this end, we propose a new deep learning method for two-body skeletal interaction motion augmentation, which can generate variations of contact-rich interactions with varying body sizes and proportions while retaining the key geometric/topological relations between two bodies. Our system can learn effectively from a relatively small amount of data and generalize to drastically different skeleton sizes. Through exhaustive evaluation and comparison, we show it can generate high-quality motions, has strong generalizability and outperforms traditional optimization-based methods and alternative deep learning solutions.
翻訳日:2024-04-11 11:37:32 公開日:2024-04-09
# アーリーステージのTwitterに関する噂:弱者学習者の知恵を活かす

On Early-stage Debunking Rumors on Twitter: Leveraging the Wisdom of Weak Learners ( http://arxiv.org/abs/1709.04402v2 )

ライセンス: Link先を確認
Tu Nguyen, Cheng Li, Claudia Niederée, (参考訳) 近年,マイクロブロッグストリームのうわさモデリングやうわさ検出に多くの進展が見られる。 しかし,既存の自動手法は早期のうわさ検出にはあまり役に立たない。 この理由の1つは、長期にわたって良好に機能する伝搬機能などの集約された噂機能は、その蓄積特性のため、噂の初期段階ではあまり役に立たないことである。 本研究では,各ツイートの信頼度に関する洞察を得るために,畳み込みニューラルネットワークを用いて個々の噂関連ツイートの隠蔽表現を学習する早期の噂検出手法を提案する。 次に、噂の始まりから予測を集約して、全体的なイベントクレジット(いわゆる知恵)を取得し、最終的に時系列ベースの噂分類モデルと組み合わせる。 我々の広範な実験は、噂の最初の数時間で、明確な分類性能が向上したことを示している。 より深く理解するために、我々は、早期に強調された広範な特徴評価を行い、低レベルの信頼性が噂の終生のあらゆる段階で最高の予測可能性を持つことを示す。

Recently a lot of progress has been made in rumor modeling and rumor detection for micro-blogging streams. However, existing automated methods do not perform very well for early rumor detection, which is crucial in many settings, e.g., in crisis situations. One reason for this is that aggregated rumor features such as propagation features, which work well on the long run, are - due to their accumulating characteristic - not very helpful in the early phase of a rumor. In this work, we present an approach for early rumor detection, which leverages Convolutional Neural Networks for learning the hidden representations of individual rumor-related tweets to gain insights on the credibility of each tweets. We then aggregate the predictions from the very beginning of a rumor to obtain the overall event credits (so-called wisdom), and finally combine it with a time series based rumor classification model. Our extensive experiments show a clearly improved classification performance within the critical very first hours of a rumor. For a better understanding, we also conduct an extensive feature evaluation that emphasized on the early stage and shows that the low-level credibility has best predictability at all phases of the rumor lifetime.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# Twitterにおける地震早期検出のための包括的低レベル・高レベル特徴分析

A Comprehensive Low and High-level Feature Analysis for Early Rumor Detection on Twitter ( http://arxiv.org/abs/1711.00726v3 )

ライセンス: Link先を確認
Tu Nguyen, (参考訳) 最近の研究は、噂をモデル化し、マイクロブログストリーム上でそれらを検出するのに役立っている。 しかし, 拡散の早い段階では, 自動アプローチの性能は比較的高くない。 第一の直感は、初期の段階では、集約された噂のほとんどの特徴(例えば、伝播の特徴)は十分に成熟してはいない、というものである。 しかし、マイクロブログの噂は、これらの誤報をできるだけ早く検出することを目的としている。 本研究では,まず,個々の噂関連ツイートの隠れ表現を学習するために,ニューラルモデルを活用する。 我々の広範な実験により、結果の信号は時間の経過とともに分類性能を向上し、最初の10時間で顕著に向上することが示された。 モデル性能に時間とともに寄与するこれらの低レベル・高レベルな特徴の理解を深めるため,48時間帯の広範囲にわたるハイインパクトな噂機能について広範な研究を行った。 これらの機能に関わるエンドモデルは、競争力があり、90%以上の精度に達し、慎重にキュレートされたデータセットで強いベースラインを上回ります。

Recent work have done a good job in modeling rumors and detecting them over microblog streams. However, the performance of their automatic approaches are not relatively high when looking early in the diffusion. A first intuition is that, at early stage, most of the aggregated rumor features (e.g., propagation features) are not mature and distinctive enough. The objective of rumor debunking in microblogs, however, are to detect these misinformation as early as possible. In this work, we leverage neural models in learning the hidden representations of individual rumor-related tweets at the very beginning of a rumor. Our extensive experiments show that the resulting signal improves our classification performance over time, significantly within the first 10 hours. To deepen the understanding of these low and high-level features in contributing to the model performance over time, we conduct an extensive study on a wide range of high impact rumor features for the 48 hours range. The end model that engages these features are shown to be competitive, reaches over 90% accuracy and out-performs strong baselines in our carefully cured dataset.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# 混合スピン$(s,\frac{1}{2})$系のマヨラナ星表現

Majorana stellar representation for mixed-spin $(s,\frac{1}{2})$ systems ( http://arxiv.org/abs/1904.02462v2 )

ライセンス: Link先を確認
Yuguo Su, Fei Yao, Yanming Che, Li-Bin Fu, Xiaoguang Wang, (参考訳) ブロッホ球上のマヨラナ星の軌道を持つ量子状態の進化を記述することで、マヨラナの恒星表現は、高次元ヒルベルト空間を持つ量子系を理解するための直観的な幾何学的視点を与える。 しかし、ブロッホ球面上の2スピンカップリング系の表現の問題はまだ十分に解決されていない。 ここでは混合スピン$(s, 1/2)$系の問題を解くための実用的な方法を提案する。 系は2つのスピンに分解できる: spin-$(s+1/2)$ と spin-$(s+1/2)$ である。 さらに、任意の純粋状態は、スピン-$(s+1/2)$状態とスピン-$(s+1/2)$状態の2つの正則状態の重ね合わせとして書くことができる。 したがって、状態全体が擬スピンの状態を1/2$とみなすことができる。 このように、混合スピンは3つのスピンに分解される。 したがって、ブロッホ球面上の星の集合を$(2s+1)+(2s-1)+1=4s+1$で表すことができる。 最後に、我々の理論を実証するために、ブロッホ球面上のラコニックパターンと対称パターンを実際に示し、ブロッホ球面上のマヨラナ星の軌道を解析することによって、ハイスピン系の特性を明らかにするいくつかの例を示す。

By describing the evolution of a quantum state with the trajectories of the Majorana stars on a Bloch sphere, Majorana's stellar representation provides an intuitive geometric perspective to comprehend a quantum system with high-dimensional Hilbert space. However, the problem of the representation of a two-spin coupling system on a Bloch sphere has not been solved satisfactorily yet. Here, we present a practical method to resolve the problem for the mixed-spin $(s, 1/2)$ system. The system can be decomposed into two spins: spin-$(s+1/2)$ and spin-$(s-1/2)$ at the coupling bases, which can be regarded as independent spins. Besides, we may write any pure state as a superposition of two orthonormal states with one spin-$(s+1/2)$ state and the other spin-$(s-1/2)$ state. Thus, the whole state can be regarded as a state of a pseudo spin-$1/2$. In this way, the mixed spin decomposes into three spins. Therefore, we can represent the state by $(2s+1)+(2s-1)+1=4s+1$ sets of stars on a Bloch sphere. Finally, to demonstrate our theory, we give some examples that indeed show laconic and symmetric patterns on the Bloch sphere, and unveil the properties of the high-spin system by analyzing the trajectories of the Majorana stars on a Bloch sphere.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# Lee-Yang dephasingチャネル下でのスピンスクイーズとコンカレンス

Spin squeezing and concurrence under Lee-Yang dephasing channels ( http://arxiv.org/abs/2006.06342v2 )

ライセンス: Link先を確認
Yuguo Su, Hongbin Liang, Xiaoguang Wang, (参考訳) リー・ヤン零点は、多体系に結合されたプローブスピンのコヒーレンスにおける零点への1対1の写像である。 ここでは, 分割関数がLee-Yang零点で消滅する2種類のLee-Yang dephasingチャネルのスピンスクイーズについて検討する。 プローブを自身の浴槽に結合する第1タイプのチャネルでは,スピンスクイーズの性能が向上し,その最大値は初期状態にのみ依存することがわかった。 さらに、すべての収束領域の中心はリー・ヤン零点に対応する。 プローブを1つの浴に結合する第2タイプのチャネルでは、スピンスクイーズの性能は改善されないが、コンカレンスはほぼ同じ特性を両チャネルで共有する。 これらの結果は、多体物理学における新しい実験可能性を提供し、プローブバス系における絡み合いとスピンスクイーズの関係の新しい視点を拡大する。

The Lee-Yang zeros are one-to-one mapping to zeros in the coherence of a probe spin coupled to a many-body system. Here, we study the spin squeezing under two different types of Lee-Yang dephasing channels in which the partition functions vanish at Lee-Yang zeros. Under the first type of the channels in which probes are coupled to their own bath, we find that the performance of spin squeezing is improved and its maximum only depends on the initial state. Moreover, the centers of all the concurrence vanishing domains are corresponding to the Lee-Yang zeros. Under the second type of the channels in which probes are coupled to one bath together, the performance of spin squeezing is not improved, however, the concurrence shares almost the same properties under both channels. These results provide new experimental possibilities in many-body physics and extend a new perspective of the relationship between the entanglement and spin squeezing in probes-bath systems.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# 分散原子-光相互作用による光領域におけるハイゼンベルク極限を達成するパラメトリケートプロトコル

Parametrized protocol achieving the Heisenberg limit in the optical domain via dispersive atom-light interactions ( http://arxiv.org/abs/2010.14842v3 )

ライセンス: Link先を確認
Yuguo Su, Xiaoguang Wang, (参考訳) キャビティ-QED系における強い、集合的な原子-光相互作用は、量子エンハンスド測定において多様体の利点をもたらす。 本稿では、光場の小さな変位を検知するために提案された時間反転プロトコルについて検討し、ハイゼンベルク限界(HL)を達成するために高速化可能なスキームの感度について報告する。 スキームのホロノミックユニタリパラメトリゼーションプロセスを示し、最終的な感度を追求するために適切な初期状態を選択する必要がある。 このスキームは、古典的でない状態でハイゼンベルクに制限されたメトロジーを達成するための実験的に実現可能な方法を作ることができる。

The strong and collective atom-light interactions in cavity-QED systems perform manifold benefits in quantum-enhanced measurements. Here, we study the time-reversal protocol that has been proposed to sense small displacements of the light field, and report the sensitivity of the scheme that could be speeded up to attain the Heisenberg limit (HL).We show the holonomic unitary parametrization process of the scheme and one only need to choose appropriate initial states to pursue the ultimate sensitivity. The scheme may pave an experimentally feasible way to achieve Heisenberg-limited metrology with nonclassical states.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# 最適輸送によるロバスト化条件ポートフォリオ決定

Robustifying Conditional Portfolio Decisions via Optimal Transport ( http://arxiv.org/abs/2103.16451v3 )

ライセンス: Link先を確認
Viet Anh Nguyen, Fan Zhang, Shanshan Wang, Jose Blanchet, Erick Delage, Yinyu Ye, (参考訳) 本稿では,分散的ロバスト最適化の枠組みを用いて,側面情報,条件推定,ロバスト性を統合するデータ駆動ポートフォリオ選択モデルを提案する。 ポートフォリオマネージャは、観測側情報を条件として、最適輸送あいまい度セットにおける共変量-回帰確率分布の全ての摂動を条件として、最悪の条件付きリスク-リターントレードオフを最小限にする割当問題を解く。 確率測度における目的関数の非線形性にもかかわらず、サイド情報問題による分散ロバストなポートフォリオ割り当ては、有限次元最適化問題として再構成可能であることを示す。 もしポートフォリオの決定が平均分散または平均連続値-アット・リスク基準のいずれかに基づいてなされた場合、その結果の改革は2階または半確定円錐プログラムにさらに単純化される。 米国株式市場における実証研究は、他のベンチマークに対する我々の統合的フレームワークの利点を実証している。

We propose a data-driven portfolio selection model that integrates side information, conditional estimation and robustness using the framework of distributionally robust optimization. Conditioning on the observed side information, the portfolio manager solves an allocation problem that minimizes the worst-case conditional risk-return trade-off, subject to all possible perturbations of the covariate-return probability distribution in an optimal transport ambiguity set. Despite the non-linearity of the objective function in the probability measure, we show that the distributionally robust portfolio allocation with side information problem can be reformulated as a finite-dimensional optimization problem. If portfolio decisions are made based on either the mean-variance or the mean-Conditional Value-at-Risk criterion, the resulting reformulation can be further simplified to second-order or semi-definite cone programs. Empirical studies in the US equity market demonstrate the advantage of our integrative framework against other benchmarks.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# イベントベースオブジェクト追跡のためのロバストモデルによるイベントデータアソシエーション

Event Data Association via Robust Model Fitting for Event-based Object Tracking ( http://arxiv.org/abs/2110.12962v2 )

ライセンス: Link先を確認
Haosheng Chen, Shuyuan Lin, Yan Yan, Hanzi Wang, Xinbo Gao, (参考訳) バイオインスパイアされた非同期イベントカメラをベースとしたイベントベースのアプローチは、様々なコンピュータビジョンタスクにおいて有望なパフォーマンスを実現している。 しかし、基本的なイベントデータアソシエーション問題の研究はまだ初期段階にある。 本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。 提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。 EDAでは、まずその情報エントロピーに基づいてイベントデータを非同期に融合する。 そこで本研究では,融合した事象からモデル仮説を効果的に生成する決定論的モデル仮説生成戦略を導入する。 その後、多構造幾何モデルフィッティングを用いて、生成したモデル仮説から真のモデルを頑健に重み付けし、選択する2段階重み付けアルゴリズムを提案する。 また,真のモデルの数を自動的に決定する適応モデル選択手法を提案する。 最後に、選択した真のモデルを用いて、センサノイズや無関係構造の影響を受けずに、イベントデータを関連付け、融合する。 オブジェクト追跡タスクにおいて提案するEDAの性能を評価する。 実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。

Event-based approaches, which are based on bio-inspired asynchronous event cameras, have achieved promising performance on various computer vision tasks. However, the study of the fundamental event data association problem is still in its infancy. In this paper, we propose a novel Event Data Association (called EDA) approach to explicitly address the event association and fusion problem. The proposed EDA seeks for event trajectories that best fit the event data, in order to perform unifying data association and information fusion. In EDA, we first asynchronously fuse the event data based on its information entropy. Then, we introduce a deterministic model hypothesis generation strategy, which effectively generates model hypotheses from the fused events, to represent the corresponding event trajectories. After that, we present a two-stage weighting algorithm, which robustly weighs and selects true models from the generated model hypotheses, through multi-structural geometric model fitting. Meanwhile, we also propose an adaptive model selection strategy to automatically determine the number of the true models. Finally, we use the selected true models to associate and fuse the event data, without being affected by sensor noise and irrelevant structures. We evaluate the performance of the proposed EDA on the object tracking task. The experimental results show the effectiveness of EDA under challenging scenarios, such as high speed, motion blur, and high dynamic range conditions.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-09
# 絡み合いと一般量子資源理論に対する確率的近似状態変換

Stochastic approximate state conversion for entanglement and general quantum resource theories ( http://arxiv.org/abs/2111.12646v3 )

ライセンス: Link先を確認
Tulja Varun Kondra, Chandan Datta, Alexander Streltsov, (参考訳) 量子資源理論は、様々な量子資源の性質を理解する数学的に厳密な方法を提供する。 量子資源理論における重要な問題は、量子状態が理論の物理的制約の中でどのように互いに変換されるかを決定することである。 この問題に対する標準的なアプローチは、近似的あるいは確率的変換を研究することである。 確率変換と近似変換の間の中間状態について、非常に少ない結果が提示されている。 ここでは、この中間状態について検討し、状態遷移の忠実度と確率の両方に制限を与える。 与えられた変換確率に対する最大変換忠実度に関する境界を提供することにより、すべての量子資源理論で有効な変換上の制限を導出する。 応用として、これらの境界は確率変換の下での様々な状態の漸近速度の上限であることを示す。 また、単一コピー境界の決定論的バージョンは、以前に知られていたチャネル操作の限界を超えて、量子チャネルの操作の制限を引くためにも適用可能であることを示す。 さらに、局所演算と古典通信による確率近似状態変換の問題を、以下の2つのケースで完全に解決する。 i) 初期状態と対象状態の両方が任意の次元の純粋な二部交絡状態である。 (ii)ターゲット状態は2ビットの絡み合った状態であり、初期状態は純粋な二部状態である。

Quantum resource theories provide a mathematically rigorous way of understanding the nature of various quantum resources. An important problem in any quantum resource theory is to determine how quantum states can be converted into each other within the physical constraints of the theory. The standard approach to this problem is to study approximate or probabilistic transformations. Very few results have been presented on the intermediate regime between probabilistic and approximate transformations. Here, we investigate this intermediate regime, providing limits on both, the fidelity and the probability of state transitions. We derive limitations on the transformations, which are valid in all quantum resource theories, by providing bounds on the maximal transformation fidelity for a given transformation probability. As an application, we show that these bounds imply an upper bound on the asymptotic rates for various classes of states under probabilistic transformations. We also show that the deterministic version of the single copy bounds can be applied for drawing limitations on the manipulation of quantum channels, which goes beyond the previously known bounds of channel manipulations. Furthermore, we completely solve the question of stochastic-approximate state conversion via local operations and classical communication in the following two cases: (i) Both initial and target states are pure bipartite entangled states of arbitrary dimensions. (ii) The target state is a two-qubit entangled state and the initial state is a pure bipartite state.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# カラーコードによる低オーバーヘッド量子コンピューティング

Low-overhead quantum computing with the color code ( http://arxiv.org/abs/2201.07806v2 )

ライセンス: Link先を確認
Felix Thomsen, Markus S. Kesselring, Stephen D. Bartlett, Benjamin J. Brown, (参考訳) フォールトトレラントな量子計算は重要なリソースを必要とする: ノイズの存在下で論理ゲートが実装されるため、多くの物理量子ビットが繰り返しエラーをチェックされ、量子データを保護する必要がある。 カラーコードに基づくアプローチは,2次元レイアウトとの互換性を維持しながら,従来の手法に比べて資源オーバーヘッドを大幅に削減できることを示す。 カラーコード位相のリッチな構造を利用して、空間コストを低く保ちながら、任意の一対の通勤論理パウリ測定を並列に行う格子手術手法を提案する。 符号距離が同じ表面コードに基づく格子式手術法と比較すると, 空間的オーバーヘッドが1.5ドル, 空間的オーバーヘッドが2ドル, 可換な論理的測定が並列化されて2ドルになった場合, 空間的オーバーヘッドが約3ドル, 時間的オーバーヘッドが約3ドル, 時間的オーバーヘッドが約3ドル, 時間的オーバーヘッドが約3ドル, 時間的オーバーヘッドが約3ドルになった。 カラーコードの低いエラー閾値を現在のデコーダを使って考慮しても、物理的エラー率10^{-3}$で10\%、物理的エラー率10^{-4}$で50\%削減される。

Fault-tolerant quantum computation demands significant resources: large numbers of physical qubits must be checked for errors repeatedly to protect quantum data as logic gates are implemented in the presence of noise. We demonstrate that an approach based on the color code can lead to considerable reductions in the resource overheads compared with conventional methods, while remaining compatible with a two-dimensional layout. We propose a lattice surgery scheme that exploits the rich structure of the color-code phase to perform arbitrary pairs of commuting logical Pauli measurements in parallel while keeping the space cost low. Compared to lattice surgery schemes based on the surface code with the same code distance, our approach yields about a $3\times$ improvement in the space-time overhead, obtained from a combination of a $1.5\times$ improvement in spatial overhead together with a $2\times$ speedup due to the parallelisation of commuting logical measurements. Even when taking into account the color code's lower error threshold using current decoders, the overhead is reduced by 10\% at a physical error rate of $10^{-3}$ and by 50\% at $10^{-4}$.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# ビデオセマンティックセグメンテーションのための局所的・グローバル的時間文脈の学習

Learning Local and Global Temporal Contexts for Video Semantic Segmentation ( http://arxiv.org/abs/2204.03330v2 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Henghui Ding, Min Wu, Luc Van Gool, (参考訳) コンテキスト情報は、ビデオセマンティックセグメンテーション(VSS)において中心的な役割を果たす。 本稿では、隣接するフレームからコンテキストを定義するローカル時間文脈(LTC)と、ビデオ全体からコンテキストを表現するグローバル時間文脈(GTC)の2つをまとめた。 LTCに関しては、静的コンテキストと動きコンテキストが含まれており、それぞれ隣接するフレームの静的コンテンツと移動コンテンツに対応している。 これまでは、静的コンテキストと運動コンテキストの両方が研究されてきた。 しかし、静的文脈と運動文脈を同時に学習する研究はない(非常に相補的)。 そこで本研究では,LCCの統一表現を学習するためのCFFM(Coarse-to-Fine Feature Mining)手法を提案する。 CFFMには、CFFA(Coarse-to-Fine Feature Assembling)とCFM(Cross-frame Feature Mining)の2つの部分がある。 CFFAは静的なコンテキストと動きのコンテキストを抽象化し、CFMは近くのフレームから有用な情報を抽出してターゲット機能を強化する。 より時間的コンテキストを活用するために、ビデオ全体からGTCを学習することでCFFM++を提案する。 具体的には、ビデオから特定のフレームを一様にサンプリングし、k-meansでグローバルな文脈的プロトタイプを抽出する。 これらのプロトタイプの情報は、ターゲット機能を洗練するためにCFMによって採掘される。 CFFM と CFFM++ が最先端の手法に対して好適に動作することを示す。 私たちのコードはhttps://github.com/GuoleiSun/VSS-CFFMで利用可能です。

Contextual information plays a core role for video semantic segmentation (VSS). This paper summarizes contexts for VSS in two-fold: local temporal contexts (LTC) which define the contexts from neighboring frames, and global temporal contexts (GTC) which represent the contexts from the whole video. As for LTC, it includes static and motional contexts, corresponding to static and moving content in neighboring frames, respectively. Previously, both static and motional contexts have been studied. However, there is no research about simultaneously learning static and motional contexts (highly complementary). Hence, we propose a Coarse-to-Fine Feature Mining (CFFM) technique to learn a unified presentation of LTC. CFFM contains two parts: Coarse-to-Fine Feature Assembling (CFFA) and Cross-frame Feature Mining (CFM). CFFA abstracts static and motional contexts, and CFM mines useful information from nearby frames to enhance target features. To further exploit more temporal contexts, we propose CFFM++ by additionally learning GTC from the whole video. Specifically, we uniformly sample certain frames from the video and extract global contextual prototypes by k-means. The information within those prototypes is mined by CFM to refine target features. Experimental results on popular benchmarks demonstrate that CFFM and CFFM++ perform favorably against state-of-the-art methods. Our code is available at https://github.com/GuoleiSun/VSS-CFFM
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# 量子システム設計へのエンコードの導入

Incorporating Encoding into Quantum System Design ( http://arxiv.org/abs/2207.01954v2 )

ライセンス: Link先を確認
Alastair Kay, (参考訳) 自然力学が有用な計算演算を提供する量子システムを作成する際、設計者は、ハミルトニアンとシステムの初期状態(エンコーディング)の両方を(制限された)選択する2つの主要なツールを持っている。 典型的には、設計を修正し、ポストファクトムのエンコーディングを利用して実験的な欠陥を許容する。 本稿では,設計プロセスにエンコーディングを組み込んだ重要な洞察と,根本的な結果について述べる。 これは、完全な状態移動の研究を、システム全体のハミルトニアンを特定する非現実的なシナリオから、設計に選択の余地のないハミルトニアンを与えるというはるかに現実的な状況に転換し、完全な遷移を達成するためにたった2つのパラメータの時間制御を設計する。

When creating a quantum system whose natural dynamics provide useful computational operations, designers have two key tools at their disposal: the (constrained) choice of both the Hamiltonian and the the initial state of the system (an encoding). Typically, we fix the design, and utilise encodings post factum to tolerate experimental imperfections. In this paper, we describe a vital insight that incorporates encoding into the design process, with radical consequences. This transforms the study of perfect state transfer from the unrealistic scenario of specifying the Hamiltonian of an entire system to the far more realistic situation of being given a Hamiltonian over which we had no choice in the design, and designing time control of just two parameters to still achieve perfect transfer.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# 実世界スパース計測からの推測

Inference from Real-World Sparse Measurements ( http://arxiv.org/abs/2210.11269v6 )

ライセンス: Link先を確認
Arnaud Pannatier, Kyle Matoba, François Fleuret, (参考訳) 実世界の問題は、しばしば複雑で非構造的な測定セットが伴うが、これはセンサーが空間または時間に狭く配置されているときに起こる。 この不規則な時空間データをモデル化し、意味のある予測を抽出できることが不可欠である。 セットからセットまで様々な位置で測定セットを処理し、どこからでも読み出しを抽出できるディープラーニングアーキテクチャは、方法論的に困難である。 現在の最先端モデルはグラフニューラルネットワークであり、適切なセットアップのためにドメイン固有の知識を必要とする。 本稿では,ロバスト性と実用性に着目したアテンションベースモデルを提案する。 まず、コンテクストポイントと読み出し位置の両方を入力とし、エンコーダ・デコーダ構造を必要としないViTライクなトランスフォーマーを採用する。 第2に、コンテキストと読み出し位置の両方を符号化する統一的な手法を用いる。 このアプローチは意図的に単純で、他のシステムとうまく統合されています。 既存のアプローチと比較して、私たちのモデルはシンプルで、専門的な知識を必要とせず、問題のあるボトルネック効果に悩まされず、いずれも優れたパフォーマンスに寄与します。 情報利用を阻害し、訓練効率を阻害する代替モデルの潜在表現において、この問題を特徴づける詳細なアブレーション研究を行う。 また,高高度風速流,2日間の天気予報,流体力学,熱拡散などの諸問題領域についても実験を行った。 我々の注意に基づくモデルは、不規則にサンプリングされたデータを扱う際に、常に最先端のモデルより優れています。 特に,風速9.24から7.98へ,熱拡散タスク0.126から0.084へ,根平均二乗誤差(RMSE)を減少させる。

Real-world problems often involve complex and unstructured sets of measurements, which occur when sensors are sparsely placed in either space or time. Being able to model this irregular spatiotemporal data and extract meaningful forecasts is crucial. Deep learning architectures capable of processing sets of measurements with positions varying from set to set, and extracting readouts anywhere are methodologically difficult. Current state-of-the-art models are graph neural networks and require domain-specific knowledge for proper setup. We propose an attention-based model focused on robustness and practical applicability, with two key design contributions. First, we adopt a ViT-like transformer that takes both context points and read-out positions as inputs, eliminating the need for an encoder-decoder structure. Second, we use a unified method for encoding both context and read-out positions. This approach is intentionally straightforward and integrates well with other systems. Compared to existing approaches, our model is simpler, requires less specialized knowledge, and does not suffer from a problematic bottleneck effect, all of which contribute to superior performance. We conduct in-depth ablation studies that characterize this problematic bottleneck in the latent representations of alternative models that inhibit information utilization and impede training efficiency. We also perform experiments across various problem domains, including high-altitude wind nowcasting, two-day weather forecasting, fluid dynamics, and heat diffusion. Our attention-based model consistently outperforms state-of-the-art models in handling irregularly sampled data. Notably, our model reduces the root mean square error (RMSE) for wind nowcasting from 9.24 to 7.98 and for heat diffusion tasks from 0.126 to 0.084.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# ソフトセット操作のための部分空間表現と文類似性

Subspace Representations for Soft Set Operations and Sentence Similarities ( http://arxiv.org/abs/2210.13034v3 )

ライセンス: Link先を確認
Yoichi Ishibashi, Sho Yokoi, Katsuhito Sudoh, Satoshi Nakamura, (参考訳) 自然言語処理(NLP)の分野では、連続ベクトル表現は個々の単語の意味を捉えるのに不可欠である。 しかし、単語の集合の表現に関しては、従来のベクトルベースのアプローチは表現性に苦しむことが多く、結合、交叉、補集合といった基本的な集合の操作が欠如している。 量子論理に着想を得て,事前学習した単語埋め込み空間内の単語集合とそれに対応する集合演算の表現を実現する。 線形部分空間にアプローチを基礎づけることで、様々な集合演算の効率的な計算を可能にし、連続空間内のメンバシップ関数のソフト計算を容易にする。 さらに、単語ベクトル内で直接Fスコアの計算を行うことで、文の類似性を評価するための直接的なリンクを確立する。 広く使われている事前学習型埋め込みとベンチマークの実験では、我々のサブスペースベースの集合演算は、文類似性および集合検索タスクの両方において、ベクトルベースの演算よりも一貫して優れていた。

In the field of natural language processing (NLP), continuous vector representations are crucial for capturing the semantic meanings of individual words. Yet, when it comes to the representations of sets of words, the conventional vector-based approaches often struggle with expressiveness and lack the essential set operations such as union, intersection, and complement. Inspired by quantum logic, we realize the representation of word sets and corresponding set operations within pre-trained word embedding spaces. By grounding our approach in the linear subspaces, we enable efficient computation of various set operations and facilitate the soft computation of membership functions within continuous spaces. Moreover, we allow for the computation of the F-score directly within word vectors, thereby establishing a direct link to the assessment of sentence similarity. In experiments with widely-used pre-trained embeddings and benchmarks, we show that our subspace-based set operations consistently outperform vector-based ones in both sentence similarity and set retrieval tasks.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# 平均対称性による位相位相位相のストレンジ相関関数

Strange Correlation Function for Average Symmetry-Protected Topological Phases ( http://arxiv.org/abs/2210.17485v2 )

ライセンス: Link先を確認
Jian-Hao Zhang, Yang Qi, Zhen Bi, (参考訳) 平均対称性保護トポロジカル位相(平均対称性保護トポロジカル位相、ASPT)は、対称性保護トポロジカル位相を乱された系や開量子系へ一般化したものである。 我々は、非自明なASPT状態を検出するために、1次元と2次元の「ストレンジ・コレレータ」を考案した。 我々は、非自明なASPT相に対して、この奇妙な相関器は長距離またはパワー・ローの振る舞いを示すことを示した。 量子補正を伴う2次元ループモデルにおける奇妙な相関関数と相関関数の関連について検討し、この相関関数の正確なスケーリング指数を導出する。

Average symmetry-protected topological (ASPT) phase is a generalization of symmetry-protected topological phases to disordered systems or open quantum systems. We devise a "strange correlator" in one and two dimensions to detect nontrivial ASPT states. We demonstrate that for a nontrivial ASPT phase this strange correlator exhibits long-range or power-law behavior. We explore the connection between the strange correlators and correlation functions in two-dimensional loop models with quantum corrections, leading to the exact scaling exponents of the strange correlators.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparison Study and A Unified Training Paradigm for Neural Network-based Optimal Feedback Control (特集:情報ネットワーク)

Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control ( http://arxiv.org/abs/2211.15930v3 )

ライセンス: Link先を確認
Yue Zhao, Jiequn Han, (参考訳) この研究は、最適制御問題に対して、ニューラルネットワークベースのフィードバックコントローラを効率的に解くことを目的としている。 まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの一般的なアプローチの比較研究を行う。 教師付き学習手法の学習部は比較的容易であるが、この手法の成功は、オープンループ最適制御解法によって生成される最適制御データセットに大きく依存する。 対照的に、直接的なポリシー最適化は、最適制御問題を事前計算の必要なしに直接最適化問題に変換するが、その問題が複雑である場合には、ダイナミクス関連の目的を最適化することは困難である。 本結果は,最適性と学習時間の両方の観点から,オフライン教師あり学習の優位性を裏付けるものである。 これら2つのアプローチの主課題,データセット,最適化をそれぞれ克服し,最適フィードバック制御のための統一トレーニングパラダイムとしてプレトレインとファインチューン戦略を提案し,性能と堅牢性を大幅に向上させる。 私たちのコードはhttps://github.com/yzhao98/DeepOptimalControlでアクセスできます。

This work is concerned with solving neural network-based feedback controllers efficiently for optimal control problems. We first conduct a comparative study of two prevalent approaches: offline supervised learning and online direct policy optimization. Albeit the training part of the supervised learning approach is relatively easy, the success of the method heavily depends on the optimal control dataset generated by open-loop optimal control solvers. In contrast, direct policy optimization turns the optimal control problem into an optimization problem directly without any requirement of pre-computing, but the dynamics-related objective can be hard to optimize when the problem is complicated. Our results underscore the superiority of offline supervised learning in terms of both optimality and training time. To overcome the main challenges, dataset and optimization, in the two approaches respectively, we complement them and propose the Pre-train and Fine-tune strategy as a unified training paradigm for optimal feedback control, which further improves the performance and robustness significantly. Our code is accessible at https://github.com/yzhao98/DeepOptimalControl.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# セマンティックセグメンテーションの音源自由領域適応のためのメトリック学習による自己学習

Self-training via Metric Learning for Source-Free Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2212.04227v2 )

ライセンス: Link先を確認
Ibrahim Batuhan Akkaya, Ugur Halici, (参考訳) 非教師なしのドメイン適応手法は、事前訓練されたソースドメインモデルとラベルなしのターゲットドメインデータ、特に知的財産権やプライバシー上の懸念によりソースデータへのアクセシビリティが制限された場合に、ターゲットドメインのモデルをトレーニングすることを目的としている。 従来の手法では、通常擬似ラベルによる自己学習が用いられており、予測信頼度に基づいてしきい値付けされることが多い。 しかし、このようなしきい値設定は、監督が不十分なため、自己訓練の有効性を制限している。 この問題は、事前訓練されたソースモデルの予測からのみ監督される、ソースフリーな環境ではより深刻になる。 本研究では,教師ネットワークからの全ての予測を用いて,学生ネットワークを訓練する平均教師モデルを導入することによって,新しいアプローチを提案する。 予測にしきい値を用いる代わりに,教師の予測の信頼性に基づいて擬似ラベルから算出した勾配を重み付けする手法を提案する。 信頼性を評価するために,プロキシベースのメトリクス学習を用いた新しい手法を提案する。 提案手法は, 既存の最先端手法と比較して優れた性能を示すため, 合成・実・都市間シナリオにおいて評価される。

Unsupervised source-free domain adaptation methods aim to train a model for the target domain utilizing a pretrained source-domain model and unlabeled target-domain data, particularly when accessibility to source data is restricted due to intellectual property or privacy concerns. Traditional methods usually use self-training with pseudo-labeling, which is often subjected to thresholding based on prediction confidence. However, such thresholding limits the effectiveness of self-training due to insufficient supervision. This issue becomes more severe in a source-free setting, where supervision comes solely from the predictions of the pre-trained source model. In this study, we propose a novel approach by incorporating a mean-teacher model, wherein the student network is trained using all predictions from the teacher network. Instead of employing thresholding on predictions, we introduce a method to weight the gradients calculated from pseudo-labels based on the reliability of the teacher's predictions. To assess reliability, we introduce a novel approach using proxy-based metric learning. Our method is evaluated in synthetic-to-real and cross-city scenarios, demonstrating superior performance compared to existing state-of-the-art methods.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# 非競合データを用いた多人数3次元ポーズ推定

Multi-person 3D pose estimation from unlabelled data ( http://arxiv.org/abs/2212.08731v3 )

ライセンス: Link先を確認
Daniel Rodriguez-Criado, Pilar Bachiller, George Vogiatzis, Luis J. Manso, (参考訳) その多くの応用により、マルチヒューマンの3Dポーズ推定は極めて影響の大きい研究領域となっている。 それでも、複数のレギュラーRGBカメラからなるマルチビューシステムを考えると、3D多目的推定にはいくつかの課題がある。 まず第一に、カメラによって提供される2D情報を分離するために、それぞれの人物を異なる視点で一意に識別する必要がある。 第二に、各人物の多視点2D情報からの3Dポーズ推定プロセスは、シナリオ内のノイズや潜在的な閉塞に対して堅牢でなければならない。 本研究では,この2つの課題にディープラーニングの助けを借りて対処する。 具体的には、シナリオ内の人々の横断的な対応を予測できるグラフニューラルネットワークに基づくモデルと、2Dポイントで各人の3Dポーズを生成する多層パーセプトロンを提案する。 これらの2つのモデルは、自己教師型で訓練されるため、3Dアノテーションによる大規模なデータセットは不要である。

Its numerous applications make multi-human 3D pose estimation a remarkably impactful area of research. Nevertheless, assuming a multiple-view system composed of several regular RGB cameras, 3D multi-pose estimation presents several challenges. First of all, each person must be uniquely identified in the different views to separate the 2D information provided by the cameras. Secondly, the 3D pose estimation process from the multi-view 2D information of each person must be robust against noise and potential occlusions in the scenario. In this work, we address these two challenges with the help of deep learning. Specifically, we present a model based on Graph Neural Networks capable of predicting the cross-view correspondence of the people in the scenario along with a Multilayer Perceptron that takes the 2D points to yield the 3D poses of each person. These two models are trained in a self-supervised manner, thus avoiding the need for large datasets with 3D annotations.
翻訳日:2024-04-10 20:55:40 公開日:2024-04-09
# EPR-Net: 変動力投影式による非平衡ポテンシャル景観の構築

EPR-Net: Constructing non-equilibrium potential landscape via a variational force projection formulation ( http://arxiv.org/abs/2301.01946v3 )

ライセンス: Link先を確認
Yue Zhao, Wei Zhang, Tiejun Li, (参考訳) EPR-Netは,高次元非平衡定常状態(NESS)システムのための潜在的景観の構築という,生物物理学における重要な課題に取り組む,新しく効果的なディープラーニングアプローチである。 EPR-Net は、所望の負のポテンシャル勾配が、重み付き内積空間における基礎ダイナミクスの駆動力の直交射影であるという良い数学的事実を利用する。 我々の損失関数は、安定したエントロピー生成率(EPR)と密接な関係を持ち、ランドスケープ構築とEPR推定を同時に行うことができる。 小型の雑音を持つシステムに対する学習戦略を改良し,次元の低減と状態依存拡散係数のケースを統一的に含めるようにフレームワークを拡張した。 ベンチマーク問題に対する評価は,従来の手法と比較して,EPR-Netの精度,有効性,堅牢性に優れていた。 我々は,8次元の制限サイクルや52次元の多安定問題など,生物物理学的な問題へのアプローチを適用し,正確な解法と造園景観の興味深い洞察を提供する。 EPR-Netはその汎用性と力により、生物物理学における多様な景観構築問題に対する有望な解決策を提供する。

We present EPR-Net, a novel and effective deep learning approach that tackles a crucial challenge in biophysics: constructing potential landscapes for high-dimensional non-equilibrium steady-state (NESS) systems. EPR-Net leverages a nice mathematical fact that the desired negative potential gradient is simply the orthogonal projection of the driving force of the underlying dynamics in a weighted inner-product space. Remarkably, our loss function has an intimate connection with the steady entropy production rate (EPR), enabling simultaneous landscape construction and EPR estimation. We introduce an enhanced learning strategy for systems with small noise, and extend our framework to include dimensionality reduction and state-dependent diffusion coefficient case in a unified fashion. Comparative evaluations on benchmark problems demonstrate the superior accuracy, effectiveness, and robustness of EPR-Net compared to existing methods. We apply our approach to challenging biophysical problems, such as an 8D limit cycle and a 52D multi-stability problem, which provide accurate solutions and interesting insights on constructed landscapes. With its versatility and power, EPR-Net offers a promising solution for diverse landscape construction problems in biophysics.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 量子コヒーレンスの凍結状態

Frozen condition of quantum coherence ( http://arxiv.org/abs/2301.05891v3 )

ライセンス: Link先を確認
Zhaofang Bai, Shuanping Du, (参考訳) 重要な物理資源としての量子コヒーレンスは、様々な量子タスクの実装において重要な役割を果たすが、ノイズのために量子コヒーレンスは劣化することが多い。 本稿では, 進化全体(凍結コヒーレンス)において, $l_1$-norm あるいは相対的コヒーレンスエントロピーが変化しないような動的条件を解析する。 単一量子ビット系では、凍結コヒーレンスを実現するためのよい公式が与えられる。 逆に、$d\ (d>2)$次元系では、凍結コヒーレンスの普遍幾何学的条件を同定する。 ユニタリ量子演算がユニタリ演算の凸結合(M. A. Nielsen and I. L. Chuang, Quantum Computation and Quantum Information, (Cambridge University Press, Cambridge, 2000))として分解できるかどうかをどうやって決定できるのか? この分析に基づいて、操作的コヒーレンス理論からコヒーレント状態の完全な分類を与える。 これにより、LOCCの下での絡み合いの分類が構築される。

Quantum coherence as an important physical resource plays the key role in implementing various quantum tasks, whereas quantum coherence is often deteriorated due to the noise. In this paper, we analyse under which dynamical conditions the $l_1$-norm or the relative entropy of coherence can remain unchanged during the whole evolution (freezing coherence). For single qubit systems, a nice formula is given to realize freezing coherence. Conversely, for a $d\ (d>2)$ dimensional system, we identify universal geometric conditions of freezing coherence. This offers an affirmative answer to the open question: how can one determine whether a unital quantum operation can be decomposed as a convex combination of unitary operations [M. A. Nielsen and I. L. Chuang, Quantum Computation and Quantum Information, (Cambridge University Press, Cambridge, 2000)]. Based on this analysis, we also give a complete classification of coherent states from operational coherence theory. This builds the counterpart of entanglement classification under LOCC.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# Hector:GPUアーキテクチャでリレーショナルグラフニューラルネットワークを実装するための効率的なプログラミングとコンパイルフレームワーク

Hector: An Efficient Programming and Compilation Framework for Implementing Relational Graph Neural Networks in GPU Architectures ( http://arxiv.org/abs/2301.06284v3 )

ライセンス: Link先を確認
Kun Wu, Mert Hidayetoğlu, Xiang Song, Sitao Huang, Da Zheng, Israt Nisa, Wen-mei Hwu, (参考訳) リレーショナルグラフニューラルネットワーク(Relational Graph Neural Network、RGNN)は、異種グラフ内の異なるタイプのノードとエッジをモデリングするための専用の構造を持つグラフニューラルネットワークである。 RGNNは、その汎用性と正確性から、多くの現実世界のアプリケーションで採用されているが、パフォーマンスとシステム設計の課題として、固有のメモリ集約型計算パターン、プログラミングインターフェースとカーネルAPIのギャップ、データレイアウトと不均一性との結合によるカーネルの最適化における重いプログラミングの取り組みがある。 これらの課題に体系的に対処するために、新しい2レベル中間表現であるHectorとそのコードジェネレータフレームワークを提案する。 (a)RGNNモデルの鍵となる特性と、演算子間スケジューリングおよび実体化におけるメモリアクセスを減らす機会をキャプチャする。 b) 冗長なデータコピーを排除するフレキシブルなデータアクセススキームを持つコードを生成する。 (c) モデルのセマンティクス、データレイアウト、演算子固有の最適化を分離し、プログラミングの労力を減らす。 1つの汎用行列乗算(GEMM)テンプレートとノード/エッジトラバーサルテンプレートに基づいて、Hectorは、Deep Graph Library(DGL)とOpen Graph Benchmark(OGB)によって提供される異種グラフを実行する際に、選択されたモデル上の最先端のパブリックシステム(RGCN、RGAT、HGT)と比較して、推論における最大9.9倍のスピードアップとトレーニング時の43.7倍のスピードアップを達成する。 さらに、HectorはこれらのテストでOOM(out-of-Memory)例外をトリガーしない。 また,最大3.8倍の高速化を実現するために,線形作用素のリオーダーとコンパクトな物質化を提案する。 プログラミングの労力削減の指標として、Hectorは3つのモデルを表現した51行のコードを取り込み、合計8K行のCUDAとC++コードを生成する。

Relational graph neural networks (RGNNs) are graph neural networks with dedicated structures for modeling the different types of nodes and edges in heterogeneous graphs. While RGNNs have been increasingly adopted in many real-world applications due to their versatility and accuracy, they pose performance and system design challenges: inherent memory-intensive computation patterns, the gap between the programming interface and kernel APIs, and heavy programming effort in optimizing kernels caused by their coupling with data layout and heterogeneity. To systematically address these challenges, we propose Hector, a novel two-level intermediate representation and its code generator framework, that (a) captures the key properties of RGNN models, and opportunities to reduce memory accesses in inter-operator scheduling and materialization, (b) generates code with flexible data access scheme to eliminate redundant data copies, (c) decouples model semantics, data layout, and operators-specific optimization from each other to reduce programming effort. By building on one general matrix multiply (GEMM) template and a node/edge traversal template, Hector achieves up to 9.9x speed-up in inference and 43.7x speed-up in training compared with the state-of-the-art public systems on select models, i.e., RGCN, RGAT and HGT, when running heterogeneous graphs provided by Deep Graph Library (DGL) and Open Graph Benchmark (OGB). In addition, Hector does not trigger any out-of-memory (OOM) exception in these tests. We also propose the linear operator reorder and compact materialization to further accelerate the system by up to 3.8x. As an indicator of programming effort reduction, Hector takes in 51 lines of code expressing the three models and generates a total of 8K lines of CUDA and C++ code.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 未知線形系を用いた後退水平2次制御の準最適解析と学習ベース制御への応用

Suboptimality analysis of receding horizon quadratic control with unknown linear systems and its applications in learning-based control ( http://arxiv.org/abs/2301.07876v2 )

ライセンス: Link先を確認
Shengling Shi, Anastasios Tsiamis, Bart De Schutter, (参考訳) 本研究では, モデル誤差, 終値関数誤差, 予測水平線のトレードオフがLQコントローラの性能にどのように影響するかを解析することを目的とする。 リカティ差分方程式の新たな摂動結果を開発することにより、新しい性能上限を求め、多くの場合、予測水平線を1つまたは無限にし、モデリング誤差と終値関数誤差との相対的な差に応じて制御性能を改善することを提案する。 また、無限の地平線を求める場合、制御可能性指数よりも大きい有限予測地平線は、ほぼ最適性能を達成するのに十分であり、予測地平線と制御可能性との密接な関係を明らかにすることも示している。 得られた準最適性能バウンダリは、学習ベースの設定で、名目上の後退水平LQコントローラに対して、新しいサンプルの複雑さと後悔の保証を提供するためにも適用される。

In this work, we aim to analyze how the trade-off between the modeling error, the terminal value function error, and the prediction horizon affects the performance of a nominal receding-horizon linear quadratic (LQ) controller. By developing a novel perturbation result of the Riccati difference equation, a novel performance upper bound is obtained and suggests that for many cases, the prediction horizon can be either one or infinity to improve the control performance, depending on the relative difference between the modeling error and the terminal value function error. The result also shows that when an infinite horizon is desired, a finite prediction horizon that is larger than the controllability index can be sufficient for achieving a near-optimal performance, revealing a close relation between the prediction horizon and controllability. The obtained suboptimality performance bound is also applied to provide novel sample complexity and regret guarantees for nominal receding-horizon LQ controllers in a learning-based setting.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 適応平滑化による分類器の精度・ロバスト性トレードオフの改善

Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing ( http://arxiv.org/abs/2301.12554v4 )

ライセンス: Link先を確認
Yatong Bai, Brendon G. Anderson, Aerin Kim, Somayeh Sojoudi, (参考訳) 従来の研究では、敵対的な堅牢性に対して頑健な神経分類器を構築する方法が多数提案されていたが、それでも実践者は、受け入れがたいほど厳しい清潔な刑罰のために採用を拒んでいる。 本稿では,標準分類器とロバスト分類器の出力確率を混合することにより,この精度・ロバスト性トレードオフを著しく軽減する。 正誤例に対する頑健な基本分類器の信頼性差が,この改良の鍵となることを示す。 直観や実証的な証拠を提供するだけでなく、現実的な仮定の下で混合分類器の頑健さを理論的に証明する。 さらに、2つのベースモデルの混合を適応的に調整する混合ネットワークに、逆入力検出器を適応させることにより、ロバスト性を達成するための精度の低下を図る。 提案したフレキシブルな手法は「適応的平滑化(adaptive smoothing)」と呼ばれ、クリーンな精度、堅牢性、あるいは敵検出を改善する既存のあるいは将来の方法と連携して機能する。 実験的な評価では、AutoAttackやアダプティブアタックなど、強力な攻撃方法が検討されている。 CIFAR-100データセットでは,38.72%の$\ell_\infty$-AutoAttacked(\epsilon = 8/255$)の精度を維持しながら,85.21%のクリーン精度を実現している。 私たちのメソッドを実装したコードはhttps://github.com/Bai-YT/AdaptiveSmoothing.comで公開されている。

While prior research has proposed a plethora of methods that build neural classifiers robust against adversarial robustness, practitioners are still reluctant to adopt them due to their unacceptably severe clean accuracy penalties. This paper significantly alleviates this accuracy-robustness trade-off by mixing the output probabilities of a standard classifier and a robust classifier, where the standard network is optimized for clean accuracy and is not robust in general. We show that the robust base classifier's confidence difference for correct and incorrect examples is the key to this improvement. In addition to providing intuitions and empirical evidence, we theoretically certify the robustness of the mixed classifier under realistic assumptions. Furthermore, we adapt an adversarial input detector into a mixing network that adaptively adjusts the mixture of the two base models, further reducing the accuracy penalty of achieving robustness. The proposed flexible method, termed "adaptive smoothing", can work in conjunction with existing or even future methods that improve clean accuracy, robustness, or adversary detection. Our empirical evaluation considers strong attack methods, including AutoAttack and adaptive attack. On the CIFAR-100 dataset, our method achieves an 85.21% clean accuracy while maintaining a 38.72% $\ell_\infty$-AutoAttacked ($\epsilon = 8/255$) accuracy, becoming the second most robust method on the RobustBench CIFAR-100 benchmark as of submission, while improving the clean accuracy by ten percentage points compared with all listed models. The code that implements our method is available at https://github.com/Bai-YT/AdaptiveSmoothing.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 完全ユークリッドグラフのための完全ニューラルネットワーク

Complete Neural Networks for Complete Euclidean Graphs ( http://arxiv.org/abs/2301.13821v4 )

ライセンス: Link先を確認
Snir Hordan, Tal Amir, Steven J. Gortler, Nadav Dym, (参考訳) 点雲のニューラルネットワークは、置換や剛体運動に対する自然な不変性を尊重しており、分子動力学からレコメンデーターシステムまで幾何学現象のモデリングに成功している。 しかし、今のところ、多項式複雑性を持つモデルは完備であることが知られておらず、すなわち、任意の非同型点雲の対を区別することができる。 この理論的ギャップを、点雲の集中的なグラム行列に3WLグラフ同型テストを適用することにより、点雲が置換や剛体運動まで完全に決定可能であることを示すことによって埋める。 さらに、2-WLテストのユークリッド多様体を定式化し、完全性を達成するのに十分であることを示す。 次に、ユークリッドのWLテストが適度な大きさのユークリッドグラフニューラルネットワークによってどのようにシミュレートされるかを示し、その分離能力を高対称性の点雲上で実証する。

Neural networks for point clouds, which respect their natural invariance to permutation and rigid motion, have enjoyed recent success in modeling geometric phenomena, from molecular dynamics to recommender systems. Yet, to date, no model with polynomial complexity is known to be complete, that is, able to distinguish between any pair of non-isomorphic point clouds. We fill this theoretical gap by showing that point clouds can be completely determined, up to permutation and rigid motion, by applying the 3-WL graph isomorphism test to the point cloud's centralized Gram matrix. Moreover, we formulate an Euclidean variant of the 2-WL test and show that it is also sufficient to achieve completeness. We then show how our complete Euclidean WL tests can be simulated by an Euclidean graph neural network of moderate size and demonstrate their separation capability on highly symmetrical point clouds.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 超大規模表面コード計算のための高性能コンパイラ

A High Performance Compiler for Very Large Scale Surface Code Computations ( http://arxiv.org/abs/2302.02459v2 )

ライセンス: Link先を確認
George Watkins, Hoang Minh Nguyen, Keelan Watkins, Steven Pearce, Hoi-Kwan Lau, Alexandru Paler, (参考訳) 格子演算に基づく任意の量子回路を表面コード演算に変換する,大規模量子誤り訂正のための最初の高性能コンパイラを提案する。 本コンパイラは,格子手術命令の中間表現を中心に,プラグ可能なアーキテクチャによって実装されたエンドツーエンドの誤り訂正ワークフローを提供する。 さらに、コンパイラはカスタマイズ可能な回路レイアウトをサポートし、量子ベンチマークに使用でき、量子リソース推定器を含んでいる。 コンパイラは、物理デバイスのリアルタイム操作に向けられた速度で、ストリーミングパイプラインを使用して数百万のゲートを処理することができる。 128キュービット量子フーリエ変換(QFT)の高精度Clifford+T実装に対応して,8000万秒以内の論理曲面コード命令をコンパイルした。 我々のコードは \url{https://github.com/latticesurgery-com} でオープンソース化されています。

We present the first high performance compiler for very large scale quantum error correction: it translates an arbitrary quantum circuit to surface code operations based on lattice surgery. Our compiler offers an end to end error correction workflow implemented by a pluggable architecture centered around an intermediate representation of lattice surgery instructions. Moreover, the compiler supports customizable circuit layouts, can be used for quantum benchmarking and includes a quantum resource estimator. The compiler can process millions of gates using a streaming pipeline at a speed geared towards real-time operation of a physical device. We compiled within seconds 80 million logical surface code instructions, corresponding to a high precision Clifford+T implementation of the 128-qubit Quantum Fourier Transform (QFT). Our code is open-sourced at \url{https://github.com/latticesurgery-com}.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 深層学習を用いた光リモートセンシング画像のオブジェクト指向物体検出

Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey ( http://arxiv.org/abs/2302.10473v4 )

ライセンス: Link先を確認
Kun Wang, Zi Wang, Zhang Li, Ang Su, Xichao Teng, Minhao Liu, Qifeng Yu, (参考訳) オブジェクト指向オブジェクト検出は、オブジェクトを任意の向きで特定・分類することを目的とした、リモートセンシングにおける最も基本的で困難なタスクの1つである。 近年,ディープラーニング技術を用いたオブジェクト指向物体検出の進歩が目覚ましい。 本稿では,この分野の急速な発展を踏まえ,オブジェクト指向物体検出の最近の進歩を包括的に調査することを目的とする。 まず、水平物体検出から指向物体検出への技術的進化を概観し、特徴的不整合、空間的不整合、角度の周期性といった特定の課題を要約する。 その後、既存の手法を検出フレームワーク、オブジェクト指向境界ボックス(OBB)回帰、特徴表現に分類し、これらの手法が上記の課題にどのように対処するかを詳細に議論する。 さらに,公開データセットや性能評価プロトコルについても紹介する。 さらに,最先端指向オブジェクト検出手法の総合的な比較と解析を行う。 本稿では,オブジェクト指向物体検出の今後の方向性について論じる。

Oriented object detection is one of the most fundamental and challenging tasks in remote sensing, aiming to locate and classify objects with arbitrary orientations. Recent years have witnessed remarkable progress in oriented object detection using deep learning techniques. Given the rapid development of this field, this paper aims to provide a comprehensive survey of recent advances in oriented object detection. To be specific, we first review the technical evolution from horizontal object detection to oriented object detection and summarize the specific challenges, including feature misalignment, spatial misalignment, and periodicity of angle. Subsequently, we further categorize existing methods into detection framework, oriented bounding box (OBB) regression, and feature representations, and discuss how these methods address the above challenges in detail. In addition, we cover several publicly available datasets and performance evaluation protocols. Furthermore, we provide a comprehensive comparison and analysis of state-of-the-art oriented object detection methods. Toward the end of this paper, we discuss several future directions for oriented object detection.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# マイクロサービスアプリケーションのためのリソース認識型サイバー認識

Resource-aware Cyber Deception for Microservice-based Applications ( http://arxiv.org/abs/2303.03151v4 )

ライセンス: Link先を確認
Marco Zambianco, Claudio Facchinetti, Roberto Doriguzzi-Corin, Domenico Siracusa, (参考訳) サイバー詐欺は、従来型のサイバー防御メカニズム、特にセキュリティ領域が薄れつつある現代のクラウドネイティブ環境にとって、価値ある追加となる可能性がある。 しかし、従来のコンピュータネットワークで使用されているデコイは、そのような環境で様々なアプリケーションと混在することができないため、悪意あるアクターの検出と緩和には効果がない。 一方、アプリケーションのデプロイされたマイクロサービスをクローンするデコイは、運用環境内で進行中の攻撃をインターセプトする、高忠実な偽装メカニズムを提供することができる。 しかし、このアプローチを最大限に活用するためには、限られた量のデコイリソースを使用して、正当なサービスパフォーマンスへの影響を最小限に抑えるための適切なクローン戦略を考案することが不可欠である。 この観測の後、固定資源予算内で割り当てられたデコイにインターセプトされる攻撃経路の数を最大化する非線形整数最適化問題を定式化する。 攻撃パスは、インフラストラクチャ内のアタッカーの動きを、違反したマイクロサービスのシーケンスとして表現する。 また、最適解を近似し、提案した定式化の計算複雑性を克服するために、ヒューリスティックなデコイ配置アルゴリズムを設計する。 ローカルな脆弱性メトリクスを使用して、デコイとしてクローンするマイクロサービスを選択する他のスキームに対して、最適でヒューリスティックなソリューションのパフォーマンスを評価します。 提案手法は, ほぼ同じ数のデコイを必要としながら, 攻撃経路のインターセプト化を図り, 攻撃経路のインターセプト化を図っている。

Cyber deception can be a valuable addition to traditional cyber defense mechanisms, especially for modern cloud-native environments with a fading security perimeter. However, pre-built decoys used in classical computer networks are not effective in detecting and mitigating malicious actors due to their inability to blend with the variety of applications in such environments. On the other hand, decoys cloning the deployed microservices of an application can offer a high-fidelity deception mechanism to intercept ongoing attacks within production environments. However, to fully benefit from this approach, it is essential to use a limited amount of decoy resources and devise a suitable cloning strategy to minimize the impact on legitimate services performance. Following this observation, we formulate a non-linear integer optimization problem that maximizes the number of attack paths intercepted by the allocated decoys within a fixed resource budget. Attack paths represent the attacker's movements within the infrastructure as a sequence of violated microservices. We also design a heuristic decoy placement algorithm to approximate the optimal solution and overcome the computational complexity of the proposed formulation. We evaluate the performance of the optimal and heuristic solutions against other schemes that use local vulnerability metrics to select which microservices to clone as decoys. Our results show that the proposed allocation strategy achieves a higher number of intercepted attack paths compared to these schemes while requiring approximately the same number of decoys.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# 多視点3次元知覚のための長期長期核融合の探索

Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception ( http://arxiv.org/abs/2303.05970v3 )

ライセンス: Link先を確認
Chunrui Han, Jinrong Yang, Jianjian Sun, Zheng Ge, Runpei Dong, Hongyu Zhou, Weixin Mao, Yuang Peng, Xiangyu Zhang, (参考訳) 長期の時間融合は、カメラベースのBird's-Eye-View (BEV) 3D知覚において重要なテクニックであるが、しばしば見落とされがちである。 既存の方法はほとんどが並列である。 並列核融合は長期情報の恩恵を受けるが、核融合ウィンドウのサイズが大きくなるにつれて計算とメモリのオーバーヘッドが増大する。 あるいは、BEVFormerはリカレントフュージョンパイプラインを採用して、履歴情報を効率的に統合できるが、より長い時間枠の恩恵を受けられないようにする。 本稿では,LSS法に基づいて構築された,恥ずかしいほど単純な長期再帰型核融合戦略について検討し,両者のメリット,すなわち豊かな長期情報と効率的な核融合パイプラインをすでに享受できることを見出した。 実用的なシナリオにおいて、時々欠落するフレームに対するモデルの堅牢性を改善するために、時間的埋め込みモジュールがさらに提案されている。 私たちはこのシンプルだが効果的に融合するパイプラインを VideoBEV と名付けます。 nuScenesベンチマークの実験結果によると、VideoBEVは、オブジェクト検出(55.4\% mAPと62.9\% NDS)、セグメンテーション(48.6\%のmIoU)、トラッキング(54.8\% AMOTA)、モーション予測(0.80m minADEと0.463 EPA)など、様々なカメラベースの3D知覚タスクにおいて、強力なパフォーマンスが得られる。

Long-term temporal fusion is a crucial but often overlooked technique in camera-based Bird's-Eye-View (BEV) 3D perception. Existing methods are mostly in a parallel manner. While parallel fusion can benefit from long-term information, it suffers from increasing computational and memory overheads as the fusion window size grows. Alternatively, BEVFormer adopts a recurrent fusion pipeline so that history information can be efficiently integrated, yet it fails to benefit from longer temporal frames. In this paper, we explore an embarrassingly simple long-term recurrent fusion strategy built upon the LSS-based methods and find it already able to enjoy the merits from both sides, i.e., rich long-term information and efficient fusion pipeline. A temporal embedding module is further proposed to improve the model's robustness against occasionally missed frames in practical scenarios. We name this simple but effective fusing pipeline VideoBEV. Experimental results on the nuScenes benchmark show that VideoBEV obtains strong performance on various camera-based 3D perception tasks, including object detection (55.4\% mAP and 62.9\% NDS), segmentation (48.6\% vehicle mIoU), tracking (54.8\% AMOTA), and motion prediction (0.80m minADE and 0.463 EPA).
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# スタックオーバーフローポストのための表現学習: どれくらい遠いか?

Representation Learning for Stack Overflow Posts: How Far are We? ( http://arxiv.org/abs/2303.06853v2 )

ライセンス: Link先を確認
Junda He, Zhou Xin, Bowen Xu, Ting Zhang, Kisub Kim, Zhou Yang, Ferdian Thung, Ivana Irsan, David Lo, (参考訳) Stack Overflowの素晴らしい成功は、ソフトウェアエンジニアリングの知識の広範なコーパスを蓄積し、研究者がコンテンツを分析するための様々なソリューションを提案する動機となった。 Stack Overflowに関する文献の量が増え続けている中で、強力なStack Overflowポスト表現モデルの必要性が強調され、Stack Overflowポストの複雑さを確実に捉えることのできる、特殊な表現モデルの開発に対する研究者の関心が高まっている。 最先端(SOTA) Stack Overflowポスト表現モデルはPost2VecとBERTOverflowで、畳み込みニューラルネットワーク(CNN)やTransformerアーキテクチャ(BERTなど)といったトレンドのニューラルネットワーク上に構築されている。 有望な結果にもかかわらず、これらの表現法は同じ実験環境では評価されていない。 研究ギャップを埋めるために、私たちはまず、Stack Overflowポスト(Post2VecとBERTOverflow)に特化して設計された表現モデルのパフォーマンスを、タグレコメンデーション、関連性予測、APIレコメンデーションなど、幅広い関連するタスクで実証的に比較した。 本論文では,(1)汎用ドメイン言語モデル(RoBERTa,Longformer)や(2)ソフトウェア工学関連のテキストアーティファクト(CodeBERT,GraphCodeBERT,seBERT)を用いた言語モデルなど,BERTベースの多種多様なモデルについて検討する。 しかし、これは『No Silver Bullet』の概念も示しており、どのモデルも他のモデルに常に勝ってはいない。 この結果から着想を得たSOBERTを提案する。SOBERTは,Stack Overflowのテキストアーティファクトと事前学習フェーズを継続することにより,最高のパフォーマンスモデルを改善するための,シンプルなyet- Effective戦略を採用している。

The tremendous success of Stack Overflow has accumulated an extensive corpus of software engineering knowledge, thus motivating researchers to propose various solutions for analyzing its content.The performance of such solutions hinges significantly on the selection of representation model for Stack Overflow posts. As the volume of literature on Stack Overflow continues to burgeon, it highlights the need for a powerful Stack Overflow post representation model and drives researchers' interest in developing specialized representation models that can adeptly capture the intricacies of Stack Overflow posts. The state-of-the-art (SOTA) Stack Overflow post representation models are Post2Vec and BERTOverflow, which are built upon trendy neural networks such as convolutional neural network (CNN) and Transformer architecture (e.g., BERT). Despite their promising results, these representation methods have not been evaluated in the same experimental setting. To fill the research gap, we first empirically compare the performance of the representation models designed specifically for Stack Overflow posts (Post2Vec and BERTOverflow) in a wide range of related tasks, i.e., tag recommendation, relatedness prediction, and API recommendation. To find more suitable representation models for the posts, we further explore a diverse set of BERT-based models, including (1) general domain language models (RoBERTa and Longformer) and (2) language models built with software engineering-related textual artifacts (CodeBERT, GraphCodeBERT, and seBERT). However, it also illustrates the ``No Silver Bullet'' concept, as none of the models consistently wins against all the others. Inspired by the findings, we propose SOBERT, which employs a simple-yet-effective strategy to improve the best-performing model by continuing the pre-training phase with the textual artifact from Stack Overflow.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# セマンティックセグメンテーションに及ぼすインフルエンサーバックドアアタックの影響

Influencer Backdoor Attack on Semantic Segmentation ( http://arxiv.org/abs/2303.12054v4 )

ライセンス: Link先を確認
Haoheng Lan, Jindong Gu, Philip Torr, Hengshuang Zhao, (参考訳) 深層ニューラルネットワークのトレーニングデータセットに少量の有毒なサンプルが注入されると、ネットワークは推論中に悪意のある振る舞いを示すように誘導され、現実世界のアプリケーションに潜在的な脅威をもたらす。 分類学では主に研究されているが、セマンティックセグメンテーションに対するバックドア攻撃はほとんど見過ごされている。 分類とは異なり、セマンティックセグメンテーションは、与えられた画像内のすべてのピクセルを分類することを目的としている。 本研究では,インフルエンサー・バックドア・アタック (IBA) と呼ばれる推論中に,非ビビティ・ピクチャーに特定のトリガーを注入することにより,セグメンテーション・モデルに対するバックドア・アタックを調査し,被害者クラスのすべてのピクセルを誤分類する。 IBAは, 実世界のシーンに容易に適用可能な, 暗黙的でないピクセルの分類精度と, 全ての犠牲者画素の誤字分類の維持が期待されている。 セグメンテーションモデルのコンテキストアグリゲーション能力に基づき, 簡便かつ効果的にニアス・ニーバー・トリガー・インジェクション・ストラテジーを提案した。 また, 危険画素から離れた位置にトリガを配置しても, 最適な性能を維持する, 革新的なPixel Random Labeling戦略も導入する。 大規模な実験により,現在のセグメンテーションモデルがバックドアアタックに悩まされていることが判明し,実世界の適用性を示すとともに,提案手法が攻撃性能をさらに向上することを示す。

When a small number of poisoned samples are injected into the training dataset of a deep neural network, the network can be induced to exhibit malicious behavior during inferences, which poses potential threats to real-world applications. While they have been intensively studied in classification, backdoor attacks on semantic segmentation have been largely overlooked. Unlike classification, semantic segmentation aims to classify every pixel within a given image. In this work, we explore backdoor attacks on segmentation models to misclassify all pixels of a victim class by injecting a specific trigger on non-victim pixels during inferences, which is dubbed Influencer Backdoor Attack (IBA). IBA is expected to maintain the classification accuracy of non-victim pixels and mislead classifications of all victim pixels in every single inference and could be easily applied to real-world scenes. Based on the context aggregation ability of segmentation models, we proposed a simple, yet effective, Nearest-Neighbor trigger injection strategy. We also introduce an innovative Pixel Random Labeling strategy which maintains optimal performance even when the trigger is placed far from the victim pixels. Our extensive experiments reveal that current segmentation models do suffer from backdoor attacks, demonstrate IBA real-world applicability, and show that our proposed techniques can further increase attack performance.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# MSS-PAE:予期せぬ再建からオートエンコーダによるアウトリーチ検出を省く

MSS-PAE: Saving Autoencoder-based Outlier Detection from Unexpected Reconstruction ( http://arxiv.org/abs/2304.00709v2 )

ライセンス: Link先を確認
Xu Tan, Jiawei Yang, Junqi Chen, Sylwan Rahardja, Susanto Rahardja, (参考訳) オートエンコーダ(AE)は、固有の学習能力のため、機械学習タスクに一般的に使用される。 このユニークな特徴は、Outlier Detection (OD) に利用することができる。 しかし、従来のAEベースの手法では、不確実な決定と予期せぬ外乱の復元結果が問題となり、ODの性能が制限される。 これらの問題を緩和するため, 平均二乗誤差 (MSE) と負対数類似度 (NLL) をまず解析し, AE をベースとした OD にアレータリック不確実性を導入することの重要性を明らかにした。 そして、異なるODシナリオに対する不確実性の影響を調整するために、WNLL(Weighted Negative Logarithmic Likelihood)を提案した。 さらに,データの局所的関係を利用して,AEによる偽インレーサの問題を低減するために,平均シフトスコア法(MSS)を提案した。 32個の実世界のODデータセットを用いて実験を行い,提案手法の有効性を実証した。 WNLLとMSSの組み合わせは、最高のベースラインに比べて41%パフォーマンスが向上した。 さらに、MSSは複数のAEベースの異常検知器の性能を平均20%改善した。 提案手法は、ODにおけるAEの発展を促進する可能性がある。 コードは、再現性のためにwww.OutlierNet.comで入手できる。

AutoEncoders (AEs) are commonly used for machine learning tasks due to their intrinsic learning ability. This unique characteristic can be capitalized for Outlier Detection (OD). However conventional AE-based methods face the issue of overconfident decisions and unexpected reconstruction results of outliers, limiting their performance in OD. To mitigate these issues, the Mean Squared Error (MSE) and Negative Logarithmic Likelihood (NLL) were first analyzed, and the importance of incorporating aleatoric uncertainty to AE-based OD was elucidated. Then the Weighted Negative Logarithmic Likelihood (WNLL) was proposed to adjust for the effect of uncertainty for different OD scenarios. Moreover, the Mean-Shift Scoring (MSS) method was proposed to utilize the local relationship of data to reduce the issue of false inliers caused by AE. Experiments on 32 real-world OD datasets proved the effectiveness of the proposed methods. The combination of WNLL and MSS achieved 41% relative performance improvement compared to the best baseline. In addition, MSS improved the performance of multiple AE-based outlier detectors by an average of 20%. The proposed methods have the potential to advance AE's development in OD. The code is available on www.OutlierNet.com for reproducibility.
翻訳日:2024-04-10 20:45:54 公開日:2024-04-09
# DDPMノイズ空間のインバージョンと操作

An Edit Friendly DDPM Noise Space: Inversion and Manipulations ( http://arxiv.org/abs/2304.06140v3 )

ライセンス: Link先を確認
Inbar Huberman-Spiegelglas, Vladimir Kulikov, Tomer Michaeli, (参考訳) 拡散確率モデル(DDPM)は白色ガウス雑音サンプルを用いて画像を生成する。 GANと類似して、これらのノイズマップは、生成された画像に関連付けられた潜在コードと見なすことができる。 しかし、このネイティブノイズ空間は便利な構造を持たず、編集作業で作業することが困難である。 本稿では,DDPMに対して,簡単な方法で広範囲の編集操作が可能な代替雑音空間を提案するとともに,任意の画像(実または合成生成)に対して,これらの編集フレンドリなノイズマップを抽出する逆変換法を提案する。 ネイティブDDPMノイズ空間とは対照的に、編集しやすいノイズマップは標準正規分布を持たず、タイムステップ間で統計的に独立ではない。 しかし、任意の所望の画像の完全な再構成が可能であり、単純な変換は出力画像の有意義な操作(例えば、シフト、色編集)に変換される。 さらに、テキスト条件モデルでは、これらのノイズマップをテキストプロンプトを変更しながら修正し、構造を維持しながらセマンティクスを変更する。 本稿では,この特性により,多種多様なDDPMサンプリング方式による実画像のテキスト編集が可能となる(非多種多様なDDIMインバージョンとは対照的に)。 また,既存の拡散ベースの編集手法を用いて,その品質と多様性を向上させる方法を示す。 Webページ: https://inbarhub.github.io/DDPM_inversion

Denoising diffusion probabilistic models (DDPMs) employ a sequence of white Gaussian noise samples to generate an image. In analogy with GANs, those noise maps could be considered as the latent code associated with the generated image. However, this native noise space does not possess a convenient structure, and is thus challenging to work with in editing tasks. Here, we propose an alternative latent noise space for DDPM that enables a wide range of editing operations via simple means, and present an inversion method for extracting these edit-friendly noise maps for any given image (real or synthetically generated). As opposed to the native DDPM noise space, the edit-friendly noise maps do not have a standard normal distribution and are not statistically independent across timesteps. However, they allow perfect reconstruction of any desired image, and simple transformations on them translate into meaningful manipulations of the output image (e.g. shifting, color edits). Moreover, in text-conditional models, fixing those noise maps while changing the text prompt, modifies semantics while retaining structure. We illustrate how this property enables text-based editing of real images via the diverse DDPM sampling scheme (in contrast to the popular non-diverse DDIM inversion). We also show how it can be used within existing diffusion-based editing methods to improve their quality and diversity. Webpage: https://inbarhub.github.io/DDPM_inversion
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# ディープ・オーディオ・フェイク検出ネットワークの一般化に向けて

Towards generalizing deep-audio fake detection networks ( http://arxiv.org/abs/2305.13033v3 )

ライセンス: Link先を確認
Konstantin Gasenzer, Moritz Wolter, (参考訳) 今日の生成ニューラルネットワークは、高品質な合成音声を大規模に作成することを可能にする。 この新しいテクノロジーの創造的な利用を歓迎する一方で、リスクも認識する必要があります。 合成音声は金銭的およびアイデンティティの盗難で悪用されるため、幅広いディープフェイク識別ツールが必要である。 さらに、従来の研究は、未確認音声生成装置に一般化する深層分類器の能力に制限があったことを報告した。 本研究では,現在の音声発生器の周波数領域指紋について検討する。 検出された周波数フットプリントの上に構築され、一般化する優れた軽量検出器を訓練する。 我々は、WaveFakeデータセットと拡張バージョンに関する改善された結果について報告する。 本研究では,新たなAvocodoおよびBigVGANネットワークから抽出したサンプルを考慮し,WaveFakeデータセットを拡張した。 図示目的のために、補足材料は、ジェネレータアーティファクトのオーディオサンプルを含む。

Today's generative neural networks allow the creation of high-quality synthetic speech at scale. While we welcome the creative use of this new technology, we must also recognize the risks. As synthetic speech is abused for monetary and identity theft, we require a broad set of deepfake identification tools. Furthermore, previous work reported a limited ability of deep classifiers to generalize to unseen audio generators. We study the frequency domain fingerprints of current audio generators. Building on top of the discovered frequency footprints, we train excellent lightweight detectors that generalize. We report improved results on the WaveFake dataset and an extended version. To account for the rapid progress in the field, we extend the WaveFake dataset by additionally considering samples drawn from the novel Avocodo and BigVGAN networks. For illustration purposes, the supplementary material contains audio samples of generator artifacts.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 確率的画像テキスト表現の改善

Improved Probabilistic Image-Text Representations ( http://arxiv.org/abs/2305.18171v5 )

ライセンス: Link先を確認
Sanghyuk Chun, (参考訳) 基本的な視覚言語(VL)タスクである画像テキストマッチング(ITM)タスクは、多重性や不完全なアノテーションから生じる固有の曖昧さに悩まされている。 決定論的関数は曖昧さを捉えるのに十分強力ではないため、確率論的埋め込みを探索して課題に取り組む。 しかし、既存の確率的IMMアプローチでは、モンテカルロ近似による重計算の重み付けと、大量の偽陰性に直面した損失飽和問題という2つの重大な欠点に直面する。 そこで本論文では,PCME++ と命名された確率的クロスモーダル埋め込み(PCME++)を改良し,新たな確率的距離をクローズドフォームで導入する手法を提案する。 さらに、PCME++をさらに強化する2つの最適化手法が提案されている。第1に、偽陰性による負の効果を防ぐために擬陽性を組み込むこと、第2に、確率的マッチングのための混合サンプルデータ拡張である。 MS-COCO Caption と CxC と ECCV Caption の2つの拡張ベンチマークによる実験結果から,PCME++ の有効性を最先端 ITM 法と比較した。 PCME++のロバスト性は、ノイズの多い画像-テキスト対応でも評価される。 さらに、ゼロショット分類のための自動プロンプトフィルタにおけるPCME++の適用可能性を示す。 コードはhttps://github.com/naver-ai/pcmeppで公開されている。

Image-Text Matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of probabilistic embeddings to tackle the challenge. However, the existing probabilistic ITM approach encounters two key shortcomings; the burden of heavy computations due to the Monte Carlo approximation, and the loss saturation issue in the face of abundant false negatives. To overcome the issues, this paper presents an improved Probabilistic Cross-Modal Embeddings (named PCME++) by introducing a new probabilistic distance with a closed-form solution. In addition, two optimization techniques are proposed to enhance PCME++ further: first, the incorporation of pseudo-positives to prevent the negative effect under massive false negatives; second, mixed sample data augmentation for probabilistic matching. Experimental results on MS-COCO Caption and two extended benchmarks, CxC and ECCV Caption, demonstrate the effectiveness of PCME++ compared to state-of-the-art ITM methods. The robustness of PCME++ is also evaluated under noisy image-text correspondences. In addition, the potential applicability of PCME++ in automatic prompt-filtering for zero-shot classification is shown. The code is available at https://github.com/naver-ai/pcmepp
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# シュレーディンガー代数の自然な基底におけるクリロフ複雑性

Krylov complexity in a natural basis for the Schrödinger algebra ( http://arxiv.org/abs/2306.03133v4 )

ライセンス: Link先を確認
Dimitrios Patramanis, Watse Sybesma, (参考訳) 二次元シュリンガー群対称性を持つ量子系の作用素成長について、クリロフ複雑性の研究により検討する。 半単純リー代数では実現可能であるが、半直和構造によって特徴づけられるシュリンガー代数のようなケースは複雑である。 我々は、この代数のクリロフ複雑性を自然な正則基底で計算し、通常の三対角ランツォスアルゴリズムの結果とは対照的に、時間発展作用素の五対角構造を生成することを提案する。 結果として生じる複雑さは期待通りに振る舞う。 このアプローチは、他の半単純でない代数に洞察を与えることができると我々は主張する。

We investigate operator growth in quantum systems with two-dimensional Schr\"odinger group symmetry by studying the Krylov complexity. While feasible for semisimple Lie algebras, cases such as the Schr\"odinger algebra which is characterized by a semi-direct sum structure are complicated. We propose to compute Krylov complexity for this algebra in a natural orthonormal basis, which produces a pentadiagonal structure of the time evolution operator, contrasting the usual tridiagonal Lanczos algorithm outcome. The resulting complexity behaves as expected. We advocate that this approach can provide insights to other non-semisimple algebras.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 強凸の係数の知識のない前方加速アルゴリズムの線形収束

Linear convergence of forward-backward accelerated algorithms without knowledge of the modulus of strong convexity ( http://arxiv.org/abs/2306.09694v2 )

ライセンス: Link先を確認
Bowen Li, Bin Shi, Ya-xiang Yuan, (参考訳) 現代の勾配に基づく最適化における重要なマイルストーンは、ネステロフの加速勾配降下法(NAG)の開発によって達成された。 このフォワードバックワード技術は、画像科学や工学に広く応用される高速反復収縮保持アルゴリズム(FISTA)を導入してさらに進歩した。 それでも、NAG と FISTA の両方が強い凸函数に対して線型収束を示すかどうかは不明である。 注目すべきことに、これらのアルゴリズムは強凸率の事前知識を必要としない収束を示しており、この興味深い特徴は包括的レビュー(Chambolle and Pock, 2016 Appendix B)においてオープン問題として認識されている。 本稿では,高分解能常微分方程式(ODE)フレームワークを用いてこの問題に対処する。 確立された位相空間表現に基づいて、反復を通して進化する運動エネルギーの動的適応係数を含むリアプノフ関数を作成する際に用いられる特異なアプローチを強調した。 さらに、NAG と FISTA の線形収束は、パラメータ $r$ とは独立である。 さらに、準次次ノルムの平方が同様に線型収束へと進むことを実証する。

A significant milestone in modern gradient-based optimization was achieved with the development of Nesterov's accelerated gradient descent (NAG) method. This forward-backward technique has been further advanced with the introduction of its proximal generalization, commonly known as the fast iterative shrinkage-thresholding algorithm (FISTA), which enjoys widespread application in image science and engineering. Nonetheless, it remains unclear whether both NAG and FISTA exhibit linear convergence for strongly convex functions. Remarkably, these algorithms demonstrate convergence without requiring any prior knowledge of strongly convex modulus, and this intriguing characteristic has been acknowledged as an open problem in the comprehensive review [Chambolle and Pock, 2016, Appendix B]. In this paper, we address this question by utilizing the high-resolution ordinary differential equation (ODE) framework. Expanding upon the established phase-space representation, we emphasize the distinctive approach employed in crafting the Lyapunov function, which involves a dynamically adapting coefficient of kinetic energy that evolves throughout the iterations. Furthermore, we highlight that the linear convergence of both NAG and FISTA is independent of the parameter $r$. Additionally, we demonstrate that the square of the proximal subgradient norm likewise advances towards linear convergence.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 解離したスーパービジョンからの高精細映像オブジェクトキャプション

Dense Video Object Captioning from Disjoint Supervision ( http://arxiv.org/abs/2306.11729v2 )

ライセンス: Link先を確認
Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid, (参考訳) ビデオ中の物体の軌跡を検出し,追跡し,キャプションする,高密度な映像オブジェクトキャプションのための新しいタスクとモデルを提案する。 このタスクは、ビデオにおける空間的および時間的局所化を統一すると同時に、自然言語で最もよく記述される、きめ細かい視覚的理解も必要とする。 我々は,最先端検出,追跡,キャプションモデルを組み合わせた多段階パイプラインよりも,エンドツーエンドのアプローチが正確かつ時間的に整合であることを示す統一モデルを提案する。 さらに,モデルの様々な部分を監督する多種多様な大規模データセットを活用できるような,不整合タスクの混合に基づくトレーニング戦略を提案する。 各プレトレーニングタスクは、弱い監督しか提供しないが、それらは相補的であり、組み合わせると注目すべきゼロショット能力となり、さらなる微調整のための強力な初期化として機能し、精度をさらに向上する。 我々は、タスクのすべてのコンポーネントをキャプチャする新しいメトリクスを慎重に設計し、既存のビデオグラウンドデータセット(例えば、VidSTGとVLN)を新しいタスクに再利用する方法を示す。 我々のモデルは、この新しいタスクの強力なベースラインで改善されていることを示す。 さらに,VdSTGとVLNの先行技術よりも高い精度で空間接地作業に本モデルを適用することができる。 コードはhttps://github.com/google-research/scenic/tree/main/scenic/projects/densevocで公開されている。

We propose a new task and model for dense video object captioning -- detecting, tracking and captioning trajectories of objects in a video. This task unifies spatial and temporal localization in video, whilst also requiring fine-grained visual understanding that is best described by natural language. We propose a unified model, and demonstrate how our end-to-end approach is more accurate and temporally coherent than a multi-stage pipeline combining state-of-the-art detection, tracking, and captioning models. Moreover, we propose a training strategy based on a mixture of disjoint tasks, which allows us to leverage diverse, large-scale datasets which supervise different parts of our model. Although each pretraining task only provides weak supervision, they are complementary and, when combined, result in noteworthy zero-shot ability and serve as strong initialization for additional finetuning to further improve accuracy. We carefully design new metrics capturing all components of our task, and show how we can repurpose existing video grounding datasets (e.g. VidSTG and VLN) for our new task. We show that our model improves upon a number of strong baselines for this new task. Furthermore, we can apply our model to the task of spatial grounding, outperforming prior state-of-the-art on VidSTG and VLN, without explicitly training for it. Code is available at https://github.com/google-research/scenic/tree/main/scenic/projects/densevoc.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 非マルコフ散逸相転移のスペクトル理論

Spectral Theory of Non-Markovian Dissipative Phase Transitions ( http://arxiv.org/abs/2307.01119v3 )

ライセンス: Link先を確認
Baptiste Debecker, John Martin, François Damanet, (参考訳) 量子系における位相遷移の制御は、主に理想化された(メモリレス)環境のために研究されている。 本稿では,非マルコフ系における散逸相転移(DPT)に取り組み,物質相の散逸相工学の範囲を,固体・原子・分子・光学物理学におけるより現実的な材料や実験に拡張する一般手法を提案する。 位相境界を再形成するためにメモリ効果をどのように利用できるかを示すとともに,非マルコビアン性によって真に引き起こされるDPTの存在を明らかにする。

Controlling phase transitions in quantum systems via coupling to reservoirs has been mostly studied for idealized (memory-less) environments. Here, we present a general method to tackle dissipative phase transitions (DPTs) in non-Markovian systems, extending the scope of dissipative engineering of matter phases to more realistic materials and experiments in the solid-state and atomic, molecular and optical physics. We show how memory effects can be used to reshape phase boundaries but also reveal the existence of DPTs genuinely triggered by non-Markovianity.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# きめ細かいアクション分析:フィギュアスケートのマルチモーダリティとマルチタスクデータセット

Fine-grained Action Analysis: A Multi-modality and Multi-task Dataset of Figure Skating ( http://arxiv.org/abs/2307.02730v3 )

ライセンス: Link先を確認
Sheng-Lan Liu, Yu-Ning Ding, Gang Yan, Si-Fan Zhang, Jin-Rong Zhang, Wen-Yue Chen, Xue-Hai Xu, (参考訳) 既存のアクションデータセットのきめ細かいアクション分析は、不十分なアクションカテゴリ、低い粒度、限られたモダリティ、タスクによって挑戦される。 本稿では,世界フィギュアスケート選手権から収集した多目的・マルチタスクのフィギュアスケートデータセットを提案する。 行動認識と行動品質評価を持つMMFSは、RGB、スケルトンをキャプチャし、空間ラベルや時間ラベルを含む256のカテゴリを持つ11671クリップからアクションのスコアを収集する。 データセットの主なコントリビューションは、以下の3つの側面に分けられます。 1) 個別に空間的・時間的カテゴリーを提案し, よりきめ細かい行動認識と品質評価について検討する。 2) MMFSは, 複雑な微細な動作品質評価のためのスケルトンモーフィズムを最初に導入する。 (3)マルチモーダリティとマルチタスクデータセットは、より多くのアクション分析モデルを促進する。 データセットをベンチマークするために、アクション認識とアクション品質評価のためのRGBベースおよびスケルトンベースベースライン手法を採用した。

The fine-grained action analysis of the existing action datasets is challenged by insufficient action categories, low fine granularities, limited modalities, and tasks. In this paper, we propose a Multi-modality and Multi-task dataset of Figure Skating (MMFS) which was collected from the World Figure Skating Championships. MMFS, which possesses action recognition and action quality assessment, captures RGB, skeleton, and is collected the score of actions from 11671 clips with 256 categories including spatial and temporal labels. The key contributions of our dataset fall into three aspects as follows. (1) Independently spatial and temporal categories are first proposed to further explore fine-grained action recognition and quality assessment. (2) MMFS first introduces the skeleton modality for complex fine-grained action quality assessment. (3) Our multi-modality and multi-task dataset encourage more action analysis models. To benchmark our dataset, we adopt RGB-based and skeleton-based baseline methods for action recognition and action quality assessment.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# DIAGNOSIS:テキストと画像の拡散モデルにおける不正なデータ使用の検出

DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models ( http://arxiv.org/abs/2307.03108v3 )

ライセンス: Link先を確認
Zhenting Wang, Chen Chen, Lingjuan Lyu, Dimitris N. Metaxas, Shiqing Ma, (参考訳) 最近のテキスト・画像拡散モデルでは、高品質な画像を生成する際、驚くべき性能を示している。 しかし、トレーニングや微調整の過程において、不正なデータの使用が懸念されている。 例えば、モデルトレーナーが特定のアーティストによって作成された画像の集合を収集し、同様の画像を生成することができるモデルを、アーティストの許可を得ずに訓練しようとする場合である。 この問題に対処するために,保護されたデータセット上でトレーニングされたテキスト・画像拡散モデルにインジェクトされた記憶を組み込むことにより,そのような不正なデータ利用を検出する手法を提案する。 具体的には、人間にほとんど知覚できないが拡散モデルにより捉え記憶できるステルス画像ワープ機能を用いて、これらの画像にユニークな内容を加えることにより、保護された画像を修正する。 モデルがインジェクトされたコンテンツを記憶したかどうか(すなわち、生成した画像がインジェクトされた後処理機能によって処理されたかどうか)を解析することにより、不正に使用したモデルを検出することができる。 モデルトレーニングや微調整(LoRA, DreamBooth, 標準トレーニングなど)による安定拡散とVQ拡散の実験により, 提案手法の有効性が示された。 コード:https://github.com/ZhentingWang/DIAGNOSIS

Recent text-to-image diffusion models have shown surprising performance in generating high-quality images. However, concerns have arisen regarding the unauthorized data usage during the training or fine-tuning process. One example is when a model trainer collects a set of images created by a particular artist and attempts to train a model capable of generating similar images without obtaining permission and giving credit to the artist. To address this issue, we propose a method for detecting such unauthorized data usage by planting the injected memorization into the text-to-image diffusion models trained on the protected dataset. Specifically, we modify the protected images by adding unique contents on these images using stealthy image warping functions that are nearly imperceptible to humans but can be captured and memorized by diffusion models. By analyzing whether the model has memorized the injected content (i.e., whether the generated images are processed by the injected post-processing function), we can detect models that had illegally utilized the unauthorized data. Experiments on Stable Diffusion and VQ Diffusion with different model training or fine-tuning methods (i.e, LoRA, DreamBooth, and standard training) demonstrate the effectiveness of our proposed method in detecting unauthorized data usages. Code: https://github.com/ZhentingWang/DIAGNOSIS.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 事前ソフトマックススコアを用いた帰属法の脆弱性

A Vulnerability of Attribution Methods Using Pre-Softmax Scores ( http://arxiv.org/abs/2307.03305v3 )

ライセンス: Link先を確認
Miguel Lerma, Mirtha Lucas, (参考訳) 本稿では、分類器として機能する畳み込みニューラルネットワークの出力を説明するために使用される帰属手法のカテゴリを含む脆弱性について論じる。 このタイプのネットワークは、入力の知覚できない摂動がモデルの出力を変える可能性のある敵攻撃に弱いことが知られている。 対照的に、モデル内の小さな修正がモデル出力を変更することなく帰属法に影響を及ぼす影響に焦点を当てる。

We discuss a vulnerability involving a category of attribution methods used to provide explanations for the outputs of convolutional neural networks working as classifiers. It is known that this type of networks are vulnerable to adversarial attacks, in which imperceptible perturbations of the input may alter the outputs of the model. In contrast, here we focus on effects that small modifications in the model may cause on the attribution method without altering the model outputs.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 動的グラフのためのディープラーニング:モデルとベンチマーク

Deep learning for dynamic graphs: models and benchmarks ( http://arxiv.org/abs/2307.06104v4 )

ライセンス: Link先を確認
Alessio Gravina, Davide Bacciu, (参考訳) 近年,Deep Graph Networks (DGNs) の研究が進展し,グラフ上の学習領域が成熟した。 この研究分野の成長にもかかわらず、まだ解決されていない重要な課題がまだ残っている。 具体的には、時間とともに進化する相互接続された実体の現実的なシステムにおいて、予測タスクに適したDGNを作ることが望まれている。 動的グラフの領域における研究を促進することを目的として、まず、時間情報と空間情報の両方を学ぶことの最近の利点を調査し、動的グラフの表現学習領域における現在の最先端技術の概要を概観する。 第二に、ノードとエッジレベルのタスクに関する最も一般的な提案手法と比較して、厳密なモデル選択と評価を活用して、新しいアーキテクチャとアプローチを評価するためのサウンドベースラインを確立する。

Recent progress in research on Deep Graph Networks (DGNs) has led to a maturation of the domain of learning on graphs. Despite the growth of this research field, there are still important challenges that are yet unsolved. Specifically, there is an urge of making DGNs suitable for predictive tasks on realworld systems of interconnected entities, which evolve over time. With the aim of fostering research in the domain of dynamic graphs, at first, we survey recent advantages in learning both temporal and spatial information, providing a comprehensive overview of the current state-of-the-art in the domain of representation learning for dynamic graphs. Secondly, we conduct a fair performance comparison among the most popular proposed approaches on node and edge-level tasks, leveraging rigorous model selection and assessment for all the methods, thus establishing a sound baseline for evaluating new architectures and approaches
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 量子情報におけるハール測定ツールの紹介 : 初心者のチュートリアル

Introduction to Haar Measure Tools in Quantum Information: A Beginner's Tutorial ( http://arxiv.org/abs/2307.08956v4 )

ライセンス: Link先を確認
Antonio Anna Mele, (参考訳) ハール測度は量子情報において重要な役割を果たすが、その研究はしばしば表現論を深く理解する必要がある。 このチュートリアルは、線形代数の基本的な知識のみを利用して量子情報におけるハール測度ツールの基本的な紹介を提供することを目的としており、このトピックをよりアクセスしやすくすることを目的としている。 チュートリアルは、ハール測度に対する積分を計算するための重要な要素であるモーメント演算子を特徴づけることに特に重点を置いて、ハール測度を導入することから始まる。 また、対称部分空間の特性をカバーし、テンソルネットワーク図式表記法のような計算の可視化と単純化を支援する便利なツールを導入している。 次に、チュートリアルはユニタリ・デザインの概念を探求し、等価な定義を提供し、その後、ユニタリ・デザインの近似的な概念を探求し、これらの異なる概念間の関係に光を当てる。 ハール測度計算の実際的な例は、量子チャネルのツイリングのようなよく知られた公式の導出を含む。 最後に、量子機械学習と古典的なシャドウトモグラフィーにおけるハール測度計算の適用例を紹介する。

The Haar measure plays a vital role in quantum information, but its study often requires a deep understanding of representation theory, posing a challenge for beginners. This tutorial aims to provide a basic introduction to Haar measure tools in quantum information, utilizing only basic knowledge of linear algebra and thus aiming to make this topic more accessible. The tutorial begins by introducing the Haar measure with a specific emphasis on characterizing the moment operator, an essential element for computing integrals over the Haar measure. It also covers properties of the symmetric subspace and introduces helpful tools like tensor network diagrammatic notation, which aid in visualizing and simplifying calculations. Next, the tutorial explores the concept of unitary designs, providing equivalent definitions, and subsequently explores approximate notions of unitary designs, shedding light on the relationships between these different notions. Practical examples of Haar measure calculations are illustrated, including the derivation of well-known formulas such as the twirling of a quantum channel. Lastly, the tutorial showcases the applications of Haar measure calculations in quantum machine learning and classical shadow tomography.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 画像処理のための深層マルチ閾値スパイキングUNet

Deep Multi-Threshold Spiking-UNet for Image Processing ( http://arxiv.org/abs/2307.10974v3 )

ライセンス: Link先を確認
Hebei Li, Yueyi Zhang, Zhiwei Xiong, Zheng-jun Zha, Xiaoyan Sun, (参考訳) U-Netは単純だが効率的なアーキテクチャで知られており、画像処理タスクに広く利用されており、特にニューロモルフィックチップへの展開に適している。 本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。 効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。 情報損失問題に対処するため、スパイキングUNet内の情報伝達効率を向上させるマルチ閾値スパイキングニューロンを導入する。 トレーニング戦略では、事前トレーニングされたU-Netモデルを活用する変換および微調整パイプラインを採用する。 変換過程において、スキップ接続を利用する場合、異なる部分にわたるデータ分布の有意な変動が観察される。 そこで本研究では,不正確な点火を防止するための接続ワイド正規化手法を提案する。 さらに,変換したモデルを微調整するフローベーストレーニング手法を採用し,性能を保ちながら時間ステップを短縮する。 実験の結果,画像のセグメンテーションやデノイングでは,既存のSNN手法を超越して,スパイキング・UNetの非スパイキング手法に匹敵する性能が得られた。 微調整なしで変換されたSpking-UNetと比較して、Spking-UNetは推論時間を約90%削減する。 本研究は、画像処理におけるSNNの適用範囲を広げ、ニューロモルフィックエンジニアリングの分野におけるさらなる探究を促すことが期待されている。 Spiking-UNet実装のコードはhttps://github.com/SNNresearch/Spiking-UNet.comで公開されている。

U-Net, known for its simple yet efficient architecture, is widely utilized for image processing tasks and is particularly suitable for deployment on neuromorphic chips. This paper introduces the novel concept of Spiking-UNet for image processing, which combines the power of Spiking Neural Networks (SNNs) with the U-Net architecture. To achieve an efficient Spiking-UNet, we face two primary challenges: ensuring high-fidelity information propagation through the network via spikes and formulating an effective training strategy. To address the issue of information loss, we introduce multi-threshold spiking neurons, which improve the efficiency of information transmission within the Spiking-UNet. For the training strategy, we adopt a conversion and fine-tuning pipeline that leverage pre-trained U-Net models. During the conversion process, significant variability in data distribution across different parts is observed when utilizing skip connections. Therefore, we propose a connection-wise normalization method to prevent inaccurate firing rates. Furthermore, we adopt a flow-based training method to fine-tune the converted models, reducing time steps while preserving performance. Experimental results show that, on image segmentation and denoising, our Spiking-UNet achieves comparable performance to its non-spiking counterpart, surpassing existing SNN methods. Compared with the converted Spiking-UNet without fine-tuning, our Spiking-UNet reduces inference time by approximately 90\%. This research broadens the application scope of SNNs in image processing and is expected to inspire further exploration in the field of neuromorphic engineering. The code for our Spiking-UNet implementation is available at https://github.com/SNNresearch/Spiking-UNet.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# 時間的結合摂動を考慮したゲーム理論ロバスト強化学習

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations ( http://arxiv.org/abs/2307.12062v2 )

ライセンス: Link先を確認
Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Benjamin Eysenbach, Tuomas Sandholm, Furong Huang, Stephen McAleer, (参考訳) 強化学習システム(RL)の展開には、不確実性に対する堅牢性や、不特定性をモデル化する必要があるが、従来のロバストなRL手法は通常、時間にわたって独立して導入されるノイズについてのみ研究する。 しかし、実際的な不確実性の源は、通常は時間をかけて結合される。 我々は時間的に結合した摂動を正式に導入し、既存のロバストなRL法に挑戦する。 この課題に対処するために、時間的に結合されたロバストなRL問題を部分的に観察可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。 このゲーム内で近似平衡を求めることにより、GRADは時間的に結合した摂動に対する一般的な堅牢性を最適化する。 連続制御タスクの実験では、従来の手法と比較して、時間的に結合した摂動と非結合的な摂動の両方において、異なる攻撃領域に対する様々な種類の攻撃に対して高い堅牢性を達成することが示されている。

Deploying reinforcement learning (RL) systems requires robustness to uncertainty and model misspecification, yet prior robust RL methods typically only study noise introduced independently across time. However, practical sources of uncertainty are usually coupled across time. We formally introduce temporally-coupled perturbations, presenting a novel challenge for existing robust RL methods. To tackle this challenge, we propose GRAD, a novel game-theoretic approach that treats the temporally-coupled robust RL problem as a partially observable two-player zero-sum game. By finding an approximate equilibrium within this game, GRAD optimizes for general robustness against temporally-coupled perturbations. Experiments on continuous control tasks demonstrate that, compared with prior methods, our approach achieves a higher degree of robustness to various types of attacks on different attack domains, both in settings with temporally-coupled perturbations and decoupled perturbations.
翻訳日:2024-04-10 20:36:08 公開日:2024-04-09
# タイムラインベースのゲームのためのコントローラ合成

Controller Synthesis for Timeline-based Games ( http://arxiv.org/abs/2307.12289v2 )

ライセンス: Link先を確認
Renato Acampora, Luca Geatti, Nicola Gigante, Angelo Montanari, Valentino Picotti, (参考訳) スケジュールに基づく計画手法では、状態変数のセット(タイムライン)の時間的進化は時間的制約によって制御される。 伝統的なタイムラインベースの計画システムは、時間的不確実性に対処して計画と実行を統合するのに優れている。 一般の非決定性を扱うために、タイムラインベースのゲームの概念が最近導入された。 このようなゲームに勝利戦略が存在するかどうかが2EXPTIME完全であることが証明されている。 しかし、そのような戦略を実装したコントローラを合成する具体的なアプローチは欠落している。 本稿では,このギャップを埋めるために,タイムラインベースのゲームに対して,効果的かつ計算学的に最適なコントローラ合成手法を提案する。

In the timeline-based approach to planning, the evolution over time of a set of state variables (the timelines) is governed by a set of temporal constraints. Traditional timeline-based planning systems excel at the integration of planning with execution by handling temporal uncertainty. In order to handle general nondeterminism as well, the concept of timeline-based games has been recently introduced. It has been proved that finding whether a winning strategy exists for such games is 2EXPTIME-complete. However, a concrete approach to synthesize controllers implementing such strategies is missing. This paper fills this gap, by providing an effective and computationally optimal approach to controller synthesis for timeline-based games.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# 一般化されたTavis-Cummingsモデルにおける$XY$スピン相互作用によって強化された量子メロロジー

Quantum metrology enhanced by the $XY$ spin interaction in a generalized Tavis-Cummings model ( http://arxiv.org/abs/2307.16166v3 )

ライセンス: Link先を確認
Yuguo Su, Wangjun Lu, Hai-Long Shi, (参考訳) 量子計量学は、量子絡み合いなどの量子資源を利用して高精度な推定を行う能力があることが知られている。 本稿では、量子フィッシャー情報(QFI)によって定量化された多体効果が推定精度に与える影響を探索するために、XY$スピン相互作用を導入し、一般化されたTavis-Cummingsモデルを提案する。 モデルの有効性を導出することにより、QFIとスピン相互作用によって引き起こされるスピンゆらぎとの密接な関係を確立する。 この正確な関係に基づき、弱い磁場を推定するハイゼンベルクスケーリング精度を達成する上でのスピン異方性の重要性を強調した。 さらに, スピン異方性の強度を増大させることにより, 推定精度を向上させることができることを示した。 また,Ising相互作用を低減したTavis-Cummingsモデルにおいて,QFIのスケーリング遷移を明らかにした。 本研究は,多体効果を考慮したメロロジー理論の充実に寄与し,また,多体量子位相による電力利用による推定精度の向上にも寄与する。

Quantum metrology is recognized for its capability to offer high-precision estimation by utilizing quantum resources, such as quantum entanglement. Here, we propose a generalized Tavis-Cummings model by introducing the $XY$ spin interaction to explore the impact of the many-body effect on estimation precision, quantified by the quantum Fisher information (QFI). By deriving the effective description of our model, we establish a closed relationship between the QFI and the spin fluctuation induced by the $XY$ spin interaction. Based on this exact relation, we emphasize the indispensable role of the spin anisotropy in achieving the Heisenberg-scaling precision for estimating a weak magnetic field. Furthermore, we observe that the estimation precision can be enhanced by increasing the strength of the spin anisotropy. We also reveal a clear scaling transition of the QFI in the Tavis-Cummings model with the reduced Ising interaction. Our results contribute to the enrichment of metrology theory by considering many-body effects, and they also present an alternative approach to improving the estimation precision by harnessing the power provided by many-body quantum phases.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# 極秘投票:透明な選挙結果のプライバシーコストの制限

The Still Secret Ballot: The Limited Privacy Cost of Transparent Election Results ( http://arxiv.org/abs/2308.04100v3 )

ライセンス: Link先を確認
Shiro Kuriwaki, Jeffrey B. Lewis, Michael Morse, (参考訳) 選挙後、当局は各投票の電子的記録を公表すべきだろうか? 投票の公開は結果の正当性を高める可能性がある。 匿名投票の投票を、公開投票ファイル内の投票者の名前と住所に一意にリンクすることで、アナリストが秘密投票を無効にする。 我々はまず、様々な選挙報告体制の下で投票の啓示がどのように起こるかの理論モデルを提供する。 おそらく反対に、投票記録を公表することは、選挙区と方法による投票集計を公表する典型的な慣行に匹敵するものではない。 次に, アリゾナ州マリコパ郡における2020年の選挙を事例として, 投票啓発の実証的評価を行った。 99.8%の有権者が投票記録を公表し、投票選択は公表されなかった。 投票は、通常の報告の慣行に準じて、公然と秘密にすることができると結論付けます。

After an election, should officials release an electronic record of each ballot? The release of ballots could bolster the legitimacy of the result. But it may also facilitate vote revelation, where an analyst unravels the secret ballot by uniquely linking votes on an anonymous ballot to the voter's name and address in the public voter file. We first provide a theoretical model of how vote revelation could occur under various election-reporting regimes. Perhaps counterintuitively, releasing ballot records is no more revelatory than the typical practice of releasing aggregate vote tallies by precinct and method. We then present the first empirical evaluation of vote revelation, using the 2020 election in Maricopa County, Arizona, as a case study. For 99.8% of voters, the release of ballot records led to no revelation of any vote choice. We conclude the ballot can be both public and still as secret as it is under typical reporting practices.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# コミュニケーション圧縮を用いたフェデレーション学習における確率制御平均化

Stochastic Controlled Averaging for Federated Learning with Communication Compression ( http://arxiv.org/abs/2308.08165v2 )

ライセンス: Link先を確認
Xinmeng Huang, Ping Li, Xiaoyun Li, (参考訳) 通信のオーバーヘッドを軽減するため, 通信圧縮技術は, FL(Federated Learning) において大きな関心を集めている。 しかし, 通信圧縮がFLに新たな課題をもたらすのは, 圧縮帰属情報歪みと部分的参加やデータ不均一性といったFL固有の特性の相互作用によるものである。 近年の進歩にもかかわらず, 圧縮FL手法の性能は十分に評価されていない。 既存のアプローチは、任意のデータ不均一性や部分的参加を許容できないか、圧縮に厳密な条件を必要とする。 本稿では,半減なアップリンク通信コストで等価だがより効率的かつ簡易な定式化を提案することによって,半音階確率制御平均化法を再検討する。 本実装では,2つの圧縮FLアルゴリズムであるSCALLIONとSCAFCOMを提案し,それぞれ非バイアス圧縮とバイアス圧縮をサポートする。 両手法は通信や計算の複雑さの観点から既存のFL法よりも優れている。 さらに、SCALLIONとSCAFCOMは任意のデータの均一性を許容し、圧縮エラーについて追加の仮定をしない。 実験の結果, SCALLION と SCAFCOM は, 対応する完全精度FL手法の性能に匹敵し, アップリンク通信を著しく低減し, また, 同一通信予算下での最近の圧縮FL法よりも優れていた。

Communication compression, a technique aiming to reduce the information volume to be transmitted over the air, has gained great interests in Federated Learning (FL) for the potential of alleviating its communication overhead. However, communication compression brings forth new challenges in FL due to the interplay of compression-incurred information distortion and inherent characteristics of FL such as partial participation and data heterogeneity. Despite the recent development, the performance of compressed FL approaches has not been fully exploited. The existing approaches either cannot accommodate arbitrary data heterogeneity or partial participation, or require stringent conditions on compression. In this paper, we revisit the seminal stochastic controlled averaging method by proposing an equivalent but more efficient/simplified formulation with halved uplink communication costs. Building upon this implementation, we propose two compressed FL algorithms, SCALLION and SCAFCOM, to support unbiased and biased compression, respectively. Both the proposed methods outperform the existing compressed FL methods in terms of communication and computation complexities. Moreover, SCALLION and SCAFCOM accommodates arbitrary data heterogeneity and do not make any additional assumptions on compression errors. Experiments show that SCALLION and SCAFCOM can match the performance of corresponding full-precision FL approaches with substantially reduced uplink communication, and outperform recent compressed FL methods under the same communication budget.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# 機械学習のためのトレーニングデータの分布特性の検証

Attesting Distributional Properties of Training Data for Machine Learning ( http://arxiv.org/abs/2308.09552v4 )

ライセンス: Link先を確認
Vasisht Duddu, Anudeep Das, Nora Khayata, Hossein Yalame, Thomas Schneider, N. Asokan, (参考訳) 機械学習(ML)の成功は、その信頼性に対する懸念が高まっている。 いくつかの管轄区域がML規制の枠組みを準備している。 そのような懸念の1つは、モデルトレーニングデータが特定の機密属性に対して望ましい分布特性を持つことである。 例えば、ドラフト規則は、トレーニングデータセットが人口の多様性を反映するなど、特定の分布特性を持つことを示すためにモデルトレーナーが必要であることを示している。 本研究では,証明者(例えばモデルトレーナー)がデータを明らかにすることなく,学習データの適切な分布特性を検証者(例えば顧客)に示すことができる特性証明の概念を提案する。 本稿では,プロパティ推論と暗号機構を組み合わせた効果的なハイブリッド特性証明を提案する。

The success of machine learning (ML) has been accompanied by increased concerns about its trustworthiness. Several jurisdictions are preparing ML regulatory frameworks. One such concern is ensuring that model training data has desirable distributional properties for certain sensitive attributes. For example, draft regulations indicate that model trainers are required to show that training datasets have specific distributional properties, such as reflecting diversity of the population. We propose the notion of property attestation allowing a prover (e.g., model trainer) to demonstrate relevant distributional properties of training data to a verifier (e.g., a customer) without revealing the data. We present an effective hybrid property attestation combining property inference with cryptographic mechanisms.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# 高能率拡散確率モデル:PET一貫性モデルを用いた低線量PETの全体PET合成

Full-dose Whole-body PET Synthesis from Low-dose PET Using High-efficiency Denoising Diffusion Probabilistic Model: PET Consistency Model ( http://arxiv.org/abs/2308.13072v2 )

ライセンス: Link先を確認
Shaoyan Pan, Elham Abouei, Junbo Peng, Joshua Qian, Jacob F Wynne, Tonghe Wang, Chih-Wei Chang, Justin Roper, Jonathon A Nye, Hui Mao, Xiaofeng Yang, (参考訳) 目的:ポジトロン・エミッション・トモグラフィ(PET)は、幅広い臨床応用において一般的に用いられる画像モダリティである。 PET画像における最も重要なトレードオフの1つは、画像品質と放射線線量の間にある。 画像品質の向上はすべての臨床応用に望ましいが, 患者へのリスク軽減には放射線被曝の最小化が必要である。 PET-CM(PET Consistency Model, PET-CM)は, 低線量PET画像から高画質のフルドーズPET画像を生成するための効率的な拡散法である。 2段階のプロセスを使用して、前方拡散における全線PET画像にガウスノイズを加え、逆拡散におけるPET-VITネットワークを用いてそれらをデノナイズする。 PET-VITネットワークは、ガウスノイズを直接フルドーズPET画像に分解できる一貫性関数を学習する。 PET-CMは、他の方法に比べて計算時間を大幅に削減しつつ、最先端の画像品質を実現する。 結果: PET-CM実験では,NMAEが1.278+/-0.122%,PSNRが33.783+/-0.824dB,SSIMが0.964+/-0.009,NCCが0.968+/-0.011,HRSが4343,SUVエラーが0.255+/-0.318%,平均生成時間が62秒であった。 これは,PET-CMを用いた最新拡散モデルに比べて12倍高速である。 同様に、フルドーズ画像実験においてPET-CMは競争的な結果をもたらし、NMAEの0.973+/-0.066%、PSNRの36.172+/-0.801dB、SSIMの0.984+/-0.004、NCCの0.990+/-0.005、HRSの4.428、SUVのエラーの0.151+/-0.192%を同じ生成法を用いて達成した。

Objective: Positron Emission Tomography (PET) has been a commonly used imaging modality in broad clinical applications. One of the most important tradeoffs in PET imaging is between image quality and radiation dose: high image quality comes with high radiation exposure. Improving image quality is desirable for all clinical applications while minimizing radiation exposure is needed to reduce risk to patients. Approach: We introduce PET Consistency Model (PET-CM), an efficient diffusion-based method for generating high-quality full-dose PET images from low-dose PET images. It employs a two-step process, adding Gaussian noise to full-dose PET images in the forward diffusion, and then denoising them using a PET Shifted-window Vision Transformer (PET-VIT) network in the reverse diffusion. The PET-VIT network learns a consistency function that enables direct denoising of Gaussian noise into clean full-dose PET images. PET-CM achieves state-of-the-art image quality while requiring significantly less computation time than other methods. Results: In experiments comparing eighth-dose to full-dose images, PET-CM demonstrated impressive performance with NMAE of 1.278+/-0.122%, PSNR of 33.783+/-0.824dB, SSIM of 0.964+/-0.009, NCC of 0.968+/-0.011, HRS of 4.543, and SUV Error of 0.255+/-0.318%, with an average generation time of 62 seconds per patient. This is a significant improvement compared to the state-of-the-art diffusion-based model with PET-CM reaching this result 12x faster. Similarly, in the quarter-dose to full-dose image experiments, PET-CM delivered competitive outcomes, achieving an NMAE of 0.973+/-0.066%, PSNR of 36.172+/-0.801dB, SSIM of 0.984+/-0.004, NCC of 0.990+/-0.005, HRS of 4.428, and SUV Error of 0.151+/-0.192% using the same generation process, which underlining its high quantitative and clinical precision in both denoising scenario.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# コンセプト・ボトルネックへの介入を学ぶ

Learning to Intervene on Concept Bottlenecks ( http://arxiv.org/abs/2308.13453v2 )

ライセンス: Link先を確認
David Steinmann, Wolfgang Stammer, Felix Friedrich, Kristian Kersting, (参考訳) 従来のディープラーニングモデルは解釈可能性に欠けることが多いが、概念ボトルネックモデル(CBM)は概念表現を通じて固有の説明を提供する。 具体的には、ユーザが概念値を更新し、モデルの予測出力を修正することで、これらの概念に対する介入的相互作用を実行できる。 しかし、伝統的に、これらの介入はモデルに1回だけ適用され、その後破棄される。 これを修正するために、CBMの拡張であるCB2M(概念ボトルネックメモリモデル)を提案する。 具体的には、CB2Mは、2倍のメモリで介入を一般化し、ミスを検出し、以前の介入を再適用することができる。 このようにして、CB2Mは、最初に得られたいくつかの介入からモデルパフォーマンスを自動的に改善することを学ぶ。 事前の人間の介入が得られない場合、CB2MはCBMボトルネックの潜在的な誤りを検出し、標的とする介入を要求する。 分散シフトの処理やトレーニングデータの整合化といった難解なシナリオに関する実験的評価では、CB2Mは未確認データへの介入をうまく一般化することができ、誤って推論された概念を識別できることを示す。 以上の結果から,CB2Mはユーザのインタラクションをガイドし,介入を少なくすることで,CBMに対して対話的なフィードバックを提供する上で,優れたツールであることがわかった。

While traditional deep learning models often lack interpretability, concept bottleneck models (CBMs) provide inherent explanations via their concept representations. Specifically, they allow users to perform interventional interactions on these concepts by updating the concept values and thus correcting the predictive output of the model. Traditionally, however, these interventions are applied to the model only once and discarded afterward. To rectify this, we present concept bottleneck memory models (CB2M), an extension to CBMs. Specifically, a CB2M learns to generalize interventions to appropriate novel situations via a two-fold memory with which it can learn to detect mistakes and to reapply previous interventions. In this way, a CB2M learns to automatically improve model performance from a few initially obtained interventions. If no prior human interventions are available, a CB2M can detect potential mistakes of the CBM bottleneck and request targeted interventions. In our experimental evaluations on challenging scenarios like handling distribution shifts and confounded training data, we illustrate that CB2M are able to successfully generalize interventions to unseen data and can indeed identify wrongly inferred concepts. Overall, our results show that CB2M is a great tool for users to provide interactive feedback on CBMs, e.g., by guiding a user's interaction and requiring fewer interventions.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# 物理インフォームドニューラルネットワークを用いた複合超弾性材料の構成パラメータの同定

Identifying Constitutive Parameters for Complex Hyperelastic Materials using Physics-Informed Neural Networks ( http://arxiv.org/abs/2308.15640v3 )

ライセンス: Link先を確認
Siyuan Song, Hanxun Jin, (参考訳) 工学や生物学的材料、特に複雑なジオメトリーや機械的な振る舞いを持つ物質の構成的パラメータを同定することは、長年にわたる課題である。 近年の物理情報ニューラルネットワーク(PINN)の出現は、有望なソリューションを提供するが、現在のフレームワークは基本的な構成法則に制限され、実験データと組み合わせることで現実的な制約に直面することが多い。 本稿では,軟質材料,特に複雑な構成挙動を示す材料パラメータを平面応力条件下での大変形下で同定する,堅牢なPINNベースのフレームワークを提案する。 本モデルでは,マルチモーダルな合成実験データセットを用いたPINNのトレーニングを強調し,ノイズのあるデータであってもアルゴリズムの堅牢性を確保する。 その結果, PINN フレームワークは, 複雑なジオメトリを持つ試料に対して, 圧縮不能な Arruda-Boyce モデルの構成パラメータを正確に同定し, 実験ノイズレベル 5% においても誤差を5% 以下に維持できることがわかった。 我々は, 複雑な固体, 特に幾何学的, 構成的複雑性を有する固体に対して, 頑健な弾性率同定手法を提供すると考えている。

Identifying constitutive parameters in engineering and biological materials, particularly those with intricate geometries and mechanical behaviors, remains a longstanding challenge. The recent advent of Physics-Informed Neural Networks (PINNs) offers promising solutions, but current frameworks are often limited to basic constitutive laws and encounter practical constraints when combined with experimental data. In this paper, we introduce a robust PINN-based framework designed to identify material parameters for soft materials, specifically those exhibiting complex constitutive behaviors, under large deformation in plane stress conditions. Distinctively, our model emphasizes training PINNs with multi-modal synthetic experimental datasets consisting of full-field deformation and loading history, ensuring algorithm robustness even with noisy data. Our results reveal that the PINNs framework can accurately identify constitutive parameters of the incompressible Arruda-Boyce model for samples with intricate geometries, maintaining an error below 5%, even with an experimental noise level of 5%. We believe our framework provides a robust modulus identification approach for complex solids, especially for those with geometrical and constitutive complexity.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# MultIOD:リハーサルなしマルチヘッドインクリメンタルオブジェクト検出器

MultIOD: Rehearsal-free Multihead Incremental Object Detector ( http://arxiv.org/abs/2309.05334v3 )

ライセンス: Link先を確認
Eden Belouadah, Arnaud Dapogny, Kevin Bailly, (参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング、Class-Incremental Learning、CIL)とは、ストリームに現れるように、人工知能が新しいクラスを統合する能力である。 特に、エージェントがメモリや計算資源に限られたアクセス権を持つ環境の進化において興味深い。 漸進的な学習の主な課題は、破滅的な忘れこと、ニューラルネットワークが新しいものを学ぶ際に過去の知識を保持することができないことである。 残念ながら、オブジェクト検出のための既存のクラスインクリメンタルメソッドは、Faster-RCNNのような2段階のアルゴリズムに適用され、過去の知識を保持するためにリハーサルメモリに依存している。 我々は、これらはリソース制限された環境には適さないと主張し、アンカーフリーでリハーサルフリーなオブジェクト検出により多くの努力を注ぐべきである。 本稿では,CenterNetに基づくクラスインクリメンタルオブジェクト検出器であるMultIODを提案する。 我々は,(1) クラス表現を効率的に分離するためのマルチヘッド特徴ピラミッドとマルチヘッド検出アーキテクチャを提案し,(2) はじめに学習したクラスと漸進的に学習したクラス間の移動学習を用いて破滅的忘れに対処し,(3) 余分なボックスを除去するための後処理技術として,クラスワイド非最大圧縮を用いる。 以上の結果から,本手法は2つのパスカルVOCデータセット上での最先端の手法よりも優れており,他の蒸留法とは対照的に,モデルを現在の状態に保存するだけであることがわかった。

Class-Incremental learning (CIL) refers to the ability of artificial agents to integrate new classes as they appear in a stream. It is particularly interesting in evolving environments where agents have limited access to memory and computational resources. The main challenge of incremental learning is catastrophic forgetting, the inability of neural networks to retain past knowledge when learning a new one. Unfortunately, most existing class-incremental methods for object detection are applied to two-stage algorithms such as Faster-RCNN, and rely on rehearsal memory to retain past knowledge. We argue that those are not suitable in resource-limited environments, and more effort should be dedicated to anchor-free and rehearsal-free object detection. In this paper, we propose MultIOD, a class-incremental object detector based on CenterNet. Our contributions are: (1) we propose a multihead feature pyramid and multihead detection architecture to efficiently separate class representations, (2) we employ transfer learning between classes learned initially and those learned incrementally to tackle catastrophic forgetting, and (3) we use a class-wise non-max-suppression as a post-processing technique to remove redundant boxes. Results show that our method outperforms state-of-the-art methods on two Pascal VOC datasets, while only saving the model in its current state, contrary to other distillation-based counterparts.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# Biasの増幅によってマイナーグループのパフォーマンスが向上

Bias Amplification Enhances Minority Group Performance ( http://arxiv.org/abs/2309.06717v2 )

ライセンス: Link先を確認
Gaotang Li, Jiarui Liu, Wei Hu, (参考訳) 標準的なトレーニングによって生成されたニューラルネットワークは、特定の突発的特徴とラベルの相関により、平均的に高い精度を達成したにもかかわらず、希少なサブグループの精度が低いことが知られている。 最悪のグループ損失最小化(eg Group-DRO)に基づく従来のアプローチは、悪いグループ精度を改善するのに有効であるが、全てのトレーニングサンプルに対して高価なグループアノテーションが必要である。 本稿では,グループアノテーションを小さな検証セットでのみ利用できるか,あるいはまったく利用できないような,より困難で現実的な設定に焦点を当てる。 第1段階では、各トレーニングサンプルに対して学習可能な補助変数を導入してバイアス増幅スキームを用いてトレーニングを行い、第2段階では、バイアス増幅モデルが誤分類したサンプルを重み付けし、その後、再重み付きデータセット上で同じモデルをトレーニングする。 BAMは、コンピュータビジョンや自然言語処理において、突発的な相関ベンチマークで評価された既存の手法と比較して、競争性能を実証的に達成する。 さらに,グループアノテーションの必要性を排除できる最小クラス精度差に基づく単純な停止基準が,最悪のグループ精度をほとんどあるいは全く失わない。 我々は,様々なクラスとグループの不均衡比におけるアルゴリズムの有効性とロバスト性を検証するために,広範囲な分析と改善を行った。

Neural networks produced by standard training are known to suffer from poor accuracy on rare subgroups despite achieving high accuracy on average, due to the correlations between certain spurious features and labels. Previous approaches based on worst-group loss minimization (e.g. Group-DRO) are effective in improving worse-group accuracy but require expensive group annotations for all the training samples. In this paper, we focus on the more challenging and realistic setting where group annotations are only available on a small validation set or are not available at all. We propose BAM, a novel two-stage training algorithm: in the first stage, the model is trained using a bias amplification scheme via introducing a learnable auxiliary variable for each training sample; in the second stage, we upweight the samples that the bias-amplified model misclassifies, and then continue training the same model on the reweighted dataset. Empirically, BAM achieves competitive performance compared with existing methods evaluated on spurious correlation benchmarks in computer vision and natural language processing. Moreover, we find a simple stopping criterion based on minimum class accuracy difference that can remove the need for group annotations, with little or no loss in worst-group accuracy. We perform extensive analyses and ablations to verify the effectiveness and robustness of our algorithm in varying class and group imbalance ratios.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# リニアリカレントニューラルネットワークにおける正規言語推論の改善

Advancing Regular Language Reasoning in Linear Recurrent Neural Networks ( http://arxiv.org/abs/2309.07412v2 )

ライセンス: Link先を確認
Ting-Han Fan, Ta-Chung Chi, Alexander I. Rudnicky, (参考訳) 近年、リニアリカレントニューラルネットワーク(LRNN)は、高速並列トレーニングと一定の推論コストを提供しながら、自然言語と長距離モデリングにおいてトランスフォーマーレベルの性能を実現している。 LRNNに対する関心の復活に伴い,正規言語の文法構造など,トレーニングシーケンスに隠された規則を学習できるかどうかを検討する。 理論的には既存のLRNNを解析し、正規言語をモデル化する際の限界を発見する。 そこで本研究では,ブロック対角行列と入力依存遷移行列を備えた新しいLRNNを提案する。 実験により,提案モデルがSum, Even Pair, Modular Arithmetic などの正規言語タスクに対して長さ外挿を行うことができる唯一のLRNNであることが示唆された。 コードは \url{https://github.com/tinghanf/RegluarLRNN} で公開されている。

In recent studies, linear recurrent neural networks (LRNNs) have achieved Transformer-level performance in natural language and long-range modeling, while offering rapid parallel training and constant inference cost. With the resurgence of interest in LRNNs, we study whether they can learn the hidden rules in training sequences, such as the grammatical structures of regular language. We theoretically analyze some existing LRNNs and discover their limitations in modeling regular language. Motivated by this analysis, we propose a new LRNN equipped with a block-diagonal and input-dependent transition matrix. Experiments suggest that the proposed model is the only LRNN capable of performing length extrapolation on regular language tasks such as Sum, Even Pair, and Modular Arithmetic. The code is released at \url{https://github.com/tinghanf/RegluarLRNN}.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# PCN: 新しいグラフ構築法とチェビシェフグラフ畳み込みを利用したジェットタグの深層学習手法

PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions ( http://arxiv.org/abs/2309.08630v3 )

ライセンス: Link先を確認
Yash Semlani, Mihir Relan, Krithik Ramesh, (参考訳) ジェットタグング(Jet tagging)は、高エネルギー物理実験における分類問題であり、粒子衝突からサブ原子粒子、ジェットの衝突した噴霧を識別し、エミッタ粒子にタグ付けすることを目的としている。 ジェットタグの進歩は、標準模型を超えた新しい物理学の探索の機会を与える。 現在のアプローチでは、複雑な衝突データに隠れたパターンを明らかにするためにディープラーニングを使用している。 しかし、深層学習モデルへの入力としてのジェットの表現は様々であり、しばしば、情報的特徴はモデルから得られない。 本研究では,できるだけ多くの情報をエンコードするジェットのグラフベース表現を提案する。 この表現を最大限に活用するために、ChebConv(ChebConv)を用いたグラフニューラルネットワーク(GNN)であるParticle Chebyshev Network(PCN)を設計する。 ChebConvは、GNNにおける古典グラフ畳み込みの効果的な代替手段として実証されており、ジェットタグの研究はまだ行われていない。 PCNは既存のタグよりも精度が大幅に向上し、高エネルギー物理実験においてジェットとChebConv層のグラフベース表現の研究への扉を開く。 コードはhttps://github.com/YVSemlani/PCN-Jet-Tagging.comで入手できる。

Jet tagging is a classification problem in high-energy physics experiments that aims to identify the collimated sprays of subatomic particles, jets, from particle collisions and tag them to their emitter particle. Advances in jet tagging present opportunities for searches of new physics beyond the Standard Model. Current approaches use deep learning to uncover hidden patterns in complex collision data. However, the representation of jets as inputs to a deep learning model have been varied, and often, informative features are withheld from models. In this study, we propose a graph-based representation of a jet that encodes the most information possible. To learn best from this representation, we design Particle Chebyshev Network (PCN), a graph neural network (GNN) using Chebyshev graph convolutions (ChebConv). ChebConv has been demonstrated as an effective alternative to classical graph convolutions in GNNs and has yet to be explored in jet tagging. PCN achieves a substantial improvement in accuracy over existing taggers and opens the door to future studies into graph-based representations of jets and ChebConv layers in high-energy physics experiments. Code is available at https://github.com/YVSemlani/PCN-Jet-Tagging.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# NFLikelihood:正規化フローの教師なしDNNLikelihood

The NFLikelihood: an unsupervised DNNLikelihood from Normalizing Flows ( http://arxiv.org/abs/2309.09743v2 )

ライセンス: Link先を確認
Humberto Reyes-Gonzalez, Riccardo Torre, (参考訳) 本稿では,Ref で提案されている DNNLikelihood の正規化フローに基づく教師なしバージョンであるNFLikelihood を提案する。 [1]。 実例を通して,高エネルギー物理(HEP)解析で生じる複雑な高次元的様相を,アフィンおよび有理2次スプラインビジェクタをベースとした自己回帰流がいかに学習できるかを示す。 文献ですでに検討されているおもちゃのLHC分析例と,HEPFitコードからサンプルを得たフレーバーと電弱オブザーバブルの2つの有効場理論に焦点を当てた。 我々は、教師なしアプローチの利点とデメリットについて、教師なしアプローチについて論じ、両者の相互作用の可能性について論じる。

We propose the NFLikelihood, an unsupervised version, based on Normalizing Flows, of the DNNLikelihood proposed in Ref.[1]. We show, through realistic examples, how Autoregressive Flows, based on affine and rational quadratic spline bijectors, are able to learn complicated high-dimensional Likelihoods arising in High Energy Physics (HEP) analyses. We focus on a toy LHC analysis example already considered in the literature and on two Effective Field Theory fits of flavor and electroweak observables, whose samples have been obtained throught the HEPFit code. We discuss advantages and disadvantages of the unsupervised approach with respect to the supervised one and discuss possible interplays of the two.
翻訳日:2024-04-10 20:26:21 公開日:2024-04-09
# ロシア語における事前学習型トランスフォーマー言語モデルの一家系

A Family of Pretrained Transformer Language Models for Russian ( http://arxiv.org/abs/2309.10931v2 )

ライセンス: Link先を確認
Dmitry Zmitrovich, Alexander Abramov, Andrey Kalmykov, Maria Tikhonova, Ekaterina Taktasheva, Danil Astafurov, Mark Baushenko, Artem Snegirev, Vitalii Kadulin, Sergey Markov, Tatiana Shavrina, Vladislav Mikhailov, Alena Fenogenova, (参考訳) トランスフォーマー言語モデル(LM)は、様々な言語におけるNLP研究方法論と応用の基礎である。 しかし、ロシア語に特化したそのようなモデルの開発はほとんど注目されていない。 本稿では、エンコーダ(ruBERT, ruRoBERTa, ruELECTRA)、デコーダ(ruGPT-3)、エンコーダ-デコーダ(ruT5, FRED-T5)アーキテクチャにまたがる13のロシアトランスフォーマーLMのコレクションを紹介する。 本稿では, モデルアーキテクチャの設計と事前学習について報告し, それらの一般化能力をロシア語理解および生成データセットおよびベンチマーク上で評価した結果について述べる。 これらの特殊なトランスフォーマーLMの事前学習とリリースにより、NLP研究の方向性の範囲を広げ、ロシア語のための産業ソリューションの開発を可能にすることを目指している。

Transformer language models (LMs) are fundamental to NLP research methodologies and applications in various languages. However, developing such models specifically for the Russian language has received little attention. This paper introduces a collection of 13 Russian Transformer LMs, which spans encoder (ruBERT, ruRoBERTa, ruELECTRA), decoder (ruGPT-3), and encoder-decoder (ruT5, FRED-T5) architectures. We provide a report on the model architecture design and pretraining, and the results of evaluating their generalization abilities on Russian language understanding and generation datasets and benchmarks. By pretraining and releasing these specialized Transformer LMs, we aim to broaden the scope of the NLP research directions and enable the development of industrial solutions for the Russian language.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# TOPFORMER: 多様な文体を持つディープフェイクテキストのトポロジーを考慮したオーサリング属性

TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles ( http://arxiv.org/abs/2309.12934v2 )

ライセンス: Link先を確認
Adaku Uchendu, Thai Le, Dongwon Lee, (参考訳) 近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。 LLM生成したテキストをディープフェイクテキストと呼ぶ。 現在、ハグフェイスモデルリポジトリには72K以上のテキスト生成モデルがある。 そのため、悪意のある意図を持ったユーザは、これらのオープンソース LLM を使って有害なテキストや誤報を大規模に生成することができる。 この問題を緩和するため、あるテキストがディープフェイクテキストであるか否かを判定する計算手法、すなわちチューリングテスト(TT)が望まれる。 特に,本論文では,著者属性 (AA) と呼ばれる問題のより一般的なバージョン,すなわち,あるテキストがディープフェイクテキストであるか否かを判断するだけでなく,どの LLM が著者であるかを特定できる多クラス設定について検討する。 そこで我々は,TopFormer を用いたモデルにトポロジカルデータ解析 (TDA) 層を含むディープフェイクテキストの言語パターンを抽出し,既存の AA ソリューションを改善するために,TopFormer を提案する。 入力としてバックボーンの$pooled\_output$からTDA特徴を抽出することにより、不均衡なデータセットやマルチスタイルデータセットを扱う際に、TDA層を持つことの利点を示す。 このトランスフォーマーベースのモデルは文脈表現(意味的特徴と統語的特徴)をキャプチャし、TDAはデータの形状と構造(言語構造)をキャプチャする。 最後に、TopFormerは、すべての3つのデータセットのベースラインを上回り、マクロF1スコアの最大7倍のアップを達成している。

Recent advances in Large Language Models (LLMs) have enabled the generation of open-ended high-quality texts, that are non-trivial to distinguish from human-written texts. We refer to such LLM-generated texts as deepfake texts. There are currently over 72K text generation models in the huggingface model repo. As such, users with malicious intent can easily use these open-sourced LLMs to generate harmful texts and dis/misinformation at scale. To mitigate this problem, a computational method to determine if a given text is a deepfake text or not is desired--i.e., Turing Test (TT). In particular, in this work, we investigate the more general version of the problem, known as Authorship Attribution (AA), in a multi-class setting--i.e., not only determining if a given text is a deepfake text or not but also being able to pinpoint which LLM is the author. We propose TopFormer to improve existing AA solutions by capturing more linguistic patterns in deepfake texts by including a Topological Data Analysis (TDA) layer in the Transformer-based model. We show the benefits of having a TDA layer when dealing with imbalanced, and multi-style datasets, by extracting TDA features from the reshaped $pooled\_output$ of our backbone as input. This Transformer-based model captures contextual representations (i.e., semantic and syntactic linguistic features), while TDA captures the shape and structure of data (i.e., linguistic structures). Finally, TopFormer, outperforms all baselines in all 3 datasets, achieving up to 7\% increase in Macro F1 score.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# ビジョンベースコントローラのシステムレベル異常の検出と緩和

Detecting and Mitigating System-Level Anomalies of Vision-Based Controllers ( http://arxiv.org/abs/2309.13475v3 )

ライセンス: Link先を確認
Aryaman Gupta, Kaustav Chakraborty, Somil Bansal, (参考訳) 自動運転車やドローンのような自律システムは、近年、意思決定と制御に視覚入力と機械学習を活用することで大きな進歩を遂げている。 目を見張る性能にもかかわらず、これらの視覚ベースのコントローラーは、新規またはアウト・オブ・ディストリビューションの入力に直面したとき、誤った予測を行うことができる。 このようなエラーは、壊滅的なシステム障害を発生させ、システムの安全性を損なう可能性がある。 本研究では,そのような閉ループ,システムレベルの障害を検知・緩和する実行時異常モニタを提案する。 具体的には、リーチビリティベースのフレームワークを活用して、視覚ベースのコントローラをオフラインでテストし、システムレベルの障害をマイニングします。 このデータは、オンラインで活用される分類器をトレーニングするために使用され、入力にフラグを付け、システムの故障を引き起こす可能性がある。 異常検知器は、個々のモジュールを超越し、システム全体の安全性に関わる問題を強調する。 また、検知された異常を確実に処理し、システムの安全性を維持するフォールバックコントローラを設計する。 本提案手法は, 視覚に基づくタクシー制御システムを用いた自律型航空機タクシーシステムにおいて, 提案手法の有効性を検証したものである。 提案手法は,システムレベルの異常を識別・処理し,予測誤差に基づく検出やアンサンブルなどの性能を向上し,自律システム全体の安全性とロバスト性を向上する。

Autonomous systems, such as self-driving cars and drones, have made significant strides in recent years by leveraging visual inputs and machine learning for decision-making and control. Despite their impressive performance, these vision-based controllers can make erroneous predictions when faced with novel or out-of-distribution inputs. Such errors can cascade to catastrophic system failures and compromise system safety. In this work, we introduce a run-time anomaly monitor to detect and mitigate such closed-loop, system-level failures. Specifically, we leverage a reachability-based framework to stress-test the vision-based controller offline and mine its system-level failures. This data is then used to train a classifier that is leveraged online to flag inputs that might cause system breakdowns. The anomaly detector highlights issues that transcend individual modules and pertain to the safety of the overall system. We also design a fallback controller that robustly handles these detected anomalies to preserve system safety. We validate the proposed approach on an autonomous aircraft taxiing system that uses a vision-based controller for taxiing. Our results show the efficacy of the proposed approach in identifying and handling system-level anomalies, outperforming methods such as prediction error-based detection, and ensembling, thereby enhancing the overall safety and robustness of autonomous systems.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 自動車内部ロジスティックスにおけるロボットマニピュレーションのための6次元空間推定の産業応用

Industrial Application of 6D Pose Estimation for Robotic Manipulation in Automotive Internal Logistics ( http://arxiv.org/abs/2309.14265v2 )

ライセンス: Link先を確認
Philipp Quentin, Dino Knoll, Daniel Goehring, (参考訳) ロボティクスの進歩にもかかわらず、自動車産業の内部ロジスティクスにおけるタスクを扱う部品の大部分は自動化されていないが、人間によって実行されている。 これらのプロセスを競合的に自動化するための重要なコンポーネントは、6Dのポーズ推定で、多数の異なる部分を処理でき、手作業の少ない新しい部分に適応でき、業界の要求に対して十分に正確で堅牢である。 この文脈では、これらの尺度に関して現在の状態クオについて疑問が生じる。 そこで我々は,経済的にスケーラブルな実データ生成から合成データ生成に至るまで,最先端のコンポーネントを用いた代表的6Dポーズ推定パイプラインを構築し,リアルなシークエンシングプロセスに関して自動車部品で評価した。 データ生成手法を用いることで、トレーニング済みの6Dポーズ推定器のパフォーマンスが期待できるが、業界要件を満たしていないことがわかった。 十分な正確なポーズを与える能力ではなく、ポーズに対する確実な不確実性を推定者が提供できない理由を明らかにした。 この文脈では、RGBおよびRGB-Dベースのアプローチが、この背景に対してどのように比較されるかをさらに分析し、合成データによって引き起こされるドメインギャップに対して異なる脆弱性を示す。

Despite the advances in robotics a large proportion of the of parts handling tasks in the automotive industry's internal logistics are not automated but still performed by humans. A key component to competitively automate these processes is a 6D pose estimation that can handle a large number of different parts, is adaptable to new parts with little manual effort, and is sufficiently accurate and robust with respect to industry requirements. In this context, the question arises as to the current status quo with respect to these measures. To address this we built a representative 6D pose estimation pipeline with state-of-the-art components from economically scalable real to synthetic data generation to pose estimators and evaluated it on automotive parts with regards to a realistic sequencing process. We found that using the data generation approaches, the performance of the trained 6D pose estimators are promising, but do not meet industry requirements. We reveal that the reason for this is the inability of the estimators to provide reliable uncertainties for their poses, rather than the ability of to provide sufficiently accurate poses. In this context we further analyzed how RGB- and RGB-D-based approaches compare against this background and show that they are differently vulnerable to the domain gap induced by synthetic data.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 埋め込み量子核の表現性について

On the expressivity of embedding quantum kernels ( http://arxiv.org/abs/2309.14419v2 )

ライセンス: Link先を確認
Elies Gil-Fuster, Jens Eisert, Vedran Dunjko, (参考訳) 量子と古典的機械学習の最も自然な関係の1つは、カーネルメソッドの文脈で確立されている。 カーネル法は、大きな特徴空間に存在する特徴ベクトルの内部積であるカーネルに依存している。 量子カーネルは通常、量子特徴状態を明示的に構築し、内部積(埋め込み量子カーネル)を取ることで評価される。 古典的カーネルは通常、特徴ベクトルを明示的に使用せずに評価されるため、量子カーネルの表現的埋め込みはどのようにあるのか疑問である。 量子核は量子的特徴状態の内部積として表現できるのか? 計算普遍性を呼び出すと、任意のカーネル関数に対して、対応する量子特徴写像と埋め込み量子カーネルが存在することが分かる。 しかし、この問題のより運用的な読解は、効率的な構築に関するものである。 第2部では、効率的な埋め込み量子カーネルの普遍性に関する問題を定式化する。 シフト不変カーネルに対しては、ランダムフーリエ特徴のテクニックを用いて、全てのカーネルの広いクラスにおいて、効率的なフーリエサンプリングの変種を可能にする普遍性を示す。 次に、この結果を合成カーネルと呼ばれる新しいクラスに拡張し、最近の研究で導入された射影量子カーネルも含むことを示した。 シフト不変および合成カーネルの両方に量子カーネルを埋め込むことの普遍性を証明した後、新しい、よりエキゾチックで、探索されていない量子カーネルファミリーへの方向を同定する。

One of the most natural connections between quantum and classical machine learning has been established in the context of kernel methods. Kernel methods rely on kernels, which are inner products of feature vectors living in large feature spaces. Quantum kernels are typically evaluated by explicitly constructing quantum feature states and then taking their inner product, here called embedding quantum kernels. Since classical kernels are usually evaluated without using the feature vectors explicitly, we wonder how expressive embedding quantum kernels are. In this work, we raise the fundamental question: can all quantum kernels be expressed as the inner product of quantum feature states? Our first result is positive: Invoking computational universality, we find that for any kernel function there always exists a corresponding quantum feature map and an embedding quantum kernel. The more operational reading of the question is concerned with efficient constructions, however. In a second part, we formalize the question of universality of efficient embedding quantum kernels. For shift-invariant kernels, we use the technique of random Fourier features to show that they are universal within the broad class of all kernels which allow a variant of efficient Fourier sampling. We then extend this result to a new class of so-called composition kernels, which we show also contains projected quantum kernels introduced in recent works. After proving the universality of embedding quantum kernels for both shift-invariant and composition kernels, we identify the directions towards new, more exotic, and unexplored quantum kernel families, for which it still remains open whether they correspond to efficient embedding quantum kernels.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# ExIFFI と EIF+: 森林拡張のための解釈可能性と一般化性の向上

ExIFFI and EIF+: Interpretability and Enhanced Generalizability to Extend the Extended Isolation Forest ( http://arxiv.org/abs/2310.05468v2 )

ライセンス: Link先を確認
Alessio Arcudi, Davide Frizzo, Chiara Masiero, Gian Antonio Susto, (参考訳) 異常検出には、複雑なデータセットやシステム内の異常な振る舞いを特定することが含まれる。 機械学習アルゴリズムとDSS(Decision Support Systems)は、このタスクに効果的なソリューションを提供するが、現実のアプリケーションでは、異常の特定が不十分である。 ユーザは、根本原因分析を促進し、モデルに対する信頼を促進するために、これらの予測の背後にある理論的根拠に関する洞察を必要とします。 しかし、ADの教師なしの性質は、解釈可能なツールを開発する上での課題である。 本稿では,この課題に対して,拡張隔離林の予測を説明するために考案された,新しい解釈可能性アプローチであるExIFFIを導入する。 ExIFFIは機能の重要性を活用し、グローバルレベルとローカルレベルの両方で説明を提供する。 この研究は、異なる分割された超平面設計戦略を通じて一般化能力を改善するために考案された拡張隔離林の強化版 EIF+ も導入した。 総合的な比較分析を行い、合成データセットと実世界のデータセットを用いて、様々な教師なしADアプローチを評価する。 この分析は、AD予測のための説明を提供するためのExIFFIの有効性を示す。 さらに,教師なし設定における特徴選択手法としてのExIFFIの有用性について検討した。 最後に、この研究はオープンソースコードを提供することで研究コミュニティに貢献し、さらなる調査と再現性を促進する。

Anomaly Detection involves identifying unusual behaviors within complex datasets and systems. While Machine Learning algorithms and Decision Support Systems (DSSs) offer effective solutions for this task, simply pinpointing anomalies may prove insufficient in real-world applications. Users require insights into the rationale behind these predictions to facilitate root cause analysis and foster trust in the model. However, the unsupervised nature of AD presents a challenge in developing interpretable tools. This paper addresses this challenge by introducing ExIFFI, a novel interpretability approach specifically designed to explain the predictions made by Extended Isolation Forest. ExIFFI leverages feature importance to provide explanations at both global and local levels. This work also introduces EIF+, an enhanced variant of Extended Isolation Forest, conceived to improve its generalization capabilities through a different splitting hyperplanes design strategy. A comprehensive comparative analysis is conducted, employing both synthetic and real-world datasets to evaluate various unsupervised AD approaches. The analysis demonstrates the effectiveness of ExIFFI in providing explanations for AD predictions. Furthermore, the paper explores the utility of ExIFFI as a feature selection technique in unsupervised settings. Finally, this work contributes to the research community by providing open-source code, facilitating further investigation and reproducibility.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 階層的特徴退化を伴うアンカーベースマルチビューサブスペースクラスタリング

Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent ( http://arxiv.org/abs/2310.07166v2 )

ライセンス: Link先を確認
Qiyuan Ou, Siwei Wang, Pei Zhang, Sihang Zhou, En Zhu, (参考訳) 多視点クラスタリングは、様々な情報源からの情報を集約する能力や、公務における将来性から注目されている。 これまでのところ、多くの先進的なアプローチが近年の文献で提案されている。 しかし、対処すべき課題はいくつかある。 共通のジレンマは、異なるビューの特徴を整合させようとするときに起こる。 既存のマルチビュークラスタリングアルゴリズムの多くはスペクトルクラスタリングに起因しているため、この結果、データセットの数が3乗時間で複雑になる。 しかし,階層的特徴降下(MVSC-HFD)を用いたアンカーベースマルチビューサブスペースクラスタリング(Multi-view Subspace Clustering)を提案する。 さらに、共通部分空間(STAGE2)における統一サンプリング戦略により、計算複雑性を線形時間コストに低減し、続いてアンカーベースのサブスペースクラスタリングを行い、二部グラフを総合的に学習する(STAGE3)。 公開ベンチマークデータセットの大規模な実験結果から,提案したモデルが最先端技術より一貫して優れていることが示された。

Multi-view clustering has attracted growing attention owing to its capabilities of aggregating information from various sources and its promising horizons in public affairs. Up till now, many advanced approaches have been proposed in recent literature. However, there are several ongoing difficulties to be tackled. One common dilemma occurs while attempting to align the features of different views. {Moreover, due to the fact that many existing multi-view clustering algorithms stem from spectral clustering, this results to cubic time complexity w.r.t. the number of dataset. However, we propose Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent(MVSC-HFD) to tackle the discrepancy among views through hierarchical feature descent and project to a common subspace( STAGE 1), which reveals dependency of different views. We further reduce the computational complexity to linear time cost through a unified sampling strategy in the common subspace( STAGE 2), followed by anchor-based subspace clustering to learn the bipartite graph collectively( STAGE 3). }Extensive experimental results on public benchmark datasets demonstrate that our proposed model consistently outperforms the state-of-the-art techniques.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 時系列分類のためのデータ拡張:広範囲にわたる実証研究と包括的調査

Data Augmentation for Time-Series Classification: An Extensive Empirical Study and Comprehensive Survey ( http://arxiv.org/abs/2310.10060v4 )

ライセンス: Link先を確認
Zijun Gao, Lingbo Li, (参考訳) データ拡張(DA)は、主にトレーニングサンプルを増幅し、モデルロバスト性を強化し、データセットを多様化し、過剰適合を緩和する能力のために、時系列分類(TSC)において必須の戦略として現れてきた。 しかし、TSCにおけるDAの現在の状況は、断片化された文献レビュー、曖昧な方法論の分類、不適切な評価基準、アクセス可能なユーザ指向ツールの不足に悩まされている。 これらの課題を踏まえて,本研究では,TSC領域内におけるDA方法論の徹底的な解離について検討する。 最初のアプローチでは10年間にわたる広範な文献レビューを行い、現代の調査では、TSCのDAの進歩の幅がほとんどなく、100以上の学術論文を慎重に分析し、60以上のDAテクニックを蒸留することに成功した。 この厳密な分析は、TSCにおけるDAの複雑化のために構築された新しい分類学の定式化を先導し、テクニックを変換ベース、パターンベース、生成ベース、分解ベース、自動データ拡張の5つの主要なエキロンに分類した。 我々の分類学は、学者にとって堅牢なナビゲーション支援として機能し、方法選択の明確さと方向性を提供すると約束している。 その結果,8つのUCR時系列データセットに対して15以上のDA戦略が精査され,ResNetと,精度,手法ランク付け,残留分析を含む多面評価パラダイムが採用され,88.94 +-11.83%のベンチマーク精度が得られた。 本研究は, DA手法の不整合性, 有効性, 有効性について考察した。

Data Augmentation (DA) has emerged as an indispensable strategy in Time Series Classification (TSC), primarily due to its capacity to amplify training samples, thereby bolstering model robustness, diversifying datasets, and curtailing overfitting. However, the current landscape of DA in TSC is plagued with fragmented literature reviews, nebulous methodological taxonomies, inadequate evaluative measures, and a dearth of accessible, user-oriented tools. In light of these challenges, this study embarks on an exhaustive dissection of DA methodologies within the TSC realm. Our initial approach involved an extensive literature review spanning a decade, revealing that contemporary surveys scarcely capture the breadth of advancements in DA for TSC, prompting us to meticulously analyze over 100 scholarly articles to distill more than 60 unique DA techniques. This rigorous analysis precipitated the formulation of a novel taxonomy, purpose-built for the intricacies of DA in TSC, categorizing techniques into five principal echelons: Transformation-Based, Pattern-Based, Generative, Decomposition-Based, and Automated Data Augmentation. Our taxonomy promises to serve as a robust navigational aid for scholars, offering clarity and direction in method selection. Addressing the conspicuous absence of holistic evaluations for prevalent DA techniques, we executed an all-encompassing empirical assessment, wherein upwards of 15 DA strategies were subjected to scrutiny across 8 UCR time-series datasets, employing ResNet and a multi-faceted evaluation paradigm encompassing Accuracy, Method Ranking, and Residual Analysis, yielding a benchmark accuracy of 88.94 +- 11.83%. Our investigation underscored the inconsistent efficacies of DA techniques, with....
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 不確実性定量化によるMLベースのネットワーク侵入検出における信頼性向上

Enhancing Trustworthiness in ML-Based Network Intrusion Detection with Uncertainty Quantification ( http://arxiv.org/abs/2310.10655v2 )

ライセンス: Link先を確認
Jacopo Talpini, Fabio Sartori, Marco Savi, (参考訳) インターネットとその関連通信技術の進化は、サイバー攻撃のリスクを継続的に増加させてきた。 この文脈では、現代のネットワークへの攻撃を識別し緩和するために設計されたセキュリティデバイスである侵入検知システム(IDS)が重要な役割を果たす。 機械学習(ML)に基づくデータ駆動型アプローチは、シグネチャベースのIDSが必要とする分類タスクの実行において、ますます人気が高まっている。 しかし、この目的のために採用された典型的なMLモデルは、予測に関する不確実性を適切に考慮していない。 これは、未分類の入力と未知のクラスに属する入力(例えば、新しい攻撃)の両方に対して誤って高い分類スコアを生成する傾向があり、既存のMLベースのソリューションの信頼性を制限しているため、大きな課題となる。 本稿では、MLベースのIDSが常に正確な不確実性定量化を提供し、過信な予測を避けるべきであると論じる。 実際、不確実性を認識した分類は、クローズドセットの分類性能を高め、アクティブラーニングの実行を可能にし、未知のクラスの入力を真に未知のものとして認識し、オープンセットの分類機能とアウト・オブ・ディストリビューション(OoD)検出をアンロックするのに役立つだろう。 これを検証するため,ネットワーク侵入検出の領域に特化して設計された,不確実性定量化のためのMLベースの手法とオープンセット分類の比較を行った。 さらに、ベイズニューラルネットワークに基づくカスタムモデルを構築し、信頼性の高い不確実性推定を保証し、OoD検出能力を向上させることにより、MLベースのIDSの信頼性を高めるために適切な不確実性定量化をいかに活用できるかを示す。

The evolution of Internet and its related communication technologies have consistently increased the risk of cyber-attacks. In this context, a crucial role is played by Intrusion Detection Systems (IDSs), which are security devices designed to identify and mitigate attacks to modern networks. Data-driven approaches based on Machine Learning (ML) have gained more and more popularity for executing the classification tasks required by signature-based IDSs. However, typical ML models adopted for this purpose do not properly take into account the uncertainty associated with their prediction. This poses significant challenges, as they tend to produce misleadingly high classification scores for both misclassified inputs and inputs belonging to unknown classes (e.g. novel attacks), limiting the trustworthiness of existing ML-based solutions. In this paper, we argue that ML-based IDSs should always provide accurate uncertainty quantification to avoid overconfident predictions. In fact, an uncertainty-aware classification would be beneficial to enhance closed-set classification performance, would make it possible to carry out Active Learning, and would help recognize inputs of unknown classes as truly unknowns, unlocking open-set classification capabilities and Out-of-Distribution (OoD) detection. To verify it, we compare various ML-based methods for uncertainty quantification and for open-set classification, either specifically designed for or tailored to the domain of network intrusion detection. Moreover, we develop a custom model based on Bayesian Neural Networks to ensure reliable uncertainty estimates and improve the OoD detection capabilities, thus showing how proper uncertainty quantification can be exploited to significantly enhance the trustworthiness of ML-based IDSs.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# アルゴリズムフェアネスにおけるフェアネスサロゲート関数の理解

Understanding Fairness Surrogate Functions in Algorithmic Fairness ( http://arxiv.org/abs/2310.11211v4 )

ライセンス: Link先を確認
Wei Yao, Zhanke Zhou, Zhicong Li, Bo Han, Yong Liu, (参考訳) 機械学習アルゴリズムは特定の集団に対して偏りのある予測を示すことが観察されている。 このようなバイアスを最小限の精度で軽減するために、有望なアプローチは、関係する公正定義の代理関数を導入し、制約付き最適化問題を解くことである。 しかし、そのような公正な代理関数が不公平な結果と高い不安定性をもたらすことは、以前の研究で興味深い。 本研究は, それらの定義を深く理解するため, 広く用いられている公正定義--デコグラフィーパリティを例にとり, フェアネス定義とフェアネスサロゲート関数との間には代理-フェアネスギャップが存在することを示す。 また, このギャップに関する理論的解析と実験結果から, 公平性と安定性は, 決定境界から遠ざかる点に影響されることが示唆された。 そこで本研究では,サロゲート-フェアネスギャップと分散の両方を同時に低減し,厳密なフェアネスと安定性の上限を提供する一般シグモイドサロゲートを提案する。 興味深いことに、この理論は大きなマージンポイントを扱う2つの重要な問題に関する洞察を提供するとともに、よりバランスのとれたデータセットを得ることは公平性と安定性に有益である。 さらに、不公平を緩和するギャップを反復的に減少させる「バランスド・サロゲート」という、新規で一般的なアルゴリズムを詳述する。 最後に、実世界の3つのデータセットのベースラインに匹敵する精度を維持しながら、我々の手法が常に公平さと安定性を改善していることを示す実証的な証拠を提供する。

It has been observed that machine learning algorithms exhibit biased predictions against certain population groups. To mitigate such bias while achieving comparable accuracy, a promising approach is to introduce surrogate functions of the concerned fairness definition and solve a constrained optimization problem. However, it is intriguing in previous work that such fairness surrogate functions may yield unfair results and high instability. In this work, in order to deeply understand them, taking a widely used fairness definition--demographic parity as an example, we show that there is a surrogate-fairness gap between the fairness definition and the fairness surrogate function. Also, the theoretical analysis and experimental results about the gap motivate us that the fairness and stability will be affected by the points far from the decision boundary, which is the large margin points issue investigated in this paper. To address it, we propose the general sigmoid surrogate to simultaneously reduce both the surrogate-fairness gap and the variance, and offer a rigorous fairness and stability upper bound. Interestingly, the theory also provides insights into two important issues that deal with the large margin points as well as obtaining a more balanced dataset are beneficial to fairness and stability. Furthermore, we elaborate a novel and general algorithm called Balanced Surrogate, which iteratively reduces the gap to mitigate unfairness. Finally, we provide empirical evidence showing that our methods consistently improve fairness and stability while maintaining accuracy comparable to the baselines in three real-world datasets.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 時系列予測における量子長短期記憶(QLSTM)と古典LSTM:太陽電力予測の比較研究

Quantum Long Short-Term Memory (QLSTM) vs Classical LSTM in Time Series Forecasting: A Comparative Study in Solar Power Forecasting ( http://arxiv.org/abs/2310.17032v2 )

ライセンス: Link先を確認
Saad Zafar Khan, Nazeefa Muzammil, Salman Ghafoor, Haibat Khan, Syed Mohammad Hasan Zaidi, Abdulah Jeza Aljohani, Imran Aziz, (参考訳) 太陽エネルギーの正確な予測は、持続可能なエネルギーシステムへの世界的移行の鍵となる。 本研究では,ソーラー発電予測のための量子長短期記憶(QLSTM)モデルと古典長短期記憶(LSTM)モデルとの微妙な比較を行った。 第一の目的は、再生可能エネルギーデータに固有の複雑な時空間パターンを捉える際に、その指数表現能力を活用するQLSTMの潜在的な利点を評価することである。 実世界の太陽光発電データセットの制御実験により,従来のLSTMと比較して,トレーニング収束の加速や初期エポックにおけるテスト損失の大幅な削減など,QLSTMによる有望な改善が示された。 これらの経験的な結果は、QLSTMが重畳のような量子現象によって実現される複雑な時系列関係を素早く同化する可能性を示している。 しかし、QLSTMの全機能を実現するには、様々な条件、系統的なハイパーパラメータ最適化、ハードウェアノイズの回復性、および相関した再生可能予測問題への応用など、モデル検証のさらなる研究が必要である。 継続的な進歩により、量子機械学習は再生可能エネルギー時系列予測のパラダイムシフトを提供することができ、世界中の太陽エネルギー予測において前例のない精度と信頼性の時代に取って代わる可能性がある。 この先駆的な研究は、現在の制限を認めながら、古典的なLSTMモデルよりも量子的優位性を実証する最初の証拠を提供する。 実世界のデータに基づく厳密なベンチマークを通じて、我々の研究は再生可能予測における量子学習の道筋を示す。

Accurate solar power forecasting is pivotal for the global transition towards sustainable energy systems. This study conducts a meticulous comparison between Quantum Long Short-Term Memory (QLSTM) and classical Long Short-Term Memory (LSTM) models for solar power production forecasting. The primary objective is to evaluate the potential advantages of QLSTMs, leveraging their exponential representational capabilities, in capturing the intricate spatiotemporal patterns inherent in renewable energy data. Through controlled experiments on real-world photovoltaic datasets, our findings reveal promising improvements offered by QLSTMs, including accelerated training convergence and substantially reduced test loss within the initial epoch compared to classical LSTMs. These empirical results demonstrate QLSTM's potential to swiftly assimilate complex time series relationships, enabled by quantum phenomena like superposition. However, realizing QLSTM's full capabilities necessitates further research into model validation across diverse conditions, systematic hyperparameter optimization, hardware noise resilience, and applications to correlated renewable forecasting problems. With continued progress, quantum machine learning can offer a paradigm shift in renewable energy time series prediction, potentially ushering in an era of unprecedented accuracy and reliability in solar power forecasting worldwide. This pioneering work provides initial evidence substantiating quantum advantages over classical LSTM models while acknowledging present limitations. Through rigorous benchmarking grounded in real-world data, our study illustrates a promising trajectory for quantum learning in renewable forecasting.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# 電子輸送におけるフロケット非平衡グリーン関数とフロケット量子マスター方程式:電子-電子相互作用と円形光によるスピン電流の役割

Floquet non-equilibrium Green's function and Floquet quantum master equation for electronic transport: The role of electron-electron interactions and spin current with circular light ( http://arxiv.org/abs/2310.19362v2 )

ライセンス: Link先を確認
Vahid Mosallanejad, Yu Wang, Wenjie Dou, (参考訳) 非平衡グリーン関数(NEGF)と量子マスター方程式(QME)は電子輸送のアプローチの2つの主要なクラスである。 外部周期場との相互作用により駆動される量子ドットの輸送特性に対するこれらの形式の様々なフロッケ分散について論じる。 最初にFloquet NEGFの2つのバージョンを導出した。 また、相互作用系に対するFloquet NEGFフォーマリズムのアンサッツについても検討する。 さらに,弱い相互作用系において,Floquet QMEの2つのバージョンを導出した。 各手法を用いて,各演算子の期待値と現在の演算子の期待値の評価について詳述する。 本研究は, 定期運転対象の2レベルシステムを用いた交通手段について検討した。 これら4つの手法の数値結果は、弱い状態における非相互作用系に対して良好な一致を示す。 さらに、円形の光がスピン電流をもたらすことを観察した。 我々はこれらのフロケ量子輸送法が光に曝される分子接合の研究に有用であると期待する。

Non-equilibrium Green's function (NEGF) and quantum master equation (QME) are two main classes of approaches for electronic transport. We discuss various Floquet variances of these formalisms for transport properties of a quantum dot driven via interaction with an external periodic field. We first derived two versions of the Floquet NEGF. We also explore an ansatz of the Floquet NEGF formalism for the interacting systems. In addition, we derived two versions of Floquet QME in the weak interaction regime. With each method, we elaborate on the evaluation of the expectation values of the number and current operators. We examined these methods for transport through a two-level system that is subject to periodic driving. The numerical results of all four methods show good agreement for non-interacting systems in the weak regime. Furthermore, we have observed that circular light can introduce spin current. We expect these Floquet quantum transport methods to be useful in studying molecular junctions exposed to light.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# プロンプティングとプリフィックスチューニングはいつ行うか? : 能力と限界の理論

When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations ( http://arxiv.org/abs/2310.19698v2 )

ライセンス: Link先を確認
Aleksandar Petrov, Philip H. S. Torr, Adel Bibi, (参考訳) 文脈に基づく微調整手法は、プロンプト、文脈内学習、ソフト・プロンプト(プロンプト・チューニング)、プレフィックス・チューニング(プレフィックス・チューニング)などがあり、パラメータのごく一部で完全な微調整の性能とよく一致するため人気がある。 実験的な成功にもかかわらず、これらの手法がモデルの内部計算と表現力の限界にどのように影響するかについての理論的理解はほとんどない。 連続埋め込み空間は離散トークン空間よりも表現力が高いが,ソフトプロンプトやプレフィックスチューニングは,学習可能なパラメータの数が同じであっても,完全な微調整よりも表現力が低い可能性が示唆された。 具体的には、コンテキストベースの微調整は、コンテンツ上の相対的な注意パターンを変えることができず、注意層の出力を一定方向にのみバイアスすることができる。 これは、プロンプト、文脈内学習、ソフトプロンプト、プレフィックスチューニングといったテクニックは、事前訓練されたモデルに存在するスキルを効果的に引き出すことができるが、新しい注意パターンを必要とする新しいタスクを学習することはできないことを示唆している。

Context-based fine-tuning methods, including prompting, in-context learning, soft prompting (also known as prompt tuning), and prefix-tuning, have gained popularity due to their ability to often match the performance of full fine-tuning with a fraction of the parameters. Despite their empirical successes, there is little theoretical understanding of how these techniques influence the internal computation of the model and their expressiveness limitations. We show that despite the continuous embedding space being more expressive than the discrete token space, soft-prompting and prefix-tuning are potentially less expressive than full fine-tuning, even with the same number of learnable parameters. Concretely, context-based fine-tuning cannot change the relative attention pattern over the content and can only bias the outputs of an attention layer in a fixed direction. This suggests that while techniques like prompting, in-context learning, soft prompting, and prefix-tuning can effectively elicit skills present in the pretrained model, they may not be able to learn novel tasks that require new attention patterns.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# クラスタリングの観点からのエントロピーに基づくテスト時間適応の改善

Improving Entropy-Based Test-Time Adaptation from a Clustering View ( http://arxiv.org/abs/2310.20327v5 )

ライセンス: Link先を確認
Guoliang Lin, Hanjiang Lai, Yan Pan, Jian Yin, (参考訳) ドメインシフトは、トレーニングデータとテストデータが異なるデータ分布に従う現実的な世界で一般的な問題である。 この問題に対処するために、完全なテスト時間適応(TTA)は、テスト時間中に遭遇したラベルのないデータを活用してモデルを適応させる。 特に,テストサンプルにおける予測のエントロピーを最小化するエントロピーベースのTTA(EBTTA)法は,大きな成功を収めている。 本稿では,クラスタリングの観点からこれらの手法を解釈するEBTTAの新しい視点を紹介する。 これは反復アルゴリズムである。 1) 課題段階では、EBTTAモデルの前方プロセスは、これらの試験サンプルのラベルの割り当てであり、 2) 更新ステップでは、下位プロセスは、割り当てられたサンプルを通してモデルの更新です。 この解釈に基づき,ETTTAの理解を深めることができる。 そこで本稿では,既存のETBTTAメソッドが初期割当や近接する情報,外れ値,バッチサイズに敏感である理由について説明する。 この観察は、ETTTAの改善を推し進めるために役立ちます。 本稿では、ロバストなラベル割り当て、局所性保存制約、サンプル選択、勾配蓄積を用いて上記の問題を緩和することを提案する。 実験結果から,本手法は様々なデータセットに対して一貫した改善が可能であることが示された。 コードは補足材料で提供される。

Domain shift is a common problem in the realistic world, where training data and test data follow different data distributions. To deal with this problem, fully test-time adaptation (TTA) leverages the unlabeled data encountered during test time to adapt the model. In particular, entropy-based TTA (EBTTA) methods, which minimize the prediction's entropy on test samples, have shown great success. In this paper, we introduce a new perspective on the EBTTA, which interprets these methods from a view of clustering. It is an iterative algorithm: 1) in the assignment step, the forward process of the EBTTA models is the assignment of labels for these test samples, and 2) in the updating step, the backward process is the update of the model via the assigned samples. Based on the interpretation, we can gain a deeper understanding of EBTTA. Accordingly, we offer an alternative explanation for why existing EBTTA methods are sensitive to initial assignments, nearest neighbor information, outliers, and batch size. This observation can guide us to put forward the improvement of EBTTA. We propose to use robust label assignment, locality-preserving constraint, sample selection, and gradient accumulation to alleviate the above problems. Experimental results demonstrate that our method can achieve consistent improvements on various datasets. Code is provided in the supplementary material.
翻訳日:2024-04-10 20:16:36 公開日:2024-04-09
# WebAssemblyアプリケーションにおける問題とその原因:実証的研究

Issues and Their Causes in WebAssembly Applications: An Empirical Study ( http://arxiv.org/abs/2311.00646v2 )

ライセンス: Link先を確認
Muhammad Waseem, Teerath Das, Aakash Ahmad, Peng Liang, Tommi Mikkonen, (参考訳) WebAssembly(Wasm)は、サンドボックス環境(主にWebアプリとブラウザ)内でセキュアで効率的な実行のために設計されたバイナリ命令フォーマットで、Webプログラミング言語のパフォーマンス、セキュリティ、柔軟性を促進する。 近年、Wasmは、高性能Webアプリケーションを開発するための学術研究コミュニティや産業開発プロジェクトから大きな注目を集めている。 提供されたメリットにもかかわらず、開発者は、Wasm(例えば、障害、エラー、失敗)に根ざした多くの問題に遭遇し、Webアプリケーションの開発に影響を及ぼす根本原因を知らないことが多い。 この目的のために、GitHubにデプロイされた12のオープンソースWasmプロジェクトとStack Overflowによる354の質問回答ポストから、385の課題として、マイニングとドキュメントの実践者の知識が表現された経験的調査を実施しました。 総じて120種類の問題を分類し,19のサブカテゴリと9のカテゴリに分類し,Wasmベースのアプリケーションで発生した問題を分類した。 さらに根本原因分析により,29の亜分類群と10の分類群に分類される278種類の原因が同定された。 我々の研究は、Wasmベースのアプリケーションで開発者が直面している問題とその根本原因について、第一級の分類学につながった。 GitHubとSOから特定され、経験的に派生したガイドラインを提供するという問題の原因は、研究者や実践者がWasmベースのアプリケーションを設計、開発、リファクタリングすることにある。

WebAssembly (Wasm) is a binary instruction format designed for secure and efficient execution within sandboxed environments -- predominantly web apps and browsers -- to facilitate performance, security, and flexibility of web programming languages. In recent years, Wasm has gained significant attention from the academic research community and industrial development projects to engineer high-performance web applications. Despite the offered benefits, developers encounter a multitude of issues rooted in Wasm (e.g., faults, errors, failures) and are often unaware of their root causes that impact the development of web applications. To this end, we conducted an empirical study that mines and documents practitioners' knowledge expressed as 385 issues from 12 open-source Wasm projects deployed on GitHub and 354 question-answer posts via Stack Overflow. Overall, we identified 120 types of issues, which were categorized into 19 subcategories and 9 categories to create a taxonomical classification of issues encountered in Wasm-based applications. Furthermore, root cause analysis of the issues helped us identify 278 types of causes, which have been categorized into 29 subcategories and 10 categories as a taxonomy of causes. Our study led to first-of-its-kind taxonomies of the issues faced by developers and their underlying causes in Wasm-based applications. The issue-cause taxonomies -- identified from GitHub and SO, offering empirically derived guidelines -- can guide researchers and practitioners to design, develop, and refactor Wasm-based applications.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# テキスト予測のための忠実でロバストな局所的解釈可能性

Faithful and Robust Local Interpretability for Textual Predictions ( http://arxiv.org/abs/2311.01605v3 )

ライセンス: Link先を確認
Gianluigi Lopardo, Frederic Precioso, Damien Garreau, (参考訳) 機械学習モデルの信頼性と重要なドメインへのデプロイには、解釈可能性が不可欠である。 しかし、既存のテキストモデルを解釈する手法はしばしば複雑であり、数学的基礎が欠如しており、その性能は保証されていない。 本稿では,テキスト上の予測を解釈する新しい手法であるFRED(Fithful and Robust Explainer for Textual Documents)を提案する。 FREDは,(1)削除が予測に最も強い影響を及ぼす文書中の単語の最小セットを識別し,(2)重要スコアを各トークンに割り当て,その影響をモデル出力に反映し,(3)元の文書に類似した例を生成して,事実的説明を提供する。 解釈可能な分類器の形式的定義と理論的解析によりFREDの信頼性を確立する。 さらに、最先端手法に対する実証的な評価は、テキストモデルに対する洞察を提供する上で、FREDの有効性を示す。

Interpretability is essential for machine learning models to be trusted and deployed in critical domains. However, existing methods for interpreting text models are often complex, lack mathematical foundations, and their performance is not guaranteed. In this paper, we propose FRED (Faithful and Robust Explainer for textual Documents), a novel method for interpreting predictions over text. FRED offers three key insights to explain a model prediction: (1) it identifies the minimal set of words in a document whose removal has the strongest influence on the prediction, (2) it assigns an importance score to each token, reflecting its influence on the model's output, and (3) it provides counterfactual explanations by generating examples similar to the original document, but leading to a different prediction. We establish the reliability of FRED through formal definitions and theoretical analyses on interpretable classifiers. Additionally, our empirical evaluation against state-of-the-art methods demonstrates the effectiveness of FRED in providing insights into text models.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# 時間畳み込みネットワークを用いた群集シミュレーションのための視覚情報駆動モデル

Visual-information-driven model for crowd simulation using temporal convolutional network ( http://arxiv.org/abs/2311.02996v2 )

ライセンス: Link先を確認
Xuanwen Liang, Eric Wai Ming Lee, (参考訳) 群衆シミュレーションは、設計において重要な役割を担い、ユーザエクスペリエンスと公共の安全の両方に影響を与える。 従来の知識駆動モデルにはメリットがあるが、データ駆動のクラウドシミュレーションモデルは、これらのシミュレーションに新しい次元のリアリズムをもたらすことを約束する。 しかし、既存のデータ駆動モデルのほとんどは特定のジオメトリ用に設計されており、適応性と適用性が低い。 データ駆動型群集シミュレーションモデルの適応性と現実性を高めるための有望な戦略は、シナリオ幾何学や歩行者移動を含む視覚情報を統合することである。 そこで本研究では,新しい視覚情報駆動(VID)集団シミュレーションモデルを提案する。 VIDモデルは、過去の社会的視覚情報と個人の動きデータに基づいて、次のステップで歩行者の速度を予測する。 歩行者の視覚情報を抽出するために,レーダ・ジオメトリ・ロコモーション法が確立された。 さらに, 時空間畳み込みネットワーク(TCN)に基づく深層学習モデルである社会的視覚的TCNを開発し, 速度予測を行った。 VIDモデルは、異なるジオメトリ、すなわち廊下、コーナー、Tジャンクションを持つ3つの公共歩行者運動データセットでテストされる。 VIDモデルを評価するために定性的および定量的な指標が用いられ、結果は3つの幾何学的シナリオすべてにわたってモデルの適応性の向上を強調している。 提案手法は,データ駆動群集モデルの適応性向上に有効であることを示す。

Crowd simulations play a pivotal role in building design, influencing both user experience and public safety. While traditional knowledge-driven models have their merits, data-driven crowd simulation models promise to bring a new dimension of realism to these simulations. However, most of the existing data-driven models are designed for specific geometries, leading to poor adaptability and applicability. A promising strategy for enhancing the adaptability and realism of data-driven crowd simulation models is to incorporate visual information, including the scenario geometry and pedestrian locomotion. Consequently, this paper proposes a novel visual-information-driven (VID) crowd simulation model. The VID model predicts the pedestrian velocity at the next time step based on the prior social-visual information and motion data of an individual. A radar-geometry-locomotion method is established to extract the visual information of pedestrians. Moreover, a temporal convolutional network (TCN)-based deep learning model, named social-visual TCN, is developed for velocity prediction. The VID model is tested on three public pedestrian motion datasets with distinct geometries, i.e., corridor, corner, and T-junction. Both qualitative and quantitative metrics are employed to evaluate the VID model, and the results highlight the improved adaptability of the model across all three geometric scenarios. Overall, the proposed method demonstrates effectiveness in enhancing the adaptability of data-driven crowd models.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# 反復的パラメータアライメントを用いた分岐領域間のクロスサイロフェデレーション学習

Cross-Silo Federated Learning Across Divergent Domains with Iterative Parameter Alignment ( http://arxiv.org/abs/2311.04818v4 )

ライセンス: Link先を確認
Matt Gorbett, Hossein Shirazi, Indrakshi Ray, (参考訳) プライベートソースに分散したデータの集合的知識から学ぶことは、一般化機能を強化したニューラルネットワークを提供することができる。 リモートクライアント間で機械学習モデルを協調的にトレーニングするフェデレーション学習は、中央サーバのオーケストレーションを通じてクライアントモデルを組み合わせることで、これを実現する。 しかし、現在のアプローチには2つの限界がある。 一 クライアントドメインが十分に異なるとき、収束に苦しむこと。 二 現在の集約技術は、各クライアントに対して同一のグローバルモデルを作成します。 本研究では,一つのグローバルモデルを学ぶのではなく,共通の目的のために最適化されたNモデルを学ぶ。 これを実現するために、ピアツーピアトポロジで共有されるモデルパラメータに重み付き距離最小化を適用する。 結果のフレームワークであるイテレーティブパラメータアライメント(Iterative Parameter Alignment)は、クロスサイロ設定に自然に適用され、以下の特性を持つ。 一 参加者ごとに一意の解決策であって、各モデルを連合にグローバルに収束させる選択肢があるもの (II) 協調学習環境において, 相手同士の公平性を付与するオプションの早期学習機構について検討した。 これらの特徴は、異なるデータセットでトレーニングされたピアモデルから反復的に学習するフレキシブルな新しいフレームワークを共同で提供する。 この技術は、最先端のアプローチと比較して、様々なデータパーティションにおける競合的な結果が得られることがわかった。 さらに、既存のアプローチが苦労している領域(例えば、ピア間での解離クラス)に頑健であることを示す。

Learning from the collective knowledge of data dispersed across private sources can provide neural networks with enhanced generalization capabilities. Federated learning, a method for collaboratively training a machine learning model across remote clients, achieves this by combining client models via the orchestration of a central server. However, current approaches face two critical limitations: i) they struggle to converge when client domains are sufficiently different, and ii) current aggregation techniques produce an identical global model for each client. In this work, we address these issues by reformulating the typical federated learning setup: rather than learning a single global model, we learn N models each optimized for a common objective. To achieve this, we apply a weighted distance minimization to model parameters shared in a peer-to-peer topology. The resulting framework, Iterative Parameter Alignment, applies naturally to the cross-silo setting, and has the following properties: (i) a unique solution for each participant, with the option to globally converge each model in the federation, and (ii) an optional early-stopping mechanism to elicit fairness among peers in collaborative learning settings. These characteristics jointly provide a flexible new framework for iteratively learning from peer models trained on disparate datasets. We find that the technique achieves competitive results on a variety of data partitions compared to state-of-the-art approaches. Further, we show that the method is robust to divergent domains (i.e. disjoint classes across peers) where existing approaches struggle.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# OpenVINOを用いたジェネレーティブAIのための投機サンプリングとKVキャッシュ最適化の併用

Leveraging Speculative Sampling and KV-Cache Optimizations Together for Generative AI using OpenVINO ( http://arxiv.org/abs/2311.04951v2 )

ライセンス: Link先を確認
Haim Barad, Ekaterina Aidova, Yury Gorbachev, (参考訳) 推論最適化は、ユーザーエクスペリエンスを改善し、インフラコストと消費電力を減らすために重要である。 本稿では,テキスト生成の全体的な遅延を低減するために投機的サンプリングとして知られる動的実行の形式を説明し,それを標準的な自己回帰サンプリングと比較する。 これは、最適化されたソリューションを提供するためにモデルベースの最適化(例えば量子化)と一緒に使用できる。 どちらのサンプリング手法もKVキャッシュを利用する。 Jupyterノートとサンプル実行が提供される。

Inference optimizations are critical for improving user experience and reducing infrastructure costs and power consumption. In this article, we illustrate a form of dynamic execution known as speculative sampling to reduce the overall latency of text generation and compare it with standard autoregressive sampling. This can be used together with model-based optimizations (e.g. quantization) to provide an optimized solution. Both sampling methods make use of KV caching. A Jupyter notebook and some sample executions are provided.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# MetaMix: 混合精度アクティベーション量子化のためのメタ状態精度サーカ

MetaMix: Meta-state Precision Searcher for Mixed-precision Activation Quantization ( http://arxiv.org/abs/2311.06798v2 )

ライセンス: Link先を確認
Han-Byul Kim, Joo Hyung Lee, Sungjoo Yoo, Hong-Seok Kim, (参考訳) 効率的なネットワークの混合精度量子化は、ビット選択の探索で発生する活性化不安定性に悩まされることが多い。 そこで本研究では,ビット選択とウェイトトレーニングフェーズからなるMetaMixと呼ばれる新しい手法を提案する。 ビット選択フェーズは,(1)混合精度対応重み更新,(2)固定混合精度対応重み付きビットサーベイトレーニングの2段階を反復し,両者が混合精度量子化における活性化不安定性を低減し,高速かつ高品質なビット選択に寄与する。 ウェイトトレーニングフェーズは、ビット選択フェーズでトレーニングされたウェイトとステップサイズを利用して、それらを微調整することで、高速なトレーニングを提供する。 画像ネットワーク上でのモバイルネットv2,v3,ResNet-18などの効率的な量子化ネットワークを用いた実験により,提案手法は混合精度と単一精度のSOTA法よりも高い精度で,混合精度の量子化の境界を推し進めることを示した。

Mixed-precision quantization of efficient networks often suffer from activation instability encountered in the exploration of bit selections. To address this problem, we propose a novel method called MetaMix which consists of bit selection and weight training phases. The bit selection phase iterates two steps, (1) the mixed-precision-aware weight update, and (2) the bit-search training with the fixed mixed-precision-aware weights, both of which combined reduce activation instability in mixed-precision quantization and contribute to fast and high-quality bit selection. The weight training phase exploits the weights and step sizes trained in the bit selection phase and fine-tunes them thereby offering fast training. Our experiments with efficient and hard-to-quantize networks, i.e., MobileNet v2 and v3, and ResNet-18 on ImageNet show that our proposed method pushes the boundary of mixed-precision quantization, in terms of accuracy vs. operations, by outperforming both mixed- and single-precision SOTA methods.
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# ランダム正則グラフ上の拡張波動関数の相関体積

Correlated volumes for extended wavefunctions on a random-regular graph ( http://arxiv.org/abs/2311.07690v2 )

ライセンス: Link先を確認
Manuel Pino, Jose E. Roman, (参考訳) 我々は、分岐数$k=2.$ ゼロエネルギー固有ベクトルに付随するいくつかの q-モーメント$I_q$ を数値計算し、それに対応するフラクタル次元$N=4\times 10^6.$ の熱力学極限において、対応するフラクタル次元$D_q$ を、相関体積$N_q$ とともに抽出する。 障害の中間値$Wでは、エルゴディディティ$D_q=1$ for $q=1,2$と、アンダーソン転移 $\log(\log(N_q))\sim W に近づくと急速に増加する相関体積を得る。 次に、波動関数 $e^{<\log|\psi|^2>} の典型値に付随する体積 $N_0$ の抽出に焦点をあてる。$$N_1$ または $N_2.$ の値と同様の傾向に従う。 計算された相関ボリュームのいずれも、障害に発散する傾向を示すものではない:$W\approx 15$、特に指数$\nu=1/2$は存在しない。 金属の深部では、第1の相関体積$N_1\gg Nよりもシステムサイズへのクロスオーバーがはるかに小さいのが特徴である。 この交叉が発生したら、最初のフラクタル次元の微分が $D_1$ と指数 $\nu=1.$ と批判的に振る舞うスケーリングの証拠を得る。

We analyze the ergodic properties of a metallic wavefunction for the Anderson model in a disordered random-regular graph with branching number $k=2.$ A few q-moments $I_q$ associated with the zero energy eigenvector are numerically computed up to sizes $N=4\times 10^6.$ We extract their corresponding fractal dimensions $D_q$ in the thermodynamic limit together with correlated volumes $N_q$ that control finite-size effects. At intermediate values of disorder $W,$ we obtain ergodicity $D_q=1$ for $q=1,2$ and correlation volumes that increase fast upon approaching the Anderson transition $\log(\log(N_q))\sim W.$ We then focus on the extraction of the volume $N_0$ associated with the typical value of the wavefunction $e^{<\log|\psi|^2>},$ which follows a similar tendency as the ones for $N_1$ or $N_2.$ Its value at intermediate disorders is close, but smaller, to the so-called ergodic volume previously found via the super-symmetric formalism and belief propagator algorithms. None of the computed correlated volumes shows a tendency to diverge up to disorders $W\approx 15$, specifically none with exponent $\nu=1/2$. Deeper in the metal, we characterize the crossover to system sizes much smaller than the first correlated volume $N_1\gg N.$ Once this crossover has taken place, we obtain evidence of a scaling in which the derivative of the first fractal dimension $D_1$ behaves critically with an exponent $\nu=1.$
翻訳日:2024-04-10 20:06:52 公開日:2024-04-09
# BEND: 生物学的に意味のあるタスクに関するDNA言語モデルのベンチマーク

BEND: Benchmarking DNA Language Models on biologically meaningful tasks ( http://arxiv.org/abs/2311.12570v4 )

ライセンス: Link先を確認
Frederikke Isa Marin, Felix Teufel, Marc Horlacher, Dennis Madsen, Dennis Pultz, Ole Winther, Wouter Boomsma, (参考訳) ゲノム配列は、細胞プロセスを管理するための青写真を含む。 ゲノムの入手は過去数十年で大幅に増加したが、DNA配列にコードされる様々な機能的、非コード的、規制的要素の実験的なアノテーションは高価かつ困難である。 これは、タンパク質配列データに大きな成功を収めたパラダイムであるゲノムDNAの教師なし言語モデルへの関心を喚起した。 様々なDNA言語モデルが提案されているが、評価タスクは個々の作品によって異なり、データの長さ、スケール、空間といったゲノムアノテーションの基本的課題を完全に再カプセル化することはできない。 本研究では,ヒトゲノム上に定義された現実的で生物学的に意味のある下流タスクの集合を特徴とする,DNA言語モデルのベンチマークであるBENDを紹介する。 現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。 BENDはhttps://github.com/frederikkemarin/BENDで入手できる。

The genome sequence contains the blueprint for governing cellular processes. While the availability of genomes has vastly increased over the last decades, experimental annotation of the various functional, non-coding and regulatory elements encoded in the DNA sequence remains both expensive and challenging. This has sparked interest in unsupervised language modeling of genomic DNA, a paradigm that has seen great success for protein sequence data. Although various DNA language models have been proposed, evaluation tasks often differ between individual works, and might not fully recapitulate the fundamental challenges of genome annotation, including the length, scale and sparsity of the data. In this study, we introduce BEND, a Benchmark for DNA language models, featuring a collection of realistic and biologically meaningful downstream tasks defined on the human genome. We find that embeddings from current DNA LMs can approach performance of expert methods on some tasks, but only capture limited information about long-range features. BEND is available at https://github.com/frederikkemarin/BEND.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# AdaptiveFL:資源制約型AIoTシステムのための適応的不均一フェデレーション学習

AdaptiveFL: Adaptive Heterogeneous Federated Learning for Resource-Constrained AIoT Systems ( http://arxiv.org/abs/2311.13166v2 )

ライセンス: Link先を確認
Chentao Jia, Ming Hu, Zekai Chen, Yanxin Yang, Xiaofei Xie, Yang Liu, Mingsong Chen, (参考訳) Federated Learning(FL)は、AI of Things(AIoT)デバイス間の協調学習を可能にすることを約束しているが、デバイスのさまざまな不均一性要因(例えば、計算能力、メモリサイズ)と不確実な動作環境によって、分類性能の低い問題に悩まされている。 これらの問題に対処するために,不均一なAIoTデバイスのための様々な異種局所モデルを生成可能な,幅ワイドワイドプルーニング戦略に基づく,AdaptiveFLという効果的なFL手法を提案する。 提案した強化学習に基づくデバイス選択機構を用いることで、AdaptiveFLは、ローカルトレーニングのために利用可能なリソースに基づいて、対応するAIoTデバイスに適応的に適切な異種モデルをアダプティブにディスパッチすることができる。 実験の結果、AdaptiveFLは最先端の手法と比較して、IIDと非IIDの両方のシナリオで最大16.83%の推論改善を達成できることがわかった。

Although Federated Learning (FL) is promising to enable collaborative learning among Artificial Intelligence of Things (AIoT) devices, it suffers from the problem of low classification performance due to various heterogeneity factors (e.g., computing capacity, memory size) of devices and uncertain operating environments. To address these issues, this paper introduces an effective FL approach named AdaptiveFL based on a novel fine-grained width-wise model pruning strategy, which can generate various heterogeneous local models for heterogeneous AIoT devices. By using our proposed reinforcement learning-based device selection mechanism, AdaptiveFL can adaptively dispatch suitable heterogeneous models to corresponding AIoT devices on the fly based on their available resources for local training. Experimental results show that, compared to state-of-the-art methods, AdaptiveFL can achieve up to 16.83% inference improvements for both IID and non-IID scenarios.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# $σ$-PCA:線形および非線形主成分分析のための統一ニューラルモデル

$σ$-PCA: a unified neural model for linear and nonlinear principal component analysis ( http://arxiv.org/abs/2311.13580v3 )

ライセンス: Link先を確認
Fahdi Kanavati, Lucy Katsnith, Masayuki Tsuneki, (参考訳) 線形主成分分析(PCA)、非線形PCA、線形独立成分分析(ICA)は、データから特別な線形変換を学ぶための単層オートエンコーダを用いた3つの方法である。 線形PCAは、東洋軸が分散を最大化する直交変換を学ぶが、それは部分空間の回転不確定性に悩まされる。 非線形PCAと線形ICAは、単位分散の仮定の下で統計的独立性を最大化することにより、部分空間の不確定性を回転から置換に還元する。 それらの主な違いは、非線形PCAは回転のみを学習し、線型ICAは回転だけでなく、単位分散を伴う線形変換も学習する点である。 これら3つの関係は、線形ICA変換の特異値分解を回転、スケール、回転の列に分解することで理解することができる。 線形PCAは第1回転を学習し、非線形PCAは第2回転を学習する。 スケールは標準偏差の逆である。 問題は、線形PCAとは対照的に、従来の非線形PCAはデータに直接使用せず、最初の回転を学習する。 本稿では,線形および非線形PCAを単一層オートエンコーダとして統合したニューラルモデルである$\sigma$-PCAを提案する。 本質的には、非線形PCAが第2の回転だけでなく第1の回転も学べるように、ばらつきと統計的独立性の両方を最大化する修正を提案する。 線形PCAと同様に、非線形PCAも半直交変換を学習し、次元と順序を分散によって減少させるが、線形PCAとは異なり、非線形PCAは部分空間の回転不確定性も排除できる。

Linear principal component analysis (PCA), nonlinear PCA, and linear independent component analysis (ICA) -- those are three methods with single-layer autoencoder formulations for learning special linear transformations from data. Linear PCA learns orthogonal transformations that orient axes to maximise variance, but it suffers from a subspace rotational indeterminacy: it fails to find a unique rotation for axes that share the same variance. Both nonlinear PCA and linear ICA reduce the subspace indeterminacy from rotational to permutational by maximising statistical independence under the assumption of unit variance. The main difference between them is that nonlinear PCA only learns rotations while linear ICA learns not just rotations but any linear transformation with unit variance. The relationship between all three can be understood by the singular value decomposition of the linear ICA transformation into a sequence of rotation, scale, rotation. Linear PCA learns the first rotation; nonlinear PCA learns the second. The scale is the inverse of the standard deviations. The problem is that, in contrast to linear PCA, conventional nonlinear PCA cannot be used directly on the data to learn the first rotation, the first being special as it reduces dimensionality and orders by variances. In this paper, as solution to this problem, we propose $\sigma$-PCA: a unified neural model for linear and nonlinear PCA as single-layer autoencoders. Essentially, we propose a modification that allows nonlinear PCA to learn not just the second, but also the first rotation -- by maximising both variance and statistical independence. And so, like linear PCA, nonlinear PCA can now learn a semi-orthogonal transformation that reduces dimensionality and orders by variances, but, unlike linear PCA, nonlinear PCA can also eliminate the subspace rotational indeterminacy.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# 一般化因果感度解析のためのニューラルネットワークフレームワーク

A Neural Framework for Generalized Causal Sensitivity Analysis ( http://arxiv.org/abs/2311.16026v2 )

ライセンス: Link先を確認
Dennis Frauen, Fergus Imrie, Alicia Curth, Valentyn Melnychuk, Stefan Feuerriegel, Mihaela van der Schaar, (参考訳) 観測不能なコンバウンディングは多くのアプリケーションで一般的であり、観測データからの因果推論は困難である。 治療薬として、因果感受性分析は、数学的保証に見合うことなく、因果関係の結論を導出する重要なツールである。 本稿では,一般的な因果感受性分析のためのニューラルネットワークフレームワークであるNeuralCSAを提案する。 以前の作業とは異なり、私たちのフレームワークは互換性があります。 (i)限界感度モデル、f感度モデル、ローゼンバウムの感度モデルを含む、大規模な感度モデル。 (二)異なる治療種(二分体、連続体)、及び 条件付き)平均治療効果と複数の結果に対する同時効果を含む、異なる因果クエリ。 NeuralCSAの一般性は、2つの条件正規化フローを用いた治療介入に対応する潜在分布シフトを学習することによって達成される。 我々は、NeuralCSAが興味の因果クエリに有効な境界を推測できることを理論的に保証し、シミュレーションデータと実世界のデータの両方を用いてこれを実証的に示す。

Unobserved confounding is common in many applications, making causal inference from observational data challenging. As a remedy, causal sensitivity analysis is an important tool to draw causal conclusions under unobserved confounding with mathematical guarantees. In this paper, we propose NeuralCSA, a neural framework for generalized causal sensitivity analysis. Unlike previous work, our framework is compatible with (i) a large class of sensitivity models, including the marginal sensitivity model, f-sensitivity models, and Rosenbaum's sensitivity model; (ii) different treatment types (i.e., binary and continuous); and (iii) different causal queries, including (conditional) average treatment effects and simultaneous effects on multiple outcomes. The generality of NeuralCSA is achieved by learning a latent distribution shift that corresponds to a treatment intervention using two conditional normalizing flows. We provide theoretical guarantees that NeuralCSA is able to infer valid bounds on the causal query of interest and also demonstrate this empirically using both simulated and real-world data.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# Ranni: 正確な指示に従うためにテキストと画像の拡散をモデリングする

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following ( http://arxiv.org/abs/2311.17002v3 )

ライセンス: Link先を確認
Yutong Feng, Biao Gong, Di Chen, Yujun Shen, Yu Liu, Jingren Zhou, (参考訳) 既存のテキスト・ツー・イメージ(T2I)拡散モデルは通常、複雑なプロンプト、特に量、オブジェクト・属性結合、マルチオブジェクト記述の解釈に苦労する。 本研究では,画像へのテキストの復号化におけるミドルウェアとしてセマンティックパネルを導入する。 パネルは、入力テキストから解析された視覚概念を、大きな言語モデルの助けを借りてアレンジし、次いで、詳細な制御信号として認知ネットワークに注入することで、テキスト条件を補完する。 テキストとパネルの学習を容易にするために、完全に自動化されたデータ準備パイプラインを伴って、慎重に設計されたセマンティックフォーマッティングプロトコルを考案した。 このような設計のおかげで、我々のアプローチはRanniと呼ばれ、テキスト制御性に関して事前訓練されたT2Iジェネレータを拡張することに成功しました。 より重要なのは、生成ミドルウェアの導入により、より便利なインタラクション形式(例えば、パネル内の要素を直接調整したり、言語命令を使用する)が提供され、ユーザがより細かく生成をカスタマイズできるようになることだ。 私たちのプロジェクトページはhttps://ranni-t2i.github.io/Ranniです。

Existing text-to-image (T2I) diffusion models usually struggle in interpreting complex prompts, especially those with quantity, object-attribute binding, and multi-subject descriptions. In this work, we introduce a semantic panel as the middleware in decoding texts to images, supporting the generator to better follow instructions. The panel is obtained through arranging the visual concepts parsed from the input text by the aid of large language models, and then injected into the denoising network as a detailed control signal to complement the text condition. To facilitate text-to-panel learning, we come up with a carefully designed semantic formatting protocol, accompanied by a fully-automatic data preparation pipeline. Thanks to such a design, our approach, which we call Ranni, manages to enhance a pre-trained T2I generator regarding its textual controllability. More importantly, the introduction of the generative middleware brings a more convenient form of interaction (i.e., directly adjusting the elements in the panel or using language instructions) and further allows users to finely customize their generation, based on which we develop a practical system and showcase its potential in continuous generation and chatting-based editing. Our project page is at https://ranni-t2i.github.io/Ranni.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# 画像とキャプションの構造的類似によるゼロショット参照表現の理解

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions ( http://arxiv.org/abs/2311.17048v3 )

ライセンス: Link先を確認
Zeyu Han, Fangrui Zhu, Qianru Lao, Huaizu Jiang, (参考訳) Zero-shot Reference Expression comprehensionは、提供されるテキストプロンプトに対応するイメージ内のバウンディングボックスをローカライズすることを目的としている。 一 複雑な視覚的場面及びテクスト的文脈のきめ細かいゆがみ 二 異端者間の関係を理解する能力 残念ながら、既存の大規模視覚言語アライメント(VLA)モデル、例えばCLIPは、両方の側面で苦労しているため、このタスクに直接使用することはできない。 このギャップを緩和するために、我々は大きな基礎モデルを活用し、画像とテキストを三つ子(オブジェクト、述語、オブジェクト)に切り離す。 その後、VLAモデルを用いて視覚的三重項とテキスト的三重項の構造的類似性行列を計算し、次いでインスタンスレベルの類似性行列に伝播する。 さらに,VLAモデルに関係理解能力を持たせるために,豊富なエンティティ関係を含むキュレートデータセットの集合上で,VLAモデルを微調整する3重マッチング目標を設計する。 実験により、RefCOCO/+/g上のSOTAゼロショットモデルよりも、視覚的接地性能が19.5%向上したことが示された。 より困難なWho's Waldoデータセットでは、ゼロショットアプローチが完全に教師付きモデルに匹敵する精度を実現しています。 コードはhttps://github.com/Show-han/Zeroshot_REC.comで公開されている。

Zero-shot referring expression comprehension aims at localizing bounding boxes in an image corresponding to provided textual prompts, which requires: (i) a fine-grained disentanglement of complex visual scene and textual context, and (ii) a capacity to understand relationships among disentangled entities. Unfortunately, existing large vision-language alignment (VLA) models, e.g., CLIP, struggle with both aspects so cannot be directly used for this task. To mitigate this gap, we leverage large foundation models to disentangle both images and texts into triplets in the format of (subject, predicate, object). After that, grounding is accomplished by calculating the structural similarity matrix between visual and textual triplets with a VLA model, and subsequently propagate it to an instance-level similarity matrix. Furthermore, to equip VLA models with the ability of relationship understanding, we design a triplet-matching objective to fine-tune the VLA models on a collection of curated dataset containing abundant entity relationships. Experiments demonstrate that our visual grounding performance increase of up to 19.5% over the SOTA zero-shot model on RefCOCO/+/g. On the more challenging Who's Waldo dataset, our zero-shot approach achieves comparable accuracy to the fully supervised model. Code is available at https://github.com/Show-han/Zeroshot_REC.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# 胸部X線写真からの構造化データの抽出のための汎用対ドメイン適応大言語モデル

General-Purpose vs. Domain-Adapted Large Language Models for Extraction of Structured Data from Chest Radiology Reports ( http://arxiv.org/abs/2311.17213v3 )

ライセンス: Link先を確認
Ali H. Dhanaliwala, Rikhiya Ghosh, Sanjeev Kumar Karn, Poikavila Ullaskrishnan, Oladimeji Farri, Dorin Comaniciu, Charles E. Kahn, (参考訳) 放射線学者は、情報システムによって消費されるときに臨床医療に有用な、構造化されていないデータを生成する。 しかし、スタイルの可変性は使用を制限する。 胸部X線写真から関連する特徴を抽出し,それらを共通データ要素(CDE)に標準化するために,ドメイン適応言語モデル(RadLing)と汎用LLM(GPT-4)を用いたシステムの比較を行った。 3人の放射線学者が1399の胸部XRレポート(900のトレーニング、499のテスト)の振り返りデータセットに注釈を付け、44の関連CDEにマッピングした。 GPT-4システムは、レポート、特徴セット、値セット、動的数ショットで、値を抽出し、CDEにマップする。 出力キー:値ペアを基準基準と比較し,同じ一致をTPとした。 抽出用F1スコアはRadLing系97%, GPT-4系78%であった。 マッピングのF1スコアはRadLingが98%,GPT-4が94%,統計学的に有意差(P<.001。 RadLingのドメイン適応型埋め込みは特徴抽出において改善され、軽量マッパーはCDEの割り当てにおいてf1スコアが向上した。 RadLingシステムはまた、欠失(99%対64%)と未特定(99%対89%)を区別する高い能力を示した。 RadLingシステムのドメイン適応型埋め込みは、より関連性の高いショットプロンプトを提供することで、GPT-4システムの性能を92%向上させた。 RadLingシステムは、ローカルデプロイメントやランタイムコストの削減など、運用上のアドバンテージを提供する。

Radiologists produce unstructured data that can be valuable for clinical care when consumed by information systems. However, variability in style limits usage. Study compares system using domain-adapted language model (RadLing) and general-purpose LLM (GPT-4) in extracting relevant features from chest radiology reports and standardizing them to common data elements (CDEs). Three radiologists annotated a retrospective dataset of 1399 chest XR reports (900 training, 499 test) and mapped to 44 pre-selected relevant CDEs. GPT-4 system was prompted with report, feature set, value set, and dynamic few-shots to extract values and map to CDEs. Output key:value pairs were compared to reference standard at both stages and an identical match was considered TP. F1 score for extraction was 97% for RadLing-based system and 78% for GPT-4 system. F1 score for mapping was 98% for RadLing and 94% for GPT-4; difference was statistically significant (P<.001). RadLing's domain-adapted embeddings were better in feature extraction and its light-weight mapper had better f1 score in CDE assignment. RadLing system also demonstrated higher capabilities in differentiating between absent (99% vs 64%) and unspecified (99% vs 89%). RadLing system's domain-adapted embeddings helped improve performance of GPT-4 system to 92% by giving more relevant few-shot prompts. RadLing system offers operational advantages including local deployment and reduced runtime costs.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# 簡素なセマンティック支援Few-Shot学習

Simple Semantic-Aided Few-Shot Learning ( http://arxiv.org/abs/2311.18649v3 )

ライセンス: Link先を確認
Hai Zhang, Junzhe Xu, Shanlin Jiang, Zhenan He, (参考訳) 限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題として際立っている。 セマンティクスを利用して複雑なセマンティクス融合機構を設計し、制限されたデータ内の稀な代表的特徴を補う。 しかし、クラス名のような素直な意味論に依存すると、その簡潔さによってバイアスが発生し、一方で外部知識から広範な意味論を取得するには膨大な時間と労力を要する。 この制限は、Few-Shot Learningにおける意味論の可能性を厳しく制限する。 本稿では,セマンティック進化(Semantic Evolution)と呼ばれる,高品質な意味論を生成する自動手法を設計する。 高品質なセマンティックスの導入により、以前の研究で使われた複雑なネットワーク構造や学習アルゴリズムの必要性が軽減される。 そこで,セマンティックアライメントネットワークと呼ばれる単純な2層ネットワークを用いて,セマンティック・アライメント・ネットワークを用いて,セマンティックスと視覚的特徴を多種多様な識別的特徴を持つ頑健なクラスプロトタイプに変換する。 実験の結果,フレームワークは6つのベンチマークで過去の手法よりも優れており,高品質なセマンティクスを持つ単純なネットワークが,数ショットの分類タスクで複雑なマルチモーダルモジュールに勝ることを示した。 コードはhttps://github.com/zhangdoudou123/SemFewで入手できる。

Learning from a limited amount of data, namely Few-Shot Learning, stands out as a challenging computer vision task. Several works exploit semantics and design complicated semantic fusion mechanisms to compensate for rare representative features within restricted data. However, relying on naive semantics such as class names introduces biases due to their brevity, while acquiring extensive semantics from external knowledge takes a huge time and effort. This limitation severely constrains the potential of semantics in Few-Shot Learning. In this paper, we design an automatic way called Semantic Evolution to generate high-quality semantics. The incorporation of high-quality semantics alleviates the need for complex network structures and learning algorithms used in previous works. Hence, we employ a simple two-layer network termed Semantic Alignment Network to transform semantics and visual features into robust class prototypes with rich discriminative features for few-shot classification. The experimental results show our framework outperforms all previous methods on six benchmarks, demonstrating a simple network with high-quality semantics can beat intricate multi-modal modules on few-shot classification tasks. Code is available at https://github.com/zhangdoudou123/SemFew.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# BIVDiff: ブリッジ画像とビデオ拡散モデルによる汎用ビデオ合成のための学習自由フレームワーク

BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models ( http://arxiv.org/abs/2312.02813v2 )

ライセンス: Link先を確認
Fengyuan Shi, Jiaxi Gu, Hang Xu, Songcen Xu, Wei Zhang, Limin Wang, (参考訳) 拡散モデルでは、テキスト駆動の画像とビデオ生成が大幅に進歩している。 現在、テキスト・ツー・イメージの基礎モデルは、制御可能な画像生成や画像編集といった様々なダウンストリーム画像合成タスクに広く適用されており、ダウンストリームビデオ合成タスクはいくつかの理由から研究されていない。 まず、ビデオ生成基盤モデルをトレーニングするには、大きなメモリと計算オーバーヘッドが必要です。 ビデオファンデーションモデルでさえ、下流のビデオ合成タスクには追加でコストのかかるトレーニングが必要である。 第二に、画像拡散モデルを訓練のない方法でビデオに拡張する研究もあるが、時間的一貫性は十分に保存できない。 最後に、これらの適応方法は1つのタスク用に特別に設計されており、異なるタスクに一般化できない。 これらの問題を緩和するために、特定の画像拡散モデルと一般的なテキストからビデオへの基盤拡散モデルを用いて、トレーニング不要な汎用ビデオ合成フレームワーク {\bf BIVDiff} を提案する。 具体的には、まずフレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオにMixed Inversionを実行し、最後にビデオ拡散モデル(例えば、VidRDとZeroScope)に反転潜時を入力して時間スムージングを行う。 この分離されたフレームワークは、強いタスクの一般化と高い効率で、様々な目的のために柔軟な画像モデル選択を可能にする。 BIVDiffの有効性と汎用性を検証するために、制御可能なビデオ生成、ビデオ編集、ビデオインパインティング、アウトパインティングなど、幅広いビデオ合成タスクを実行する。

Diffusion models have made tremendous progress in text-driven image and video generation. Now text-to-image foundation models are widely applied to various downstream image synthesis tasks, such as controllable image generation and image editing, while downstream video synthesis tasks are less explored for several reasons. First, it requires huge memory and computation overhead to train a video generation foundation model. Even with video foundation models, additional costly training is still required for downstream video synthesis tasks. Second, although some works extend image diffusion models into videos in a training-free manner, temporal consistency cannot be well preserved. Finally, these adaption methods are specifically designed for one task and fail to generalize to different tasks. To mitigate these issues, we propose a training-free general-purpose video synthesis framework, coined as {\bf BIVDiff}, via bridging specific image diffusion models and general text-to-video foundation diffusion models. Specifically, we first use a specific image diffusion model (e.g., ControlNet and Instruct Pix2Pix) for frame-wise video generation, then perform Mixed Inversion on the generated video, and finally input the inverted latents into the video diffusion models (e.g., VidRD and ZeroScope) for temporal smoothing. This decoupled framework enables flexible image model selection for different purposes with strong task generalization and high efficiency. To validate the effectiveness and general use of BIVDiff, we perform a wide range of video synthesis tasks, including controllable video generation, video editing, video inpainting, and outpainting.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# 検証可能なモデル自由制御のためのMPCによる強化学習

MPC-Inspired Reinforcement Learning for Verifiable Model-Free Control ( http://arxiv.org/abs/2312.05332v5 )

ライセンス: Link先を確認
Yiwen Lu, Zishuo Li, Yihan Zhou, Na Li, Yilin Mo, (参考訳) 本稿では,モデル予測制御(MPC)からインスピレーションを得た新しいパラメータ化コントローラについて紹介する。 コントローラは線形MPC問題の擬似プログラミング(QP)解法に似ており、コントローラのパラメータはシステムモデルから派生するのではなく、Deep Reinforcement Learning(DRL)を介して訓練されている。 このアプローチは、検証可能性と性能保証の観点から、MLP(Multi-Layer Perceptron)や他のDRLで使用される一般的なニューラルネットワークアーキテクチャによる共通コントローラの制限に対処し、学習したコントローラは、MPCに似た持続可能性や漸近安定性などの検証可能な特性を有する。 一方,MPC と MLP の制御性能は実演的に一致し,モデリングの不確実性やノイズに対する堅牢性に優れていた。 さらに,提案した制御器はMPCに比べて計算効率が優れ,MLP制御器よりも学習パラメータが少ない。 車両のドリフト操作タスクに関する実世界の実験は、ロボット工学や他の要求の高い制御タスクに対するこれらのコントローラの可能性を実証している。

In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). The controller resembles a Quadratic Programming (QP) solver of a linear MPC problem, with the parameters of the controller being trained via Deep Reinforcement Learning (DRL) rather than derived from system models. This approach addresses the limitations of common controllers with Multi-Layer Perceptron (MLP) or other general neural network architecture used in DRL, in terms of verifiability and performance guarantees, and the learned controllers possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC. On the other hand, numerical examples illustrate that the proposed controller empirically matches MPC and MLP controllers in terms of control performance and has superior robustness against modeling uncertainty and noises. Furthermore, the proposed controller is significantly more computationally efficient compared to MPC and requires fewer parameters to learn than MLP controllers. Real-world experiments on vehicle drift maneuvering task demonstrate the potential of these controllers for robotics and other demanding control tasks.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# BOTH2Hands: テキストプロンプトとボディダイナミクスの両方から3Dハンドを推測する

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics ( http://arxiv.org/abs/2312.07937v4 )

ライセンス: Link先を確認
Wenqian Zhang, Molin Huang, Yuxuan Zhou, Juze Zhang, Jingyi Yu, Jingya Wang, Lan Xu, (参考訳) 最近登場したテキスト・トゥ・モーションの進歩は、便利で対話的な人間のモーション生成に多くの試みを巻き起こした。 しかし、既存の方法は、リッチな両手の動きを考慮せずに身体の動きを生成できるだけに限られている。 データボトルネックを解消するために,両手動生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。 我々のデータセットには、人体と手の動きの正確な追跡が含まれており、一対の指レベルのアノテーションと身体の記述を提供する。 さらに、暗黙の身体力学と明示的なテキストプロンプトから鮮明な両手の動きを生成する、新しいタスクのための強力なベースライン手法BOTH2Handsを提供する。 まず、2つのパラレルボディ・ツー・ハンド拡散モデルとテキスト・ツー・ハンド拡散モデルをウォームアップし、その後、モーション・ブレンディングにクロスアテンション・トランスフォーマーを利用する。 広汎な実験とクロスバリデーションにより,本手法の有効性が実証された。 私たちのデータセットとコードは、将来の研究のためにコミュニティに配布されます。

The recently emerging text-to-motion advances have spired numerous attempts for convenient and interactive human motion generation. Yet, existing methods are largely limited to generating body motions only without considering the rich two-hand motions, let alone handling various conditions like body dynamics or texts. To break the data bottleneck, we propose BOTH57M, a novel multi-modal dataset for two-hand motion generation. Our dataset includes accurate motion tracking for the human body and hands and provides pair-wised finger-level hand annotations and body descriptions. We further provide a strong baseline method, BOTH2Hands, for the novel task: generating vivid two-hand motions from both implicit body dynamics and explicit text prompts. We first warm up two parallel body-to-hand and text-to-hand diffusion models and then utilize the cross-attention transformer for motion blending. Extensive experiments and cross-validations demonstrate the effectiveness of our approach and dataset for generating convincing two-hand motions from the hybrid body-and-textual conditions. Our dataset and code will be disseminated to the community for future research.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# MToP: 進化的マルチタスクのためのMATLAB最適化プラットフォーム

MToP: A MATLAB Optimization Platform for Evolutionary Multitasking ( http://arxiv.org/abs/2312.08134v2 )

ライセンス: Link先を確認
Yanchi Li, Wenyin Gong, Fei Ming, Tingyu Zhang, Shuijia Li, Qiong Gu, (参考訳) 進化的マルチタスキング(EMT)は、ここ数年で進化的計算の一般的なトピックとして現れてきた。 タスク間の知識伝達技術を利用して、限られたコンピューティングリソース内で複数の最適化タスクを同時に処理することを目的としている。 マルチタスク最適化 (MTO) のためのマルチタスク進化アルゴリズム (MTEA) が多数提案されているにもかかわらず、研究者がベンチマークMTO問題においてMTEAのパフォーマンスを評価するのに役立つ包括的なソフトウェアプラットフォームは依然として存在する。 このギャップを埋めるため,EMT 向けに MTO-Platform (MTOP) というオープンソースの最適化プラットフォームを導入する。 MToPには40以上のMTEA、150以上のMTO問題、10以上のパフォーマンスメトリクスが含まれている。 さらに,MTEAと従来の進化アルゴリズムの比較分析を容易にするため,MTO問題に対処するために40以上の一般的な単一タスク進化アルゴリズムを適用した。 MToPはユーザフレンドリーなグラフィカルインターフェースを備えており、結果分析、データエクスポート、スキーマの可視化を容易にする。 さらに重要なのは、MToPは拡張性を考慮して設計されており、ユーザーは新しいアルゴリズムを開発し、新しい問題領域に取り組むことができる。 MToPのソースコードはhttps://github.com/intLyc/MTO-Platformで入手できる。

Evolutionary multitasking (EMT) has emerged as a popular topic of evolutionary computation over the past years. It aims to concurrently address multiple optimization tasks within limited computing resources, leveraging inter-task knowledge transfer techniques. Despite the abundance of multitask evolutionary algorithms (MTEAs) proposed for multitask optimization (MTO), there remains a comprehensive software platform to help researchers evaluate MTEA performance on benchmark MTO problems as well as explore real-world applications. To bridge this gap, we introduce the first open-source optimization platform, named MTO-Platform (MToP), for EMT. MToP incorporates over 40 MTEAs, more than 150 MTO problem cases with real-world applications, and over 10 performance metrics. Moreover, to facilitate comparative analyses between MTEAs and traditional evolutionary algorithms, we adapted over 40 popular single-task evolutionary algorithms to address MTO problems. MToP boasts a user-friendly graphical interface, facilitating results analysis, data export, and schematics visualization. More importantly, MToP is designed with extensibility in mind, allowing users to develop new algorithms and tackle emerging problem domains. The source code of MToP is available at https://github.com/intLyc/MTO-Platform.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# プロジェクション演算子測定による量子コンピューティングの差分プライバシー保護

Differential Privacy Preserving Quantum Computing via Projection Operator Measurements ( http://arxiv.org/abs/2312.08210v2 )

ライセンス: Link先を確認
Yuqing Li, Yusheng Zhao, Xinyue Zhang, Hui Zhong, Miao Pan, Chi Zhang, (参考訳) 量子コンピューティングは、量子物理学シミュレーション、量子機械学習、ビッグデータ解析など、様々な分野に広く応用されている。 しかし、データ駆動パラダイムの領域では、データベースのプライバシを確保する方法が重要な問題になっている。 古典コンピューティングでは、ノイズを手動で追加することで、プライバシー保護の標準を満たすために差分プライバシ(DP)の概念を組み込むことができる。 量子コンピューティングのシナリオでは、研究者は量子ノイズを考慮して古典DPを量子微分プライバシー(QDP)に拡張した。 本稿では,プロジェクション演算子測定によって発生する誤差をショットノイズとして考慮し,QDP定義を満たす新しい手法を提案する。 次に、ショットノイズで達成できるプライバシー予算の量について議論し、プライバシー保護のレベルを測る指標となる。 さらに、分極雑音を伴う量子回路におけるショットノイズのQDPを提供する。 数値シミュレーションにより、ショットノイズは量子コンピューティングにおいて効果的にプライバシー保護を提供することを示した。

Quantum computing has been widely applied in various fields, such as quantum physics simulations, quantum machine learning, and big data analysis. However, in the domains of data-driven paradigm, how to ensure the privacy of the database is becoming a vital problem. For classical computing, we can incorporate the concept of differential privacy (DP) to meet the standard of privacy preservation by manually adding the noise. In the quantum computing scenario, researchers have extended classic DP to quantum differential privacy (QDP) by considering the quantum noise. In this paper, we propose a novel approach to satisfy the QDP definition by considering the errors generated by the projection operator measurement, which is denoted as shot noises. Then, we discuss the amount of privacy budget that can be achieved with shot noises, which serves as a metric for the level of privacy protection. Furthermore, we provide the QDP of shot noise in quantum circuits with depolarizing noise. Through numerical simulations, we show that shot noise can effectively provide privacy protection in quantum computing.
翻訳日:2024-04-10 19:57:00 公開日:2024-04-09
# 製品コードからのフラクトンモデル

Fracton models from product codes ( http://arxiv.org/abs/2312.08462v2 )

ライセンス: Link先を確認
Yi Tan, Brenden Roberts, Nathanan Tantivasadakarn, Beni Yoshida, Norman Y. Yao, (参考訳) フラクトンオーダーと製品コードとの深い関係について検討する。 特に,量子積符号のフラクトン次数につながる古典的シード符号の条件を提案し,解析する。 入力符号の性質によっては、製品コードは非局所的および局所的な構成においてType-IまたはType-IIフラクトンモデルのいずれかを実現することができる。 非局所的な場合、不規則グラフ上の最近提案されたリネンのモデルがハイパーグラフ積コードとして得られることを示す。 興味深いことに、このモデルにおける制約されたモビリティは、グラフに関連するガラス性からのみ生じる。 局所的なケースでは、平面的周期的タイリングに基づいて定義された新しい古典的LDPC符号を導入する。 ピンホイールタイリングの具体例を考慮し、局所的なタイプIおよびタイプIIフラクトンモデルを製品コードとして体系的に構築することを実証する。 我々の研究は、フラクトン秩序を探索するための自然な設定として製品コードを確立します。

We explore a deep connection between fracton order and product codes. In particular, we propose and analyze conditions on classical seed codes which lead to fracton order in the resulting quantum product codes. Depending on the properties of the input codes, product codes can realize either Type-I or Type-II fracton models, in both nonlocal and local constructions. For the nonlocal case, we show that a recently proposed model of lineons on an irregular graph can be obtained as a hypergraph product code. Interestingly, constrained mobility in this model arises only from glassiness associated with the graph. For the local case, we introduce a novel type of classical LDPC code defined on a planar aperiodic tiling. By considering the specific example of the pinwheel tiling, we demonstrate the systematic construction of local Type-I and Type-II fracton models as product codes. Our work establishes product codes as a natural setting for exploring fracton order.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# DiffusionLight:Chromeのボールにペンキを塗って無料の光プローブ

DiffusionLight: Light Probes for Free by Painting a Chrome Ball ( http://arxiv.org/abs/2312.09168v3 )

ライセンス: Link先を確認
Pakkapon Phongthawee, Worameth Chinchuthakun, Nontaphat Sinsunthithet, Amit Raj, Varun Jampani, Pramook Khungurn, Supasorn Suwajanakorn, (参考訳) 単一入力画像中の光を推定する簡単な手法を提案する。 現在の技術は、HDRパノラマデータセットに大きく依存して、ニューラルネットワークをトレーニングし、視野の限られた入力をフル環境マップに回帰する。 しかしながら、これらのアプローチはデータセットの多様性とサイズに制限があるため、現実的な、制御されていない設定に苦しむことが多い。 この問題に対処するために、数十億の標準画像に基づいて訓練された拡散モデルを用いて、クロム球を入力画像に描画する。 拡散モデルは、しばしば不正確または矛盾したオブジェクトを挿入し、容易にHDR形式で画像を生成することができない。 我々の研究は、クロムボールの出現と初期拡散ノイズマップとの驚くべき関係を解明し、高品質なクロムボールの連続生成に利用した。 さらに、LDR拡散モデル(Stable Diffusion XL)をLoRAで微調整し、HDR光推定のための露光ブラケットを行う。 提案手法は,様々な設定にまたがる説得力のある光推定を行い,現場シナリオに対する優れた一般化を実証する。

We present a simple yet effective technique to estimate lighting in a single input image. Current techniques rely heavily on HDR panorama datasets to train neural networks to regress an input with limited field-of-view to a full environment map. However, these approaches often struggle with real-world, uncontrolled settings due to the limited diversity and size of their datasets. To address this problem, we leverage diffusion models trained on billions of standard images to render a chrome ball into the input image. Despite its simplicity, this task remains challenging: the diffusion models often insert incorrect or inconsistent objects and cannot readily generate images in HDR format. Our research uncovers a surprising relationship between the appearance of chrome balls and the initial diffusion noise map, which we utilize to consistently generate high-quality chrome balls. We further fine-tune an LDR diffusion model (Stable Diffusion XL) with LoRA, enabling it to perform exposure bracketing for HDR light estimation. Our method produces convincing light estimates across diverse settings and demonstrates superior generalization to in-the-wild scenarios.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# テキスト・画像生成のためのリッチ・ヒューマン・フィードバック

Rich Human Feedback for Text-to-Image Generation ( http://arxiv.org/abs/2312.10240v2 )

ライセンス: Link先を確認
Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam, (参考訳) 近年のテキスト・トゥ・イメージ(T2I)生成モデルでは,テキスト記述に基づく高解像度画像の生成が著しく進歩している。 しかし、生成した画像の多くは、アーティファクト/インプリケータビリティ、テキスト記述との相違、美的品質の低下といった問題に悩まされている。 大規模言語モデルにおける強化学習(Reinforcement Learning with Human Feedback, RLHF)の成功に触発された先行研究は、生成された画像に対するフィードバックとして人為的なスコアを収集し、T2I生成を改善するための報酬モデルを訓練した。 本稿では,フィードバック信号の強化について述べる。 一 テキストに一致しない、又は一致しない画像領域をマークし、 二 画像に文字プロンプトのどの単語が誤って表現されたり、欠落したかを注釈すること。 このようなリッチなフィードバックを18K生成画像(RichHF-18K)に収集し、マルチモーダルトランスをトレーニングして、リッチなフィードバックを自動的に予測する。 例えば、高品質なトレーニングデータを選択して生成モデルを微調整し改善したり、予測されたヒートマップでマスクを作成して問題領域に適応させることで、画像生成を改善することができることを示す。 特に、この改良は、人間のフィードバックデータが収集された画像を生成するために使用されるモデル(ミューズ)に一般化される(安定拡散変種)。 RichHF-18KデータセットはGitHubリポジトリでリリースされます。

Recent Text-to-Image (T2I) generation models such as Stable Diffusion and Imagen have made significant progress in generating high-resolution images based on text descriptions. However, many generated images still suffer from issues such as artifacts/implausibility, misalignment with text descriptions, and low aesthetic quality. Inspired by the success of Reinforcement Learning with Human Feedback (RLHF) for large language models, prior works collected human-provided scores as feedback on generated images and trained a reward model to improve the T2I generation. In this paper, we enrich the feedback signal by (i) marking image regions that are implausible or misaligned with the text, and (ii) annotating which words in the text prompt are misrepresented or missing on the image. We collect such rich human feedback on 18K generated images (RichHF-18K) and train a multimodal transformer to predict the rich feedback automatically. We show that the predicted rich human feedback can be leveraged to improve image generation, for example, by selecting high-quality training data to finetune and improve the generative models, or by creating masks with predicted heatmaps to inpaint the problematic regions. Notably, the improvements generalize to models (Muse) beyond those used to generate the images on which human feedback data were collected (Stable Diffusion variants). The RichHF-18K data set will be released in our GitHub repository: https://github.com/google-research/google-research/tree/master/richhf_18k.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# 異常スコア:複雑さと脆弱性に基づく生成モデルと個人生成画像の評価

Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability ( http://arxiv.org/abs/2312.10634v2 )

ライセンス: Link先を確認
Jaehui Hwang, Junghyuk Lee, Jong-Seok Lee, (参考訳) 生成モデルの進歩により、生成した画像の評価がますます重要になる。 従来の手法は、訓練された視覚モデルから生成された画像と参照の特徴の間の距離を測定する。 本稿では,生成した画像の周辺における表現空間と入力空間の関係を広範囲に調査する。 まず,画像中の不自然な要素の存在に関する2つの尺度を提案する:複雑性,表現空間が非線形であることを示す複雑さ,および,抽出した特徴が逆入力によってどのように容易に変化するかに関連する脆弱性。 そこで本研究では,異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。 また,個々の画像の異常スコアを個別に評価できるAS-iを提案する。 実験の結果,提案手法の有効性が示された。

With the advancement of generative models, the assessment of generated images becomes more and more important. Previous methods measure distances between features of reference and generated images from trained vision models. In this paper, we conduct an extensive investigation into the relationship between the representation space and input space around generated images. We first propose two measures related to the presence of unnatural elements within images: complexity, which indicates how non-linear the representation space is, and vulnerability, which is related to how easily the extracted feature changes by adversarial input changes. Based on these, we introduce a new metric to evaluating image-generative models called anomaly score (AS). Moreover, we propose AS-i (anomaly score for individual images) that can effectively evaluate generated images individually. Experimental results demonstrate the validity of the proposed approach.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# Carve3D:RLファインタニングによる拡散モデルにおける多視点再構成整合性の改善

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning ( http://arxiv.org/abs/2312.13980v2 )

ライセンス: Link先を確認
Desai Xie, Jiahao Li, Hao Tan, Xin Sun, Zhixin Shu, Yi Zhou, Sai Bi, Sören Pirk, Arie E. Kaufman, (参考訳) テキスト・ツー・イメージ拡散モデルにスーパービジョン・ファインタニング(SFT)を適用した多視点拡散モデルにより、テキスト・ツー・3D研究における最近のブレークスルーを導いた。 しかし、既存の3Dデータセットのサイズと品質が制限されているため、マルチビューの不整合やニューラルレーシアンスフィールド(Neural Radiance Field、NeRF)の再構築アーティファクトに悩まされている。 我々は、多視点拡散モデルがさらに強化学習ファインタニング(RLFT)の恩恵を受けることができると主張している。 この目的のために,改良されたRLFTアルゴリズムであるCarve3Dと,新しいMRC(Multi-view Reconstruction Consistency)メトリクスを組み合わせることで,多視点拡散モデルの整合性を高める。 マルチビュー画像の集合上でのMRC測度を測定するため、同じカメラ視点で対応するNeRFレンダリングと比較する。 Carve3DMと呼ばれる結果のモデルは、既存のモデルよりも優れたマルチビュー整合性とNeRF再構成品質を示す。 この結果から,Carve3D の RLFT と SFT のペアリングは,標準のLarge Language Model (LLM) アライメントパイプラインを反映した多視点拡散モデルの開発に不可欠であることが示唆された。 私たちのコード、トレーニング、テストデータ、ビデオ結果は以下の通りです。

Multi-view diffusion models, obtained by applying Supervised Finetuning (SFT) to text-to-image diffusion models, have driven recent breakthroughs in text-to-3D research. However, due to the limited size and quality of existing 3D datasets, they still suffer from multi-view inconsistencies and Neural Radiance Field (NeRF) reconstruction artifacts. We argue that multi-view diffusion models can benefit from further Reinforcement Learning Finetuning (RLFT), which allows models to learn from the data generated by themselves and improve beyond their dataset limitations during SFT. To this end, we introduce Carve3D, an improved RLFT algorithm coupled with a novel Multi-view Reconstruction Consistency (MRC) metric, to enhance the consistency of multi-view diffusion models. To measure the MRC metric on a set of multi-view images, we compare them with their corresponding NeRF renderings at the same camera viewpoints. The resulting model, which we denote as Carve3DM, demonstrates superior multi-view consistency and NeRF reconstruction quality than existing models. Our results suggest that pairing SFT with Carve3D's RLFT is essential for developing multi-view-consistent diffusion models, mirroring the standard Large Language Model (LLM) alignment pipeline. Our code, training and testing data, and video results are available at: https://desaixie.github.io/carve-3d.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# FedQV: フェデレートラーニングにおける二次投票の活用

FedQV: Leveraging Quadratic Voting in Federated Learning ( http://arxiv.org/abs/2401.01168v2 )

ライセンス: Link先を確認
Tianyue Chu, Nikolaos Laoutaris, (参考訳) フェデレートラーニング(FL)は、それぞれのローカルラベルを開示することなく、異なるパーティが協力してグローバルモデルをトレーニングすることを可能にする。 FLの重要なステップは、地域のモデルを集約してグローバルなモデルを生産することであり、公共の意思決定や選挙と多くの類似点を共有している。 その文脈では、FLの重大な弱点、すなわち、その毒性攻撃に対する脆弱性は、1人の投票者(以下1p1v)原則の結果として、ほとんどの同時代のアグリゲーションルールを支えていると解釈できる。 本稿では,2次投票方式に基づく新しい集計アルゴリズムであるFedQVを提案する。 我々の理論的分析は、FedQVが、その人の真の価値に基づく入札が、最先端の手法に匹敵する収束率を達成する支配的な戦略である、という真理的なメカニズムであることを証明している。 さらに,複数の実世界のデータセットを用いた実証分析により,フェドQVの毒性攻撃に対する優れた性能が検証された。 また、評価スコアに従って、FedQVと不平等な投票「予算」を組み合わせることで、パフォーマンス上のメリットがさらに高くなることも示している。 最後に、FedQVはビザンチン汚染のプライバシー保護機構と簡単に組み合わせて、毒性攻撃とプライバシー攻撃の両方に対する堅牢性を高めることができることを示す。

Federated Learning (FL) permits different parties to collaboratively train a global model without disclosing their respective local labels. A crucial step of FL, that of aggregating local models to produce the global one, shares many similarities with public decision-making, and elections in particular. In that context, a major weakness of FL, namely its vulnerability to poisoning attacks, can be interpreted as a consequence of the one person one vote (henceforth 1p1v) principle underpinning most contemporary aggregation rules. In this paper, we propose FedQV, a novel aggregation algorithm built upon the quadratic voting scheme, recently proposed as a better alternative to 1p1v-based elections. Our theoretical analysis establishes that FedQV is a truthful mechanism in which bidding according to one's true valuation is a dominant strategy that achieves a convergence rate that matches those of state-of-the-art methods. Furthermore, our empirical analysis using multiple real-world datasets validates the superior performance of FedQV against poisoning attacks. It also shows that combining FedQV with unequal voting ``budgets'' according to a reputation score increases its performance benefits even further. Finally, we show that FedQV can be easily combined with Byzantine-robust privacy-preserving mechanisms to enhance its robustness against both poisoning and privacy attacks.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# 圧縮部分空間を用いたワンステップレイト・フュージョン・マルチビュークラスタリング

One-Step Late Fusion Multi-view Clustering with Compressed Subspace ( http://arxiv.org/abs/2401.01558v2 )

ライセンス: Link先を確認
Qiyuan Ou, Pei Zhang, Sihang Zhou, En Zhu, (参考訳) 後期核融合型マルチビュークラスタリング(LFMVC)は、計算速度とクラスタリング性能に優れたため、マルチビュークラスタリング(MVC)分野において急速に成長する手法のクラスとなっている。 既存のレイトフュージョンメソッドが直面しているボトルネックは、通常は平均的なカーネル関数に一致しているため、クラスタリングのパフォーマンスがデータセットの品質に大きく依存している点である。 もう一つの問題は、コンセンサス分割行列を取得して最終的な離散ラベルを得るのにその後のk平均クラスタリングが必要であり、その結果ラベル学習とクラスタ構造最適化プロセスの分離がこれらのモデルの整合性を制限することである。 上記の問題に対処するため,圧縮部分空間を用いたOne-Step Late Fusion Multi-view Clustering (OS-LFMVC-CS) という統合フレームワークを提案する。 具体的には、コンセンサス部分空間を用いて分割行列を最適化し、分割融合を最適化し、融合された分割行列を用いて離散ラベルの学習を指導する。 検証収束を伴う6段階反復最適化手法を提案する。 複数のデータセットに対する十分な実験により,提案手法の有効性と有効性を検証した。

Late fusion multi-view clustering (LFMVC) has become a rapidly growing class of methods in the multi-view clustering (MVC) field, owing to its excellent computational speed and clustering performance. One bottleneck faced by existing late fusion methods is that they are usually aligned to the average kernel function, which makes the clustering performance highly dependent on the quality of datasets. Another problem is that they require subsequent k-means clustering after obtaining the consensus partition matrix to get the final discrete labels, and the resulting separation of the label learning and cluster structure optimization processes limits the integrity of these models. To address the above issues, we propose an integrated framework named One-Step Late Fusion Multi-view Clustering with Compressed Subspace (OS-LFMVC-CS). Specifically, we use the consensus subspace to align the partition matrix while optimizing the partition fusion, and utilize the fused partition matrix to guide the learning of discrete labels. A six-step iterative optimization approach with verified convergence is proposed. Sufficient experiments on multiple datasets validate the effectiveness and efficiency of our proposed method.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# 大規模言語モデルを用いた材料科学文献からの実験的データのマイニング:評価研究

Mining experimental data from Materials Science literature with Large Language Models: an evaluation study ( http://arxiv.org/abs/2401.11052v2 )

ライセンス: Link先を確認
Luca Foppiano, Guillaume Lambard, Toshiyuki Amagasa, Masashi Ishii, (参考訳) 本研究は, GPT-3.5-Turbo, GPT-4, GPT-4-Turboなどの大規模言語モデル(LLMs)を用いて, 材料科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。 この目的のために、我々は主に情報抽出の2つの重要なタスクに焦点を当てている。 一 研究資料及び物性の命名された実体認識(NER) (ii)これらのエンティティ間の関係抽出(RE)。 材料インフォマティクス (MI) におけるデータセットの欠如により, 超伝導体研究に基づくSuperMatと, 汎用評価コーパスであるMeasEvalを用いて評価を行った。 これらのタスクの実行におけるLCMのパフォーマンスは、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。 本稿では, 物質科学情報アセスメントに固有の複雑さに対処するために, 化学式を標準化することを強調する, 複雑な物質表現の比較分析のための新しい方法論を提案する。 NERでは、LLMはゼロショットプロンプトでベースラインを上回り、少数ショットプロンプトで限定的な改善しか示さない。 しかし、GPT-3.5-TurboはREの適切な戦略で微調整され、ベースラインを含む全てのモデルを上回った。 微調整なしでは、GPT-4とGPT-4-Turboは、わずか2つの例が与えられた後に顕著な推論と関係抽出能力を示し、ベースラインを超えた。 全体として、LLMは概念を接続する上で関連する推論スキルを示すが、物質のような複雑なドメイン固有のエンティティを抽出する必要のあるタスクには、専門化されたモデルの方がよい選択である。 これらの知見は、将来の研究において、他の物質科学サブドメインに適用可能な最初のガイダンスを提供する。

This study is dedicated to assessing the capabilities of large language models (LLMs) such as GPT-3.5-Turbo, GPT-4, and GPT-4-Turbo in extracting structured information from scientific documents in materials science. To this end, we primarily focus on two critical tasks of information extraction: (i) a named entity recognition (NER) of studied materials and physical properties and (ii) a relation extraction (RE) between these entities. Due to the evident lack of datasets within Materials Informatics (MI), we evaluated using SuperMat, based on superconductor research, and MeasEval, a generic measurement evaluation corpus. The performance of LLMs in executing these tasks is benchmarked against traditional models based on the BERT architecture and rule-based approaches (baseline). We introduce a novel methodology for the comparative analysis of intricate material expressions, emphasising the standardisation of chemical formulas to tackle the complexities inherent in materials science information assessment. For NER, LLMs fail to outperform the baseline with zero-shot prompting and exhibit only limited improvement with few-shot prompting. However, a GPT-3.5-Turbo fine-tuned with the appropriate strategy for RE outperforms all models, including the baseline. Without any fine-tuning, GPT-4 and GPT-4-Turbo display remarkable reasoning and relationship extraction capabilities after being provided with merely a couple of examples, surpassing the baseline. Overall, the results suggest that although LLMs demonstrate relevant reasoning skills in connecting concepts, specialised models are currently a better choice for tasks requiring extracting complex domain-specific entities like materials. These insights provide initial guidance applicable to other materials science sub-domains in future work.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# TriSAM: VEM画像におけるゼロショット皮質血管セグメンテーションのためのTri-Plane SAM

TriSAM: Tri-Plane SAM for zero-shot cortical blood vessel segmentation in VEM images ( http://arxiv.org/abs/2401.13961v2 )

ライセンス: Link先を確認
Jia Wan, Wanhua Li, Jason Ken Adhinarta, Atmadeep Banerjee, Evelina Sjostedt, Jingpeng Wu, Jeff Lichtman, Hanspeter Pfister, Donglai Wei, (参考訳) マクロおよびメソスケールでのイメージング技術は、かなりの注意とリソースを惹きつけてきたが、複雑な血管の詳細を明らかにすることができるマイクロスケールのVEMイメージングは、必要なベンチマーク基盤を欠いていた。 本稿では,大容量電子顕微鏡(VEM)画像における皮質血管のセグメンテーションに特化して設計された,これまでで最大規模の公開ベンチマークである \textbf{BvEM} を導入することで,神経画像の分野における大きなギャップを解消する。 私たちのBvEMベンチマークは、成体マウス、マカク、ヒトの3種の哺乳類のVEM画像量に基づいています。 半自動,手動,品質管理のプロセスを通じて,高画質の3Dセグメンテーションを保証し,高精細度,高精細度,高精細度,高精細度の血管造影を行った。 さらに,TriSAMと呼ばれる,強力なセグメンテーションモデルSAMを3次元セグメンテーションに用いるゼロショット皮質血管セグメンテーション法を開発した。 SAMを2次元から3次元のボリュームセグメンテーションに拡張するために、TriSAMは、特定の画像平面の信頼性を活用しながら、潜在的旋回点を識別する多種追跡フレームワークを使用している。 このアプローチは,モデルトレーニングや微調整を伴わない長期3次元血管セグメンテーションを効果的に実現する。 実験の結果,TriSAMは3種のBvEMベンチマークにおいて優れた性能を示した。

While imaging techniques at macro and mesoscales have garnered substantial attention and resources, microscale VEM imaging, capable of revealing intricate vascular details, has lacked the necessary benchmarking infrastructure. In this paper, we address a significant gap in the field of neuroimaging by introducing the largest-to-date public benchmark, \textbf{BvEM}, designed specifically for cortical blood vessel segmentation in volume electron microscopy (VEM) images. Our BvEM benchmark is based on VEM image volumes from three mammal species: adult mouse, macaque, and human. We standardized the resolution, addressed imaging variations, and meticulously annotated blood vessels through semi-automatic, manual, and quality control processes, ensuring high-quality 3D segmentation. Furthermore, we developed a zero-shot cortical blood vessel segmentation method named TriSAM, which leverages the powerful segmentation model SAM for 3D segmentation. To extend SAM from 2D to 3D volume segmentation, TriSAM employs a multi-seed tracking framework, leveraging the reliability of certain image planes for tracking while using others to identify potential turning points. This approach effectively achieves long-term 3D blood vessel segmentation without model training or fine-tuning. Experimental results show that TriSAM achieved superior performances on the BvEM benchmark across three species.
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# SGV3D:視覚に基づく道路3次元物体検出のためのシナリオ一般化

SGV3D:Towards Scenario Generalization for Vision-based Roadside 3D Object Detection ( http://arxiv.org/abs/2401.16110v2 )

ライセンス: Link先を確認
Lei Yang, Xinyu Zhang, Jun Li, Li Wang, Chuang Zhang, Li Ju, Zhiwei Li, Yang Shen, (参考訳) 道路沿いの認識は、視覚範囲を超えて認識能力を拡張し、盲点に対処することで、自動運転車の安全性を大幅に向上させることができる。 しかし、現在の最先端の視覚に基づく道路側検出法は、ラベル付きシーンでは精度が高いが、新しいシーンでは性能が劣る。 これは、ロードサイドカメラが設置後も静止状態のままであり、単一のシーンからしかデータを収集できないためである。 本稿では,SGV3Dと呼ばれる,視覚に基づく道路側3次元物体検出のための,革新的なシナリオ一般化フレームワークを提案する。 具体的には、背景強調モジュール(BSM)を用いて、2次元から鳥の視線投影における背景特徴を減衰させることにより、視覚中心のパイプラインにおける背景過適合を緩和する。 さらに、新しいシーンからラベル付けされていない画像を用いて、半教師付きデータ生成パイプライン(SSDG)を導入することにより、様々なカメラポーズを持つ多様なインスタンスフォアグラウンドが生成され、特定のカメラポーズに過適合するリスクに対処する。 提案手法を2つの大規模道路側ベンチマークで評価した。 我々の手法は、自動車の+42.57%、歩行者の+5.87%、自転車の+14.89%といった新しいシーンにおいて、従来のすべての手法をはるかに上回っている。 大規模なRope3Dヘテロログのベンチマークでは、車では14.48%、大型車では12.41%という顕著な上昇を達成した。 我々は,シナリオ一般化の能力を強調し,道路側知覚技術の探究に貢献することを目的としている。 コードはhttps://github.com/yanglei18/SGV3Dで入手できる。

Roadside perception can greatly increase the safety of autonomous vehicles by extending their perception ability beyond the visual range and addressing blind spots. However, current state-of-the-art vision-based roadside detection methods possess high accuracy on labeled scenes but have inferior performance on new scenes. This is because roadside cameras remain stationary after installation and can only collect data from a single scene, resulting in the algorithm overfitting these roadside backgrounds and camera poses. To address this issue, in this paper, we propose an innovative Scenario Generalization Framework for Vision-based Roadside 3D Object Detection, dubbed SGV3D. Specifically, we employ a Background-suppressed Module (BSM) to mitigate background overfitting in vision-centric pipelines by attenuating background features during the 2D to bird's-eye-view projection. Furthermore, by introducing the Semi-supervised Data Generation Pipeline (SSDG) using unlabeled images from new scenes, diverse instance foregrounds with varying camera poses are generated, addressing the risk of overfitting specific camera poses. We evaluate our method on two large-scale roadside benchmarks. Our method surpasses all previous methods by a significant margin in new scenes, including +42.57% for vehicle, +5.87% for pedestrian, and +14.89% for cyclist compared to BEVHeight on the DAIR-V2X-I heterologous benchmark. On the larger-scale Rope3D heterologous benchmark, we achieve notable gains of 14.48% for car and 12.41% for large vehicle. We aspire to contribute insights on the exploration of roadside perception techniques, emphasizing their capability for scenario generalization. The code will be available at https://github.com/yanglei18/SGV3D
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# TeenyTinyLlama: ブラジルでトレーニングされたオープンソースの小さな言語モデル

TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese ( http://arxiv.org/abs/2401.16640v2 )

ライセンス: Link先を確認
Nicholas Kluge Corrêa, Sophia Falk, Shiza Fatimah, Aniket Sen, Nythamar de Oliveira, (参考訳) 大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。 ほとんどのLLMは英語のような高リソース言語で訓練されているが、多言語モデルは一般的にモノリンガル言語よりも性能が低い。 さらに、多言語基盤の側面は、計算要求やライセンス制度のような副産物を制限することもある。 本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発,その限界,そのメリットについて述べる。 これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。 私たちは、GitHub上の寛容なApache 2.0ライセンスと、コミュニティの使用とさらなる開発のためにHugging Faceでそれらをリリースしています。 https://github.com/Nkluge-correa/TeenyTinyLlamaを参照。

Large language models (LLMs) have significantly advanced natural language processing, but their progress has yet to be equal across languages. While most LLMs are trained in high-resource languages like English, multilingual models generally underperform monolingual ones. Additionally, aspects of their multilingual foundation sometimes restrict the byproducts they produce, like computational demands and licensing regimes. In this study, we document the development of open-foundation models tailored for use in low-resource settings, their limitations, and their benefits. This is the TeenyTinyLlama pair: two compact models for Brazilian Portuguese text generation. We release them under the permissive Apache 2.0 license on GitHub and Hugging Face for community use and further development. See https://github.com/Nkluge-correa/TeenyTinyLlama
翻訳日:2024-04-10 19:47:12 公開日:2024-04-09
# BlockFusion:潜伏三面体外挿による拡張可能な3次元シーン生成

BlockFusion: Expandable 3D Scene Generation using Latent Tri-plane Extrapolation ( http://arxiv.org/abs/2401.17053v3 )

ライセンス: Link先を確認
Zhennan Wu, Yang Li, Han Yan, Taizhang Shang, Weixuan Sun, Senbo Wang, Ruikai Cui, Weizhe Liu, Hiroyuki Sato, Hongdong Li, Pan Ji, (参考訳) 我々は,3次元シーンを単位ブロックとして生成し,新たなブロックをシームレスに組み込んでシーンを拡張する拡散モデルであるBlockFusionを提案する。 BlockFusionは、完全な3Dシーンメッシュからランダムにトリミングされた3Dブロックのデータセットを使用してトレーニングされる。 ブロックごとのフィッティングにより、全てのトレーニングブロックは、幾何学的特徴を含む三面体と、符号付き距離値を復号する多層パーセプトロン(MLP)のハイブリッドニューラルネットワークに変換される。 三面体を遅延三面体空間に圧縮するために変分オートエンコーダを用いる。 遅延表現に適用された拡散は、高品質で多様な3Dシーン生成を可能にする。 世代を拡大するためには、空のブロックを付加して現在のシーンと重なるようにし、既存の潜伏三葉機を外挿して新しいブロックをポップアップさせるだけでよい。 補間は、重なり合う三面体の特徴サンプルをデノナイジングイテレーション中に生成プロセスに条件付けすることで行われる。 潜在三面体外挿は、既存のシーンと調和してブレンドする意味論的および幾何学的に意味のある遷移を生み出す。 シーン要素の配置と配置を制御するために2次元レイアウトコンディショニング機構を使用する。 実験結果から,BlockFusionは屋内および屋外の両方のシナリオにおいて,前例のない高品質な形状の多様で幾何学的に整合性があり,非有界な大型3Dシーンを生成できることが示唆された。

We present BlockFusion, a diffusion-based model that generates 3D scenes as unit blocks and seamlessly incorporates new blocks to extend the scene. BlockFusion is trained using datasets of 3D blocks that are randomly cropped from complete 3D scene meshes. Through per-block fitting, all training blocks are converted into the hybrid neural fields: with a tri-plane containing the geometry features, followed by a Multi-layer Perceptron (MLP) for decoding the signed distance values. A variational auto-encoder is employed to compress the tri-planes into the latent tri-plane space, on which the denoising diffusion process is performed. Diffusion applied to the latent representations allows for high-quality and diverse 3D scene generation. To expand a scene during generation, one needs only to append empty blocks to overlap with the current scene and extrapolate existing latent tri-planes to populate new blocks. The extrapolation is done by conditioning the generation process with the feature samples from the overlapping tri-planes during the denoising iterations. Latent tri-plane extrapolation produces semantically and geometrically meaningful transitions that harmoniously blend with the existing scene. A 2D layout conditioning mechanism is used to control the placement and arrangement of scene elements. Experimental results indicate that BlockFusion is capable of generating diverse, geometrically consistent and unbounded large 3D scenes with unprecedented high-quality shapes in both indoor and outdoor scenarios.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# CORE:認知的リプレイによる継続的な学習における破滅的予測の軽減

CORE: Mitigating Catastrophic Forgetting in Continual Learning through Cognitive Replay ( http://arxiv.org/abs/2402.01348v2 )

ライセンス: Link先を確認
Jianshu Zhang, Yankai Fu, Ziheng Peng, Dongyu Yao, Kun He, (参考訳) 本稿では,既存の知識を保存し,新たな情報を同化するためのモデルの能力を強調する,連続学習(CL)における破滅的な忘れを著しく緩和する,新たな視点を紹介する。 現在のリプレイベースのメソッドはすべてのタスクとデータサンプルを平等に扱うため、リプレイバッファの可能性を完全に活用することはできない。 これに対して,人間の認知的レビュープロセスからインスピレーションを得た認知的リプレイ(CORE)を提案する。 COREには、Adaptive Quantity AllocationとQuality-Focused Data Selectionの2つの重要な戦略が含まれている。 前者は、その忘れ率に基づいて各タスクのリプレイバッファ割り当てを適応的に調整し、後者は、各タスクの特徴をバッファ内にカプセル化する代表データを含むことを保証する。 スプリットCIFAR10の平均精度は37.95%で、最良基準法を6.52%上回っている。 さらに、最上位のベースラインに比べて、最も貧弱なパフォーマンスタスクの精度を6.30%向上させる。 コードはhttps://github.com/sterzhang/COREで公開されている。

This paper introduces a novel perspective to significantly mitigate catastrophic forgetting in continuous learning (CL), which emphasizes models' capacity to preserve existing knowledge and assimilate new information. Current replay-based methods treat every task and data sample equally and thus can not fully exploit the potential of the replay buffer. In response, we propose COgnitive REplay (CORE), which draws inspiration from human cognitive review processes. CORE includes two key strategies: Adaptive Quantity Allocation and Quality-Focused Data Selection. The former adaptively modulates the replay buffer allocation for each task based on its forgetting rate, while the latter guarantees the inclusion of representative data that best encapsulates the characteristics of each task within the buffer. Our approach achieves an average accuracy of 37.95% on split-CIFAR10, surpassing the best baseline method by 6.52%. Additionally, it significantly enhances the accuracy of the poorest-performing task by 6.30% compared to the top baseline. Code is available at https://github.com/sterzhang/CORE.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 不規則XXZモデルにおける熱雪崩の発生

Catching thermal avalanches in the disordered XXZ model ( http://arxiv.org/abs/2402.01362v2 )

ライセンス: Link先を確認
Tomasz Szołdra, Piotr Sierant, Maciej Lewenstein, Jakub Zakrzewski, (参考訳) 弱歪スピン鎖に接するランダム磁場を持つXXZモデルについて検討し, 有限熱浴として機能する。 我々は、熱浴とXXZスピン鎖の相互作用に関するフェルミの黄金律を、系の熱化のための非摂動量子雪崩シナリオと対比する。 2点相関関数を用いて風呂の隣の熱処理領域の程度を$\xi_d$と定義する。 時間の対数に比例して$\xi_d$の非有界成長は雪崩の兆候である。 このような挙動は、XXZスピン鎖のエルゴードおよび臨界状態における一般的な初期状態について数値的に確認するので、系の熱化を意味する。 多体局在状態では、特に準備された初期状態に対してアバランチの明確な終了が観察され、驚くべきことに、一般的な初期生成状態には見えない。 さらに, 運動の局所積分の局所化長を抽出し, 弱乱れたXXZ鎖からなる浴槽が, ランダム行列のガウス直交アンサンブルからハミルトニアンによってモデル化された浴槽としてシステムに類似した効果を持つことを示す。 先行研究の結果についてもコメントする(Phys)。 B 108, L020201 (2023) は、観測された熱化はシステムの外部の駆動によるものであり、自律モデルでは起こらないと主張した。 我々の研究は、量子雪崩の実験的にアクセス可能なシグネチャを明らかにし、雪崩の終了を観測できる条件を特定する。

We study the XXZ model with a random magnetic field in contact with a weakly disordered spin chain, acting as a finite thermal bath. We revise Fermi's golden rule description of the interaction between the thermal bath and the XXZ spin chain, contrasting it with a nonperturbative quantum avalanche scenario for the thermalization of the system. We employ two-point correlation functions to define the extent $\xi_d$ of the thermalized region next to the bath. Unbounded growth of $\xi_d$ proportional to the logarithm of time or faster is a signature of an avalanche. Such behavior signifies the thermalization of the system, as we confirm numerically for a generic initial state in the ergodic and critical regimes of the XXZ spin chain. In the many-body localized regime, a clear termination of avalanches is observed for specifically prepared initial states and, surprisingly, is not visible for generic initial product states. Additionally, we extract the localization length of the local integrals of motion and show that a bath made out of a weakly disordered XXZ chain has a similar effect on the system as a bath modeled by a Hamiltonian from a Gaussian orthogonal ensemble of random matrices. We also comment on the result of the earlier study (Phys. Rev. B 108, L020201 (2023)), arguing that the observed thermalization is due to external driving of the system and does not occur in the autonomous model. Our work reveals experimentally accessible signatures of quantum avalanches and identifies conditions under which termination of the avalanches may be observed.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 近決定論的回帰における相違不確かさ

Misspecification uncertainties in near-deterministic regression ( http://arxiv.org/abs/2402.01810v2 )

ライセンス: Link先を確認
Thomas D Swinburne, Danny Perez, (参考訳) 期待損失は、学習のための堅牢なPAC-Bayes境界を持つモデル一般化誤差の上限である。 しかし、損失最小化は、モデルが正確に観測を再現できない不特定性を無視することが知られている。 これにより、大容量データにおけるパラメータの不確実性、すなわちパラメータのパラメータ化の限界が大幅に過小評価される。 本研究では, ほぼ決定論的, 不特定, 過パラメトリケートされたサロゲートモデルの一般化誤差を解析した。 この制約を尊重するアンサンブル \textit{ansatz} を導出するため、線形モデルでは最小限のオーバーヘッドが生じる。 原子論的機械学習における高次元データセットに適用する前に、モデル問題に対して効率的なアプローチが示される。 不特定性からのパラメータの不確実性は、過度なパラメータ化の限界に留まり、正確な予測とテストエラーのバウンディングをもたらす。

The expected loss is an upper bound to the model generalization error which admits robust PAC-Bayes bounds for learning. However, loss minimization is known to ignore misspecification, where models cannot exactly reproduce observations. This leads to significant underestimates of parameter uncertainties in the large data, or underparameterized, limit. We analyze the generalization error of near-deterministic, misspecified and underparametrized surrogate models, a regime of broad relevance in science and engineering. We show posterior distributions must cover every training point to avoid a divergent generalization error and derive an ensemble \textit{ansatz} that respects this constraint, which for linear models incurs minimal overhead. The efficient approach is demonstrated on model problems before application to high dimensional datasets in atomistic machine learning. Parameter uncertainties from misspecification survive in the underparametrized limit, giving accurate prediction and bounding of test errors.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 離散時間量子ウォークの量子コンピュータへの効率的な実装

Efficient implementation of discrete-time quantum walks on quantum computers ( http://arxiv.org/abs/2402.01854v2 )

ライセンス: Link先を確認
Luca Razzoli, Gabriele Cenedese, Maria Bondani, Giuliano Benenti, (参考訳) 量子ウォークは量子計算の普遍的なモデルであり、特定の量子アルゴリズムの高速化を提供することが証明されている。 離散時間量子ウォーク(DTQW)モデルは、その離散性のため、回路実装に最も適した候補の1つである。 しかし、現在の実装は通常、大きなサイズと深さの量子回路によって特徴づけられるため、計算コストが高くなり、現在の量子コンピュータで確実に実装できる時間ステップの数を著しく制限する。 本研究では,条件シフト演算子の対角化に基づくDTQWを2ドル^n$サイクルで実装した,効率的でスケーラブルな量子回路を提案する。 DTQWの時間ステップ$t$の場合、提案回路は量子フーリエ変換に基づく現在の最も効率的な実装の$O(n^2 + nt)$2量子ゲートしか必要としない。 提案回路をIBM量子デバイス上で,アダマールDTQWに対して,周期的ダイナミクスと最大絡み合った単一粒子状態の繰り返し発生を特徴とする4ドルおよび8ドルサイクルで試験した。 実験結果は、少数の時間ステップの体制を超えて、信頼性の高い実装と量子コンピュータへの利用の道を開いた。

Quantum walks have proven to be a universal model for quantum computation and to provide speed-up in certain quantum algorithms. The discrete-time quantum walk (DTQW) model, among others, is one of the most suitable candidates for circuit implementation, due to its discrete nature. Current implementations, however, are usually characterized by quantum circuits of large size and depth, which leads to a higher computational cost and severely limits the number of time steps that can be reliably implemented on current quantum computers. In this work, we propose an efficient and scalable quantum circuit implementing the DTQW on the $2^n$-cycle based on the diagonalization of the conditional shift operator. For $t$ time-steps of the DTQW, the proposed circuit requires only $O(n^2 + nt)$ two-qubit gates compared to the $O(n^2 t)$ of the current most efficient implementation based on quantum Fourier transforms. We test the proposed circuit on an IBM quantum device for a Hadamard DTQW on the $4$- and $8$-cycle characterized by periodic dynamics and recurrent generation of maximally entangled single-particle states. Experimental results are meaningful well beyond the regime of few time steps, paving the way for reliable implementation and use on quantum computers.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# コード生成ツールとしてのChatGPTユーザビリティの評価

Evaluation of ChatGPT Usability as A Code Generation Tool ( http://arxiv.org/abs/2402.03130v2 )

ライセンス: Link先を確認
Tanha Miah, Hong Zhu, (参考訳) 機械学習(ML)技術の急速な進歩により、大規模言語モデル(LLM)は、自然言語仕様からプログラムコードを生成するインテリジェントなツールとして、ますます研究されている。 しかし、LLMの既存の評価は、人間と比較して能力に重点を置いている。 LLMをソフトウェア生産に使用するかどうかを決める際に、それらのユーザビリティを評価することが望ましい。 本稿では,ユーザ中心の手法を提案する。 LLMの使用を模倣する多段階的なプロセスのテスト、ユーザビリティを反映した品質特性のセットに基づくLCM生成ソリューションの測定、LLMをツールとして使用する際のユーザエクスペリエンスに基づいたパフォーマンス評価などである。 本稿では,この手法をR言語用コード生成ツールとしてのChatGPTユーザビリティ評価に適用する。 実験の結果,ChatGPTはハードプログラミングタスクではフェールするが,Rプログラムコードを生成するのに非常に有用であることがわかった。 ユーザエクスペリエンスは、全体の平均試行回数 1.61 であり、平均完了時間は 47.02 秒である。 実験の結果、ユーザビリティの最も弱い側面は簡潔さであり、スコアは5.80点中3.80点であることがわかった。 また,コード生成にChatGPTを使用するスキルを向上させるために,経験から学ぶことは困難であることを示す。

With the rapid advance of machine learning (ML) technology, large language models (LLMs) are increasingly explored as an intelligent tool to generate program code from natural language specifications. However, existing evaluations of LLMs have focused on their capabilities in comparison with humans. It is desirable to evaluate their usability when deciding on whether to use a LLM in software production. This paper proposes a user centric method. It includes metadata in the test cases of a benchmark to describe their usages, conducts testing in a multi-attempt process that mimic the uses of LLMs, measures LLM generated solutions on a set of quality attributes that reflect usability, and evaluates the performance based on user experiences in the uses of LLMs as a tool. The paper reports an application of the method in the evaluation of ChatGPT usability as a code generation tool for the R programming language. Our experiments demonstrated that ChatGPT is highly useful for generating R program code although it may fail on hard programming tasks. The user experiences are good with overall average number of attempts being 1.61 and the average time of completion being 47.02 seconds. Our experiments also found that the weakest aspect of usability is conciseness, which has a score of 3.80 out of 5. Our experiment also shows that it is hard for human developers to learn from experiences to improve the skill of using ChatGPT to generate code.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# SIR:室内シーンのシャドウを分解可能なマルチビュー逆レンダリング

SIR: Multi-view Inverse Rendering with Decomposable Shadow for Indoor Scenes ( http://arxiv.org/abs/2402.06136v3 )

ライセンス: Link先を確認
Xiaokang Wei, Zhuoman Liu, Yan Luximon, (参考訳) SIRは,多視点データを用いた屋内シーンの逆レンダリングにおける異種影の分解に有効な手法であり,材料や照明条件を正確に分解する上での課題に対処する。 複雑な照明環境における影の忠実さに苦しむ従来の手法とは異なり、我々の手法は未知の光位置下での物質推定における現実性向上のための影を明示的に学習する。 提案したHDR画像を入力として利用し、SIRは総合的なシーン表現のためにSDFベースのニューラル放射場を使用する。 次に,SIRは影項と3段階の物質推定手法を統合し,SVBRDFの品質を向上する。 具体的には、BRDF正則化によって補完される差別化可能な影を学習し、逆レンダリング精度を最適化するように設計されている。 室内の合成シーンと実世界のシーンの両方における大規模な実験は、定量測定と定性解析の両方において、既存の手法よりも優れたSIR性能を示す。 SIRの大幅な分解能力は、フリービューのリライト、オブジェクト挿入、材料置換といった高度な編集機能を実現する。 コードとデータはhttps://xiaokangwei.github.io/SIR/で公開されている。

We propose SIR, an efficient method to decompose differentiable shadows for inverse rendering on indoor scenes using multi-view data, addressing the challenges in accurately decomposing the materials and lighting conditions. Unlike previous methods that struggle with shadow fidelity in complex lighting environments, our approach explicitly learns shadows for enhanced realism in material estimation under unknown light positions. Utilizing posed HDR images as input, SIR employs an SDF-based neural radiance field for comprehensive scene representation. Then, SIR integrates a shadow term with a three-stage material estimation approach to improve SVBRDF quality. Specifically, SIR is designed to learn a differentiable shadow, complemented by BRDF regularization, to optimize inverse rendering accuracy. Extensive experiments on both synthetic and real-world indoor scenes demonstrate the superior performance of SIR over existing methods in both quantitative metrics and qualitative analysis. The significant decomposing ability of SIR enables sophisticated editing capabilities like free-view relighting, object insertion, and material replacement. The code and data are available at https://xiaokangwei.github.io/SIR/.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 深部平衡アルゴリズム共振器

The Deep Equilibrium Algorithmic Reasoner ( http://arxiv.org/abs/2402.06445v2 )

ライセンス: Link先を確認
Dobrik Georgiev, Pietro Liò, Davide Buffelli, (参考訳) ニューラルネットワーク推論に関する最近の研究は、グラフニューラルネットワーク(GNN)が古典的なアルゴリズムの実行を学習できることを実証している。 しかし、常に繰り返しアーキテクチャを使用しており、GNNの各イテレーションはアルゴリズムのイテレーションと一致している。 アルゴリズムの解はしばしば平衡であるので、平衡を直接見つけてアルゴリズムの問題を解決するためにネットワークを訓練できることを予想し、実証的に検証する。 ここで注意すべき点は、各GNNイテレーションとアルゴリズムのステップを一致させる必要がないことだ。

Recent work on neural algorithmic reasoning has demonstrated that graph neural networks (GNNs) could learn to execute classical algorithms. Doing so, however, has always used a recurrent architecture, where each iteration of the GNN aligns with an algorithm's iteration. Since an algorithm's solution is often an equilibrium, we conjecture and empirically validate that one can train a network to solve algorithmic problems by directly finding the equilibrium. Note that this does not require matching each GNN iteration with a step of the algorithm.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 推論的資源セマンティクス

Inferentialist Resource Semantics ( http://arxiv.org/abs/2402.09217v3 )

ライセンス: Link先を確認
Alexander V. Gheorghiu, Tao Gu, David J. Pym, (参考訳) システムモデリングでは、システムは典型的にどのプロセスが実行されるかを示すリソースから構成される。 情報学における論理学の重要な用途の1つは、それらの振る舞いと性質を推論(おそらく自動化)するためにそのようなシステムをモデル化することである。 この目的のために、システムの資源と状態の観点から論理式を解釈する必要がある;そのような解釈は論理の資源意味論と呼ばれる。 本稿では、推論的行動の観点から意味が与えられるという推論主義が、資源意味論の汎用的で表現力豊かな枠組みをいかに実現しているかを示す。 特に、推論主義は、バンドル・インプリケーションの論理のアサーションに基づくアプローチ、プログラム検証の基礎(例えば、分離論理の基礎)、線形論理の有名な使用数を読むことをシームレスに取り入れている。 この統合により、共有および分離されたリソースを直感的で親しみやすい方法で推論できるだけでなく、システムコンポーネントの構成とインターフェースについても推論できる。

In systems modelling, a system typically comprises located resources relative to which processes execute. One important use of logic in informatics is in modelling such systems for the purpose of reasoning (perhaps automated) about their behaviour and properties. To this end, one requires an interpretation of logical formulae in terms of the resources and states of the system; such an interpretation is called a resource semantics of the logic. This paper shows how inferentialism -- the view that meaning is given in terms of inferential behaviour -- enables a versatile and expressive framework for resource semantics. Specifically, how inferentialism seamlessly incorporates the assertion-based approach of the logic of Bunched Implications, foundational in program verification (e.g., as the basis of Separation Logic), and the renowned number-of-uses reading of Linear Logic. This integration enables reasoning about shared and separated resources in intuitive and familiar ways, as well as about the composition and interfacing of system components.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 道路グラフ生成装置:GPSデータによる建設現場の道路マッピング

Road Graph Generator: Mapping roads at construction sites from GPS data ( http://arxiv.org/abs/2402.09919v2 )

ライセンス: Link先を確認
Katarzyna Michałowska, Helga Margrete Bodahl Holmestad, Signe Riemer-Sørensen, (参考訳) 本稿では,GPS軌道から地図構築地点への道路推定手法を提案する。 この課題は、建設機械の非標準運動パターンが、確立した道路における典型的な車両の交通から著しく逸脱しているため、独特な課題である。 提案手法は,まず重要な決定点として機能する道路網の交差点を識別し,それをエッジで接続してグラフを生成し,その後,計画やタスク割り当てに利用することができる。 ノルウェーの実際の建設現場で道路を地図化することで,そのアプローチを実証する。 この方法は、マップの4つのより複雑なセグメントで検証される。 実験では,道路の交点検出と道路推定において,ノイズや低騒音で完全精度を達成し,GPSの更新を一貫して欠いた地図領域では,その性能が低下した。

We propose a new method for inferring roads from GPS trajectories to map construction sites. This task presents a unique challenge due to the erratic and non-standard movement patterns of construction machinery, which significantly diverge from typical vehicular traffic on established roads. Our proposed method first identifies intersections in the road network that serve as critical decision points, and then connects them with edges to produce a graph, which can subsequently be used for planning and task-allocation. We demonstrate the approach by mapping roads at a real-life construction site in Norway. The method is validated on four increasingly complex segments of the map. In our tests, the method achieved perfect accuracy in detecting intersections and inferring roads in data with no or low noise, while its performance was reduced in map areas with significant noise and consistently missing GPS updates.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# スパイクニューラルネットワークにおける高速変化の学習

Learning fast changing slow in spiking neural networks ( http://arxiv.org/abs/2402.10069v2 )

ライセンス: Link先を確認
Cristiano Capone, Paolo Muratore, (参考訳) 強化学習 (Reinforcement Learning, RL) は実生活問題に適用する場合, 環境との相互作用が限られているため, 利用可能なデータの不足が主な原因となっている。 この制限は、RLがしばしば効果的な学習のためにかなりの量のデータを必要とするという事実によって悪化する。 リカレントスパイクネットワークでRLを実装すると複雑さはさらに増大し、スパイクによって引き起こされる固有のノイズは困難を増す。 生涯学習機械は、本質的に可塑性安定パラドックスを解決しなければならない。 新たな知識の獲得と安定性の維持のバランスを取ることは、人工エージェントにとって不可欠である。 この課題に対処するために、機械学習技術からインスピレーションを得て、lf-cs(学習速度が急速に変化する)と呼ばれる、生物的にもっとも有効なポリシー最適化の実装を導入する。 第1に、現在の方針の変更を必要とせず、新しい情報を新しい方針に同化する能力、第2に、政策のばらつきを経験せずに経験を再現する能力である。 さらに,他の経験リプレイ(ER)手法と対比した場合,オンライン環境での計算効率が向上することを示す。 提案手法は学習効率を向上し,ニューロモルフィックおよび実世界の応用に対する潜在的な影響を示す。

Reinforcement learning (RL) faces substantial challenges when applied to real-life problems, primarily stemming from the scarcity of available data due to limited interactions with the environment. This limitation is exacerbated by the fact that RL often demands a considerable volume of data for effective learning. The complexity escalates further when implementing RL in recurrent spiking networks, where inherent noise introduced by spikes adds a layer of difficulty. Life-long learning machines must inherently resolve the plasticity-stability paradox. Striking a balance between acquiring new knowledge and maintaining stability is crucial for artificial agents. To address this challenge, we draw inspiration from machine learning technology and introduce a biologically plausible implementation of proximal policy optimization, referred to as lf-cs (learning fast changing slow). Our approach results in two notable advancements: firstly, the capacity to assimilate new information into a new policy without requiring alterations to the current policy; and secondly, the capability to replay experiences without experiencing policy divergence. Furthermore, when contrasted with other experience replay (ER) techniques, our method demonstrates the added advantage of being computationally efficient in an online setting. We demonstrate that the proposed methodology enhances the efficiency of learning, showcasing its potential impact on neuromorphic and real-world applications.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v5 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt, (参考訳) 因果推論は、堅牢で汎用的な知性において基本的な役割を担っていると長い間推測されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納的バイアスが十分であるかどうかは不明である。 この疑問に答え、大規模な分布シフトの下で、後悔の束を満足できる任意のエージェントが、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学んだに違いないことを示す。 転帰学習や因果推論など,いくつかの研究領域において,この結果がもたらす意味について論じる。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# データ非依存的な取得質量分析のためのトランスフォーマーに基づくデノボペプチドシークエンシング

Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry ( http://arxiv.org/abs/2402.11363v2 )

ライセンス: Link先を確認
Shiva Ebrahimi, Xuan Guo, (参考訳) タンデム質量分析法 (Tandem mass spectrometry, MS/MS) は、生物試料中のタンパク質含量を包括的に分析する主要なハイスループット技術である。 この手法は、プロテオミクスの進歩を駆動する土台である。 近年、データ非依存獲得(DIA)戦略において、前駆体イオンの公平かつ非標的の断片化を促進する重要な取り組みが進められている。 DIAが生成するMS/MSスペクトルは、その本質的に高い多重性のため、強い障害となる。 各スペクトルは、複数の前駆体ペプチドに由来する断片化された生成物イオンをカプセル化する。 この複雑さは、デ・ノボペプチド/タンパク質のシークエンシングにおいて特に深刻な課題となり、現在の方法では多重結合に対処できない。 本稿では,変換器アーキテクチャに基づくディープラーニングモデルであるDiaTransを紹介する。 DIA質量分析データからペプチド配列を解読する。 その結果,DeepNovo-DIA や PepNet など,既存の STOA 手法よりも大幅に改善されていることがわかった。 カサノボ-DIAの精度は15.14%から34.8%に向上し、アミノ酸レベルでは11.62%から31.94%にリコールされ、ペプチドレベルでは59%から81.36%に向上する。 DIAデータとDiaTransモデルを統合することで、新しいペプチドの発見と、より包括的な生物学的サンプルのプロファイリングが期待できる。 Casanovo-DIAはGNU GPLライセンスのもと、https://github.com/Biocomputing-Research-Group/DiaTransで無料で利用可能である。

Tandem mass spectrometry (MS/MS) stands as the predominant high-throughput technique for comprehensively analyzing protein content within biological samples. This methodology is a cornerstone driving the advancement of proteomics. In recent years, substantial strides have been made in Data-Independent Acquisition (DIA) strategies, facilitating impartial and non-targeted fragmentation of precursor ions. The DIA-generated MS/MS spectra present a formidable obstacle due to their inherent high multiplexing nature. Each spectrum encapsulates fragmented product ions originating from multiple precursor peptides. This intricacy poses a particularly acute challenge in de novo peptide/protein sequencing, where current methods are ill-equipped to address the multiplexing conundrum. In this paper, we introduce DiaTrans, a deep-learning model based on transformer architecture. It deciphers peptide sequences from DIA mass spectrometry data. Our results show significant improvements over existing STOA methods, including DeepNovo-DIA and PepNet. Casanovo-DIA enhances precision by 15.14% to 34.8%, recall by 11.62% to 31.94% at the amino acid level, and boosts precision by 59% to 81.36% at the peptide level. Integrating DIA data and our DiaTrans model holds considerable promise to uncover novel peptides and more comprehensive profiling of biological samples. Casanovo-DIA is freely available under the GNU GPL license at https://github.com/Biocomputing-Research-Group/DiaTrans.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 逆直感的:大きな言語モデルは、思った以上に知識グラフを理解できる

Counter-intuitive: Large Language Models Can Better Understand Knowledge Graphs Than We Thought ( http://arxiv.org/abs/2402.11541v2 )

ライセンス: Link先を確認
Xinbang Dai, Yuncheng Hua, Tongtong Wu, Yang Sheng, Qiu Ji, Guilin Qi, (参考訳) 大規模言語モデル(LLM)の推論能力の向上と知識グラフ(KG)の利用による幻覚の低減は広く注目されているが、LLMがKGのオンザフライでの構造化知識を統合する方法の探求はいまだ不十分である。 研究者はしばしば、KGの知識を理解する能力を備えたLLMに、KG埋め込みとLLMパラメータを併用する。 しかし、このリソースハーグリートレーニングパラダイムはモデル学習コストを大幅に向上させ、非オープンソースでブラックボックスのLCMにも適さない。 本稿では,複雑な質問応答(CQA)を用いて,KG知識を解釈するLLMの能力を評価する。 我々は,KG知識をLLMに供給する最適なプロンプト法を検討することを目的として,KG知識注入法(三重項から自然言語テキストまで)を総合的に比較し,KG知識の理解度を高めることを目的とした。 最初の期待に反して、我々の分析では、LLMが乱雑で騒々しく、線形化されたKG知識を効果的に処理し、よく設計された自然言語(NL)テキストプロンプトを用いた性能向上手法が示された。 この反直感的な発見は、LLMの構造化知識の理解に関する将来の研究に重要な洞察を与える。

Although the method of enhancing large language models' (LLMs') reasoning ability and reducing their hallucinations through the use of knowledge graphs (KGs) has received widespread attention, the exploration of how to enable LLMs to integrate the structured knowledge in KGs on-the-fly remains inadequate. Researchers often co-train KG embeddings and LLM parameters to equip LLMs with the ability of comprehending KG knowledge. However, this resource-hungry training paradigm significantly increases the model learning cost and is also unsuitable for non-open-source, black-box LLMs. In this paper, we employ complex question answering (CQA) as a task to assess the LLM's ability of comprehending KG knowledge. We conducted a comprehensive comparison of KG knowledge injection methods (from triples to natural language text), aiming to explore the optimal prompting method for supplying KG knowledge to LLMs, thereby enhancing their comprehension of KG. Contrary to our initial expectations, our analysis revealed that LLMs effectively handle messy, noisy, and linearized KG knowledge, outperforming methods that employ well-designed natural language (NL) textual prompts. This counter-intuitive finding provides substantial insights for future research on LLMs' comprehension of structured knowledge.
翻訳日:2024-04-10 19:37:28 公開日:2024-04-09
# 遺伝的プログラミングを用いた関数クラス学習 : 腫瘍増殖機能のための説明可能なメタ学習を目指して

Function Class Learning with Genetic Programming: Towards Explainable Meta Learning for Tumor Growth Functionals ( http://arxiv.org/abs/2402.12510v2 )

ライセンス: Link先を確認
E. M. C. Sijben, J. C. Jansen, P. A. N. Bosman, T. Alderliesten, (参考訳) パラガングリオーマは稀な腫瘍であり、主に成長が遅い腫瘍であり、下層の発育パターンは分かっていない。 したがって、患者の最善のケアを決定することは難しい。 現在、重要な腫瘍の成長が観察されない場合、治療自体がリスクを伴わないため、治療が遅れることがしばしばある。 しかし、腫瘍増殖による(不可逆的な)副作用のリスクは増大する可能性がある。 成長を正確に予測できることは、患者が生存中に治療を必要とするかどうかを判断し、もしそうであれば、この治療のタイミングを決定するのに役立つ。 本研究の目的は、複数の腫瘍成長データセットからパラガングリオーマの一般的な成長パターンを学習することであり、各データセットは時間とともに腫瘍の体積を含む。 そこで我々は,遺伝子プログラミングに基づく新しい手法を提案し,各腫瘍に適応可能なパラメータ化関数のクラスを学習する。 私たちは、単一の実行で複数の潜在的に興味深い関数クラスを見つけるために、ユニークな、マルチモーダル、マルチオブジェクトの方法でそうしています。 合成および実世界のデータセットに対する我々のアプローチを評価する。 結果の関数クラスを解析することにより、データの一般的なパターンを効果的に説明できる。

Paragangliomas are rare, primarily slow-growing tumors for which the underlying growth pattern is unknown. Therefore, determining the best care for a patient is hard. Currently, if no significant tumor growth is observed, treatment is often delayed, as treatment itself is not without risk. However, by doing so, the risk of (irreversible) adverse effects due to tumor growth may increase. Being able to predict the growth accurately could assist in determining whether a patient will need treatment during their lifetime and, if so, the timing of this treatment. The aim of this work is to learn the general underlying growth pattern of paragangliomas from multiple tumor growth data sets, in which each data set contains a tumor's volume over time. To do so, we propose a novel approach based on genetic programming to learn a function class, i.e., a parameterized function that can be fit anew for each tumor. We do so in a unique, multi-modal, multi-objective fashion to find multiple potentially interesting function classes in a single run. We evaluate our approach on a synthetic and a real-world data set. By analyzing the resulting function classes, we can effectively explain the general patterns in the data.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# テーブル・ツー・テクスト法がLLMに基づくドメインハイブリッドデータによる質問回答の強化に及ぼす影響について

Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data ( http://arxiv.org/abs/2402.12869v2 )

ライセンス: Link先を確認
Dehai Min, Nan Hu, Rihui Jin, Nuo Lin, Jiaoyan Chen, Yongrui Chen, Yu Li, Guilin Qi, Yun Li, Nijun Li, Qianren Wang, (参考訳) 質問回答(QA)のための大規模言語モデル(LLM)をドメイン固有データで拡張することは、広く注目を集めている。 しかし、ドメインデータはしばしばテキストや半構造化テーブルを含むハイブリッド形式で存在し、情報のシームレスな統合の難しさを浮き彫りにしている。 テーブル・トゥ・テキスト生成は、ハイブリッドデータの一様テキスト形式のコーパスへの変換を容易にする、有望なソリューションである。 この手法はNLPコミュニティによって広く研究されているが、現在、異なるテーブル・ツー・テキスト法によって生成されたコーパスがQAシステムの性能に与える影響について比較分析は行われていない。 本稿では,この研究ギャップを2つのステップで解決する。 まず、LLMベースのQAシステムをドメインハイブリッドデータで拡張するフレームワークにテーブル・ツー・テキスト・ジェネレーションを革新的に組み込む。 そして,本フレームワークを実世界の産業データに利用して,マークダウン形式,テンプレートシリアライゼーション,TPLM法,LLM法という4つの代表的な手法を用いて,2種類のQAシステム(DSFTおよびRAGフレームワーク)に関する広範な実験を行う。 実験結果に基づいて,いくつかの実験結果を示し,いくつかの手法の成功の背景にある根拠を探る。 本研究の成果が,堅牢なQAシステム開発における学術・産業コミュニティの貴重な参考となることを期待する。

Augmenting Large Language Models (LLMs) for Question Answering (QA) with domain specific data has attracted wide attention. However, domain data often exists in a hybrid format, including text and semi-structured tables, posing challenges for the seamless integration of information. Table-to-Text Generation is a promising solution by facilitating the transformation of hybrid data into a uniformly text-formatted corpus. Although this technique has been widely studied by the NLP community, there is currently no comparative analysis on how corpora generated by different table-to-text methods affect the performance of QA systems. In this paper, we address this research gap in two steps. First, we innovatively integrate table-to-text generation into the framework of enhancing LLM-based QA systems with domain hybrid data. Then, we utilize this framework in real-world industrial data to conduct extensive experiments on two types of QA systems (DSFT and RAG frameworks) with four representative methods: Markdown format, Template serialization, TPLM-based method, and LLM-based method. Based on the experimental results, we draw some empirical findings and explore the underlying reasons behind the success of some methods. We hope the findings of this work will provide a valuable reference for the academic and industrial communities in developing robust QA systems.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# 動的環境におけるクラスタリング:不均一な変更を伴うベンチマークデータセット生成のためのフレームワーク

Clustering in Dynamic Environments: A Framework for Benchmark Dataset Generation With Heterogeneous Changes ( http://arxiv.org/abs/2402.15731v2 )

ライセンス: Link先を確認
Danial Yazdani, Juergen Branke, Mohammad Sadegh Khorshidi, Mohammad Nabi Omidvar, Xiaodong Li, Amir H. Gandomi, Xin Yao, (参考訳) 動的環境におけるクラスタリングは、リアルタイムデータ分析やオンライン教師なし学習から動的施設配置問題まで幅広い応用において、重要性が増している。 メタヒューリスティックスは静的クラスタリングタスクにおいて有望な有効性を示しているが、最適なクラスタリングソリューションの追跡や、動的環境での時間の経過とともに堅牢なクラスタリングを行うための応用は、ほとんど未調査のままである。 これは、さまざまな動的シナリオにおけるクラスタリングアルゴリズムの体系的なパフォーマンス評価を妨げる、多様な、制御可能な、現実的な動的特性を備えた動的データセットの欠如による部分もある。 この欠陥は、動的環境におけるクラスタリングのアルゴリズムを効果的に設計する私たちの理解と能力のギャップにつながる。 このギャップを埋めるために,本論文では動的データセット生成装置(DDG)を紹介する。 DDGは、多種多様な局所的、グローバルな変化と統合された複数の動的ガウス成分を備えている。 これらの変化は、空間的および時間的重大さ、パターン、および影響領域によって異なり、幅広い動的なシナリオをシミュレートするための包括的なツールを提供する。

Clustering in dynamic environments is of increasing importance, with broad applications ranging from real-time data analysis and online unsupervised learning to dynamic facility location problems. While meta-heuristics have shown promising effectiveness in static clustering tasks, their application for tracking optimal clustering solutions or robust clustering over time in dynamic environments remains largely underexplored. This is partly due to a lack of dynamic datasets with diverse, controllable, and realistic dynamic characteristics, hindering systematic performance evaluations of clustering algorithms in various dynamic scenarios. This deficiency leads to a gap in our understanding and capability to effectively design algorithms for clustering in dynamic environments. To bridge this gap, this paper introduces the Dynamic Dataset Generator (DDG). DDG features multiple dynamic Gaussian components integrated with a range of heterogeneous, local, and global changes. These changes vary in spatial and temporal severity, patterns, and domain of influence, providing a comprehensive tool for simulating a wide range of dynamic scenarios.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# SemEval-2024 Task 8: Black-Box Machine-Generated Text Detectionのための平均RoBERTaの重み付きレイヤ

SemEval-2024 Task 8: Weighted Layer Averaging RoBERTa for Black-Box Machine-Generated Text Detection ( http://arxiv.org/abs/2402.15873v2 )

ライセンス: Link先を確認
Ayan Datta, Aryan Chandramania, Radhika Mamidi, (参考訳) この文書は、SemEval 2024のタスク8:マルチジェネレータ、マルチドメイン、およびマルチリンガルブラックボックスマシン生成テキスト検出サブタスクA(モノリンガル)とBの手順への著者の提出の詳細を含んでいる。 本稿では,RoBERTaレイヤの重み付け平均を用いて,機械生成テキスト検出に関連するテキストに関する情報を捕捉する方法について述べる。

This document contains the details of the authors' submission to the proceedings of SemEval 2024's Task 8: Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection Subtask A (monolingual) and B. Detection of machine-generated text is becoming an increasingly important task, with the advent of large language models (LLMs). In this paper, we lay out how using weighted averages of RoBERTa layers lets us capture information about text that is relevant to machine-generated text detection.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# Pose-Guided Person画像合成のための粗-重遅延拡散

Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis ( http://arxiv.org/abs/2402.18078v2 )

ライセンス: Link先を確認
Yanzuo Lu, Manlin Zhang, Andy J Ma, Xiaohua Xie, Jian-Huang Lai, (参考訳) 拡散モデルは画像生成において有望なアプローチであり,PGPIS (Pose-Guided Person Image Synthesis) に競争力のある手法として採用されている。 既存の手法では、人物の外観をターゲットのポーズに合わせるだけでよいが、ソースの人物画像に対する高度な意味理解が欠如しているため、オーバーフィットしがちである。 本稿では,PGPISのためのCFLD法を提案する。 画像キャプチャペアとテキストプロンプトの欠如により、トレーニング済みのテキスト・ツー・イメージ拡散モデルの生成過程を制御するために、画像に基づいて純粋に新しい訓練パラダイムを開発する。 認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。 これにより、きめ細かい外観を分離し、異なる段階で情報制御を施すことで、潜在的な過度な問題を回避することができる。 より現実的なテクスチャの詳細を生成するため,マルチスケールの微細な外観特徴をバイアス項として符号化し,粗いプロンプトを増大させるハイブリッド・グラニュラリティ・アテンション・モジュールを提案する。 DeepFashionベンチマークの定量的および定性的な実験結果は,PGPISの最先端技術よりも,我々の手法が優れていることを示している。 コードはhttps://github.com/YanzuoLu/CFLDで入手できる。

Diffusion model is a promising approach to image generation and has been employed for Pose-Guided Person Image Synthesis (PGPIS) with competitive performance. While existing methods simply align the person appearance to the target pose, they are prone to overfitting due to the lack of a high-level semantic understanding on the source person image. In this paper, we propose a novel Coarse-to-Fine Latent Diffusion (CFLD) method for PGPIS. In the absence of image-caption pairs and textual prompts, we develop a novel training paradigm purely based on images to control the generation process of a pre-trained text-to-image diffusion model. A perception-refined decoder is designed to progressively refine a set of learnable queries and extract semantic understanding of person images as a coarse-grained prompt. This allows for the decoupling of fine-grained appearance and pose information controls at different stages, and thus circumventing the potential overfitting problem. To generate more realistic texture details, a hybrid-granularity attention module is proposed to encode multi-scale fine-grained appearance features as bias terms to augment the coarse-grained prompt. Both quantitative and qualitative experimental results on the DeepFashion benchmark demonstrate the superiority of our method over the state of the arts for PGPIS. Code is available at https://github.com/YanzuoLu/CFLD.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# 超画素生成のための不変画素間相関の学習

Learning Invariant Inter-pixel Correlations for Superpixel Generation ( http://arxiv.org/abs/2402.18201v2 )

ライセンス: Link先を確認
Sen Xu, Shikui Wei, Tao Ruan, Lixin Liao, (参考訳) 深部スーパーピクセルのアルゴリズムは、手作りの機能を学習可能なものに置き換えることで、顕著な進歩を遂げた。 それにもかかわらず、既存の深層画素法は、トレーニングデータセットに埋め込まれた統計特性(例えば、色分布、高レベル意味論)に敏感なままである。 その結果、学習可能な特徴は限定的な識別能力を示し、特に制約のないアプリケーションシナリオにおいて、不満足なピクセルグループ化性能をもたらす。 この問題に対処するために,不均一な画素間相関と統計特性,すなわちスタイルノイズを選択的に分離するContentangle Superpixel (CDS)アルゴリズムを提案する。 具体的には、最初に、元のRGB画像と相同であるが、かなり様式的なバリエーションを持つ補助的なモダリティを構築する。 そして,相互情報により,適応的に選択された特徴の分布差を低減し,不均一な画素間相関を学習するために,モダリティ間の局所格子相関アライメントを提案する。 その後、不変コンテンツの分離を強制し、データスタイルを訓練するために、グローバルスタイルの相互情報最小化を行う。 4つのベンチマークデータセットに対する実験結果は,既存の最先端手法に対するアプローチの優位性を示し,境界の固着,一般化,効率性を示した。 コードと事前トレーニングされたモデルはhttps://github.com/rookiie/CDSpixel.comで入手できる。

Deep superpixel algorithms have made remarkable strides by substituting hand-crafted features with learnable ones. Nevertheless, we observe that existing deep superpixel methods, serving as mid-level representation operations, remain sensitive to the statistical properties (e.g., color distribution, high-level semantics) embedded within the training dataset. Consequently, learnable features exhibit constrained discriminative capability, resulting in unsatisfactory pixel grouping performance, particularly in untrainable application scenarios. To address this issue, we propose the Content Disentangle Superpixel (CDS) algorithm to selectively separate the invariant inter-pixel correlations and statistical properties, i.e., style noise. Specifically, We first construct auxiliary modalities that are homologous to the original RGB image but have substantial stylistic variations. Then, driven by mutual information, we propose the local-grid correlation alignment across modalities to reduce the distribution discrepancy of adaptively selected features and learn invariant inter-pixel correlations. Afterwards, we perform global-style mutual information minimization to enforce the separation of invariant content and train data styles. The experimental results on four benchmark datasets demonstrate the superiority of our approach to existing state-of-the-art methods, regarding boundary adherence, generalization, and efficiency. Code and pre-trained model are available at https://github.com/rookiie/CDSpixel.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# オンラインローカリティと分散量子コンピューティング

Online Locality Meets Distributed Quantum Computing ( http://arxiv.org/abs/2403.01903v2 )

ライセンス: Link先を確認
Amirreza Akbari, Xavier Coiteux-Roy, Francesco d'Amore, François Le Gall, Henrik Lievonen, Darya Melnyk, Augusto Modanese, Shreyas Pai, Marc-Olivier Renou, Václav Rozhoň, Jukka Suomela, (参考訳) 従来のLOCALモデルから、量子LOCALモデル、有限依存プロセス、非シグナリングモデル、動的LOCALモデル、オンラインLOCALモデル(例えば STOC 2024, ICALP 2023)など、近年研究されている多くのモデルまで、局所チェック可能なラベリング問題(LCL)の理論を拡張した。 まず、有限依存プロセスが古典的LOCALモデルよりも優れていることを示す。 LOCAL モデルにおいて、局所性$O(\log^\star n)$ で解ける全ての LCL 問題は有限独立分布(局所性は一定)を持つことを示す。 特に、これは正規木に対して有限依存的な色付けを与え、Holroyd [2023] の開問題に答える。 これはまた、分散量子優位性を理解するための新しい公式な障壁も導入している: $\Theta(\log^\star n)$ complexity class における任意の LCL に対する量子優位性は、非シグナリング引数を用いて除外することはできない。 第2に、これらすべてのモデルの能力に制限を加えました。 そこで本研究では,eg SLOCALとDynamic-LOCALをシミュレートするのに十分な強度を持つランダム化オンラインLOCALというモデルを導入し,非シグナリング分布や量子LOCALアルゴリズムをシミュレートするのに十分な強度を示す。 局所性$o(\log \log n)$をランダム化オンライン-LOCALモデルで解くことができれば、局所性$O(\log^\star n)$を古典的決定論的LOCALモデルで解くことができる。 これらの結果は、ルート木において、局所性$O(\log^\star n)$で解けるLCLの集合は、古典的決定論的およびランダム化LOCAL、量子LOCAL、非シグナリングモデル、動的LOCAL、決定論的およびランダム化オンラインLOCALのすべてのモデルで同じであることを示している。

We extend the theory of locally checkable labeling problems (LCLs) from the classical LOCAL model to a number of other models that have been studied recently, including the quantum-LOCAL model, finitely-dependent processes, non-signaling model, dynamic-LOCAL model, and online-LOCAL model [e.g. STOC 2024, ICALP 2023]. First, we demonstrate the advantage that finitely-dependent processes have over the classical LOCAL model. We show that all LCL problems solvable with locality $O(\log^\star n)$ in the LOCAL model admit a finitely-dependent distribution (with constant locality). In particular, this gives a finitely-dependent coloring for regular trees, answering an open question by Holroyd [2023]. This also introduces a new formal barrier for understanding the distributed quantum advantage: it is not possible to exclude quantum advantage for any LCL in the $\Theta(\log^\star n)$ complexity class by using non-signaling arguments. Second, we put limits on the capabilities of all of these models. To this end, we introduce a model called randomized online-LOCAL, which is strong enough to simulate e.g. SLOCAL and dynamic-LOCAL, and we show that it is also strong enough to simulate any non-signaling distribution and hence any quantum-LOCAL algorithm. We prove the following result for rooted trees: if we can solve an LCL problem with locality $o(\log \log n)$ in the randomized online-LOCAL model, we can solve it with locality $O(\log^\star n)$ in the classical deterministic LOCAL model. Put together, these results show that in rooted trees the set of LCLs that can be solved with locality $O(\log^\star n)$ is the same across all these models: classical deterministic and randomized LOCAL, quantum-LOCAL, non-signaling model, dynamic-LOCAL, and deterministic and randomized online-LOCAL.
翻訳日:2024-04-10 19:27:41 公開日:2024-04-09
# 低照度映像強調のための時空間アライメントSUNetモデル

A Spatio-temporal Aligned SUNet Model for Low-light Video Enhancement ( http://arxiv.org/abs/2403.02408v2 )

ライセンス: Link先を確認
Ruirui Lin, Nantheera Anantrasirichai, Alexandra Malyugina, David Bull, (参考訳) 低照度条件による歪みは視覚的に不快なだけでなく、コンピュータビジョンタスクのパフォーマンスを低下させる。 修復と強化は、非常に有益であることが証明されている。 しかし、低照度で取得したビデオ用に明示的に設計された拡張手法は限られている。 本稿では,Swin Transformer をバックボーンとした時空間適応SUNet(Spatio-Temporal Aligned SUNet)モデルを提案する。 STA-SUNetモデルは、様々な光条件下でキャプチャされた動的なシーンを含む、新しい完全に登録されたデータセット(BVI)に基づいて訓練されている。 さらに3つのテストデータセット上で、他のさまざまなモデルに対して比較分析される。 このモデルは全てのデータセットに対して優れた適応性を示し、最も高いPSNRとSSIM値を得る。 極端に低照度な条件下では特に有効であり、非常に良好な視覚化結果をもたらす。

Distortions caused by low-light conditions are not only visually unpleasant but also degrade the performance of computer vision tasks. The restoration and enhancement have proven to be highly beneficial. However, there are only a limited number of enhancement methods explicitly designed for videos acquired in low-light conditions. We propose a Spatio-Temporal Aligned SUNet (STA-SUNet) model using a Swin Transformer as a backbone to capture low light video features and exploit their spatio-temporal correlations. The STA-SUNet model is trained on a novel, fully registered dataset (BVI), which comprises dynamic scenes captured under varying light conditions. It is further analysed comparatively against various other models over three test datasets. The model demonstrates superior adaptivity across all datasets, obtaining the highest PSNR and SSIM values. It is particularly effective in extreme low-light conditions, yielding fairly good visualisation results.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# ハミルトン特性試験

Hamiltonian Property Testing ( http://arxiv.org/abs/2403.02968v2 )

ライセンス: Link先を確認
Andreas Bluhm, Matthias C. Caro, Aadil Oufkir, (参考訳) 局所性は多くの物理的時間進化の基本的な特徴である。 局所性および関連する構造特性の仮定は、最近、誘導時間進化へのアクセスから未知のハミルトニアンを学ぶための手順も提案されている。 しかし、未知のハミルトニアンが局所的であるかどうかを厳格に検証するプロトコルは知られていない。 そこでは、未知の$n$-qubit Hamiltonian $H$が$k$-localか、あるいはすべての$k$-local Hamiltonianから$\varepsilon$-farを判定する。 まず、選択された距離測度の重要性を強調する: 作用素ノルム、最悪のケース距離測度に関して、不整合量子局所性テスターは$\tilde{\Omega}(2^n)$多くの時間進化クエリと期待される総進化時間$\tilde{\Omega}(2^n / \varepsilon)$,そして、コヒーレントテスターでさえ、$\Omega(2^{n/2})$多くのクエリと$\Omega(2^{n/2}/\varepsilon)$総進化時間を必要とする。 対照的に、通常のフロベニウス標準に従って距離が測定されると、ランダム化測定に基づくサンプル、時間、計算効率の低いハミルトン局所性検定アルゴリズムが提供される。 実際、我々の手順は、局所性を超えた幅広いハミルトン特性のクラスを同時にテストするために使用することができる。 最後に、一般ハミルトニアンの学習がこの平均ケース距離で指数関数的に困難であり、その結果、ハミルトニアン検定と学習の指数関数的分離が確立される。 我々の研究は、量子ハミルトニアンに対する特性試験の研究を開始し、量子能力に制限があるにもかかわらず、ハミルトン特性の幅広いクラスが効率的にテスト可能であることを実証し、ハミルトン学習とともに研究の独立した領域としてハミルトン試験を位置づけた。

Locality is a fundamental feature of many physical time evolutions. Assumptions on locality and related structural properties also underlie recently proposed procedures for learning an unknown Hamiltonian from access to the induced time evolution. However, no protocols to rigorously test whether an unknown Hamiltonian is local were known. We investigate Hamiltonian locality testing as a property testing problem, where the task is to determine whether an unknown $n$-qubit Hamiltonian $H$ is $k$-local or $\varepsilon$-far from all $k$-local Hamiltonians, given access to the time evolution along $H$. First, we emphasize the importance of the chosen distance measure: With respect to the operator norm, a worst-case distance measure, incoherent quantum locality testers require $\tilde{\Omega}(2^n)$ many time evolution queries and an expected total evolution time of $\tilde{\Omega}(2^n / \varepsilon)$, and even coherent testers need $\Omega(2^{n/2})$ many queries and $\Omega(2^{n/2}/\varepsilon)$ total evolution time. In contrast, when distances are measured according to the normalized Frobenius norm, corresponding to an average-case distance, we give a sample-, time-, and computationally efficient incoherent Hamiltonian locality testing algorithm based on randomized measurements. In fact, our procedure can be used to simultaneously test a wide class of Hamiltonian properties beyond locality. Finally, we prove that learning a general Hamiltonian remains exponentially hard with this average-case distance, thereby establishing an exponential separation between Hamiltonian testing and learning. Our work initiates the study of property testing for quantum Hamiltonians, demonstrating that a broad class of Hamiltonian properties is efficiently testable even with limited quantum capabilities, and positioning Hamiltonian testing as an independent area of research alongside Hamiltonian learning.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# 合成データに自然画像パターンを埋め込んだゼロショット物質状態セグメンテーションの学習

Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data ( http://arxiv.org/abs/2403.03309v4 )

ライセンス: Link先を確認
Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik, (参考訳) 物質とその状態の視覚的理解とセグメンテーションは、物理的世界を理解するのに不可欠である。 素材によって形成される無数のテクスチャ、形状、しばしばぼやけた境界は、このタスクを特に一般化することを難しくしている。 地表の湿った地域、岩石の鉱物、植物に感染した地域、水に汚染されている地域など、それぞれの物質状態には独自の形態があります。 ニューラルネットが一般的なクラスに依存しない材料セグメンテーションを学ぶためには、この複雑さを捉えたデータをまず収集し、注釈付けする必要がある。 実世界の画像の収集と注釈付けは、手作業のコストと精度によって制限される。 対照的に、合成CGIデータは非常に正確でほとんど費用がかからないが、物質界の膨大な多様性を再現することができない。 この研究は、現実世界の画像から抽出されたパターンを合成データに埋め込むことで、この重要なギャップを埋める方法を提供する。 そのため、自然画像から自動的に収集されたパターンを用いて、素材を合成シーンにマッピングする。 この教師なしのアプローチにより、生成したデータは、合成データの精度とスケールを維持しながら、現実世界の膨大な複雑さを捉えることができる。 また、ゼロショット材料状態セグメンテーションのための最初の一般ベンチマークを示す。 このベンチマークには、食品、岩、建設、植物、液体など、さまざまな状態の物質状態(ウェット/ドライ/スライ/クッキング/焼成/焼成/スライス/セジメント/フォームなど)の幅広い現実世界の画像が含まれている。 このアノテーションは、類似しているが同一ではない領域間の部分的類似性と、全く同じ物質状態にある点のみのハードセグメンテーションの両方を含む。 ここでは,MatchSeg 上のネット列車が既存の最先端手法を著しく上回っていることを示す。 データセット、コード、トレーニングされたモデルが利用可能

Visual understanding and segmentation of materials and their states is fundamental to understanding the physical world. The myriad textures, shapes, and often blurry boundaries formed by materials make this task particularly hard to generalize. Whether it's identifying wet regions of a surface, minerals in rocks, infected regions in plants, or pollution in water, each material state has its own unique form. For neural nets to learn general class-agnostic material segmentation, it is necessary to first collect and annotate data that captures this complexity. Collecting and manually annotating real-world images is limited by the cost and precision of manual labor. In contrast, synthetic CGI data is highly accurate and almost cost-free, but fails to replicate the vast diversity of the material world. This work offers a method to bridge this crucial gap by implanting patterns extracted from real-world images in synthetic data. Hence, patterns automatically collected from natural images are used to map materials into synthetic scenes. This unsupervised approach allows the generated data to capture the vast complexity of the real world while maintaining the precision and scale of synthetic data. We also present the first general benchmark for zero-shot material state segmentation. The benchmark contains a wide range of real-world images of material states, like food, rocks, construction, plants, liquids, and many others, each in various states (wet/dry/stained/cooked/burned/worn/rusted/sediment/foam, etc.). The annotation includes both partial similarity between regions with similar but not identical materials, and hard segmentation of only points in the exact same material state. We show that net trains on MatSeg significantly outperform existing state-of-the-art methods on this task. The dataset, code, and trained model are available
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# インターフリート都市交通バスアイドリングの地球位置リアルタイムデータ

Global Geolocated Realtime Data of Interfleet Urban Transit Bus Idling ( http://arxiv.org/abs/2403.03489v2 )

ライセンス: Link先を確認
Nicholas Kunz, H. Oliver Gao, (参考訳) 都市交通バスのアイドリングは、エコロジー的なストレス、経済的非効率性、そして排出による医療上の有害な健康結果に寄与している。 この好ましくない運転行動の頻繁なパターンの世界的な蓄積は巨大である。 その規模を測定するため,都市交通バスの走行時間と位置を国際的に記録する拡張可能なリアルタイム検知システムとして,GRD-TRT-BUF-4I(Ground Truth Buffer for Idling)を提案する。 このシステムは、General Transit Feed Specification(GTFS)リアルタイムから、北米、ヨーロッパ、オセアニア、アジアの50都市から1日に約20万回のアイドリングイベントを検出する。 このリアルタイムデータは、運用上の意思決定と艦隊管理を動的に行うために作成され、アイドリングイベントの発生頻度と期間を減らし、その累積効果を捉えた。 市民・交通技術者、都市計画家、疫学者、政策立案者、その他の利害関係者は、様々な地理的・時間的スケールで、エミッションモデリング、交通管理、ルートプランニング、その他の都市サステナビリティの取り組みに役立つと考えている。

Urban transit bus idling is a contributor to ecological stress, economic inefficiency, and medically hazardous health outcomes due to emissions. The global accumulation of this frequent pattern of undesirable driving behavior is enormous. In order to measure its scale, we propose GRD-TRT- BUF-4I (Ground Truth Buffer for Idling) an extensible, realtime detection system that records the geolocation and idling duration of urban transit bus fleets internationally. Using live vehicle locations from General Transit Feed Specification (GTFS) Realtime, the system detects approximately 200,000 idling events per day from over 50 cities across North America, Europe, Oceania, and Asia. This realtime data was created to dynamically serve operational decision-making and fleet management to reduce the frequency and duration of idling events as they occur, as well as to capture its accumulative effects. Civil and Transportation Engineers, Urban Planners, Epidemiologists, Policymakers, and other stakeholders might find this useful for emissions modeling, traffic management, route planning, and other urban sustainability efforts at a variety of geographic and temporal scales.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# フルフレームビデオ安定化のためのハラスティングメタラーニング

Harnessing Meta-Learning for Improving Full-Frame Video Stabilization ( http://arxiv.org/abs/2403.03662v2 )

ライセンス: Link先を確認
Muhammad Kashif Ali, Eun Woo Im, Dongjin Kim, Tae Hyun Kim, (参考訳) ビデオ安定化は長年続くコンピュータビジョンの問題であり、特にビデオ安定化のためのピクセルレベルの合成ソリューションは、全フレームを合成することで、このタスクの複雑さを増す。 これらの手法は,映像の安定性を高めつつ,フルフレームの合成により映像の安定化を図ることを目的としている。 これにより、一意のモーションプロファイルと各ビデオシーケンスに存在する視覚的内容の相違により、タスクの複雑さが増し、固定パラメータによる堅牢な一般化が困難になる。 本研究では,これらのモデルを個々の入力ビデオシーケンスに適応させることにより,ビデオ安定化のための画素レベルの合成ソリューションの性能を向上させる新しい手法を提案する。 提案手法は,低レベルの視覚的手がかりを利用して,映像の安定性と品質を両立させる。 本稿では,これらのモデルの1つの簡単な微調整による「テスト時適応」手法の有効性を強調し,メタラーニング手法の統合による安定性の向上について述べる。 注目すべきは、単一の適応ステップだけで、大幅な改善が達成されることだ。 提案アルゴリズムの汎用性は、実世界のシナリオにおけるビデオ安定化のための様々な画素レベルの合成モデルの性能を一貫して向上させることによって実証される。

Video stabilization is a longstanding computer vision problem, particularly pixel-level synthesis solutions for video stabilization which synthesize full frames add to the complexity of this task. These techniques aim to stabilize videos by synthesizing full frames while enhancing the stability of the considered video. This intensifies the complexity of the task due to the distinct mix of unique motion profiles and visual content present in each video sequence, making robust generalization with fixed parameters difficult. In our study, we introduce a novel approach to enhance the performance of pixel-level synthesis solutions for video stabilization by adapting these models to individual input video sequences. The proposed adaptation exploits low-level visual cues accessible during test-time to improve both the stability and quality of resulting videos. We highlight the efficacy of our methodology of "test-time adaptation" through simple fine-tuning of one of these models, followed by significant stability gain via the integration of meta-learning techniques. Notably, significant improvement is achieved with only a single adaptation step. The versatility of the proposed algorithm is demonstrated by consistently improving the performance of various pixel-level synthesis models for video stabilization in real-world scenarios.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# CN-RMA:マルチビュー画像からの3次元室内物体検出のためのレイマーキングアグリゲーション併用ネットワーク

CN-RMA: Combined Network with Ray Marching Aggregation for 3D Indoors Object Detection from Multi-view Images ( http://arxiv.org/abs/2403.04198v2 )

ライセンス: Link先を確認
Guanlin Shen, Jingwei Huang, Zhihua Hu, Bin Wang, (参考訳) マルチビュー画像からの3次元屋内物体検出のための新しいアプローチであるCN-RMAを提案する。 画像と3D対応のあいまいさとして重要な課題を明示的幾何を伴わずに観察し、オクルージョン情報を提供する。 この問題に対処するため、CN-RMAは3次元再構成ネットワークと3次元オブジェクト検出ネットワークの相乗効果を活用し、再構成ネットワークは粗切り符号距離関数(TSDF)を提供し、画像特徴をエンドツーエンドで正しく3次元空間に投票するように誘導する。 具体的には、画像中のピクセルが対応する3D位置へ寄与することを表す光線マーキングにより、各光線のサンプル点に重みを関連付ける。 このような重みは、予測された符号付き距離によって決定され、画像特徴が再構成面近傍の領域にのみ投票される。 ScanNet および ARKitScenes データセットの mAP@0.25 と mAP@0.5 を用いて, マルチビュー画像からの3次元オブジェクト検出における最先端性能を実現する。 コードとモデルはhttps://github.com/SerCharles/CN-RMAで公開されている。

This paper introduces CN-RMA, a novel approach for 3D indoor object detection from multi-view images. We observe the key challenge as the ambiguity of image and 3D correspondence without explicit geometry to provide occlusion information. To address this issue, CN-RMA leverages the synergy of 3D reconstruction networks and 3D object detection networks, where the reconstruction network provides a rough Truncated Signed Distance Function (TSDF) and guides image features to vote to 3D space correctly in an end-to-end manner. Specifically, we associate weights to sampled points of each ray through ray marching, representing the contribution of a pixel in an image to corresponding 3D locations. Such weights are determined by the predicted signed distances so that image features vote only to regions near the reconstructed surface. Our method achieves state-of-the-art performance in 3D object detection from multi-view images, as measured by mAP@0.25 and mAP@0.5 on the ScanNet and ARKitScenes datasets. The code and models are released at https://github.com/SerCharles/CN-RMA.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# シャットダウン問題:決定論者のためのAIエンジニアリングパズル

The Shutdown Problem: An AI Engineering Puzzle for Decision Theorists ( http://arxiv.org/abs/2403.04471v2 )

ライセンス: Link先を確認
Elliott Thornley, (参考訳) シャットダウン問題は,(1)シャットダウンボタンを押したときにシャットダウンすること,(2)シャットダウンボタンを押したり押したりしないこと,(3)目標を有能に追求すること,である。 私は難易度を正確にする3つの定理を証明します。 これらの定理は、いくつかの無害な条件を満たすエージェントが、たとえコストがかかる場合であっても、シャットダウンボタンの押圧を防ぎ、引き起こそうとすることを示している。 そして忍耐はシャットダウン性に反する: エージェントが忍耐強くなればなるほど、エージェントがシャットダウンボタンを操作しようとするコストが大きくなる。 最後に、これらの定理は解の探索を導くことができることに注意する。

I explain the shutdown problem: the problem of designing artificial agents that (1) shut down when a shutdown button is pressed, (2) don't try to prevent or cause the pressing of the shutdown button, and (3) otherwise pursue goals competently. I prove three theorems that make the difficulty precise. These theorems show that agents satisfying some innocuous-seeming conditions will often try to prevent or cause the pressing of the shutdown button, even in cases where it's costly to do so. And patience trades off against shutdownability: the more patient an agent, the greater the costs that agent is willing to incur to manipulate the shutdown button. I end by noting that these theorems can guide our search for solutions.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# TS-RSR:バッチベイズ最適化のための証明可能な効率的なアプローチ

TS-RSR: A provably efficient approach for batch bayesian optimization ( http://arxiv.org/abs/2403.04764v2 )

ライセンス: Link先を確認
Zhaolin Ren, Na Li, (参考訳) 本稿では,Thompson Smpling-Regret to Sigma Ratio Directed sample (TS-RSR) と呼ばれるバッチベイズ最適化(BO)の新しい手法を提案する。 我々のサンプリング目的は、高い予測手段や高い不確実性のある点に着目しながら、各バッチで選択されたアクションを、ポイント間の冗長性を最小限に抑えるように調整することができる。 我々はアルゴリズムの後悔に対して高い確率理論的保証を提供する。 最後に,本手法がいくつかの競合ベンチマーク BO アルゴリズムより優れていることを示す。

This paper presents a new approach for batch Bayesian Optimization (BO) called Thompson Sampling-Regret to Sigma Ratio directed sampling (TS-RSR), where we sample a new batch of actions by minimizing a Thompson Sampling approximation of a regret to uncertainty ratio. Our sampling objective is able to coordinate the actions chosen in each batch in a way that minimizes redundancy between points whilst focusing on points with high predictive means or high uncertainty. We provide high-probability theoretical guarantees on the regret of our algorithm. Finally, numerically, we demonstrate that our method attains state-of-the-art performance on a range of challenging synthetic and realistic test functions, where it outperforms several competitive benchmark batch BO algorithms.
翻訳日:2024-04-10 19:27:40 公開日:2024-04-09
# データ拡張と伝達学習による微粒な感情検出データセットの大規模言語モデル

Large Language Models on Fine-grained Emotion Detection Dataset with Data Augmentation and Transfer Learning ( http://arxiv.org/abs/2403.06108v2 )

ライセンス: Link先を確認
Kaipeng Wang, Zhi Jing, Yongye Su, Yikun Han, (参考訳) 本稿では,テキスト中の感情検出のための大規模手動アノテートデータセットであるGoEmotionsデータセットの分類性能の向上を図る。 本論文の主な目的は,自然言語処理(NLP)の複雑な問題であるテキスト中の微妙な感情を検出することの課題に対処することである。 この発見は、テキストにおける感情検出の課題に対処するための貴重な洞察を与え、この領域の様々なデータセットにまたがってメソッドとパフォーマンスを合成する調査論文の可能性を含む将来の研究の方向性を提案する。

This paper delves into enhancing the classification performance on the GoEmotions dataset, a large, manually annotated dataset for emotion detection in text. The primary goal of this paper is to address the challenges of detecting subtle emotions in text, a complex issue in Natural Language Processing (NLP) with significant practical applications. The findings offer valuable insights into addressing the challenges of emotion detection in text and suggest directions for future research, including the potential for a survey paper that synthesizes methods and performances across various datasets in this domain.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# PeerAiD:特化ピアチュータによる対向蒸留の改善

PeerAiD: Improving Adversarial Distillation from a Specialized Peer Tutor ( http://arxiv.org/abs/2403.06668v2 )

ライセンス: Link先を確認
Jaewon Jung, Hongsun Jang, Jaeyong Song, Jinho Lee, (参考訳) ニューラルネットワークの敵対的堅牢性は、セキュリティクリティカルなドメインに適用される際の重要な関心事である。 このような状況下では,教師ネットワークのロバスト性を蒸留し,小学生ネットワークのロバスト性を向上することを目的とした,対人蒸留が有望な選択肢である。 従来の研究は教師ネットワークを事前訓練し、それ自身が目指す敵の例に頑丈にしている。 しかし、敵の例は対象ネットワークのパラメータに依存する。 固定教師ネットワークは、反対蒸留プロセスにおいて、生徒ネットワークのパラメータをターゲットとした、見知らぬ転向敵の例に対して、必然的にその堅牢性を低下させる。 本稿では,PierAiDを提案することで,ピアネットワークが学生ネットワークの対角的な例を学習できるようにする。 PeerAiDは、学生ネットワークを守るために、ピアネットワークと学生ネットワークを同時に訓練する逆蒸留である。 このようなピアネットワークは、学生が攻撃した対向的なサンプルに対して、事前訓練された堅牢な教師ネットワークの堅牢性を上回ることが観察された。 このピアネットワークと反対蒸留により、PeerAiDはAutoAttack(AA)の精度を1.66%まで向上し、ResNet-18とTinyImageNetのデータセットで4.72%まで向上する。

Adversarial robustness of the neural network is a significant concern when it is applied to security-critical domains. In this situation, adversarial distillation is a promising option which aims to distill the robustness of the teacher network to improve the robustness of a small student network. Previous works pretrain the teacher network to make it robust to the adversarial examples aimed at itself. However, the adversarial examples are dependent on the parameters of the target network. The fixed teacher network inevitably degrades its robustness against the unseen transferred adversarial examples which targets the parameters of the student network in the adversarial distillation process. We propose PeerAiD to make a peer network learn the adversarial examples of the student network instead of adversarial examples aimed at itself. PeerAiD is an adversarial distillation that trains the peer network and the student network simultaneously in order to make the peer network specialized for defending the student network. We observe that such peer networks surpass the robustness of pretrained robust teacher network against student-attacked adversarial samples. With this peer network and adversarial distillation, PeerAiD achieves significantly higher robustness of the student network with AutoAttack (AA) accuracy up to 1.66%p and improves the natural accuracy of the student network up to 4.72%p with ResNet-18 and TinyImageNet dataset.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# 安定化器テンソルネットワーク:安定化器状態に基づく普遍量子シミュレータ

Stabilizer Tensor Networks: universal quantum simulator on a basis of stabilizer states ( http://arxiv.org/abs/2403.08724v2 )

ライセンス: Link先を確認
Sergi Masot-Llima, Artur Garcia-Saez, (参考訳) 量子コンピュータの効率的なシミュレーションは、量子状態の性質の理解と活用に依存している。 これは、絡み合いに基づくテンソルネットワーク(英語版)や安定化状態を表すテーブルー形式(英語版)のような手法のケースである。 本研究では、これらの2つの手法を統合し、クリフォード回路シミュレーションに使用される表形式を一般化する。 我々は、クリフォードゲート、非クリフォードゲート、および測定を用いてフォーマリズムを更新する方法を明確に証明し、普遍回路シミュレーションを可能にする。 また、このフレームワークがより多くの状態の効率的なシミュレーションを可能にし、テンソルネットワークの表現力や、絡み合いや魔法のようなリソースの量子的性質に関する興味深い疑問を提起し、シミュレーションによるクレームの支持についても論じる。

Efficient simulation of quantum computers relies on understanding and exploiting the properties of quantum states. This is the case for methods such as tensor networks, based on entanglement, and the tableau formalism, which represents stabilizer states. In this work, we integrate these two approaches to present a generalization of the tableau formalism used for Clifford circuit simulation. We explicitly prove how to update our formalism with Clifford gates, non-Clifford gates, and measurements, enabling universal circuit simulation. We also discuss how the framework allows for efficient simulation of more states, raising some interesting questions on the representation power of tensor networks and the quantum properties of resources such as entanglement and magic, and support our claims with simulations.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# CoBra:ロバスト弱監視セマンティックセグメンテーションのための補足分枝融合クラスとセマンティック知識

CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.08801v2 )

ライセンス: Link先を確認
Woojung Han, Seil Kang, Kyobin Choo, Seong Jae Hwang, (参考訳) セグメンテーションのための画像レベルのクラス知識、すなわち、画像レベルのWeakly Supervised Semantic Segmentation (WSSS)から派生した意味論的に正確な擬似マスクを活用することは依然として困難である。 CNNを用いたクラスアクティベーションマップ(CAM)は、WSSSの成功に着実に貢献しているが、結果として得られるアクティベーションマップは、しばしばクラス固有の部分(例えば、人間の顔のみ)に焦点を絞っている。 一方、視覚変換器(ViT)を用いた最近の研究は、セマンティック部分を捕捉する自己認識機構に基づく有望な結果を示しているが、完全なクラス固有の詳細(例えば、人間の全身部分だけでなく、近くに犬と一緒にいるもの)を捉えることに失敗している。 本研究では、クラス(CNN)とセマンティック(ViT)をそれぞれのブランチに有意義な補完的知識を提供する2つの異なるアーキテクチャからなる、新しい二重分岐フレームワークであるComplementary Branch(CoBra)を提案する。 特に、CNNブランチのクラス・アウェア・プロジェクション(CAP)とViTブランチのセマンティック・アウェア・プロジェクション(SAP)を学び、補完的な知識を明確に融合させ、新たなタイプのパッチレベルの監視を容易にする。 我々のモデルはCoBraを通じてCNNとViTの補完的な出力を融合し、クラス情報とセマンティック情報の両方を効果的に統合する堅牢な擬似マスクを生成する。 CNNとViTはPASCAL VOC 2012データセット上でどのように相互に補完するかを質的に定量的に検証し、最先端のWSSS結果を示している。 これは、我々のモデルによって生成されるマスクだけでなく、これらのマスクを擬似ラベルとして利用することによって得られるセグメンテーション結果も含まれる。

Leveraging semantically precise pseudo masks derived from image-level class knowledge for segmentation, namely image-level Weakly Supervised Semantic Segmentation (WSSS), still remains challenging. While Class Activation Maps (CAMs) using CNNs have steadily been contributing to the success of WSSS, the resulting activation maps often narrowly focus on class-specific parts (e.g., only face of human). On the other hand, recent works based on vision transformers (ViT) have shown promising results based on their self-attention mechanism to capture the semantic parts but fail in capturing complete class-specific details (e.g., entire body parts of human but also with a dog nearby). In this work, we propose Complementary Branch (CoBra), a novel dual branch framework consisting of two distinct architectures which provide valuable complementary knowledge of class (from CNN) and semantic (from ViT) to each branch. In particular, we learn Class-Aware Projection (CAP) for the CNN branch and Semantic-Aware Projection (SAP) for the ViT branch to explicitly fuse their complementary knowledge and facilitate a new type of extra patch-level supervision. Our model, through CoBra, fuses CNN and ViT's complementary outputs to create robust pseudo masks that integrate both class and semantic information effectively. Extensive experiments qualitatively and quantitatively investigate how CNN and ViT complement each other on the PASCAL VOC 2012 dataset, showing a state-of-the-art WSSS result. This includes not only the masks generated by our model, but also the segmentation results derived from utilizing these masks as pseudo labels.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# PASTA: フレキシブルかつ高能率なHDRイメージングを目指して : 時空間アライメントの漸進的集積

PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Alignment ( http://arxiv.org/abs/2403.10376v2 )

ライセンス: Link先を確認
Xiaoning Liu, Ao Li, Zongwei Wu, Yapeng Du, Le Zhang, Yulun Zhang, Radu Timofte, Ce Zhu, (参考訳) トランスフォーマーの注目の活用は、HDRデゴーストの大幅な進歩につながった。 しかし、特に2Kのような高解像度画像の場合、既存の最先端の手法ではハイエンドGPUを要求されるか、推論速度が遅いため、自己注意の複雑な性質は現実的な課題をもたらす。 パフォーマンスとレイテンシの最適なバランスを取ることは、依然として重要な問題です。 これに対し,本研究は,HDRデゴスティングのためのプログレッシブ・アグリゲーション・スパノラティカルアライメント・フレームワークであるPASTAを提示する。 提案手法は,特徴分散中の階層的表現を活用することにより,有効性と効率性を実現する。 階層構造における多様な粒度の利用により,計算速度を大幅に向上し,HDR画像のワークフローを最適化する。 さらに,局所的,世界的注目を集める大規模特徴モデリングについても検討し,徐々に融合し,より粗い方法で精錬する。 実験結果から,従来のSOTA法よりも3倍(x3)の推算速度が向上し,視覚的品質と性能の両指標がPASTAの優位性を示した。

Leveraging Transformer attention has led to great advancements in HDR deghosting. However, the intricate nature of self-attention introduces practical challenges, as existing state-of-the-art methods often demand high-end GPUs or exhibit slow inference speeds, especially for high-resolution images like 2K. Striking an optimal balance between performance and latency remains a critical concern. In response, this work presents PASTA, a novel Progressively Aggregated Spatio-Temporal Alignment framework for HDR deghosting. Our approach achieves effectiveness and efficiency by harnessing hierarchical representation during feature distanglement. Through the utilization of diverse granularities within the hierarchical structure, our method substantially boosts computational speed and optimizes the HDR imaging workflow. In addition, we explore within-scale feature modeling with local and global attention, gradually merging and refining them in a coarse-to-fine fashion. Experimental results showcase PASTA's superiority over current SOTA methods in both visual quality and performance metrics, accompanied by a substantial 3-fold (x3) increase in inference speed.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# 差分プライバシーを用いたフェデレーション・トランスファー学習

Federated Transfer Learning with Differential Privacy ( http://arxiv.org/abs/2403.11343v2 )

ライセンス: Link先を確認
Mengchu Li, Ye Tian, Yang Feng, Yi Yu, (参考訳) フェデレートラーニング(Federated Learning)は、データの異質性とプライバシという2つの大きな課題によって人気が高まっている。 本稿では,複数の異種ソースデータセットからの情報を活用して,プライバシ制約を順守し,対象データセットの学習を強化することを目的とした,フェデレートトランスファー学習フレームワーク内の両方の問題に対処する。 信頼性の高い中央サーバを前提とせずに,各データセットに対してプライバシ保証を提供する。 このプライバシー制約の下で、単変量平均推定、低次元線形回帰、高次元線形回帰という3つの古典的統計問題を考察する。 これらの問題に対するミニマックスレートの調査とプライバシコストの特定により、フェデレートされたディファレンシャルプライバシは、確立されたローカルと中心的なディファレンシャルプライバシの中間的なプライバシモデルであることを示す。 分析にはデータの不均一性とプライバシが組み込まれており,フェデレーション学習の基本的なコストと,データセット間の知識伝達のメリットが強調されている。

Federated learning is gaining increasing popularity, with data heterogeneity and privacy being two prominent challenges. In this paper, we address both issues within a federated transfer learning framework, aiming to enhance learning on a target data set by leveraging information from multiple heterogeneous source data sets while adhering to privacy constraints. We rigorously formulate the notion of \textit{federated differential privacy}, which offers privacy guarantees for each data set without assuming a trusted central server. Under this privacy constraint, we study three classical statistical problems, namely univariate mean estimation, low-dimensional linear regression, and high-dimensional linear regression. By investigating the minimax rates and identifying the costs of privacy for these problems, we show that federated differential privacy is an intermediate privacy model between the well-established local and central models of differential privacy. Our analyses incorporate data heterogeneity and privacy, highlighting the fundamental costs of both in federated learning and underscoring the benefit of knowledge transfer across data sets.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# 偽カバレッジ率制御による情報共形予測セットの選択

Selecting informative conformal prediction sets with false coverage rate control ( http://arxiv.org/abs/2403.12295v2 )

ライセンス: Link先を確認
Ulysse Gazin, Ruth Heller, Ariane Marandon, Etienne Roquain, (参考訳) 回帰と分類を含む教師付き学習において、コンフォメーション手法は、任意の機械学習予測器に対して有限サンプルカバレッジで結果/ラベルの予測セットを提供する。 このような予測セットが選択プロセスの後に現れる場合を考える。 選択過程は、選択された予測セットが、明確に定義された意味で「形式的」であることが要求される。 我々は、分析者が予測セットが十分小さいサンプルのみを情報的とみなし、null値を除くか、あるいは他の適切な「モノトーン」制約に従うような分類と回帰の両方について検討する。 本研究では,このような情報的共形予測セットを構築するための統一的なフレームワークを開発し,選択したサンプルの偽カバレッジ率(FCR)を制御した。 選択後の共形予測セットは、この分野における最近の文献の焦点となっているが、InfoSPとInfoSCOPと呼ばれる新しい手順は、情報的予測セットにFCR制御を提供する最初の方法である。 提案手法の有効性を実データおよびシミュレーションデータに示す。

In supervised learning, including regression and classification, conformal methods provide prediction sets for the outcome/label with finite sample coverage for any machine learning predictor. We consider here the case where such prediction sets come after a selection process. The selection process requires that the selected prediction sets be `informative' in a well defined sense. We consider both the classification and regression settings where the analyst may consider as informative only the sample with prediction sets small enough, excluding null values, or obeying other appropriate `monotone' constraints. We develop a unified framework for building such informative conformal prediction sets while controlling the false coverage rate (FCR) on the selected sample. While conformal prediction sets after selection have been the focus of much recent literature in the field, the new introduced procedures, called InfoSP and InfoSCOP, are to our knowledge the first ones providing FCR control for informative prediction sets. We show the usefulness of our resulting procedures on real and simulated data.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# 二重空間における混合状態の対称性保護位相

Symmetry Protected Topological Phases of Mixed States in the Doubled Space ( http://arxiv.org/abs/2403.13280v2 )

ライセンス: Link先を確認
Ruochen Ma, Alex Turzillo, (参考訳) 量子多体混合状態における対称性と位相の相互作用は、最近大きな関心を集めている。 純粋な状態には見られない現象では、混合状態は平均対称性を示すことができる。 本研究では、SREとSPTの一般的な概念とツールが適用されるヒルベルト空間において、スピン系の近距離絡み合い(SRE)混合状態(平均的および正確な対称性の両方によって保護される)の対称性保護位相(SPT)位相を、それらの純粋なチョイ状態を研究することによって体系的に特徴づける。 この二重空間の利点は、余分な対称性と、元の密度行列のハーミティシティと肯定性がSPT不変量をいかに制限するかに関する微妙な関係である。 それでも、二重空間の視点により、混合状態SPT(MSPT)位相の体系的な分類が得られる。 また、対称有限深さ量子チャネルにおけるMSPT不変量のロバスト性、MSPT相のバルクバウンダリ対応、および混合状態の分離性に対するMSPT不変量と対称性保護符号問題の結果についても検討する。 また,MSPT位相に加えて,平均平均SSB現象を含む混合状態の自発対称性破壊(SSB)パターンと,それらを検出する順序パラメータについて検討した。 混合状態 SSB は対称リンドブレディアン力学の応用可能性制約と関連している。

The interplay of symmetry and topology in quantum many-body mixed states has recently garnered significant interest. In a phenomenon not seen in pure states, mixed states can exhibit average symmetries -- symmetries that act on component states while leaving the ensemble invariant. In this work, we systematically characterize symmetry protected topological (SPT) phases of short-range entangled (SRE) mixed states of spin systems -- protected by both average and exact symmetries -- by studying their pure Choi states in a doubled Hilbert space, where the familiar notions and tools for SRE and SPT pure states apply. This advantage of the doubled space comes with a price: extra symmetries as well as subtleties around how hermiticity and positivity of the original density matrix constrain the possible SPT invariants. Nevertheless, the doubled space perspective allows us to obtain a systematic classification of mixed-state SPT (MSPT) phases. We also investigate the robustness of MSPT invariants under symmetric finite-depth quantum channels, the bulk-boundary correspondence for MSPT phases, and the consequences of the MSPT invariants for the separability of mixed states and the symmetry-protected sign problem. In addition to MSPT phases, we study the patterns of spontaneous symmetry breaking (SSB) of mixed states, including the phenomenon of exact-to-average SSB, and the order parameters that detect them. Mixed state SSB is related to an ingappability constraint on symmetric Lindbladian dynamics.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# GeRM:四足歩行ロボットのための実験用混合ロボットを用いた汎用ロボットモデル

GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot ( http://arxiv.org/abs/2403.13358v2 )

ライセンス: Link先を確認
Wenxuan Song, Han Zhao, Pengxiang Ding, Can Cui, Shangke Lyu, Yaning Fan, Donglin Wang, (参考訳) マルチタスクロボット学習は、多種多様な複雑なシナリオに取り組む上で重要な役割を担っている。 しかし、現在のアプローチは、パフォーマンスの問題とトレーニングデータセットの収集の難しさによって妨げられている。 本稿では,GERM(Generalist Robotic Model)を提案する。 我々は、オフライン強化学習を利用して、データ利用戦略を最適化し、実証と準最適データの両方から学習し、人間の実証の限界を超越する。 その後、変換器ベースのVLAネットワークを用いて、マルチモーダル入力と出力動作を処理する。 そこでGERMは,Mixture-of-Experts構造を導入することにより,モデル全体のキャパシティを高くして高速な推論速度を実現し,RLパラメータの制限を解消し,計算コストを制御しながらマルチタスク学習におけるモデル性能を向上させる。 一連の実験を通して、GeRMは全てのタスクで他のメソッドよりも優れており、トレーニングと推論の両方のプロセスにおいてその効率性が検証されていることを実証した。 さらに,創発的スキル獲得の可能性を明らかにする。 さらに, quRD-Autoデータセットを自動収集し, トレーニングアプローチをサポートし, マルチタスク四足歩行ロボット学習の進歩を促進する。 本研究は,マルチタスク学習コミュニティにおいて,ロボットデータ収集のコスト削減と進捗促進のための新たなパラダイムを提案する。 https://songwxuan.github.io/GeRM/

Multi-task robot learning holds significant importance in tackling diverse and complex scenarios. However, current approaches are hindered by performance issues and difficulties in collecting training datasets. In this paper, we propose GeRM (Generalist Robotic Model). We utilize offline reinforcement learning to optimize data utilization strategies to learn from both demonstrations and sub-optimal data, thus surpassing the limitations of human demonstrations. Thereafter, we employ a transformer-based VLA network to process multi-modal inputs and output actions. By introducing the Mixture-of-Experts structure, GeRM allows faster inference speed with higher whole model capacity, and thus resolves the issue of limited RL parameters, enhancing model performance in multi-task learning while controlling computational costs. Through a series of experiments, we demonstrate that GeRM outperforms other methods across all tasks, while also validating its efficiency in both training and inference processes. Additionally, we uncover its potential to acquire emergent skills. Additionally, we contribute the QUARD-Auto dataset, collected automatically to support our training approach and foster advancements in multi-task quadruped robot learning. This work presents a new paradigm for reducing the cost of collecting robot data and driving progress in the multi-task learning community. You can reach our project and video through the link: https://songwxuan.github.io/GeRM/ .
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# 格子型断面積予測による点雲の表面再構成

Surface Reconstruction from Point Clouds via Grid-based Intersection Prediction ( http://arxiv.org/abs/2403.14085v2 )

ライセンス: Link先を確認
Hui Tian, Kai Xu, (参考訳) 点雲からの表面の再構成はコンピュータビジョンとコンピュータグラフィックスの分野で重要な課題である。 SDFベースの手法は、スムーズなメッシュを最小限の誤差とアーチファクトで再構築するが、オープンな表面を表現するのに苦労する。 一方、UDFをベースとした手法は、開口面を効果的に表現できるが、しばしばノイズを発生させ、メッシュ内の人工物に繋がる。 本研究では,点対の線分と暗黙曲面との交点を直接予測する手法を提案する。 そこで本稿では,Relative Intersection Module とSign Module という2つのモジュールを提案する。 曲面の連続性を維持するために、2つの加群に対称性を統合する。つまり、点対の入力順序が変化しても、予測交叉の位置は変化しない。 この方法は、開口面を表現できるだけでなく、メッシュ上のほとんどのアーチファクトを除去する。 提案手法は,ShapeNet,MGN,ScanNetの3つのデータセット上での最先端性能を示す。 コードは受理時に利用可能になる。

Surface reconstruction from point clouds is a crucial task in the fields of computer vision and computer graphics. SDF-based methods excel at reconstructing smooth meshes with minimal error and artefacts but struggle with representing open surfaces. On the other hand, UDF-based methods can effectively represent open surfaces but often introduce noise, leading to artefacts in the mesh. In this work, we propose a novel approach that directly predicts the intersection points between line segment of point pairs and implicit surfaces. To achieve it, we propose two modules named Relative Intersection Module and Sign Module respectively with the feature of point pair as input. To preserve the continuity of the surface, we also integrate symmetry into the two modules, which means the position of predicted intersection will not change even if the input order of the point pair changes. This method not only preserves the ability to represent open surfaces but also eliminates most artefacts on the mesh. Our approach demonstrates state-of-the-art performance on three datasets: ShapeNet, MGN, and ScanNet. The code will be made available upon acceptance.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# データ増幅学習による簡潔で高品質な顔作り

Toward Tiny and High-quality Facial Makeup with Data Amplify Learning ( http://arxiv.org/abs/2403.15033v2 )

ライセンス: Link先を確認
Qiaoqiao Jin, Xuanhong Chen, Meiguang Jin, Ying Chen, Rui Shi, Yucheng Zheng, Yupeng Zhu, Bingbing Ni, (参考訳) 現代の化粧は、主に障害のない学習パラダイムにヒンジでアプローチするが、不正確な監督(例えば、顔の修正)と洗練された顔のプロンプト(顔解析、ランドマーク検出を含む)の課題に対処する。 これらの課題は、特にモバイルデバイスにおける顔化粧モデルの低コスト展開を禁止している。 以上の問題を解決するために、我々は「データ増幅学習(DAL)」と呼ばれる新しい学習パラダイムを提案し、さらに「TinyBeauty」というコンパクトメイクモデルも提案する。 DALの中核となる考え方は、DDA(Diffusion-based Data Amplifier)を使用して、モデルトレーニングのための制限されたイメージを"増幅する"ことである。 1)残差拡散モデル(RDM)は、高忠実度の詳細を生成し、バニラ拡散モデルにおける詳細化問題を回避し、(2)ファイングラインドメイクアップモジュール(FGMM)は、顔認証を維持しながら正確なメイクアップ制御と組み合わせを実現するために提案されている。 DALと組み合わせて、TinyBeautyは80Kパラメータを必要とせず、複雑な顔プロンプトなしで最先端のパフォーマンスを実現する。 一方、TinyBeautyはiPhone 13で460fpsという驚くべき速度を実現している。 大規模な実験により、DALは5つの画像ペアだけで非常に競争力のあるメイクモデルを作成できることが示された。

Contemporary makeup approaches primarily hinge on unpaired learning paradigms, yet they grapple with the challenges of inaccurate supervision (e.g., face misalignment) and sophisticated facial prompts (including face parsing, and landmark detection). These challenges prohibit low-cost deployment of facial makeup models, especially on mobile devices. To solve above problems, we propose a brand-new learning paradigm, termed "Data Amplify Learning (DAL)," alongside a compact makeup model named "TinyBeauty." The core idea of DAL lies in employing a Diffusion-based Data Amplifier (DDA) to "amplify" limited images for the model training, thereby enabling accurate pixel-to-pixel supervision with merely a handful of annotations. Two pivotal innovations in DDA facilitate the above training approach: (1) A Residual Diffusion Model (RDM) is designed to generate high-fidelity detail and circumvent the detail vanishing problem in the vanilla diffusion models; (2) A Fine-Grained Makeup Module (FGMM) is proposed to achieve precise makeup control and combination while retaining face identity. Coupled with DAL, TinyBeauty necessitates merely 80K parameters to achieve a state-of-the-art performance without intricate face prompts. Meanwhile, TinyBeauty achieves a remarkable inference speed of up to 460 fps on the iPhone 13. Extensive experiments show that DAL can produce highly competitive makeup models using only 5 image pairs.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# ブライトスクイーズ真空による高調波発生

High Harmonic Generation by Bright Squeezed Vacuum ( http://arxiv.org/abs/2403.15337v2 )

ライセンス: Link先を確認
Andrei Rasputnyi, Zhaopin Chen, Michael Birk, Oren Cohen, Ido Kaminer, Michael Krüger, Denis Seletskiy, Maria Chekhova, Francesco Tani, (参考訳) 単一時空間モードで生成する光励起真空(BSV)のマクロ量子状態によって駆動される固体の非摂動高調波発生を観測する。 BSV駆動のプロセスは、同じ平均強度の古典的な光よりも高調波発生においてかなり効率的である。 広い光子数分布、0ドルから2ドルまでの状態、パルス当たりの光子10^{13}$光子、および$\pm1\hbox{V}/\hbox{\r{A}}$のサブサイクル電場変動により、BSVは古典光よりもはるかに広いピーク強度の範囲で自由キャリアダイナミクスへのアクセスを提供する。 我々の発見は、超強度の量子光学の最近の発展に寄与し、従来の低光子数への焦点を超越し、固体中の極端な非線形性を探索する新しい方法を提供する。

We observe non-perturbative high harmonic generation in solids driven by a macroscopic quantum state of light, bright squeezed vacuum (BSV), which we generate in a single spatiotemporal mode. The BSV-driven process is considerably more efficient in the generation of high harmonics than classical light of the same mean intensity. Due to its broad photon-number distribution, covering states from $0$ to $2 \times 10^{13}$ photons per pulse, and sub-cycle electric field fluctuations over $\pm1\hbox{V}/\hbox{\r{A}}$, BSV provides access to free carrier dynamics within a much broader range of peak intensities than accessible with classical light. Our findings contribute to recent developments of quantum optics with extreme intensities, moving beyond its traditional focus on low photon numbers, and providing a new method for exploring extreme nonlinearities in solids.
翻訳日:2024-04-10 19:17:55 公開日:2024-04-09
# $\textit{LinkPrompt}$: Promptベースの言語モデルに対する自然および普遍的敵攻撃

$\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models ( http://arxiv.org/abs/2403.16432v3 )

ライセンス: Link先を確認
Yue Xu, Wenjie Wang, (参考訳) Promptベースの学習は、プレトレーニング言語モデル(PLM)を下流タスクに適応させる新しい言語モデルトレーニングパラダイムである。 モデルの微調整に固定プロンプトテンプレートを使う代わりに、最適化によるプロンプト探索の有効性を示す研究もある。 PLM上でのプロンプトベースの学習の迅速な最適化プロセスはまた、モデルを誤解させる敵のプロンプトの生成に関する洞察を与え、このパラダイムの敵の脆弱性に対する懸念を提起する。 近年の研究では、UAT(Universal adversarial triggers)が生成され、対象のPLMの予測だけでなく、プロンプトベースのファインチューニングモデル(PFM)の予測も変更可能であることが示されている。 しかし、以前の作品に見られるUATは、しばしば読めないトークンや文字であり、適応的な防御を持つ自然なテキストと容易に区別できる。 本研究では,UAT の自然性を考察し,ターゲット PLM や PFM を効果的に攻撃するだけでなく,トリガトークン間の自然性も維持する勾配に基づくビーム探索アルゴリズムによりUAT を生成する逆攻撃アルゴリズムである $\textit{LinkPrompt}$ を開発する。 大規模な結果は、$\textit{LinkPrompt}$と、$\textit{LinkPrompt}$によって生成されたUATのオープンソースLlama2とAPIアクセスLLM GPT-3.5-turboへの転送可能性を示している。 リソースは$\href{https://github.com/SavannahXu79/LinkPrompt}{https://github.com/SavannahXu79/LinkPrompt}$で入手できる。

Prompt-based learning is a new language model training paradigm that adapts the Pre-trained Language Models (PLMs) to downstream tasks, which revitalizes the performance benchmarks across various natural language processing (NLP) tasks. Instead of using a fixed prompt template to fine-tune the model, some research demonstrates the effectiveness of searching for the prompt via optimization. Such prompt optimization process of prompt-based learning on PLMs also gives insight into generating adversarial prompts to mislead the model, raising concerns about the adversarial vulnerability of this paradigm. Recent studies have shown that universal adversarial triggers (UATs) can be generated to alter not only the predictions of the target PLMs but also the prediction of corresponding Prompt-based Fine-tuning Models (PFMs) under the prompt-based learning paradigm. However, UATs found in previous works are often unreadable tokens or characters and can be easily distinguished from natural texts with adaptive defenses. In this work, we consider the naturalness of the UATs and develop $\textit{LinkPrompt}$, an adversarial attack algorithm to generate UATs by a gradient-based beam search algorithm that not only effectively attacks the target PLMs and PFMs but also maintains the naturalness among the trigger tokens. Extensive results demonstrate the effectiveness of $\textit{LinkPrompt}$, as well as the transferability of UATs generated by $\textit{LinkPrompt}$ to open-sourced Large Language Model (LLM) Llama2 and API-accessed LLM GPT-3.5-turbo. The resource is available at $\href{https://github.com/SavannahXu79/LinkPrompt}{https://github.com/SavannahXu79/LinkPrompt}$.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# 畳み込みニューラルネットワークを用いた学習における収束率について

On the rates of convergence for learning with convolutional neural networks ( http://arxiv.org/abs/2403.16459v2 )

ライセンス: Link先を確認
Yunfei Yang, Han Feng, Ding-Xuan Zhou, (参考訳) 畳み込みニューラルネットワーク(CNN)の1側ゼロパディングと複数のチャネルによる近似と学習能力について検討した。 最初の結果は、重みに一定の制約を課したCNNに対する新しい近似を証明した。 2つ目の結果は、CNNを特別に用いたフィードフォワードニューラルネットワークのカバー数に関する新たな分析結果である。 この分析は、重量の大きさを慎重に考慮し、いくつかの状況において既存の文献よりも良い境界を与える。 これら2つの結果を用いて,多くの学習問題におけるCNNに基づく推定器の収束率を導出することができる。 特に、非パラメトリック回帰設定における滑らかな関数を学習するためのCNNに基づいて、最小二乗の最小収束率を確立する。 バイナリ分類では、ヒンジ損失とロジスティック損失を有するCNN分類器の収束率を導出する。 また、得られた分類率は、いくつかの一般的な設定において極小であることも示している。

We study approximation and learning capacities of convolutional neural networks (CNNs) with one-side zero-padding and multiple channels. Our first result proves a new approximation bound for CNNs with certain constraint on the weights. Our second result gives new analysis on the covering number of feed-forward neural networks with CNNs as special cases. The analysis carefully takes into account the size of the weights and hence gives better bounds than the existing literature in some situations. Using these two results, we are able to derive rates of convergence for estimators based on CNNs in many learning problems. In particular, we establish minimax optimal convergence rates of the least squares based on CNNs for learning smooth functions in the nonparametric regression setting. For binary classification, we derive convergence rates for CNN classifiers with hinge loss and logistic loss. It is also shown that the obtained rates for classification are minimax optimal in some common settings.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# ディープフェイクの生成と検出:ベンチマークと調査

Deepfake Generation and Detection: A Benchmark and Survey ( http://arxiv.org/abs/2403.17881v2 )

ライセンス: Link先を確認
Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Chunhua Shen, Dacheng Tao, (参考訳) ディープフェイク生成の進歩に加えて、対応する検出技術は、プライバシー侵害やフィッシング攻撃などのディープフェイクの潜在的な誤用を規制するために、継続的に進化する必要がある。 本調査は, この急速に発展する分野における, ディープフェイクの発生と検出, 現状の要約と解析の最新の展開を包括的にレビューする。 まず、タスク定義を統一し、データセットとメトリクスを包括的に導入し、生成および検出技術フレームワークの開発について議論する。 そこで我々は,いくつかの関連分野の開発について論じ,一般的な顔スワップ,顔の再現,話し顔の生成,顔属性の編集,外的検出という4つの主要なディープフェイク分野の研究に焦点をあてる。 その後、各分野の一般的なデータセットに代表的手法を総合的にベンチマークし、トップカンファレンス/ジャーナルで公開された最新かつ影響力のある作品を十分に評価する。 最後に,議論分野の課題と今後の研究方向性について分析する。 我々は、https://github.com/flyingby/Awesome-Deepfake-Generation-and-Detectionの最新の開発をよくフォローする。

In addition to the advancements in deepfake generation, corresponding detection technologies need to continuously evolve to regulate the potential misuse of deepfakes, such as for privacy invasion and phishing attacks. This survey comprehensively reviews the latest developments in deepfake generation and detection, summarizing and analyzing the current state of the art in this rapidly evolving field. We first unify task definitions, comprehensively introduce datasets and metrics, and discuss the development of generation and detection technology frameworks. Then, we discuss the development of several related sub-fields and focus on researching four mainstream deepfake fields: popular face swap, face reenactment, talking face generation, and facial attribute editing, as well as foreign detection. Subsequently, we comprehensively benchmark representative methods on popular datasets for each field, fully evaluating the latest and influential works published in top conferences/journals. Finally, we analyze the challenges and future research directions of the discussed fields. We closely follow the latest developments in https://github.com/flyingby/Awesome-Deepfake-Generation-and-Detection.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# ソフトラベルによるメタファー検出の強化と単語予測

Enhancing Metaphor Detection through Soft Labels and Target Word Prediction ( http://arxiv.org/abs/2403.18253v2 )

ライセンス: Link先を確認
Kaidi Jia, Rongsheng Li, (参考訳) メタファーは日々のコミュニケーションにおいて重要な役割を果たすが、それらを検出することは困難である。 伝統的な手法は、しばしば言語規則の不適切な適用と、データの疎さを無視する傾向に苦しむ。 これらの課題に対処するため,我々は知識蒸留を統合し,メタファ検出に学習を促す。 提案手法は,比喩検出に特化して設計された即時学習フレームワークを中心に展開する。 対象単語を戦略的にマスキングし,関連するプロンプトデータを提供することで,これらの単語の文脈的意味を正確に予測するモデルを導出する。 このアプローチは、単語の文字通りの意味から生じる混乱を緩和するだけでなく、メタファー検出に言語規則を効果的に適用することを保証する。 さらに,有意義なソフトラベルを生成する教師モデルも導入した。 これらのソフトラベルは、ラベルの平滑化と同じような効果を提供し、モデルが過度に自信を持てなくなるのを防ぎ、データ疎結合の課題に効果的に対処する。 実験結果から,本モデルが様々なデータセットにまたがる顕著な結果から,最先端の性能を達成したことが証明された。

Metaphors play a significant role in our everyday communication, yet detecting them presents a challenge. Traditional methods often struggle with improper application of language rules and a tendency to overlook data sparsity. To address these issues, we integrate knowledge distillation and prompt learning into metaphor detection. Our approach revolves around a tailored prompt learning framework specifically designed for metaphor detection. By strategically masking target words and providing relevant prompt data, we guide the model to accurately predict the contextual meanings of these words. This approach not only mitigates confusion stemming from the literal meanings of the words but also ensures effective application of language rules for metaphor detection. Furthermore, we've introduced a teacher model to generate valuable soft labels. These soft labels provide a similar effect to label smoothing and help prevent the model from becoming over confident and effectively addresses the challenge of data sparsity. Experimental results demonstrate that our model has achieved state-of-the-art performance, as evidenced by its remarkable results across various datasets.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# 変圧器に基づく言語モデルにおけるファクチュアルリコールのメカニズムの解釈

Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models ( http://arxiv.org/abs/2403.19521v2 )

ライセンス: Link先を確認
Ang Lv, Kaiyi Zhang, Yuhan Chen, Yulong Wang, Lifeng Liu, Ji-Rong Wen, Jian Xie, Rui Yan, (参考訳) 本稿では,トランスフォーマーに基づく言語モデルを用いて,現実的なリコールタスクにおいて採用されるメカニズムについて深く検討する。 ゼロショットのシナリオでは、"The capital of France is"のようなプロンプトが与えられた場合、タスク固有のアテンションヘッドは、コンテキストから"France"のようなトピックエンティティを抽出し、"Paris"のような要求された回答をリコールするために後続のMLPに渡す。 本稿では,MLPの出力を人間によって理解可能なコンポーネントに分解することを目的とした新しい分析手法を提案する。 本手法により,これらのタスク固有ヘッドに追従するMLP層の関数を定量化する。 残留ストリームでは、個々のヘッドから派生した情報を消去または増幅する。 さらに、残りのストリームを期待する回答の方向に向けてリダイレクトするコンポーネントを生成する。 これらのゼロショット機構は、数ショットのシナリオでも使用される。 さらに、モデルの最終層に広く存在する反過信機構を観察し、正しい予測を抑える。 我々はこの抑制を、現実のリコール性能を改善するために解釈を活用することで緩和する。 我々の解釈は GPT-2 family から 1.3B OPT まで様々な言語モデルで評価されてきた。

In this paper, we deeply explore the mechanisms employed by Transformer-based language models in factual recall tasks. In zero-shot scenarios, given a prompt like "The capital of France is," task-specific attention heads extract the topic entity, such as "France," from the context and pass it to subsequent MLPs to recall the required answer such as "Paris." We introduce a novel analysis method aimed at decomposing the outputs of the MLP into components understandable by humans. Through this method, we quantify the function of the MLP layer following these task-specific heads. In the residual stream, it either erases or amplifies the information originating from individual heads. Moreover, it generates a component that redirects the residual stream towards the direction of its expected answer. These zero-shot mechanisms are also employed in few-shot scenarios. Additionally, we observed a widely existent anti-overconfidence mechanism in the final layer of models, which suppresses correct predictions. We mitigate this suppression by leveraging our interpretation to improve factual recall performance. Our interpretations have been evaluated across various language models, from the GPT-2 families to 1.3B OPT, and across tasks covering different domains of factual knowledge.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# UltraLight VM-UNet: Parallel Vision Mamba が皮膚病変セグメンテーションのパラメータを著しく削減

UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation ( http://arxiv.org/abs/2403.20035v2 )

ライセンス: Link先を確認
Renkai Wu, Yinghao Liu, Pengchen Liang, Qing Chang, (参考訳) 伝統的にモデルのセグメンテーション性能を改善するために、ほとんどのアプローチはより複雑なモジュールを追加することを好む。 また,これは医療分野,特にモバイル医療機器には適さない。計算負荷モデルでは,計算資源の制約により実際の臨床環境には適さない。 近年、Mambaによって代表される状態空間モデル(SSM)は、従来のCNNやTransformerと強力な競合関係にある。 本稿では,マンバにおけるパラメータの影響の鍵となる要素を深く探求し,これに基づくUltraLight Vision Mamba UNet(UltraLight VM-UNet)を提案する。 具体的には、処理チャネルの全体数を一定に保ちながら、最小の計算負荷で優れた性能を実現する、PVM Layerという並列ビジョン・マンバの並列処理手法を提案する。 以上の結果から,UltraLight VM-UNetは0.049M,GFLOPs 0.060のパラメータと同等の性能を示すことを示した。 さらに,本研究では,マンバのパラメータ影響の鍵となる要素を深く研究し,マンバが将来,軽量化のための新たなメインストリームモジュールとなるための理論的基盤となることを示唆する。 コードはhttps://github.com/wurenkai/UltraLight-VM-UNetから入手できる。

Traditionally for improving the segmentation performance of models, most approaches prefer to use adding more complex modules. And this is not suitable for the medical field, especially for mobile medical devices, where computationally loaded models are not suitable for real clinical environments due to computational resource constraints. Recently, state-space models (SSMs), represented by Mamba, have become a strong competitor to traditional CNNs and Transformers. In this paper, we deeply explore the key elements of parameter influence in Mamba and propose an UltraLight Vision Mamba UNet (UltraLight VM-UNet) based on this. Specifically, we propose a method for processing features in parallel Vision Mamba, named PVM Layer, which achieves excellent performance with the lowest computational load while keeping the overall number of processing channels constant. We conducted comparisons and ablation experiments with several state-of-the-art lightweight models on three skin lesion public datasets and demonstrated that the UltraLight VM-UNet exhibits the same strong performance competitiveness with parameters of only 0.049M and GFLOPs of 0.060. In addition, this study deeply explores the key elements of parameter influence in Mamba, which will lay a theoretical foundation for Mamba to possibly become a new mainstream module for lightweighting in the future. The code is available from https://github.com/wurenkai/UltraLight-VM-UNet .
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# 大規模ビジョンランゲージモデルの評価は正しいのか?

Are We on the Right Way for Evaluating Large Vision-Language Models? ( http://arxiv.org/abs/2403.20330v2 )

ライセンス: Link先を確認
Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, Feng Zhao, (参考訳) 大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。 しかし、現在の評価作業を調べ、主要な2つの課題を特定します。 1)多くのサンプルでは視覚的内容は不要である。 答えは、質問や選択肢、あるいはLLMに埋め込まれた世界的知識から直接推測することができる。 この現象は現在のベンチマークでよく見られる。 例えば、GeminiProはMMMUベンチマークの42.9%を視覚的な入力なしで達成し、平均24%以上の6つのベンチマークでランダム選択ベースラインを上回っている。 2)LLMおよびLVLMトレーニングには意図しないデータ漏洩が存在する。 LLMとLVLMは、視覚的内容のないいくつかの視覚的必要質問に答えることができ、大規模なトレーニングデータの中でこれらのサンプルを記憶していることを示している。 例えば、Sphinx-X-MoE は画像にアクセスせずに MMMU で43.6% を獲得し、LLM のバックボーンを17.9% で上回っている。 どちらの問題も実際のマルチモーダルゲインの誤認を招き、LVLMの研究を誤認する可能性がある。 この目的のために,人間によって精巧に選択された1,500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。 MMStarは6つのコア能力と18の詳細な軸をベンチマークし、注意深くバランスと精製されたサンプルを用いてLVLMのマルチモーダル容量を評価することを目的としている。 これらのサンプルは、まず、自動化パイプラインを備えた現在のベンチマークから大まかに選択され、その後、各キュレーションされたサンプルが視覚的依存を示し、データリークを最小限に抑え、高度なマルチモーダル機能を必要とすることを保証するために、ヒューマンレビューが関与する。 さらに、マルチモーダルトレーニングにおいて、データの漏洩と実際のパフォーマンス向上を測定するために、2つのメトリクスが開発されている。 我々はMMStar上で16個のLVLMを評価し、そのマルチモーダル能力を評価し、7つのベンチマークでデータ漏洩と実際のマルチモーダルゲインを調査した。

Large vision-language models (LVLMs) have recently achieved rapid progress, sparking numerous studies to evaluate their multi-modal capabilities. However, we dig into current evaluation works and identify two primary issues: 1) Visual content is unnecessary for many samples. The answers can be directly inferred from the questions and options, or the world knowledge embedded in LLMs. This phenomenon is prevalent across current benchmarks. For instance, GeminiPro achieves 42.9% on the MMMU benchmark without any visual input, and outperforms the random choice baseline across six benchmarks over 24% on average. 2) Unintentional data leakage exists in LLM and LVLM training. LLM and LVLM could still answer some visual-necessary questions without visual content, indicating the memorizing of these samples within large-scale training data. For example, Sphinx-X-MoE gets 43.6% on MMMU without accessing images, surpassing its LLM backbone with 17.9%. Both problems lead to misjudgments of actual multi-modal gains and potentially misguide the study of LVLM. To this end, we present MMStar, an elite vision-indispensable multi-modal benchmark comprising 1,500 samples meticulously selected by humans. MMStar benchmarks 6 core capabilities and 18 detailed axes, aiming to evaluate LVLMs' multi-modal capacities with carefully balanced and purified samples. These samples are first roughly selected from current benchmarks with an automated pipeline, human review is then involved to ensure each curated sample exhibits visual dependency, minimal data leakage, and requires advanced multi-modal capabilities. Moreover, two metrics are developed to measure data leakage and actual performance gain in multi-modal training. We evaluate 16 leading LVLMs on MMStar to assess their multi-modal capabilities, and on 7 benchmarks with the proposed metrics to investigate their data leakage and actual multi-modal gain.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# トリエントワイド絶対残差によるスケーラブルな3次元レジストレーション

Scalable 3D Registration via Truncated Entry-wise Absolute Residuals ( http://arxiv.org/abs/2404.00915v2 )

ライセンス: Link先を確認
Tianyu Huang, Liangzu Peng, René Vidal, Yun-Hui Liu, (参考訳) 3Dポイントペアの入力セットが与えられた場合、アウトリー・ロバストな3D登録の目的は、できるだけ多くのポイントペアを整列させる回転と変換を計算することである。 これはコンピュータビジョンにおいて重要な問題であり、最近多くの高精度なアプローチが提案されている。 優れたパフォーマンスにもかかわらず、これらのアプローチはスケーラビリティに欠けており、通常ノートパソコンの16ドルGBのメモリをオーバーフローして、およそ3万ドルのポイントペアを処理している。 本稿では,1000万(10^7$)以上の点対を99\%以上のランダムなアウトレイラで処理できる3D登録手法を提案する。 さらに,本手法は効率が高く,メモリコストも低く,高い精度を同時に維持できる。 我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。 この損失を最小限に抑えるために、元の6ドル次元問題を、それぞれ3ドルと2ドルという2つのサブプロブレムに分解し、カスタマイズされたブランチ・アンド・バウンド法により、大域的最適性に従って解いた。 分岐とバウンドはしばしば遅く、スケールできないが、我々はタイトで計算効率のよい新しい有界関数を提案するので、TEARには当てはまらない。 本手法のスケーラビリティと効率性を検証するため,各種データセットの実験を行った。

Given an input set of $3$D point pairs, the goal of outlier-robust $3$D registration is to compute some rotation and translation that align as many point pairs as possible. This is an important problem in computer vision, for which many highly accurate approaches have been recently proposed. Despite their impressive performance, these approaches lack scalability, often overflowing the $16$GB of memory of a standard laptop to handle roughly $30,000$ point pairs. In this paper, we propose a $3$D registration approach that can process more than ten million ($10^7$) point pairs with over $99\%$ random outliers. Moreover, our method is efficient, entails low memory costs, and maintains high accuracy at the same time. We call our method TEAR, as it involves minimizing an outlier-robust loss that computes Truncated Entry-wise Absolute Residuals. To minimize this loss, we decompose the original $6$-dimensional problem into two subproblems of dimensions $3$ and $2$, respectively, solved in succession to global optimality via a customized branch-and-bound method. While branch-and-bound is often slow and unscalable, this does not apply to TEAR as we propose novel bounding functions that are tight and computationally efficient. Experiments on various datasets are conducted to validate the scalability and efficiency of our method.
翻訳日:2024-04-10 19:08:09 公開日:2024-04-09
# NeuroPrune: 大規模言語モデルのためのニューロインスパイアされたトポロジカルスパーストレーニングアルゴリズム

NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models ( http://arxiv.org/abs/2404.01306v2 )

ライセンス: Link先を確認
Amit Dhurandhar, Tejaswini Pedapati, Ronny Luss, Soham Dan, Aurelie Lozano, Payel Das, Georgios Kollias, (参考訳) トランスフォーマーベースの言語モデルは、様々なタスクにおける印象的なパフォーマンスのため、自然言語処理(NLP)においてユビキタスになっている。 しかし、高価なトレーニングや推論は、その適用性に重大な障害となる。 モデルアーキテクチャのさまざまなレベルにおけるスパーシリティの実施は、スケーリングと効率の問題に対処する上で有望なものとなっているが、スパーシリティがネットワークトポロジにどのように影響するかは、いまだに不一致である。 脳神経ネットワークにインスパイアされた我々は、ネットワークトポロジーのレンズを通してスパーシティアプローチを探索する。 具体的には、優先的なアタッチメントや冗長なシナプスプルーニングなどの生物学的ネットワークで見られるメカニズムを活用し、モデル非依存のスパーシリティアプローチは、性能を最適化しない唯一の目的にもかかわらず、分類(自然言語推論など)と生成(要約、機械翻訳など)の両方にまたがって、多様なNLPタスクにまたがって実行され、効率的であることを示す。 NeuroPruneは、パフォーマンスのベースラインと競合する(あるいは、時として優れている)ため、所定の間隔のトレーニング時間において最大10ドル高速になり、同時に多くのケースにおいて推論時間の測定可能な改善を示す。

Transformer-based Language Models have become ubiquitous in Natural Language Processing (NLP) due to their impressive performance on various tasks. However, expensive training as well as inference remains a significant impediment to their widespread applicability. While enforcing sparsity at various levels of the model architecture has found promise in addressing scaling and efficiency issues, there remains a disconnect between how sparsity affects network topology. Inspired by brain neuronal networks, we explore sparsity approaches through the lens of network topology. Specifically, we exploit mechanisms seen in biological networks, such as preferential attachment and redundant synapse pruning, and show that principled, model-agnostic sparsity approaches are performant and efficient across diverse NLP tasks, spanning both classification (such as natural language inference) and generation (summarization, machine translation), despite our sole objective not being optimizing performance. NeuroPrune is competitive with (or sometimes superior to) baselines on performance and can be up to $10$x faster in terms of training time for a given level of sparsity, simultaneously exhibiting measurable improvements in inference time in many cases.
翻訳日:2024-04-10 19:08:08 公開日:2024-04-09
# LA-CBCT再建のための先行周波数誘導拡散モデル

Prior Frequency Guided Diffusion Model for Limited Angle (LA)-CBCT Reconstruction ( http://arxiv.org/abs/2404.01448v2 )

ライセンス: Link先を確認
Jiacheng Xie, Hua-Chieh Shao, Yunxiang Li, You Zhang, (参考訳) コーンビームCT(CBCT)は画像誘導放射線療法に広く用いられている。 リミテッドアングル取得(LA-CBCT)からのCBCTの再構成は、画像効率の向上、線量削減、機械的クリアランスの向上に非常に期待されている。 しかし、LA-CBCT再建は深刻なアンダーサンプリングアーティファクトに悩まされており、非常に不適切な逆問題となっている。 拡散モデルは、学習したデータ分布を通してデータノイズ処理を反転させることでデータ/イメージを生成することができ、LA-CBCT再構成においてデノイザ/レギュラライザとして組み込むことができる。 本研究では,LA-CBCT再構成のための拡散モデルに基づく事前周波数誘導拡散モデル(PFGDM)を開発した。 PFGDMは、LA-CBCT再建の正則化剤として条件付き拡散モデルを使用し、この条件は、LA-CBCT再建に強い解剖学的前駆体を提供する患者特異的CTスキャンから抽出された高周波情報に基づいている。 具体的には,条件の異なるPFGDM(PFGDM-AとPFGDM-B)の2種類を開発した。 PFGDM-Aは、予め最適化された反復段階まで高周波CT情報条件を適用し、その後ドロップして、類似した異なるCT/CBCT解剖の再構築を可能にする。 一方、PFGDM-Bは、各再構成ステップにおいて、崩壊機構を伴って、前回のCTスキャンから徐々に復元指導を段階的に段階的に廃止する。 PFGDMの2つの変種は、PSNRやSSIMといったメトリクスを介して、現在利用可能なLA-CBCT再構成ソリューションと比較された。 PFGDMは従来の拡散モデルに基づく手法よりも優れていた。 PFGDMは、非常に限られたガントリー角度で高品質のLA-CBCTを再構成し、より高速で柔軟なCBCTスキャンを可能にする。

Cone-beam computed tomography (CBCT) is widely used in image-guided radiotherapy. Reconstructing CBCTs from limited-angle acquisitions (LA-CBCT) is highly desired for improved imaging efficiency, dose reduction, and better mechanical clearance. LA-CBCT reconstruction, however, suffers from severe under-sampling artifacts, making it a highly ill-posed inverse problem. Diffusion models can generate data/images by reversing a data-noising process through learned data distributions; and can be incorporated as a denoiser/regularizer in LA-CBCT reconstruction. In this study, we developed a diffusion model-based framework, prior frequency-guided diffusion model (PFGDM), for robust and structure-preserving LA-CBCT reconstruction. PFGDM uses a conditioned diffusion model as a regularizer for LA-CBCT reconstruction, and the condition is based on high-frequency information extracted from patient-specific prior CT scans which provides a strong anatomical prior for LA-CBCT reconstruction. Specifically, we developed two variants of PFGDM (PFGDM-A and PFGDM-B) with different conditioning schemes. PFGDM-A applies the high-frequency CT information condition until a pre-optimized iteration step, and drops it afterwards to enable both similar and differing CT/CBCT anatomies to be reconstructed. PFGDM-B, on the other hand, continuously applies the prior CT information condition in every reconstruction step, while with a decaying mechanism, to gradually phase out the reconstruction guidance from the prior CT scans. The two variants of PFGDM were tested and compared with current available LA-CBCT reconstruction solutions, via metrics including PSNR and SSIM. PFGDM outperformed all traditional and diffusion model-based methods. PFGDM reconstructs high-quality LA-CBCTs under very-limited gantry angles, allowing faster and more flexible CBCT scans with dose reductions.
翻訳日:2024-04-10 19:08:08 公開日:2024-04-09
# 公共部門におけるオープンイノベーションパラダイムの活用--公開研究の体系的レビュー

The use of the open innovation paradigm in the public sector: a systematic review of published studies ( http://arxiv.org/abs/2404.01552v2 )

ライセンス: Link先を確認
Joel Alves de Lima Júnior, Kiev Gama, Jorge da Silva Correia Neto, (参考訳) オープンなイノベーションパラダイムの使用は、ここ数年、公共セクターで特に注目を集めてきた。 より複雑で困難な都市環境に動機づけられたいくつかの政府機関は、オープンで参加的な政府のイニシアチブを促進するための財政資源や努力を割り当ててきた。 このシナリオを解明し理解するために、論文の体系的なレビューを行い、出版された科学論文を包括的に分析し、このパラダイムが公共部門でどのように実践されたのかを捉え、分類し、評価し、合成した。 調査対象は4,741件であった。 この数から、データ抽出と分析のプロセスを経て、潜在的に関連性があり前進している記事は37件に過ぎなかった。 得られたデータから, このパラダイムの使用が2013年以降, 文献で高い頻度で報告され始めたことを確認でき, 主な知見として, 経験, 提案, 現象の発生状況, 理論反射の理解の報告を取り上げている。 また、ソーシャルメディアによるオープンイノベーションの利用が、公共セクターと市民の間のエンゲージメントの先駆的手法の1つであることも確認できた。 結論として、このパラダイムが公共セクターに適用される主な課題は、それぞれの官僚的側面と関係していることが確認された。

The use of the open innovation paradigm has been, over the past years, getting special attention in the public sector. Motivated by an urban environment that is increasingly more complex and challenging, several government agencies have been allocating financial resources and efforts to promote open and participative government initiatives. As a way to try and understand this scenario, a systematic review of the literature was conducted, to provide a comprehensive analysis of the scientific papers that were published, seeking to capture, classify, evaluate and synthesize how the use of this paradigm has been put into practice in the public sector. In total, 4,741 preliminary studies were analyzed. From this number, only 37 articles were classified as potentially relevant and moved forward, going through the process of data extraction and analysis. From the data obtained, it was possible to verify that the use of this paradigm started to be reported with a higher frequency in the literature since 2013 and, among the main findings, we highlight the reports of experiences, approach propositions, of understanding how the phenomenon occurs and theoretical reflections. It was also possible to verify that the use of open innovation through social media was one of the pioneer techniques of engagement between the public sector and citizens. In conclusion, the reports confirm that the main challenges of this paradigm applied to the public sector are associated with their respective bureaucratic aspects, therefore lacking a bigger reflection on the procedures and methods to be used in the public sphere.
翻訳日:2024-04-10 19:08:08 公開日:2024-04-09
# EnergAIze: グリッドエネルギー管理のための多エージェント決定論的政策のグラディエント

EnergAIze: Multi Agent Deep Deterministic Policy Gradient for Vehicle to Grid Energy Management ( http://arxiv.org/abs/2404.02361v2 )

ライセンス: Link先を確認
Tiago Fonseca, Luis Ferreira, Bernardo Cabral, Ricardo Severino, Isabel Praca, (参考訳) 本稿では,再生可能エネルギー源(RES)と電気自動車(EV)の役割の増大について検討する。 持続可能エネルギーの新時代を示す一方で、EV導入率の上昇にともなって、供給と需要のバランスとスムーズなピーク消費の必要性など、複雑な課題も生じている。 これらの課題に対処するには、需要応答(DR)、エネルギーの柔軟性管理、再生可能エネルギーコミュニティ(REC)、より具体的にはEV、V2G(EV-to-Grid)といった革新的なソリューションが必要である。 しかしながら、既存のV2Gアプローチは、現実の適応性、グローバルなREC最適化、柔軟性のあるアセット、スケーラビリティ、ユーザエンゲージメントに欠けることが多い。 このギャップを埋めるために,マルチエージェント強化学習(MARL)エネルギー管理フレームワークであるEnergAIzeを導入する。 EnergAIzeはユーザ中心の多目的エネルギー管理を可能にする。 さらに、分散コンピューティングを通じてデータ保護とオーナシップを設計し、各プロシューマーは自身の住居に直接エネルギー管理最適化ノードを配置することができる。 局所ノードは局所的なエネルギー資産を管理するだけでなく、RECの広い最適化を促進する。 EnergAIzeの有効性は、CityLearnシミュレーションフレームワークを用いたケーススタディにより評価された。 これらのシミュレーションは、EnergAIzeがRECや他のエネルギー資産でV2G技術を実装することの正しさを示すのに役立った。 その結果,RECレベルでのピーク負荷,昇降,炭素排出,電力コストの低減が確認できた。

This paper investigates the increasing roles of Renewable Energy Sources (RES) and Electric Vehicles (EVs). While indicating a new era of sustainable energy, these also introduce complex challenges, including the need to balance supply and demand and smooth peak consumptions amidst rising EV adoption rates. Addressing these challenges requires innovative solutions such as Demand Response (DR), energy flexibility management, Renewable Energy Communities (RECs), and more specifically for EVs, Vehicle-to-Grid (V2G). However, existing V2G approaches often fall short in real-world adaptability, global REC optimization with other flexible assets, scalability, and user engagement. To bridge this gap, this paper introduces EnergAIze, a Multi-Agent Reinforcement Learning (MARL) energy management framework, leveraging the Multi-Agent Deep Deterministic Policy Gradient (MADDPG) algorithm. EnergAIze enables user-centric and multi-objective energy management by allowing each prosumer to select from a range of personal management objectives, thus encouraging engagement. Additionally, it architects' data protection and ownership through decentralized computing, where each prosumer can situate an energy management optimization node directly at their own dwelling. The local node not only manages local energy assets but also fosters REC wide optimization. The efficacy of EnergAIze was evaluated through case studies employing the CityLearn simulation framework. These simulations were instrumental in demonstrating EnergAIze's adeptness at implementing V2G technology within a REC and other energy assets. The results show reduction in peak loads, ramping, carbon emissions, and electricity costs at the REC level while optimizing for individual prosumers objectives.
翻訳日:2024-04-10 19:08:08 公開日:2024-04-09
# 鑑別検査心におけるLCM : 医療ルールエンジンを事例として

LLMs in the Heart of Differential Testing: A Case Study on a Medical Rule Engine ( http://arxiv.org/abs/2404.03664v2 )

ライセンス: Link先を確認
Erblin Isaku, Christoph Laaber, Hassan Sartaj, Shaukat Ali, Thomas Schwitalla, Jan F. Nygård, (参考訳) ノルウェーがん登録 (CRN) は、がんのコア登録活動、すなわちデータキャプチャー、データキュレーションをサポートし、様々な利害関係者のためのデータ製品や統計を作成するために、CaReSS (Automatic Cancer registration Support System) を使用している。 GURIはCaReSSの中核的なコンポーネントであり、医療ルールによる入ってくるデータの検証に責任がある。 このような医療規則は、医療基準、規制、研究に基づいて医療専門家が手動で実施する。 大規模な言語モデル(LLM)は、これらの文書を含む大量の公開情報に基づいて訓練されているため、GURIのテストを生成するために使用できる。 そこで我々は,LLMeDiff (LLM-based test generation and differential testing approach) を提案する。 我々は,4種類のLSM,2種類の医療ルールエンジン,58種類の医用ルールを実験し,LLMの幻覚,成功,時間効率,堅牢性について検討した。 以上の結果より, GPT-3.5の幻覚は最も成功し, 一般に最も堅牢であることがわかった。 当社の差分試験では,22の医療規則で実装の不整合が検出された(例:ルールのバージョンの扱い)。 最後に,結果に基づいて,実践者や研究者に洞察を提供する。

The Cancer Registry of Norway (CRN) uses an automated cancer registration support system (CaReSS) to support core cancer registry activities, i.e, data capture, data curation, and producing data products and statistics for various stakeholders. GURI is a core component of CaReSS, which is responsible for validating incoming data with medical rules. Such medical rules are manually implemented by medical experts based on medical standards, regulations, and research. Since large language models (LLMs) have been trained on a large amount of public information, including these documents, they can be employed to generate tests for GURI. Thus, we propose an LLM-based test generation and differential testing approach (LLMeDiff) to test GURI. We experimented with four different LLMs, two medical rule engine implementations, and 58 real medical rules to investigate the hallucination, success, time efficiency, and robustness of the LLMs to generate tests, and these tests' ability to find potential issues in GURI. Our results showed that GPT-3.5 hallucinates the least, is the most successful, and is generally the most robust; however, it has the worst time efficiency. Our differential testing revealed 22 medical rules where implementation inconsistencies were discovered (e.g., regarding handling rule versions). Finally, we provide insights for practitioners and researchers based on the results.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-09
# LATUP-Net:脳腫瘍切除のための並列畳み込みを用いた軽量3次元注意U-Net

LATUP-Net: A Lightweight 3D Attention U-Net with Parallel Convolutions for Brain Tumor Segmentation ( http://arxiv.org/abs/2404.05911v1 )

ライセンス: Link先を確認
Ebtihal J. Alwadee, Xianfang Sun, Yipeng Qin, Frank C. Langbein, (参考訳) MRI(MRI)スキャンによる早期3次元脳腫瘍の分画は、迅速かつ効果的な治療に不可欠である。 しかし、このプロセスは、腫瘍の複雑な不均一性のために正確なデライン化の課題に直面している。 さらに、特に発展途上国におけるエネルギー持続可能性目標と資源制限は、効率的かつアクセス可能な医療イメージングソリューションを必要とする。 提案されたアーキテクチャ、軽量な3DアテンションU-Netと並列畳み込み、LATUP-Netはこれらの問題に対処する。 高いセグメンテーション性能を維持しつつ、計算要求を大幅に削減するように設計されている。 並列畳み込みを取り入れることで、マルチスケール情報をキャプチャすることで特徴表現を強化する。 さらに、選択的特徴補正を通じてセグメンテーションを洗練するための注意機構を統合する。 LATUP-Netは有望なセグメンテーション性能を達成しており、BraTS2020データセットの平均Diceスコアは88.41%、83.82%、73.67%であり、BraTS2021データセットではそれぞれ90.29%、89.54%、83.92%である。 ハウスドルフ距離測定は、腫瘍の境界線を規定する改良された能力を示している。 3.07Mパラメータしか使用せず、他の最先端モデルの約59倍も小さく、単一のV100 GPU上で動作しているため、LATUP-Netは現実の臨床応用、特に限られたリソースの設定において有望なソリューションとして注目されている。 勾配重み付きクラスアクティベーションマッピングと混乱行列を用いたモデルの解釈可能性の検討により、注意機構が小領域のセグメンテーションを促進する一方で、それらの影響はニュアンス化されていることが明らかとなった。 最も正確な腫瘍の脱線を達成するには、局所的な特徴とグローバルな特徴を慎重にバランスする必要がある。

Early-stage 3D brain tumor segmentation from magnetic resonance imaging (MRI) scans is crucial for prompt and effective treatment. However, this process faces the challenge of precise delineation due to the tumors' complex heterogeneity. Moreover, energy sustainability targets and resource limitations, especially in developing countries, require efficient and accessible medical imaging solutions. The proposed architecture, a Lightweight 3D ATtention U-Net with Parallel convolutions, LATUP-Net, addresses these issues. It is specifically designed to reduce computational requirements significantly while maintaining high segmentation performance. By incorporating parallel convolutions, it enhances feature representation by capturing multi-scale information. It further integrates an attention mechanism to refine segmentation through selective feature recalibration. LATUP-Net achieves promising segmentation performance: the average Dice scores for the whole tumor, tumor core, and enhancing tumor on the BraTS2020 dataset are 88.41%, 83.82%, and 73.67%, and on the BraTS2021 dataset, they are 90.29%, 89.54%, and 83.92%, respectively. Hausdorff distance metrics further indicate its improved ability to delineate tumor boundaries. With its significantly reduced computational demand using only 3.07 M parameters, about 59 times fewer than other state-of-the-art models, and running on a single V100 GPU, LATUP-Net stands out as a promising solution for real-world clinical applications, particularly in settings with limited resources. Investigations into the model's interpretability, utilizing gradient-weighted class activation mapping and confusion matrices, reveal that while attention mechanisms enhance the segmentation of small regions, their impact is nuanced. Achieving the most accurate tumor delineation requires carefully balancing local and global features.
翻訳日:2024-04-10 16:28:06 公開日:2024-04-09
# 電子健康記録を用いたパーソナライズド診断道の深部強化学習 : 貧血と全身性エリテマトーデスの比較検討

Deep Reinforcement Learning for Personalized Diagnostic Decision Pathways Using Electronic Health Records: A Comparative Study on Anemia and Systemic Lupus Erythematosus ( http://arxiv.org/abs/2404.05913v1 )

ライセンス: Link先を確認
Lillian Muyama, Antoine Neuraz, Adrien Coulet, (参考訳) 背景: 臨床診断は通常、大学の専門家によるガイドラインによって推奨される一連の手順に従って行われる。 したがって、ガイドラインは臨床的決定を合理化する上で重要な役割を担っているが、人口の大半をカバーするために構築され、まれな状態の患者をカバーできないため、限界に悩まされている。 さらに、アップデートは長くて高価で、新興疾患やプラクティスには適さない。 方法: ガイドラインに着想を得て, 診断タスクを逐次意思決定問題として定式化し, 深層強化学習(DRL)アルゴリズムを用いて, 電子健康記録(EHR)から正しい診断を得るために, 行動の最適なシーケンスを学習する。 我々は, DRLを人工, 現実的なERHに適用し, 決定経路が決定木のスキーマに従う貧血診断と, 重み付き基準スコアに従う全身性エリテマトーデス(SLE)診断の2つの臨床応用例を開発した。 EHRにおいて頻繁に発生するノイズや欠落データに対する我々のアプローチの頑健さを特に評価する。 結果: いずれの場合も, 不完全なデータが存在する場合には, 従来の分類器と比較して, 最良のDRLアルゴリズムが競合性能を示す。 結論:DRLは診断のためのパーソナライズされた意思決定経路を学ぶ機会を提供する。 自己説明可能なステップバイステップのパスを生成し、最先端のアプローチと比較してその正確性は競争力がある、という2つのユースケースについて説明します。

Background: Clinical diagnosis is typically reached by following a series of steps recommended by guidelines authored by colleges of experts. Accordingly, guidelines play a crucial role in rationalizing clinical decisions but suffer from limitations as they are built to cover the majority of the population and fail at covering patients with uncommon conditions. Moreover, their updates are long and expensive, making them unsuitable for emerging diseases and practices. Methods: Inspired by guidelines, we formulate the task of diagnosis as a sequential decision-making problem and study the use of Deep Reinforcement Learning (DRL) algorithms to learn the optimal sequence of actions to perform in order to obtain a correct diagnosis from Electronic Health Records (EHRs). We apply DRL on synthetic, but realistic EHRs and develop two clinical use cases: Anemia diagnosis, where the decision pathways follow the schema of a decision tree; and Systemic Lupus Erythematosus (SLE) diagnosis, which follows a weighted criteria score. We particularly evaluate the robustness of our approaches to noisy and missing data since these frequently occur in EHRs. Results: In both use cases, and in the presence of imperfect data, our best DRL algorithms exhibit competitive performance when compared to the traditional classifiers, with the added advantage that they enable the progressive generation of a pathway to the suggested diagnosis which can both guide and explain the decision-making process. Conclusion: DRL offers the opportunity to learn personalized decision pathways to diagnosis. We illustrate with our two use cases their advantages: they generate step-by-step pathways that are self-explanatory; and their correctness is competitive when compared to state-of-the-art approaches.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 自己組織化粒子系における集合的挙動の進化

Evolving Collective Behavior in Self-Organizing Particle Systems ( http://arxiv.org/abs/2404.05915v1 )

ライセンス: Link先を確認
Devendra Parkar, Kirtus G. Leyba, Raylene A. Faerber, Joshua J. Daymude, (参考訳) 局所的な相互作用は、生物と社会の複雑なシステムに侵入する創発的な集団行動を引き起こす。 しかし、望ましい振る舞いを生み出す相互作用を明らかにすることは、依然として重要な課題である。 本稿では,数学的に指定された対象行動を達成するために,確率的分散アルゴリズムの景観を探索する進化的フレームワークであるEvoSOPSを提案する。 これらのアルゴリズムは、永続的な記憶と厳密に局所的な知覚と運動を持たない個人からなる自己組織化粒子系(SOPS)を制御している。 集約、フォトタキシング、分離の挙動について、EvoSOPSは統計物理学の数学的理論に基づいて、既存のSOPSに対する確率論的アプローチよりも4.2-15.3%高い適合性を達成するアルゴリズムを発見した。 また、EvoSOPSは、確率的アプローチが必要な物体コーティングのような新しい挙動にも柔軟に適用される。 最後に、繰り返しEvoSOPSをまたいだ凝集のために生産される多種多様で最適なゲノムから洞察を抽出し、EvoSOPSが新しい行動のためのSOPSアルゴリズムに関する将来の理論的研究をブートストラップする方法を実証する。

Local interactions drive emergent collective behavior, which pervades biological and social complex systems. But uncovering the interactions that produce a desired behavior remains a core challenge. In this paper, we present EvoSOPS, an evolutionary framework that searches landscapes of stochastic distributed algorithms for those that achieve a mathematically specified target behavior. These algorithms govern self-organizing particle systems (SOPS) comprising individuals with no persistent memory and strictly local sensing and movement. For aggregation, phototaxing, and separation behaviors, EvoSOPS discovers algorithms that achieve 4.2-15.3% higher fitness than those from the existing "stochastic approach to SOPS" based on mathematical theory from statistical physics. EvoSOPS is also flexibly applied to new behaviors such as object coating where the stochastic approach would require bespoke, extensive analysis. Finally, we distill insights from the diverse, best-fitness genomes produced for aggregation across repeated EvoSOPS runs to demonstrate how EvoSOPS can bootstrap future theoretical investigations into SOPS algorithms for new behaviors.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 視野非依存型心エコー図解析のためのプロンプト駆動型ユニバーサルモデル

Prompt-driven Universal Model for View-Agnostic Echocardiography Analysis ( http://arxiv.org/abs/2404.05916v1 )

ライセンス: Link先を確認
Sekeun Kim, Hui Ren, Peng Guo, Abder-Rahman Ali, Patrick Zhang, Kyungsang Kim, Xiang Li, Quanzheng Li, (参考訳) 心エコー法による心機能解析は, 画像品質の変動と, 各種標準画像からのスキャン処理の必要性により, 時間的, 資源的負荷が伴う。 心エコー図における現在の自動セグメンテーション法は有望な性能を示すが、特定のスキャンビューに基づいて学習し、対応するデータを分析する。 しかし、この解は標準ビューの数とともに必要モデルの数が増加するにつれて制限される。 そこで本論文では,視線非依存型心エコー図解析のための,プロンプト駆動型ユニバーサル手法を提案する。 まず、標準ビュー間のドメインシフトを考慮し、事前学習された視覚モデルを用いて、プロンプトをマッチングし、入力埋め込みをクエリすることで、異なるビューに固有のプロンプトを学習することを目的とした、プロンプトマッチングと呼ばれる手法を導入する。 そこで本研究では,事前訓練された医療用言語モデルを用いて,テキスト情報を画素データと整合させて,正確なセグメンテーションを行った。 3つの標準ビューに対する大規模な実験により、我々のアプローチは最先端のユニバーサルメソッドよりも大幅に優れており、同じビューでトレーニング、テストされたセグメンテーションモデルよりも同等またはそれ以上のパフォーマンスを実現していることがわかった。

Echocardiography segmentation for cardiac analysis is time-consuming and resource-intensive due to the variability in image quality and the necessity to process scans from various standard views. While current automated segmentation methods in echocardiography show promising performance, they are trained on specific scan views to analyze corresponding data. However, this solution has a limitation as the number of required models increases with the number of standard views. To address this, in this paper, we present a prompt-driven universal method for view-agnostic echocardiography analysis. Considering the domain shift between standard views, we first introduce a method called prompt matching, aimed at learning prompts specific to different views by matching prompts and querying input embeddings using a pre-trained vision model. Then, we utilized a pre-trained medical language model to align textual information with pixel data for accurate segmentation. Extensive experiments on three standard views showed that our approach significantly outperforms the state-of-the-art universal methods and achieves comparable or even better performances over the segmentation model trained and tested on same views.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# AdaGossip: コミュニケーション圧縮による分散型深層学習のための適応型コンセンサスステップサイズ

AdaGossip: Adaptive Consensus Step-size for Decentralized Deep Learning with Communication Compression ( http://arxiv.org/abs/2404.05919v1 )

ライセンス: Link先を確認
Sai Aparna Aketi, Abolfazl Hashemi, Kaushik Roy, (参考訳) 分散型学習は、大規模な分散データセット上でデバイス上での学習をサポートする上で不可欠であり、中央サーバの必要性を排除している。 しかし、コミュニケーションのオーバーヘッドは、そのような分散化されたセットアップの実現において、依然として大きなボトルネックとなっている。 この問題に対処するために, 圧縮通信を用いた分散学習アルゴリズムが文献で提案されている。 これらのアルゴリズムの多くは、トレーニング開始時の圧縮比に基づいて調整されるコンセンサスステップサイズと呼ばれる追加のハイパーパラメータを導入している。 本研究では,近隣エージェント間の圧縮モデル差に基づいて,コンセンサスの大きさを適応的に調整する新しい手法であるAdaGossipを提案する。 提案手法の有効性を,各種コンピュータビジョンデータセット(CIFAR-10, CIFAR-100, Fashion MNIST, Imagenette, ImageNet),モデルアーキテクチャ,ネットワークトポロジなどを用いて検証した。 実験の結果,提案手法は,通信圧縮による分散学習における最先端の手法と比較して,優れた性能(0~2倍の精度向上)を達成できることがわかった。

Decentralized learning is crucial in supporting on-device learning over large distributed datasets, eliminating the need for a central server. However, the communication overhead remains a major bottleneck for the practical realization of such decentralized setups. To tackle this issue, several algorithms for decentralized training with compressed communication have been proposed in the literature. Most of these algorithms introduce an additional hyper-parameter referred to as consensus step-size which is tuned based on the compression ratio at the beginning of the training. In this work, we propose AdaGossip, a novel technique that adaptively adjusts the consensus step-size based on the compressed model differences between neighboring agents. We demonstrate the effectiveness of the proposed method through an exhaustive set of experiments on various Computer Vision datasets (CIFAR-10, CIFAR-100, Fashion MNIST, Imagenette, and ImageNet), model architectures, and network topologies. Our experiments show that the proposed method achieves superior performance ($0-2\%$ improvement in test accuracy) compared to the current state-of-the-art method for decentralized learning with communication compression.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 子ども中心のAI設計とテストのための包括的実践

Inclusive Practices for Child-Centered AI Design and Testing ( http://arxiv.org/abs/2404.05920v1 )

ライセンス: Link先を確認
Emani Dotch, Vitica Arnold, (参考訳) ニューロディバージェント児のための子ども中心の人工知能技術を設計・テストするためのアイデアと包括的実践について検討する。 AIは、ニューロディバージェントな子供に共通する社会的コミュニケーション、自己規制、感覚処理の課題をサポートすることを約束している。 著者らはニューロディバージェントな個人とニューロディバージェントな人々との関係の両方で、プロと個人の経験から、ニューロディバージェントな子供からのインプットを含む、アクセス可能なAI技術の作成に関する洞察を提供する。 ニューロディバージェントな子供のためのAI技術を設計するためのアイデアと、その感覚感受性を考慮しつつ、デザインプロセスにそれらを組み込むことについて検討する。 我々は、適応的で支援的なAI技術と設計プロセスの重要性を強調し、子供中心のAI設計とテスト方法を洗練するためのさらなる会話を求めることで、締めくくります。

We explore ideas and inclusive practices for designing and testing child-centered artificially intelligent technologies for neurodivergent children. AI is promising for supporting social communication, self-regulation, and sensory processing challenges common for neurodivergent children. The authors, both neurodivergent individuals and related to neurodivergent people, draw from their professional and personal experiences to offer insights on creating AI technologies that are accessible and include input from neurodivergent children. We offer ideas for designing AI technologies for neurodivergent children and considerations for including them in the design process while accounting for their sensory sensitivities. We conclude by emphasizing the importance of adaptable and supportive AI technologies and design processes and call for further conversation to refine child-centered AI design and testing methods.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 最大表現性を有するシリコンフォトニックチップにおける量子生成対向ネットワーク

Quantum Generative Adversarial Networks in a Silicon Photonic Chip with Maximum Expressibility ( http://arxiv.org/abs/2404.05921v1 )

ライセンス: Link先を確認
Haoran Ma, Liao Ye, Fanjie Ruan, Zichao Zhao, Maohui Li, Yuehai Wang, Jianyi Yang, (参考訳) GAN(Generative Adversarial Network)は、現実的な画像やテキスト、オーディオなどの現実的なタスクで大きな成功を収めている。 GANと量子コンピューティングを組み合わせることで、量子回路の表現性が強いため、量子GANは古典的よりも指数関数的な優位性を持つと考えられている。 本研究では、任意の制御単位(CU)演算を実行し、2キュービット純状態を生成することができる2キュービットシリコン量子フォトニックチップを作成し、量子GANのための優れたプラットフォームとなる。 複雑なデータパターンをキャプチャするために、量子GANに非線形性を注入するハイブリッドジェネレータが提案されている。 実演として、GANの純粋量子バージョン(PQ-GAN)とハイブリッド量子古典的GAN(HQC-GAN)の両方をカバーする3つの生成タスクが、高忠実な単一量子ビット状態学習、古典的な分散ロード、圧縮画像生成を含むチップ上で成功している。 実験の結果、シリコン量子フォトニックチップは、生成学習の応用に大きな可能性を持っていることが証明された。

Generative adversarial networks (GANs) have achieved remarkable success with realistic tasks such as creating realistic images, texts, and audio. Combining GANs and quantum computing, quantum GANs are thought to have an exponential advantage over their classical counterparts due to the stronger expressibility of quantum circuits. In this research, a two-qubit silicon quantum photonic chip is created, capable of executing arbitrary controlled-unitary (CU) operations and generating any 2-qubit pure state, thus making it an excellent platform for quantum GANs. To capture complex data patterns, a hybrid generator is proposed to inject nonlinearity into quantum GANs. As a demonstration, three generative tasks, covering both pure quantum versions of GANs (PQ-GAN) and hybrid quantum-classical GANs (HQC-GANs), are successfully carried out on the chip, including high-fidelity single-qubit state learning, classical distributions loading, and compressed image production. The experiment results prove that silicon quantum photonic chips have great potential in generative learning applications.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# テーラーフィールドのキラリティー・対称性研究への応用

The Application of Tailored Fields for Studying Chirality and Symmetry ( http://arxiv.org/abs/2404.05923v1 )

ライセンス: Link先を確認
Dino Habibović, Kathryn R. Hamilton, Ofer Neufeld, Laura Rego, (参考訳) ウルトラショートレーザーパルスは、物質の中で最速の電荷力学をトリガーし、探究するためのユニークなツールであり、空間、時間、エネルギーにおいて前例のない分解能を持つ基本的な物理現象の研究を可能にする。 超短パルスがもたらす最も興味深い機会の1つは、空間および偏光領域におけるレーザービームの特性を調整し、複数のレベルの対称性の破れを効果的に制御することで対称性を調節し、調査することができることである。 特に、これはキラル物質と超高速キラルダイナミクスの探索を可能にする。 近年では、キラリティーを研究するための高感度なアプローチの開発が物理学や化学においてホットな話題となり、主に尾尾の光の分野から発展した。 この視点では、これらの分野の個人的および共同進化を論じ、すでに交配し、科学における新たな機会を開こうとしている。 我々は、トピックが完全に統合され、相互に進化すると予想される将来の展望を概説し、卓越したオープンな問題を強調します。

Ultrashort laser pulses pose unique tools to trigger and probe the fastest charge dynamics in matter, allowing the investigation of fundamental physical phenomena with unprecedented resolution in space, time, and energy. One of the most fascinating opportunities that ultrashort pulses offer is the possibility of modulating and investigating symmetries by tailoring the properties of the laser beam in the spatial and polarization domains, effectively controlling symmetry breaking on multiple levels. In particular, this allows probing chiral matter and ultrafast chiral dynamics. In recent years, the development of highly sensitive approaches for studying chirality has been a hot topic in physics and chemistry that has developed largely separately from the field of tailored light. This perspective discusses the individual and joint evolution of these fields with an emphasis on how the fields have already cross-fertilized, opening new opportunities in science. We outline a future outlook of how the topics are expected to fully merge and mutually evolve, emphasizing outstanding open issues.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 再帰的に定義された量子回路の検証

Verification of Recursively Defined Quantum Circuits ( http://arxiv.org/abs/2404.05934v1 )

ライセンス: Link先を確認
Mingsheng Ying, Zhicheng Zhang, (参考訳) 再帰的手法は近年量子プログラミングに導入され、様々な大きな量子回路やアルゴリズムをエレガントかつ経済的にプログラムできるようになっている。 本稿では,再帰的に定義された量子回路の正当性を検証するための証明システムを提案する。 証明システムの健全性と(相対的な)完全性を確立する。 その効果を示すために、証明システムの一連の応用例として、(多重量子)制御ゲート、(多重量子)GHZ状態を生成する量子回路、量子フーリエ変換の再帰的定義、量子状態準備、および量子ランダムアクセスメモリ(QRAM)がある。

Recursive techniques have recently been introduced into quantum programming so that a variety of large quantum circuits and algorithms can be elegantly and economically programmed. In this paper, we present a proof system for formal verification of the correctness of recursively defined quantum circuits. The soundness and (relative) completeness of the proof system are established. To demonstrating its effectiveness, a series of application examples of the proof system are given, including (multi-qubit) controlled gates, a quantum circuit generating (multi-qubit) GHZ (Greenberger-Horne-Zeilinger) states, recursive definition of quantum Fourier transform, quantum state preparation, and quantum random-access memories (QRAM).
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# ハイブリッドナノワイヤにおけるドレッシドマヨナフェミオン

Dressed Majorana fermion in a hybrid nanowire ( http://arxiv.org/abs/2404.05935v1 )

ライセンス: Link先を確認
Guo-Jian Qiao, Xin Yue, C. P. Sun, (参考訳) ハイブリッドナノワイヤシステムの低エネルギー理論は、強いトンネルと磁場強度でマヨラナフェルミオン(MF)を定義することに失敗する。 この制限に対処するために、ナノワイヤと超伝導体における準励起が独自の「反粒子」を構成するMFを定義するための全体論的アプローチを提案する。 この定義は、低エネルギー理論で示される制約を超えて一般化される。 マヨラナ相はナノワイヤ内の化学ポテンシャルとゼーマンエネルギーだけでなく超伝導体のエネルギーにも依存し、化学ポテンシャルのミスマッチはMFを観測しないことを明らかにした。 このようなより広い視点は、様々な条件下でより具体的な実験的ガイダンスを提供する

The low-energy theory of hybrid nanowire systems fails to define Majorana fermion (MF) in the strong tunneling and magnetic field strength. To address this limitation, we propose a holistic approach to define MF in which the quasi-excitation in nanowire and superconductor constitutes together its own ``antiparticles''. This definition is general, beyond the constraint presented in the low-energy theory. It reveals that the Majorana phase depends not only on the chemical potential and Zeeman energy in nanowire but also on those of superconductor, and that the mismatch of chemical potential leads not to observe MF. Such a broader perspective provides more specific experimental guidance under various conditions
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 対称ハミルトニアンの学習

Learning Symmetric Hamiltonian ( http://arxiv.org/abs/2404.05936v1 )

ライセンス: Link先を確認
Jing Zhou, D. L. Zhou, (参考訳) ハミルトニアン・ラーニング(英: Hamiltonian Learning)は、量子情報処理における基本的な問題である計測からハミルトニアンを復元する過程である。 本研究では,対称ハミルトニアンを固有状態から学習する問題について検討する。 ブロック対角的世俗決定における群論の適用に着想を得て、固有状態から得られるハミルトン未知数に関する線形独立方程式の数を決定する方法を導出した。 この数は、ハミルトニアン対称性群の関連する既約表現の退化に対応する。 我々のアプローチを説明するために、XXXハミルトニアンおよびXXZハミルトニアンについて検討する。 まずハミルトニアン対称性群を決定し、それから既約表現の分解を解く。 我々の数値的な結果は、我々の理論的分析と一貫して一致している。

Hamiltonian Learning is a process of recovering system Hamiltonian from measurements, which is a fundamental problem in quantum information processing. In this study, we investigate the problem of learning the symmetric Hamiltonian from its eigenstate. Inspired by the application of group theory in block diagonal secular determination, we have derived a method to determine the number of linearly independent equations about the Hamiltonian unknowns obtained from an eigenstate. This number corresponds to the degeneracy of the associated irreducible representation of the Hamiltonian symmetry group. To illustrate our approach, we examine the XXX Hamiltonian and the XXZ Hamiltonian. We first determine the Hamiltonian symmetry group, then work out the decomposition of irreducible representation, which serves as foundation for analyzing the uniqueness of recovered Hamiltonian. Our numerical findings consistently align with our theoretical analysis.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# ニューラルネットワークは1次元振動積分器のFLOP効率積分器となり得る

Neural networks can be FLOP-efficient integrators of 1D oscillatory integrands ( http://arxiv.org/abs/2404.05938v1 )

ライセンス: Link先を確認
Anshuman Sinha, Spencer H. Bryngelson, (参考訳) ニューラルネットワークは1次元振動積分器のFLOP効率インテグレータであることを示す。 我々は、高振動1D関数の積分を計算するためにフィードフォワードニューラルネットワークを訓練する。 トレーニングセットは、様々な文字と振動行動の度合いを持つ関数のパラメトリックな組み合わせである。 数値的な例では、これらのネットワークは十分な振動インテグレードに対してFLOP効率が高く、平均的なFLOP利得は1000FLOPである。 ネットワークは、同じ計算予算や浮動小数点演算数の下で、従来の二次法よりも優れた振動積分を計算する。 隠蔽層5層のフィードフォワードネットワークは,0.001の相対精度で良好であることがわかった。 ニューラルネットワークの推論の計算負担は、内積パターンの二次規則と比較しても比較的小さい。 従来の数値積分器では不透明な振動積分器の潜在パターンを学習した結果を仮定する。

We demonstrate that neural networks can be FLOP-efficient integrators of one-dimensional oscillatory integrands. We train a feed-forward neural network to compute integrals of highly oscillatory 1D functions. The training set is a parametric combination of functions with varying characters and oscillatory behavior degrees. Numerical examples show that these networks are FLOP-efficient for sufficiently oscillatory integrands with an average FLOP gain of 1000 FLOPs. The network calculates oscillatory integrals better than traditional quadrature methods under the same computational budget or number of floating point operations. We find that feed-forward networks of 5 hidden layers are satisfactory for a relative accuracy of 0.001. The computational burden of inference of the neural network is relatively small, even compared to inner-product pattern quadrature rules. We postulate that our result follows from learning latent patterns in the oscillatory integrands that are otherwise opaque to traditional numerical integrators.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 多体力学における機械学習による量子制御

Machine-learning-inspired quantum control in many-body dynamics ( http://arxiv.org/abs/2404.05940v1 )

ライセンス: Link先を確認
Meng-Yun Mao, Zheng Cheng, Liangsheng Li, Ning Wu, Wen-Long You, (参考訳) 量子多体状態の精密な準備は、量子計算と量子シミュレーションの実践に不可欠である。 しかし、クエンチ過程における臨界点における避けられない励起によって引き起こされる固有の課題は、制御場の注意深い設計を必要とする。 本研究では,制御フィールドの最適化に適した,有望で汎用的な動的制御ニューラルネットワークを提案する。 本稿では,量子イジングモデルにおける臨界点通過時の欠陥密度の抑制とキャット状態の忠実度向上の問題に対処する。 本手法は,最適化戦略を調整することにより,異なる目的関数間のシームレスな遷移を容易にする。 勾配に基づくパワーロークエンチ法と比較して,本手法は小システムサイズと長期的進化の両面で大きな優位性を示す。 本稿では、制御フィールドの特定の形態を詳細に分析し、実験的な実装に共通する特徴を要約する。 さらに, 数値シミュレーションにより, ランダムノイズやスピン数変動に対する提案手法の堅牢性を示す。 最適化された欠陥密度とキャット状態の忠実度は、量子進化の量子速度限界と一致するクエンチ時間とシステムサイズとの臨界比で遷移を示す。

Achieving precise preparation of quantum many-body states is crucial for the practical implementation of quantum computation and quantum simulation. However, the inherent challenges posed by unavoidable excitations at critical points during quench processes necessitate careful design of control fields. In this work, we introduce a promising and versatile dynamic control neural network tailored to optimize control fields. We address the problem of suppressing defect density and enhancing cat-state fidelity during the passage across the critical point in the quantum Ising model. Our method facilitates seamless transitions between different objective functions by adjusting the {optimization strategy}. In comparison to gradient-based power-law quench methods, our approach demonstrates significant advantages for both small system sizes and long-term evolutions. We provide a detailed analysis of the specific forms of control fields and summarize common features for experimental implementation. Furthermore, numerical simulations demonstrate the robustness of our proposal against random noise and spin number fluctuations. The optimized defect density and cat-state fidelity exhibit a transition at a critical ratio of the quench duration to the system size, coinciding with the quantum speed limit for quantum evolution.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 機械翻訳, ダイアクリティカルティクス, ダイアクリティカルライゼーションの相互作用

Interplay of Machine Translation, Diacritics, and Diacritization ( http://arxiv.org/abs/2404.05943v1 )

ライセンス: Link先を確認
Wei-Rui Chen, Ife Adebara, Muhammad Abdul-Mageed, (参考訳) マルチタスク学習環境において,機械翻訳(MT)とダイアクリプティゼーション(Dicritization)が相互のパフォーマンスにどのように影響するか,また,ダイアクリプティクスの保持(vs.除去)がMTのパフォーマンスに与える影響について検討する。 55の異なる言語(36のアフリカ語と19のヨーロッパ語)の高リソース (HR) と低リソース (LR) 設定において、これらの2つの質問について検討する。 1) 結果から, ダイアクリティーゼーションは, LRシナリオではMTに有意な効果を示すが, HRシナリオではMTに悪影響を及ぼすことが示された。 MTはLRのダイアクリプティゼーションに悪影響を及ぼすが,一部の言語ではHRに有益であることがわかった。 2) MT性能は, 調味料の保持・除去にかかわらず類似している。 さらに、ダイアクリティカルシステムの複雑性を測定するための2つの指標のクラスを提案し、これらの指標は我々のダイアクリティカル化モデルの性能と正の相関関係を示す。 全体として、我々の研究は、異なるデータサイズ条件下でMTおよびダイアクリタイズシステムを開発するための洞察を提供し、調査対象の55言語を超えて一般化する可能性がある。

We investigate two research questions: (1) how do machine translation (MT) and diacritization influence the performance of each other in a multi-task learning setting (2) the effect of keeping (vs. removing) diacritics on MT performance. We examine these two questions in both high-resource (HR) and low-resource (LR) settings across 55 different languages (36 African languages and 19 European languages). For (1), results show that diacritization significantly benefits MT in the LR scenario, doubling or even tripling performance for some languages, but harms MT in the HR scenario. We find that MT harms diacritization in LR but benefits significantly in HR for some languages. For (2), MT performance is similar regardless of diacritics being kept or removed. In addition, we propose two classes of metrics to measure the complexity of a diacritical system, finding these metrics to correlate positively with the performance of our diacritization models. Overall, our work provides insights for developing MT and diacritization systems under different data size conditions and may have implications that generalize beyond the 55 languages we investigate.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# タスク特化行動補正によるマルチタスク強化学習の効率化

Efficient Multi-Task Reinforcement Learning via Task-Specific Action Correction ( http://arxiv.org/abs/2404.05950v1 )

ライセンス: Link先を確認
Jinyuan Feng, Min Chen, Zhiqiang Pu, Tenghai Qiu, Jianqiang Yi, (参考訳) マルチタスク強化学習(MTRL)は、ロボットの一般化を促進する可能性を示し、複数のタスクを同時に実行できる。 しかし、MTRLの性能はタスク間の衝突や負の干渉の影響を受けやすい。 効率的なMTRLを実現するために,複数のタスクの同時学習を目的とした汎用的・補完的手法であるTSAC(Task-Specific Action Correction)を提案する。 TSACは、政策学習を、共有ポリシー(SP)と行動修正ポリシー(ACP)の2つの別々のポリシーに分解する。 SPにおける特定のタスクの詳細への過度な注力による対立を軽減するため、APPは目標指向のスパース報酬を導入し、エージェントが長期的な視点を採用し、タスクをまたいだ一般化を実現する。 付加的な報酬は、元の問題を多目的MTRL問題に変換する。 さらに、多目的のMTRLを単一目的の定式化に変換するため、TSACは仮想的な期待予算をスパース報酬に割り当て、制約付き単目的の最適化を非制約のものに変換するためにラグランジアン法を用いる。 Meta-World の MT10 と MT50 ベンチマークで行った実験的評価は、TSAC が既存の最先端手法よりも優れており、サンプル効率と効果的なアクション実行の両方において大幅な改善が達成されていることを示している。

Multi-task reinforcement learning (MTRL) demonstrate potential for enhancing the generalization of a robot, enabling it to perform multiple tasks concurrently. However, the performance of MTRL may still be susceptible to conflicts between tasks and negative interference. To facilitate efficient MTRL, we propose Task-Specific Action Correction (TSAC), a general and complementary approach designed for simultaneous learning of multiple tasks. TSAC decomposes policy learning into two separate policies: a shared policy (SP) and an action correction policy (ACP). To alleviate conflicts resulting from excessive focus on specific tasks' details in SP, ACP incorporates goal-oriented sparse rewards, enabling an agent to adopt a long-term perspective and achieve generalization across tasks. Additional rewards transform the original problem into a multi-objective MTRL problem. Furthermore, to convert the multi-objective MTRL into a single-objective formulation, TSAC assigns a virtual expected budget to the sparse rewards and employs Lagrangian method to transform a constrained single-objective optimization into an unconstrained one. Experimental evaluations conducted on Meta-World's MT10 and MT50 benchmarks demonstrate that TSAC outperforms existing state-of-the-art methods, achieving significant improvements in both sample efficiency and effective action execution.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# VisualWebBench: Webページ理解とグラウンド化において,マルチモーダル LLM はどこまで進化したか?

VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? ( http://arxiv.org/abs/2404.05955v1 )

ライセンス: Link先を確認
Junpeng Liu, Yifan Song, Bill Yuchen Lin, Wai Lam, Graham Neubig, Yuanzhi Li, Xiang Yue, (参考訳) MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であるが、包括的なベンチマークが欠如しているため、Webドメインにおけるパフォーマンス評価は依然として課題である。 既存のベンチマークは、一般的なマルチモーダルなタスクのために設計されており、Webページのユニークな特徴を捉えていないか、あるいはエンドツーエンドのWebエージェントタスクに注力している。 本稿では,様々な Web タスクにおける MLLM の機能を評価するためのマルチモーダルベンチマークである \bench{} を紹介する。 \bench{}は7つのタスクで構成され、139の実際のWebサイトから1.5Kのヒューマンキュレーションされたインスタンスで構成され、87のサブドメインをカバーする。 オープンソースMLLM14, Gemini Pro, Claude-3 シリーズおよび GPT-4V(ision) を \bench{} 上で評価し,重要な課題と性能ギャップを明らかにした。 さらに分析では、テキストリッチ環境における不適切なグラウンド化や、低解像度の画像入力によるサブパー性能など、現在のMLLMの限界を強調している。 Bench{}は研究コミュニティにとって貴重なリソースであり、Web関連アプリケーションのためのより強力で汎用的なMLLMの作成に貢献すると思います。

Multimodal Large Language models (MLLMs) have shown promise in web-related tasks, but evaluating their performance in the web domain remains a challenge due to the lack of comprehensive benchmarks. Existing benchmarks are either designed for general multimodal tasks, failing to capture the unique characteristics of web pages, or focus on end-to-end web agent tasks, unable to measure fine-grained abilities such as OCR, understanding, and grounding. In this paper, we introduce \bench{}, a multimodal benchmark designed to assess the capabilities of MLLMs across a variety of web tasks. \bench{} consists of seven tasks, and comprises 1.5K human-curated instances from 139 real websites, covering 87 sub-domains. We evaluate 14 open-source MLLMs, Gemini Pro, Claude-3 series, and GPT-4V(ision) on \bench{}, revealing significant challenges and performance gaps. Further analysis highlights the limitations of current MLLMs, including inadequate grounding in text-rich environments and subpar performance with low-resolution image inputs. We believe \bench{} will serve as a valuable resource for the research community and contribute to the creation of more powerful and versatile MLLMs for web-related applications.
翻訳日:2024-04-10 16:18:17 公開日:2024-04-09
# 重粒子の絡み合い抑制と低エネルギー散乱

Entanglement suppression and low-energy scattering of heavy mesons ( http://arxiv.org/abs/2404.05958v1 )

ライセンス: Link先を確認
Tao-Ran Hu, Su Chen, Feng-Kun Guo, (参考訳) 近年、エンタングルメント抑制が創発対称性の起源の1つとして提案されている。 ここでは、重中間子散乱の文脈でこの予想をテストする。 D^{(*)}\bar D^{(*)}$ と $D^{(*)} D^{(*)}$ の低エネルギー相互作用はそれぞれ、ハドロン分子候補 $X(3872)$ と $T_{cc}(3875)^+$ と密接に関連しており、重クォークスピン対称性を示す非相対論的有効ラグランジアンによって説明できる。 我々は、等スピンとスピンの自由度の両方を扱うために、テンソル積のフレームワークにおける絡み込み抑制について検討する。 入力として$X(3872)$と$T_{cc}(3875)^+$を用いると、絡み合いの抑制は実際には光クォークスピン対称性、すなわち、$D^{(*)}\bar D^{(*)}$または$D^{(*)D^{(*)}$のような創発的な対称性をもたらす。 X(3872)$ と $T_{cc}(3875)^+$ はそれぞれ 5 と 1 の等方体パートナーを持つと予測され、重クォークスピン対称性からのみ導かれる対応するパートナー数は 3 と 1 である。 この予測は、絡み込み抑制予測をさらに検証するために、実験データと格子QCD結果と対向する必要がある。

Recently entanglement suppression was proposed to be one possible origin of emergent symmetries. Here we test this conjecture in the context of heavy meson scatterings. The low-energy interactions of $D^{(*)}\bar D^{(*)}$ and $D^{(*)} D^{(*)}$ are closely related to the hadronic molecular candidates $X(3872)$ and $T_{cc}(3875)^+$, respectively, and can be described by a nonrelativistic effective Lagrangian manifesting heavy-quark spin symmetry, which includes only constant contact potentials at leading order. We explore entanglement suppression in a tensor-product framework to treat both the isospin and spin degrees of freedom. Using the $X(3872)$ and $T_{cc}(3875)^+$ as inputs, we find that entanglement suppression indeed leads to an emergent symmetry, namely, a light-quark spin symmetry, and as such the $D^{(*)}\bar D^{(*)}$ or $D^{(*)} D^{(*)}$ interaction strengths for a given total isospin do not depend on the total angular momentum of light (anti)quarks. The $X(3872)$ and $T_{cc}(3875)^+$ are predicted to have five and one isoscalar partner, respectively, while the corresponding partner numbers derived solely from heavy-quark spin symmetry are three and one, respectively. The predictions need to be confronted with experimental data and lattice QCD results to further test the entanglement suppression conjecture.
翻訳日:2024-04-10 16:08:33 公開日:2024-04-09
# 拡散モデルによるサブ波長構造への写像光学特性

Map Optical Properties to Subwavelength Structures Directly via a Diffusion Model ( http://arxiv.org/abs/2404.05959v1 )

ライセンス: Link先を確認
Shijie Rao, Kaiyu Cui, Yidong Huang, Jiawei Yang, Yali Li, Shengjin Wang, Xue Feng, Fang Liu, Wei Zhang, (参考訳) サブ波長フォトニック構造とメタマテリアルは光を制御するための革命的なアプローチを提供する。 これらのサブ波長構造に対する逆設計法は、新しいフォトニックデバイスの開発に不可欠である。 しかし、既存の逆設計手法のほとんどは光学特性からフォトニック構造への直接マッピングを実現することはできない。 本研究では,人工知能(AI)の強力な生成能力を活用し,潜在拡散モデルに基づく実用的な逆設計手法を提案する。 本手法は,前方シミュレーションや反復最適化を必要とせず,光学特性を直接構造にマッピングする。 ここで、与えられた光学特性は「プロンプト」として機能し、構築されたモデルに要求されるフォトニック構造を正確に「描画」するよう導くことができる。 実験により, 直接写像に基づく逆設計法により, 与えられた光学特性を追従しながら, 高忠実度でサブ波長フォトニック構造を生成できることが確認された。 これにより光学設計の手法が変化し、新しいフォトニックデバイスの研究が大幅に加速する可能性がある。

Subwavelength photonic structures and metamaterials provide revolutionary approaches for controlling light. The inverse design methods proposed for these subwavelength structures are vital to the development of new photonic devices. However, most of the existing inverse design methods cannot realize direct mapping from optical properties to photonic structures but instead rely on forward simulation methods to perform iterative optimization. In this work, we exploit the powerful generative abilities of artificial intelligence (AI) and propose a practical inverse design method based on latent diffusion models. Our method maps directly the optical properties to structures without the requirement of forward simulation and iterative optimization. Here, the given optical properties can work as "prompts" and guide the constructed model to correctly "draw" the required photonic structures. Experiments show that our direct mapping-based inverse design method can generate subwavelength photonic structures at high fidelity while following the given optical properties. This may change the method used for optical design and greatly accelerate the research on new photonic devices.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# EasyTrack: 効率的でコンパクトなワンストリーム3Dポイントクラウドトラッカー

EasyTrack: Efficient and Compact One-stream 3D Point Clouds Tracker ( http://arxiv.org/abs/2404.05960v1 )

ライセンス: Link先を確認
Baojie Fan, Wuyang Zhou, Kai Wang, Shijun Zhou, Fengyu Xu, Jiandong Tian, (参考訳) ポイントクラウド内の3Dシングルオブジェクトトラッカー(SOT)のほとんどは、2ストリームのマルチステージ3Dシームス(Motion Tracking)パラダイムに従っており、テンプレートと検索領域のポイントクラウドを2つの並列ブランチで処理し、監督されたポイントクラウドのバックボーン上に構築する。 本研究は,典型的な3Dシームズやモーショントラッキング以外にも,新しい視点から,3つの特殊設計からなる「textbf{EasyTrack}」と呼ばれる,簡潔でコンパクトな1ストリームトランスフォーマー3D SOTパラダイムを提案する。 1)3Dポイントクラウド追跡機能付き事前学習モジュールを開発し、3Dポイントクラウド追跡表現の学習にマスク付きオートエンコーディングを利用する。 2) 目標認識型3次元特徴を同時に学習し, フレキシブルな自己認識機構を通じて相互相関を広範囲に捉えるために, 統合された3次元追跡特徴学習・融合ネットワークを提案する。 3)高密度鳥眼ビュー(BEV)特徴空間における目標位置ネットワークを構築し,目標分類と回帰を行う。 さらに,ノイズポイント雲の背景情報による不明瞭なターゲットを減らすために,中心点相互作用(CPI)戦略を設計するEasyTrack++という拡張版を開発した。 提案されたEasyTrackとEasyTrack++は、KITTI、NuScenes、Waymoで、いくつかのパラメータを持つ \textbf{52.6fps} で実行中に、新しい最先端のパフォーマンス($\textbf{18\%}$, $\textbf{40\%}$, $\textbf{3\%}$ success gains)を設定した。 コードはhttps://github.com/KnightApple427/Easytrack.comから入手できる。

Most of 3D single object trackers (SOT) in point clouds follow the two-stream multi-stage 3D Siamese or motion tracking paradigms, which process the template and search area point clouds with two parallel branches, built on supervised point cloud backbones. In this work, beyond typical 3D Siamese or motion tracking, we propose a neat and compact one-stream transformer 3D SOT paradigm from the novel perspective, termed as \textbf{EasyTrack}, which consists of three special designs: 1) A 3D point clouds tracking feature pre-training module is developed to exploit the masked autoencoding for learning 3D point clouds tracking representations. 2) A unified 3D tracking feature learning and fusion network is proposed to simultaneously learns target-aware 3D features, and extensively captures mutual correlation through the flexible self-attention mechanism. 3) A target location network in the dense bird's eye view (BEV) feature space is constructed for target classification and regression. Moreover, we develop an enhanced version named EasyTrack++, which designs the center points interaction (CPI) strategy to reduce the ambiguous targets caused by the noise point cloud background information. The proposed EasyTrack and EasyTrack++ set a new state-of-the-art performance ($\textbf{18\%}$, $\textbf{40\%}$ and $\textbf{3\%}$ success gains) in KITTI, NuScenes, and Waymo while runing at \textbf{52.6fps} with few parameters (\textbf{1.3M}). The code will be available at https://github.com/KnightApple427/Easytrack.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# LLM2Vec:大規模言語モデルは秘密裏に強力なテキストエンコーダ

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders ( http://arxiv.org/abs/2404.05961v1 )

ライセンス: Link先を確認
Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy, (参考訳) 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 しかし、コミュニティは、リッチなコンテキスト化表現を必要とするテキスト埋め込みタスクに対して、これらのモデルを徐々に採用しているだけである。 本研究では,デコーダのみのLLMを強力なテキストエンコーダに変換する,シンプルな教師なしアプローチであるLLM2Vecを紹介する。 LLM2Vecは3つの単純なステップから構成される。 1)双方向の注意を喚起する。 2)次のトークン予測を隠蔽し、 3)教師なしコントラスト学習。 我々は、LLM2Vecの有効性を、1.3Bから7Bまでの3つのLLMに適用し、英語の単語レベルとシーケンスレベルのタスクの変換モデルを評価する。 我々は,単語レベルのタスクにおいて,エンコーダのみのモデルよりも優れた性能を示し,MTEB(Massive Text Embeddings Benchmark)の非教師なしのパフォーマンスを達成した。 さらに,LLM2Vecと教師付きコントラスト学習を組み合わせることで,公開データのみをトレーニングするモデル間でMTEBの最先端性能を実現する。 我々の強力な実験結果と広範囲な分析により、LPMは高価な適応や合成GPT-4生成データを必要とせずに、パラメータ効率の良い方法で、効果的にユニバーサルテキストエンコーダに変換できることを示した。

Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 3 popular LLMs ranging from 1.3B to 7B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data. Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# ディープラーニングに基づくアウト・オブ・ディストリビューション・ソース・コードの識別:どこまでで解けるか?

Deep Learning-Based Out-of-distribution Source Code Data Identification: How Far We Have Gone? ( http://arxiv.org/abs/2404.05964v1 )

ライセンス: Link先を確認
Van Nguyen, Xingliang Yuan, Tingmin Wu, Surya Nepal, Marthie Grobler, Carsten Rudolph, (参考訳) ソフトウェア脆弱性(SV)は、安全クリティカルなセキュリティシステムに対して、一般的で深刻で決定的な関心事となっている。 これにより、ソフトウェア脆弱性検出(SVD)のためのAIベースのメソッドの使用が大幅に進歩する。 実際には、AIベースの手法はSVDや他のドメインアプリケーション(例えばコンピュータビジョン)で有望なパフォーマンスを実現してきたが、トレーニングデータ分布(例えば、インディストリビューション、ID)から遠く離れた入力データ(オフ・オブ・ディストリビューション、OOD、データと呼ばれる)の地味なラベルを検出することに失敗することはよく知られている。 この欠点は、モデルが過ちを犯している可能性を示すのに失敗する深刻な問題につながります。 この問題に対処するために、下流AIベースのモジュールに入力データを送る前にOOD検出器(すなわち、入力がIDかOODであるかを決定する)が適用されている。 OOD検出はコンピュータビジョンと医療診断の応用のために広く設計されているが、OODソースコードデータ検出のためのAIベースの自動技術はまだ十分に研究されていない。 そこで本稿では,OODソースコードデータ識別問題に対処する革新的な深層学習手法を提案する。 提案手法は,ソースコードの特徴を効果的に学習し,活用するために,革新的なクラスタコントラスト学習を用いて情報理論的な視点から導出される。 実世界のソースコードデータセットに関する厳密で包括的な実験は、最先端のベースラインに比べて、我々のアプローチの有効性と進歩を示している。 要するに,本手法は,FPR,AUROC,AUPRの約15.27%,7.39%,および4.93%に対して,ベースラインと比較して有意に高い性能を示した。

Software vulnerabilities (SVs) have become a common, serious, and crucial concern to safety-critical security systems. That leads to significant progress in the use of AI-based methods for software vulnerability detection (SVD). In practice, although AI-based methods have been achieving promising performances in SVD and other domain applications (e.g., computer vision), they are well-known to fail in detecting the ground-truth label of input data (referred to as out-of-distribution, OOD, data) lying far away from the training data distribution (i.e., in-distribution, ID). This drawback leads to serious issues where the models fail to indicate when they are likely mistaken. To address this problem, OOD detectors (i.e., determining whether an input is ID or OOD) have been applied before feeding the input data to the downstream AI-based modules. While OOD detection has been widely designed for computer vision and medical diagnosis applications, automated AI-based techniques for OOD source code data detection have not yet been well-studied and explored. To this end, in this paper, we propose an innovative deep learning-based approach addressing the OOD source code data identification problem. Our method is derived from an information-theoretic perspective with the use of innovative cluster-contrastive learning to effectively learn and leverage source code characteristics, enhancing data representation learning for solving the problem. The rigorous and comprehensive experiments on real-world source code datasets show the effectiveness and advancement of our approach compared to state-of-the-art baselines by a wide margin. In short, on average, our method achieves a significantly higher performance from around 15.27%, 7.39%, and 4.93% on the FPR, AUROC, and AUPR measures, respectively, in comparison with the baselines.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# THOUGHTSCULPT: 中間修正と検索による推論

THOUGHTSCULPT: Reasoning with Intermediate Revision and Search ( http://arxiv.org/abs/2404.05966v1 )

ライセンス: Link先を確認
Yizhou Chi, Kevin Yang, Dan Klein, (参考訳) 本稿では,THOUGHTSCULPTについて述べる。 THOUGHTSCULPTはモンテカルロ木探索(MCTS)を用いて潜在的な解の探索木を探索し、解を一度に1つのアクションで構築し、ドメイン固有のヒューリスティックに基づいて評価する。 THOUGHTSCULPTは、アウトプットの残りの部分を構築し続けるのではなく、以前のアウトプットの一部を変更することができる。 経験的に、THOUGHTSCULPTは、ストーリーアウトラインの改善(最大+30%の面白さ)、ミニクロスワードの解決(最大+16%の単語の成功率)、制約付き生成(最大+10%のコンセプトカバレッジ)の3つの課題において、最先端の推論方法よりも優れています。

We present THOUGHTSCULPT, a general reasoning and search method for tasks with outputs that can be decomposed into components. THOUGHTSCULPT explores a search tree of potential solutions using Monte Carlo Tree Search (MCTS), building solutions one action at a time and evaluating according to any domain-specific heuristic, which in practice is often simply an LLM evaluator. Critically, our action space includes revision actions: THOUGHTSCULPT may choose to revise part of its previous output rather than continuing to build the rest of its output. Empirically, THOUGHTSCULPT outperforms state-of-the-art reasoning methods across three challenging tasks: Story Outline Improvement (up to +30% interestingness), Mini-Crosswords Solving (up to +16% word success rate), and Constrained Generation (up to +10% concept coverage).
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# JSTR: 判決によってシーンテキスト認識が改善される

JSTR: Judgment Improves Scene Text Recognition ( http://arxiv.org/abs/2404.05967v1 )

ライセンス: Link先を確認
Masato Fujitake, (参考訳) 本稿では,画像とテキストが一致しているかを判断することで,シーンテキスト認識タスクの精度を向上させる手法を提案する。 過去の研究では、入力画像から認識結果を生成することに焦点を当てていたが、本手法では、モデルの誤認識結果をその誤り傾向を理解するために考慮し、テキスト認識パイプラインを改善した。 本手法は,画像とテキスト間の誤りや誤りを予測することにより,モデルが誤認識しそうなデータに対する明示的なフィードバックを提供することで,テキスト認識精度を向上させる。 公開データセットを用いた実験結果から,提案手法はシーンテキスト認識におけるベースライン法や最先端手法よりも優れていることが示された。

In this paper, we present a method for enhancing the accuracy of scene text recognition tasks by judging whether the image and text match each other. While previous studies focused on generating the recognition results from input images, our approach also considers the model's misrecognition results to understand its error tendencies, thus improving the text recognition pipeline. This method boosts text recognition accuracy by providing explicit feedback on the data that the model is likely to misrecognize by predicting correct or incorrect between the image and text. The experimental results on publicly available datasets demonstrate that our proposed method outperforms the baseline and state-of-the-art methods in scene text recognition.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# 検索拡張による大規模言語モデルのパーソナライズのための最適化手法

Optimization Methods for Personalizing Large Language Models through Retrieval Augmentation ( http://arxiv.org/abs/2404.05970v1 )

ライセンス: Link先を確認
Alireza Salemi, Surya Kallumadi, Hamed Zamani, (参考訳) 本稿では,大規模言語モデル(LLM)をパーソナライズするための検索強化アプローチについて検討する。 パーソナライズされた生成を目的とした,限られた数の個人文書を大規模言語モデルに配信する検索モデルを最適化するための最初の試みを提案する。 提案手法は, 個人化のための任意の指標を用いて報酬関数を定義した強化学習と, 下流LLMから検索モデルへの知識蒸留に基づく2つの最適化アルゴリズムである。 本稿では,LLM入力毎にどのレトリバーを選択するかを決定する,プレジェネレーションとポストジェネレーションのレトリバー選択モデルについても紹介する。 言語モデルパーソナライゼーション(LaMP)ベンチマークによる多種多様なタスクに関する広範な実験は、7つのデータセットのうち6つにおいて統計的に有意な改善を示した。

This paper studies retrieval-augmented approaches for personalizing large language models (LLMs), which potentially have a substantial impact on various applications and domains. We propose the first attempt to optimize the retrieval models that deliver a limited number of personal documents to large language models for the purpose of personalized generation. We develop two optimization algorithms that solicit feedback from the downstream personalized generation tasks for retrieval optimization--one based on reinforcement learning whose reward function is defined using any arbitrary metric for personalized generation and another based on knowledge distillation from the downstream LLM to the retrieval model. This paper also introduces a pre- and post-generation retriever selection model that decides what retriever to choose for each LLM input. Extensive experiments on diverse tasks from the language model personalization (LaMP) benchmark reveal statistically significant improvements in six out of seven datasets.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# トランスフォーマーの可読性はRNNに伝達されるか?

Does Transformer Interpretability Transfer to RNNs? ( http://arxiv.org/abs/2404.05971v1 )

ライセンス: Link先を確認
Gonçalo Paulo, Thomas Marshall, Nora Belrose, (参考訳) MambaやRWKVといったリカレントニューラルネットワークアーキテクチャの最近の進歩により、言語モデリングの難易度や下流評価の観点から、RNNが等サイズのトランスフォーマーのパフォーマンスに適合または超えることが可能になった。 本稿では,トランスフォーマ言語モデルにもともと設計されていた解釈可能性の選択手法が,これらアップ・アンド・カレントアーキテクチャに移行するかどうかを検討する。 具体的には、対照的なアクティベーション付加によるモデル出力のステアリング、調整レンズによる潜時予測の抽出、特定の条件下で偽出力を生成するために微調整されたモデルからの潜時知識の抽出に焦点をあてる。 以上の結果から,これらの手法はRNNに適用した場合に有効であることが示され,RNNの圧縮状態を利用して改善できることが示唆された。

Recent advances in recurrent neural network architectures, such as Mamba and RWKV, have enabled RNNs to match or exceed the performance of equal-size transformers in terms of language modeling perplexity and downstream evaluations, suggesting that future systems may be built on completely new architectures. In this paper, we examine if selected interpretability methods originally designed for transformer language models will transfer to these up-and-coming recurrent architectures. Specifically, we focus on steering model outputs via contrastive activation addition, on eliciting latent predictions via the tuned lens, and eliciting latent knowledge from models fine-tuned to produce false outputs under certain conditions. Our results show that most of these techniques are effective when applied to RNNs, and we show that it is possible to improve some of them by taking advantage of RNNs' compressed state.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# 対話型因果認識による適応型機械学習モデル展開のためのサイバーマニュファクチャリングIoTシステム

A Cyber Manufacturing IoT System for Adaptive Machine Learning Model Deployment by Interactive Causality Enabled Self-Labeling ( http://arxiv.org/abs/2404.05976v1 )

ライセンス: Link先を確認
Yutian Ren, Yuqi He, Xuyin Zhang, Aaron Yen, G. P. Li, (参考訳) 機械学習(ML)は多くの製造アプリケーションで生産性を向上させるために実証されている。 これらのMLアプリケーションをホストするために、MLアプリケーションをデプロイし、リアルタイムインテリジェンスを提供するアプリケーションを製造するために、いくつかのソフトウェアおよび産業用IoT(Industrial Internet of Things)システムが提案されている。 近年,サイバー物理システム,特に製造業において,データ分散シフトに対応するために展開後のMLモデルを自動的に適応・パーソナライズすることにより,適応型MLアプリケーションを進化させるための対話型因果対応型自己ラベル方式が提案されている。 自己ラベル方式のユニークな特徴は、様々なレベルでダイナミズムをサポートする新しいソフトウェアシステムを必要とする。 本稿では、エンドツーエンドのデータストリーミングパイプライン、MLサービス統合、自動自己ラベルサービスで構成されるAdaptIoTシステムを提案する。 このセルフラベルサービスは、因果的知識ベースと自動化されたフルサイクルのセルフラベルワークフローで構成され、複数のMLモデルを同時に適用する。 AdaptIoTはコンテナ化されたマイクロサービスアーキテクチャを使用して、小規模および中規模の製造業者にスケーラブルでポータブルなソリューションを提供する。 自己ラベル適応型MLアプリケーションの実演はメーカースペースを用いて行われ、信頼性の高い性能を示す。

Machine Learning (ML) has been demonstrated to improve productivity in many manufacturing applications. To host these ML applications, several software and Industrial Internet of Things (IIoT) systems have been proposed for manufacturing applications to deploy ML applications and provide real-time intelligence. Recently, an interactive causality enabled self-labeling method has been proposed to advance adaptive ML applications in cyber-physical systems, especially manufacturing, by automatically adapting and personalizing ML models after deployment to counter data distribution shifts. The unique features of the self-labeling method require a novel software system to support dynamism at various levels. This paper proposes the AdaptIoT system, comprised of an end-to-end data streaming pipeline, ML service integration, and an automated self-labeling service. The self-labeling service consists of causal knowledge bases and automated full-cycle self-labeling workflows to adapt multiple ML models simultaneously. AdaptIoT employs a containerized microservice architecture to deliver a scalable and portable solution for small and medium-sized manufacturers. A field demonstration of a self-labeling adaptive ML application is conducted with a makerspace and shows reliable performance.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# StoryImager: コヒーレントなストーリービジュアライゼーションとコンプリートのための統一的で効率的なフレームワーク

StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion ( http://arxiv.org/abs/2404.05979v1 )

ライセンス: Link先を確認
Ming Tao, Bing-Kun Bao, Hao Tang, Yaowei Wang, Changsheng Xu, (参考訳) ストーリービジュアライゼーションは、ストーリーラインに基づいて、現実的で一貫性のある一連の画像を生成することを目的としている。 現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。 これらのモデルは顕著な進歩を見せているが、まだ3つの欠点がある。 1) 自己回帰的手法の一方向生成は,多くのシナリオにおけるユーザビリティを制限している。 2)追加のストーリーヒストリーエンコーダでは,計算コストが非常に高い。 3) ストーリーの可視化と継続モデルは個別に訓練され,推測される。 これらの目的のために、双方向で統一的で効率的なフレームワーク、すなわちStoryImagerを提案する。 StoryImagerは、双方向生成のための事前訓練されたテキスト・ツー・イメージモデルから継承されたストーリーボード生成能力を向上する。 具体的には、異なるストーリー画像生成タスクを拡張し、統合するためのターゲットフレームマスキング戦略を導入する。 さらに,局所的忠実度とグローバルなコヒーレンスに対する横断的注意を分解するフレーム・ストリー・クロス・アテンション・モジュールを提案する。 さらに,ストーリーライン全体からコンテキスト情報を抽出するコンテキスト特徴エクストラクタを設計する。 大規模な実験結果から,StoryImagerの優れた性能が示された。 コードはhttps://github.com/tobran/StoryImager.comから入手できる。

Story visualization aims to generate a series of realistic and coherent images based on a storyline. Current models adopt a frame-by-frame architecture by transforming the pre-trained text-to-image model into an auto-regressive manner. Although these models have shown notable progress, there are still three flaws. 1) The unidirectional generation of auto-regressive manner restricts the usability in many scenarios. 2) The additional introduced story history encoders bring an extremely high computational cost. 3) The story visualization and continuation models are trained and inferred independently, which is not user-friendly. To these ends, we propose a bidirectional, unified, and efficient framework, namely StoryImager. The StoryImager enhances the storyboard generative ability inherited from the pre-trained text-to-image model for a bidirectional generation. Specifically, we introduce a Target Frame Masking Strategy to extend and unify different story image generation tasks. Furthermore, we propose a Frame-Story Cross Attention Module that decomposes the cross attention for local fidelity and global coherence. Moreover, we design a Contextual Feature Extractor to extract contextual information from the whole storyline. The extensive experimental results demonstrate the excellent performance of our StoryImager. The code is available at https://github.com/tobran/StoryImager.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# 局所拡散を用いた画像翻訳における構造的幻覚への対処

Tackling Structural Hallucination in Image Translation with Local Diffusion ( http://arxiv.org/abs/2404.05980v1 )

ライセンス: Link先を確認
Seunghoi Kim, Chen Jin, Tom Diethe, Matteo Figini, Henry F. J. Tregidgo, Asher Mullokandov, Philip Teare, Daniel C. Alexander, (参考訳) 近年の拡散モデルでは, 画像生成の高度化が進んでいるが, 医用画像の異常な腫瘍などのアウト・オブ・ディストリビューション(OOD)画像の再構成に苦慮している。 このような幻覚は条件画像中の局所的なOOD領域から生じると仮定する。 我々は、OOD領域を分割し、別々の画像生成を行うことで幻覚を軽減できることを検証する。 そこで本研究では,複数の局所拡散プロセスによる幻覚を緩和する学習自由拡散フレームワークを提案する。 提案手法では, OOD領域内および外部の両方で, ``branching''モジュールがローカルに生成され, ``fusion''モジュールがこれらの予測を1つに統合する。 本手法は, 実世界の医療・自然画像データセットの40%, 25%の誤診を減らし, ベースラインモデルに対する幻覚を定量的に, 質的に緩和するものである。 また、様々な事前訓練された拡散モデルとの互換性を示す。

Recent developments in diffusion models have advanced conditioned image generation, yet they struggle with reconstructing out-of-distribution (OOD) images, such as unseen tumors in medical images, causing ``image hallucination'' and risking misdiagnosis. We hypothesize such hallucinations result from local OOD regions in the conditional images. We verify that partitioning the OOD region and conducting separate image generations alleviates hallucinations in several applications. From this, we propose a training-free diffusion framework that reduces hallucination with multiple Local Diffusion processes. Our approach involves OOD estimation followed by two modules: a ``branching'' module generates locally both within and outside OOD regions, and a ``fusion'' module integrates these predictions into one. Our evaluation shows our method mitigates hallucination over baseline models quantitatively and qualitatively, reducing misdiagnosis by 40% and 25% in the real-world medical and natural image datasets, respectively. It also demonstrates compatibility with various pre-trained diffusion models.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# 応用データセット特性による分類難度の軽量化

A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics ( http://arxiv.org/abs/2404.05981v1 )

ライセンス: Link先を確認
Bryan Bo Cao, Abhinav Sharma, Lawrence O'Gorman, Michael Coss, Shubham Jain, (参考訳) 精度と計算ベンチマークはニューラルネットワークモデルの選択を支援するために広く利用されていますが、通常は多くのクラスを持つデータセットでトレーニングされています。 パフォーマンスを予測するための従来の手法は、異なるモデルとデータセットのバリエーションをトレーニングし、繰り返しテストすることである。 しかし、これは計算コストが高い。 本稿では,データセットのクラス数とクラス内およびクラス間類似度指標から算出した効率的な分類難度尺度を提案する。 モデルファミリごとのトレーニングとテストの単一段階の後、異なるデータセットと同じファミリのモデルに対する相対的なパフォーマンスは、さらなるトレーニングやテストなしに、困難な測定値を比較することで予測できる。 この尺度は,反復的なトレーニングやテストよりも,小さなデータセットに対して6~29倍高速に計算効率の高いモデルを選択する上で有効であることを示す。 本稿では, 工業アプリケーションにおいて, ベースライン YOLOv5-nano モデルよりも 42% 小さいモデルを選択するオプションが特定され, 3 クラスから 2 クラスのクラスにマージするクラスが要件を満たす場合, 85% より小さいモデルを選択する方法の例を示す。

Despite accuracy and computation benchmarks being widely available to help choose among neural network models, these are usually trained on datasets with many classes, and do not give a precise idea of performance for applications of few (< 10) classes. The conventional procedure to predict performance is to train and test repeatedly on the different models and dataset variations of interest. However, this is computationally expensive. We propose an efficient classification difficulty measure that is calculated from the number of classes and intra- and inter-class similarity metrics of the dataset. After a single stage of training and testing per model family, relative performance for different datasets and models of the same family can be predicted by comparing difficulty measures - without further training and testing. We show how this measure can help a practitioner select a computationally efficient model for a small dataset 6 to 29x faster than through repeated training and testing. We give an example of use of the measure for an industrial application in which options are identified to select a model 42% smaller than the baseline YOLOv5-nano model, and if class merging from 3 to 2 classes meets requirements, 85% smaller.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# デジタルセーフガードの強化 - ブレンディング暗号とステガノグラフィ

Boosting Digital Safeguards: Blending Cryptography and Steganography ( http://arxiv.org/abs/2404.05985v1 )

ライセンス: Link先を確認
Anamitra Maiti, Subham Laha, Rishav Upadhaya, Soumyajit Biswas, Vikas Choudhary, Biplab Kar, Nikhil Kumar, Jaydip Sen, (参考訳) 今日のデジタル時代には、インターネットはコミュニケーションや情報の共有に不可欠であり、不正なアクセスやエクスプロイトを防ぐために高度なデータセキュリティ対策が不可欠である。 暗号化は、暗号化されていない読者には理解できない暗号テキストにメッセージを暗号化し、送信中のデータの保護を行う。 一方、ステガノグラフィーはギリシャ語の"covered writing"に由来するもので、他の媒体にデータを隠蔽する技術によって、メッセージを目に見えないようにすることで秘密のコミュニケーションを促進する。 提案手法は人工知能(AI)とディープラーニング(DL)の最新の進歩を利用しており、特にGAN(Generative Adversarial Networks)の適用により従来のステガノグラフィー手法を改善している。 暗号化されたデータを他の媒体に埋め込むことで、その通信がプリーニングの目から隠されていることを保証する。 GANの応用により、ニューラルネットワーク固有の感度を利用してデータの微妙な変更を可能にし、検出に対する保護を強化する、スマートでセキュアなシステムが可能になる。 暗号の暗号化技術をステガノグラフィーの隠蔽能力と組み合わせ、AIの強みと組み合わせることで、情報のプライバシと整合性の両方を維持するように設計された包括的なセキュリティシステムを導入する。 このシステムは、不正アクセスやデータの修正を防止するだけでなく、データの存在を隠蔽するためにも作られている。 この技術の融合は、オープンデジタル通信の時代におけるデータセキュリティのコア課題に取り組み、情報セキュリティの展望を変える可能性のある高度なソリューションを提示している。

In today's digital age, the internet is essential for communication and the sharing of information, creating a critical need for sophisticated data security measures to prevent unauthorized access and exploitation. Cryptography encrypts messages into a cipher text that is incomprehensible to unauthorized readers, thus safeguarding data during its transmission. Steganography, on the other hand, originates from the Greek term for "covered writing" and involves the art of hiding data within another medium, thereby facilitating covert communication by making the message invisible. This proposed approach takes advantage of the latest advancements in Artificial Intelligence (AI) and Deep Learning (DL), especially through the application of Generative Adversarial Networks (GANs), to improve upon traditional steganographic methods. By embedding encrypted data within another medium, our method ensures that the communication remains hidden from prying eyes. The application of GANs enables a smart, secure system that utilizes the inherent sensitivity of neural networks to slight alterations in data, enhancing the protection against detection. By merging the encryption techniques of cryptography with the hiding capabilities of steganography, and augmenting these with the strengths of AI, we introduce a comprehensive security system designed to maintain both the privacy and integrity of information. This system is crafted not just to prevent unauthorized access or modification of data, but also to keep the existence of the data hidden. This fusion of technologies tackles the core challenges of data security in the current era of open digital communication, presenting an advanced solution with the potential to transform the landscape of information security.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# CS1グレードにおける変数説明のための3つのプログラムエラー対策の比較

Comparison of Three Programming Error Measures for Explaining Variability in CS1 Grades ( http://arxiv.org/abs/2404.05988v1 )

ライセンス: Link先を確認
Valdemar Švábenský, Maciej Pankiewicz, Jiayi Zhang, Elizabeth B. Cloude, Ryan S. Baker, Eric Fouh, (参考訳) プログラミングコースは初年度の大学生、特にコーディング経験のない学生にとって難しい。 学生は最初、コードの構文に苦労するが、より高度なトピックが学期を通じて導入されるにつれて、コンピュータ思考(例えば、デバッグ戦略)を学ぶことへのシフトをプログラムするのが困難になる。 本研究は,2つの試験におけるプログラミングエラー率と成績の関係について検討した。 オンライン統合開発環境を使用して、Javaプログラミングコースの280人の学生からデータを収集した。 コースには2つの部分があった。 第1部は導入手続きプログラミングに焦点を合わせ、第1部は試験1で、第2部はより複雑なトピックとオブジェクト指向プログラミングをカバーし、第2部は試験2で終了した。 学生のプログラミング能力を測定するため、51095のコードスナップショットが学生から収集され、ユニットテストに基づいて自動分解された課題が完了した。 スナップショットからコンパイラと実行時のエラーを抽出し、試験成績の変動性を説明する最良の尺度を特定するために、エラー数、エラー量、繰り返しエラー密度の3つの尺度を探索した。 Error Quotient を用いたモデルは、他の2つの尺度を用いて、グレードにおける説明変数とベイズ情報量規準のモデルより優れていた。 コンパイラエラーは,試験1学年において有意な予測値であったが,試験2学年では有意な予測値であったが,実行時エラーのみが試験2学年を有意に予測した。 この結果から,複数のエラー型(コンパイラと実行時)でエラークオシエントを活用することは,学生の入門プログラミング能力のより良い測定方法である可能性が示唆された。

Programming courses can be challenging for first year university students, especially for those without prior coding experience. Students initially struggle with code syntax, but as more advanced topics are introduced across a semester, the difficulty in learning to program shifts to learning computational thinking (e.g., debugging strategies). This study examined the relationships between students' rate of programming errors and their grades on two exams. Using an online integrated development environment, data were collected from 280 students in a Java programming course. The course had two parts. The first focused on introductory procedural programming and culminated with exam 1, while the second part covered more complex topics and object-oriented programming and ended with exam 2. To measure students' programming abilities, 51095 code snapshots were collected from students while they completed assignments that were autograded based on unit tests. Compiler and runtime errors were extracted from the snapshots, and three measures -- Error Count, Error Quotient and Repeated Error Density -- were explored to identify the best measure explaining variability in exam grades. Models utilizing Error Quotient outperformed the models using the other two measures, in terms of the explained variability in grades and Bayesian Information Criterion. Compiler errors were significant predictors of exam 1 grades but not exam 2 grades; only runtime errors significantly predicted exam 2 grades. The findings indicate that leveraging Error Quotient with multiple error types (compiler and runtime) may be a better measure of students' introductory programming abilities, though still not explaining most of the observed variability.
翻訳日:2024-04-10 16:08:32 公開日:2024-04-09
# リアルタイム検索におけるイベント強調検索

Event-enhanced Retrieval in Real-time Search ( http://arxiv.org/abs/2404.05989v1 )

ライセンス: Link先を確認
Yanan Zhang, Xiaoling Bai, Tianhua Zhou, (参考訳) 埋め込み型検索 (EBR) 手法は, 主流検索エンジン検索システムにおいて広く採用されており, LLMイリュージョンを除去するための最近の検索拡張手法において重要である。 しかし、既存のERRモデルは、しばしば「セマンティックドリフト」の問題に直面し、キー情報に焦点を合わせていないため、後続のステップでの検索結果の採用率が低くなる。 この問題は、インターネット上の人気イベントの様々な表現が、重要なイベント情報に頼ってリアルタイム検索を行うリアルタイム検索のシナリオにおいて特に顕著である。 そこで本研究では,従来のERRのデュアルエンコーダモデルの改良により,リアルタイム検索性能を向上させるEERという手法を提案する。 コントラスト学習とペア学習を併用してエンコーダ最適化を行う。 さらに、イベントにおける重要なイベント情報へのフォーカスを強化するため、文書エンコーダの後にデコーダモジュールを含め、プロンプトチューニングに基づく生成イベントトリプルト抽出方式を導入し、比較学習を通じてクエリエンコーダ最適化と相関する。 このデコーダモジュールは推論中に削除できる。 大規模な実験により、EERはリアルタイム検索性能を大幅に改善できることが示された。 我々は,この手法が情報検索の分野で新たな視点をもたらすと信じている。 コードとデータセットはhttps://github.com/open-event-hub/Event-enhanced_Retrieval で公開されている。

The embedding-based retrieval (EBR) approach is widely used in mainstream search engine retrieval systems and is crucial in recent retrieval-augmented methods for eliminating LLM illusions. However, existing EBR models often face the "semantic drift" problem and insufficient focus on key information, leading to a low adoption rate of retrieval results in subsequent steps. This issue is especially noticeable in real-time search scenarios, where the various expressions of popular events on the Internet make real-time retrieval heavily reliant on crucial event information. To tackle this problem, this paper proposes a novel approach called EER, which enhances real-time retrieval performance by improving the dual-encoder model of traditional EBR. We incorporate contrastive learning to accompany pairwise learning for encoder optimization. Furthermore, to strengthen the focus on critical event information in events, we include a decoder module after the document encoder, introduce a generative event triplet extraction scheme based on prompt-tuning, and correlate the events with query encoder optimization through comparative learning. This decoder module can be removed during inference. Extensive experiments demonstrate that EER can significantly improve the real-time search retrieval performance. We believe that this approach will provide new perspectives in the field of information retrieval. The codes and dataset are available at https://github.com/open-event-hub/Event-enhanced_Retrieval .
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# 自動オーソリティ: パワーとAI

Automatic Authorities: Power and AI ( http://arxiv.org/abs/2404.05990v1 )

ライセンス: Link先を確認
Seth Lazar, (参考訳) 人工知能の急速な進歩と、歴史の最も強力な企業の台頭により、新自由主義国家は衰退し、人々は自動化されたシステムによって運動される力にますます従わざるを得なくなる。 機械学習と関連する計算技術は、今や重要な政府サービスを支える。 彼らは新しいアルゴリズム市場における消費者と生産者を結びつける。 どのようにしてワクチン接種を受けるか、どのスピーチが増幅され、縮小され、制限されるかなど、あらゆることを知るかを決定する。 そして、Large Language Models(LLMs)に基づく新しいプロダクトの波は、私たちの経済と政治の生活をさらに変えます。 自動オーソリティ(Automatic Authorities)とは、私たちが何を知っているか、何を持っているか、どのような選択肢があるかを決定することで、私たちに対してパワーを行使するために使用される自動計算システムである。 その増加に対応して、AIとその関連技術による社会的影響に取り組む学者は、これらの新しい権力関係の批判的分析に向けて、AIシステムを有益または公正にする方法から、注意を移すことを提唱している。 しかし、権力は至る所にあり、必ずしも悪いとは限らない。 新たなパワー関係や強化されたパワー関係には,どのような根拠で対応すべきでしょうか? 本稿では,これらの疑問を定式化するための哲学的資料を紹介し,予備的な回答を提供する。 最初は権力の概念を根絶し、一部のエージェントが他人の生活を形作らなければならない能力に焦点を当てることから始まる。 そして、AIが力のエクササイズをどのように実現し、強化するかを探求し、3つの問題をパワーでスケッチし、その問題を解決する3つの方法をスケッチする。 特に、権力の正当化は実質的な正当化基準を満たす以上のものを必要とし、適切な権威と手続き的正当性の基準も満たさなければならないと強調している。 どの力が使われるのかだけでなく、どのように使われるのか、誰が使うのかを知る必要がある。

As rapid advances in Artificial Intelligence and the rise of some of history's most potent corporations meet the diminished neoliberal state, people are increasingly subject to power exercised by means of automated systems. Machine learning and related computational technologies now underpin vital government services. They connect consumers and producers in new algorithmic markets. They determine how we find out about everything from how to vote to where to get vaccinated, and whose speech is amplified, reduced, or restricted. And a new wave of products based on Large Language Models (LLMs) will further transform our economic and political lives. Automatic Authorities are automated computational systems used to exercise power over us by determining what we may know, what we may have, and what our options will be. In response to their rise, scholars working on the societal impacts of AI and related technologies have advocated shifting attention from how to make AI systems beneficial or fair towards a critical analysis of these new power relations. But power is everywhere, and is not necessarily bad. On what basis should we object to new or intensified power relations, and what can be done to justify them? This paper introduces the philosophical materials with which to formulate these questions, and offers preliminary answers. It starts by pinning down the concept of power, focusing on the ability that some agents have to shape others' lives. It then explores how AI enables and intensifies the exercise of power so understood, and sketches three problems with power and three ways to solve those problems. It emphasises, in particular, that justifying power requires more than satisfying substantive justificatory criteria; standards of proper authority and procedural legitimacy must also be met. We need to know not only what power may be used for, but how it may be used, and by whom.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# マルコフネットワークからの最適k-ツリートポロジーの多項式時間導出

Polynomial-time derivation of optimal k-tree topology from Markov networks ( http://arxiv.org/abs/2404.05991v1 )

ライセンス: Link先を確認
Fereshteh R. Dastjerdi, Liming Cai, (参考訳) 確率変数の大規模ネットワークに対する結合確率分布のキャラクタリゼーションは、データサイエンスにおいて難しい課題である。 単純なトポロジによる確率的グラフ近似は、一般的には木のトポロジは共同確率計算をはるかに単純化し、不十分なデータに対する統計的推測に有効である。 しかし、複数の変数が密接に協力して他の変数に影響を与えるネットワークコンポーネントを特徴づけるためには、木以外のモデルトポロジが必要であり、残念ながら取得は不可能である。 特に,本研究では,木幅 k >= 2 のマルコフネットワークの最適近似を,最大スパンニング k-ツリー (MSkT) を求めるグラフ理論問題と密接に関連付ける。 本稿では,k木トポロジーを用いたマルコフネットワークの最適近似について検討する。 このようなサブグラフは、例えば遺伝子ネットワークにおける既知の重要な経路や、生体分子3D構造のための残基相互作用グラフにおける必須のバックボーン接続について、科学的な応用で発生する特定の背景情報を符号化することができる。 特に、グラフの多くのクラス \beta に対する \beta-retaining MSkT 問題は、すべての固定 k>= 1 に対して O(n^{k+1}) 時間アルゴリズムを認めることが証明されている。 これらの<beta-retaining MSkT algorithmは、ある永続的な情報を保持する必要がある状況において、k-treeトポロジーを持つマルコフネットワークを近似するための効率的なソリューションを提供する。

Characterization of joint probability distribution for large networks of random variables remains a challenging task in data science. Probabilistic graph approximation with simple topologies has practically been resorted to; typically the tree topology makes joint probability computation much simpler and can be effective for statistical inference on insufficient data. However, to characterize network components where multiple variables cooperate closely to influence others, model topologies beyond a tree are needed, which unfortunately are infeasible to acquire. In particular, our previous work has related optimal approximation of Markov networks of tree-width k >=2 closely to the graph-theoretic problem of finding maximum spanning k-tree (MSkT), which is a provably intractable task. This paper investigates optimal approximation of Markov networks with k-tree topology that retains some designated underlying subgraph. Such a subgraph may encode certain background information that arises in scientific applications, for example, about a known significant pathway in gene networks or the indispensable backbone connectivity in the residue interaction graphs for a biomolecule 3D structure. In particular, it is proved that the \beta-retaining MSkT problem, for a number of classes \beta of graphs, admit O(n^{k+1})-time algorithms for every fixed k>= 1. These \beta-retaining MSkT algorithms offer efficient solutions for approximation of Markov networks with k-tree topology in the situation where certain persistent information needs to be retained.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# AEGIS: LLMエキスパートの集まりによるオンライン適応型AIコンテンツ安全性のモデレーション

AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts ( http://arxiv.org/abs/2404.05993v1 )

ライセンス: Link先を確認
Shaona Ghosh, Prasoon Varshney, Erick Galinkin, Christopher Parisien, (参考訳) 大規模言語モデル(LLM)や生成AIの普及に伴い、その使用に伴うコンテンツ安全性のリスクも増大する。 高品質なコンテンツ安全性データセットとベンチマークには、広範囲のクリティカルな安全領域を包括的にカバーする注目すべき欠如がある。 これを解決するために、13の危険リスクと9のスパースリスクカテゴリからなる幅広いコンテンツ安全リスク分類を定義した。 さらに,AEGISSAFETYDATASETは,約26,000人の人間とLLMの相互作用を解析し,ヒトのアノテーションが分類に付着していることを確認した。 我々は、このデータセットをコミュニティにリリースし、さらなる研究と安全性のためのLCMモデルのベンチマークを支援する予定です。 このデータセットの有効性を示すために,複数のLCMベースの安全モデルについて指導・チューニングを行った。 我々のモデル(AEGISSAFETYEXPERTS)は、最先端のLLMベースの安全モデルや汎用LLMと競合するだけでなく、複数のジェイルブレイク攻撃カテゴリにまたがる堅牢性も示している。 また,LLMアライメントフェーズにおけるAEGISSAFETYDATASETの使用は,MTベンチスコアにおけるアライメントモデルの性能に悪影響を及ぼさないことを示す。 さらに,LLMコンテンツ安全性専門家のアンサンブルによるコンテンツモデレーションを実現するために,理論的確証が強いノンレグレットオンライン適応フレームワークの新たな応用法であるAEGISを提案する。

As Large Language Models (LLMs) and generative AI become more widespread, the content safety risks associated with their use also increase. We find a notable deficiency in high-quality content safety datasets and benchmarks that comprehensively cover a wide range of critical safety areas. To address this, we define a broad content safety risk taxonomy, comprising 13 critical risk and 9 sparse risk categories. Additionally, we curate AEGISSAFETYDATASET, a new dataset of approximately 26, 000 human-LLM interaction instances, complete with human annotations adhering to the taxonomy. We plan to release this dataset to the community to further research and to help benchmark LLM models for safety. To demonstrate the effectiveness of the dataset, we instruction-tune multiple LLM-based safety models. We show that our models (named AEGISSAFETYEXPERTS), not only surpass or perform competitively with the state-of-the-art LLM-based safety models and general purpose LLMs, but also exhibit robustness across multiple jail-break attack categories. We also show how using AEGISSAFETYDATASET during the LLM alignment phase does not negatively impact the performance of the aligned models on MT Bench scores. Furthermore, we propose AEGIS, a novel application of a no-regret online adaptation framework with strong theoretical guarantees, to perform content moderation with an ensemble of LLM content safety experts in deployment
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# 量子熱機関の騒音誘起コヒーレントエルゴトロピー

Noise induced coherent ergotropy of a quantum heat engine ( http://arxiv.org/abs/2404.05994v1 )

ライセンス: Link先を確認
Manash Jyoti Sarmah, Himangshu Prabal Goswami, (参考訳) 理論的には、4段量子熱エンジンのエルゴトロピーに対するノイズ誘起コヒーレントな寄与を非モード量子キャビティに結合して同定する。 人口コヒーレンスに結合した還元密度行列から受動状態の準確率を解析的に同定できるプロトコルを利用する。 還元密度行列要素は、顕微鏡量子マスター方程式の定式化を用いて評価する。 同じコヒーレンス間隔で複数のエルゴトロピーが観察され、それぞれ正のコヒーレント寄与と顕著なコヒーレント寄与が特徴的である。 これらのエルゴトロピーは、コヒーレンス測度パラメータによって制御可能な準確率-個体群反転と同様に、人口反転の結果である。 エンジンの最適フラックスとパワーは、ノイズ誘起コヒーレンス値の増加とともに、エルゴトロピーの適度な値であることがわかった。 異なるコヒーレンスにおける最適パワーは、一定のエルゴトロピーを持つ。

We theoretically identify the noise-induced coherent contribution to the ergotropy of a four-level quantum heat engine coupled to a unimodal quantum cavity. We utilize a protocol where the passive state's quasiprobabilities can be analytically identified from the population-coherence coupled reduced density matrix. The reduced density matrix elements are evaluated using a microscopic quantum master equation formalism. Multiple ergotropies within the same coherence interval, each characterized by a positive and pronounced coherent contribution, are observed. These ergotropies are a result of population inversion as well as quasiprobability-population inversion, controllable through the coherence measure parameters. The optimal flux and power of the engine are found to be at moderate values of ergotropy with increasing values of noise-induced coherence. The optimal power at different coherences is found to possess a constant ergotropy.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# 解釈可能な皮膚病変診断のための概念意識の白化

Concept-Attention Whitening for Interpretable Skin Lesion Diagnosis ( http://arxiv.org/abs/2404.05997v1 )

ライセンス: Link先を確認
Junlin Hou, Jilan Xu, Hao Chen, (参考訳) ディープラーニングモデルにおけるブラックボックスの性質は、実際の臨床応用への展開の成功に対する解釈可能性に関する懸念を提起している。 この懸念に対処するため、eXplainable Artificial Intelligence (XAI)は意思決定プロセスの明確かつ理解可能な説明を提供することを目指している。 医学領域では、病変の属性や異常などの概念が診断結果の導出の重要な証拠となる。 しかし、既存の概念ベースモデルは、主に独立して現れる概念に依存し、バウンディングボックスのような細かい概念アノテーションを必要とする。 通常、医療画像には複数の概念が含まれており、細かい概念アノテーションは取得が困難である。 本稿では,皮膚病変診断のための新しい概念意識白化(CAW)フレームワークを提案する。 CAWは、疾患診断枝と概念アライメント枝とから構成される。 前枝では,皮膚病変の診断のためにCAW層を挿入してCNNを訓練した。 CAW層は特徴をデコレーションし、直交行列を介してイメージ特徴を概念的意味に整合させる。 後者の分岐では,概念注意マスクの誘導の下で直交行列を計算する。 特に,特定の概念に関連のある局所領域をフィルタリングし,直交行列の最適化を改善するために,粗い概念ラベルのみを利用する,弱教師付きコンセプトマスクジェネレータを導入する。 2つの公的皮膚病変診断データセットの広範囲な実験により、CAWは解釈可能性を高めただけでなく、最先端の診断性能も維持した。

The black-box nature of deep learning models has raised concerns about their interpretability for successful deployment in real-world clinical applications. To address the concerns, eXplainable Artificial Intelligence (XAI) aims to provide clear and understandable explanations of the decision-making process. In the medical domain, concepts such as attributes of lesions or abnormalities serve as key evidence for deriving diagnostic results. However, existing concept-based models mainly depend on concepts that appear independently and require fine-grained concept annotations such as bounding boxes. A medical image usually contains multiple concepts and the fine-grained concept annotations are difficult to acquire. In this paper, we propose a novel Concept-Attention Whitening (CAW) framework for interpretable skin lesion diagnosis. CAW is comprised of a disease diagnosis branch and a concept alignment branch. In the former branch, we train the CNN with a CAW layer inserted to perform skin lesion diagnosis. The CAW layer decorrelates features and aligns image features to conceptual meanings via an orthogonal matrix. In the latter branch, we calculate the orthogonal matrix under the guidance of the concept attention mask. We particularly introduce a weakly-supervised concept mask generator that only leverages coarse concept labels for filtering local regions that are relevant to certain concepts, improving the optimization of the orthogonal matrix. Extensive experiments on two public skin lesion diagnosis datasets demonstrated that CAW not only enhanced interpretability but also maintained a state-of-the-art diagnostic performance.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# Kuboを用いた効率的な量子ギブスサンプリング--Martin--Schwingerの詳細なバランス条件

Efficient quantum Gibbs samplers with Kubo--Martin--Schwinger detailed balance condition ( http://arxiv.org/abs/2404.05998v1 )

ライセンス: Link先を確認
Zhiyan Ding, Bowen Li, Lin Lin, (参考訳) リンドブラッド力学やその他の開系力学は、量子コンピュータ上の効率的なギブズサンプリングへの有望な道を提供する。 これらの提案では、リンドブラディアンは、古典モンテカルロ法や分子動力学法で人工サーモスタットを設計するアルゴリズム的な構成によって得られる。 近年、Chen, Kastoryano, Gily\'en (arXiv:2311.09207) は、Kubo--Martin-Schwinger (KMS) の詳細なバランス条件を満たす最初の効率的な実装可能なリンドブラディアンを導入した。 このギブスサンプリング器は連続パラメータ化されたジャンプ演算子の集合を用い、各ジャンプ演算子を実装するために必要なエネルギー分解能は、精度と混合時間にのみ対数的に依存する。 本研究では,Fagnola と Umanit\`a によるKMS詳細平衡リンドブラディアンの構造的特徴に基づいて,離散的なジャンプ演算子のみを用いる効率的な量子ギブズサンプリング器群(数値は 1 個程度)を開発する。 本手法はリンドブラディアンの量子ギブズサンプリングの実装と解析を単純化し,特にChen, Kastoryano, Gily\enの構成を包含する。

Lindblad dynamics and other open-system dynamics provide a promising path towards efficient Gibbs sampling on quantum computers. In these proposals, the Lindbladian is obtained via an algorithmic construction akin to designing an artificial thermostat in classical Monte Carlo or molecular dynamics methods, rather than treated as an approximation to weakly coupled system-bath unitary dynamics. Recently, Chen, Kastoryano, and Gily\'en (arXiv:2311.09207) introduced the first efficiently implementable Lindbladian satisfying the Kubo--Martin--Schwinger (KMS) detailed balance condition, which ensures that the Gibbs state is a fixed point of the dynamics and is applicable to non-commuting Hamiltonians. This Gibbs sampler uses a continuously parameterized set of jump operators, and the energy resolution required for implementing each jump operator depends only logarithmically on the precision and the mixing time. In this work, we build upon the structural characterization of KMS detailed balanced Lindbladians by Fagnola and Umanit\`a, and develop a family of efficient quantum Gibbs samplers that only use a discrete set of jump operators (the number can be as few as one). Our methodology simplifies the implementation and the analysis of Lindbladian-based quantum Gibbs samplers, and encompasses the construction of Chen, Kastoryano, and Gily\'en as a special instance.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# プロンプトエンジニアリングのためのプライバシ保護 - 調査より

Privacy Preserving Prompt Engineering: A Survey ( http://arxiv.org/abs/2404.06001v1 )

ライセンス: Link先を確認
Kennedy Edemacu, Xintao Wu, (参考訳) 事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。 研究者はこれらのモデルの性能とサイズの間に直接的な相関を観測している。 その結果、これらのモデルのサイズは近年顕著に拡大しており、研究者はより大きなPLMを特徴付けるために「大規模言語モデル」(LLM)という用語を採用することを説得している。 増大するサイズには、インコンテキスト学習(ICL)と呼ばれる、特別なプロンプトの形式を表す独自の能力が伴っている。 これにより、モデルパラメータを凍結させながらデモ例を提示することで、特定の下流タスクにLLMを利用できるようになる。 興味深いことに、プライバシーに関する懸念は、広く使われている中で大きな障害となっている。 複数の研究がICLに関連するプライバシーリスクを調査し、これらのリスクを緩和するためのテクニックを考案した。 したがって、コミュニティの利益のためにこれらの緩和手法を組織化する必要がある。 本調査は、ICLにおけるプライバシ保護手法の体系的概要と、一般の関心を喚起するものである。 このパラダイムの下で異なる手法をレビューし、分析し、比較する。 さらに,これらのフレームワークの開発に利用可能なリソースについて概説する。 最後に,これらのフレームワークの限界について考察し,さらなる探索を必要とする将来性のある領域について詳細に検討する。

Pre-trained language models (PLMs) have demonstrated significant proficiency in solving a wide range of general natural language processing (NLP) tasks. Researchers have observed a direct correlation between the performance of these models and their sizes. As a result, the sizes of these models have notably expanded in recent years, persuading researchers to adopt the term large language models (LLMs) to characterize the larger-sized PLMs. The increased size is accompanied by a distinct capability known as in-context learning (ICL), which represents a specialized form of prompting. This enables the utilization of LLMs for specific downstream tasks by presenting them with demonstration examples while keeping the model parameters frozen. Although interesting, privacy concerns have become a major obstacle in its widespread usage. Multiple studies have examined the privacy risks linked to ICL and prompting in general, and have devised techniques to alleviate these risks. Thus, there is a necessity to organize these mitigation techniques for the benefit of the community. This survey provides a systematic overview of the privacy protection methods employed during ICL and prompting in general. We review, analyze, and compare different methods under this paradigm. Furthermore, we provide a summary of the resources accessible for the development of these frameworks. Finally, we discuss the limitations of these frameworks and offer a detailed examination of the promising areas that necessitate further exploration.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# FreeEval: 大規模言語モデルの信頼性と効率的な評価のためのモジュールフレームワーク

FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models ( http://arxiv.org/abs/2404.06003v1 )

ライセンス: Link先を確認
Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Zhengran Zeng, Wei Ye, Jindong Wang, Yue Zhang, Shikun Zhang, (参考訳) 大規模言語モデル(LLM)の評価手法とデータセットの急速な開発は、信頼性、再現性、効率性を確保しつつ、最先端の評価技術をコスト効率よく統合する、という大きな課題につながった。 現在、様々な評価アプローチをシームレスに統合する統一的で適応可能なフレームワークが欠如している。 さらに, LLM推論に伴う実質的なコストに直面する場合, 評価効率は概ね見落とされ, 潜在的なデータ汚染のため, 評価結果の信頼性は疑問視されることが多い。 これらの課題に対応するために、我々は、LLMの信頼性と効率的な自動評価を可能にするモジュール式でスケーラブルなフレームワークであるFreeEvalを紹介した。 第一に、FreeEvalの統一された抽象化は統合を単純化し、多様な評価手法の透明性を改善し、高度なLCM相互作用を必要とする動的評価を含む。 第2に、このフレームワークは、人間の評価やデータ汚染検出などのメタ評価技術を統合し、プラットフォーム内の動的評価モジュールとともに、評価結果の公平性を高める。 最後に、FreeEvalは分散計算とキャッシュ戦略を含む高性能なインフラストラクチャで設計されており、オープンソースおよびプロプライエタリなLLMのためのマルチノード、マルチGPUクラスタにわたる広範な評価を可能にする。

The rapid development of large language model (LLM) evaluation methodologies and datasets has led to a profound challenge: integrating state-of-the-art evaluation techniques cost-effectively while ensuring reliability, reproducibility, and efficiency. Currently, there is a notable absence of a unified and adaptable framework that seamlessly integrates various evaluation approaches. Moreover, the reliability of evaluation findings is often questionable due to potential data contamination, with the evaluation efficiency commonly overlooked when facing the substantial costs associated with LLM inference. In response to these challenges, we introduce FreeEval, a modular and scalable framework crafted to enable trustworthy and efficient automatic evaluations of LLMs. Firstly, FreeEval's unified abstractions simplify the integration and improve the transparency of diverse evaluation methodologies, encompassing dynamic evaluation that demand sophisticated LLM interactions. Secondly, the framework integrates meta-evaluation techniques like human evaluation and data contamination detection, which, along with dynamic evaluation modules in the platform, enhance the fairness of the evaluation outcomes. Lastly, FreeEval is designed with a high-performance infrastructure, including distributed computation and caching strategies, enabling extensive evaluations across multi-node, multi-GPU clusters for open-source and proprietary LLMs.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# AiSAQ:DRAMフリー情報検索のための製品量子化機能付きオールインストレージANNS

AiSAQ: All-in-Storage ANNS with Product Quantization for DRAM-free Information Retrieval ( http://arxiv.org/abs/2404.06004v1 )

ライセンス: Link先を確認
Kento Tatsuno, Daisuke Miyashita, Taiga Ikeda, Kiyoshi Ishiyama, Kazunari Sumiyoshi, Jun Deguchi, (参考訳) 近似近接グラフに基づく近接探索(ANNS)手法において、DakANNはRAMとストレージの両方を用いて大規模なデータセットに対して良好なリコール速度バランスを実現する。 製品量子化(PQ)による圧縮ベクターのロードによるメモリ使用量の削減を主張する一方で、そのメモリ使用量はデータセットの規模に比例して増加する。 本稿では、圧縮されたベクトルをストレージにオフロードするAiSAQ(All-in-Storage ANNS with Product Quantization)を提案する。 本手法は,数十億のデータセットを用いても,クエリ検索におけるメモリ使用量として$10 MBの$\sim$10 MBを実現している。 AiSAQはまた、クエリ検索前のインデックスロード時間を短縮し、数十億規模のデータセット間のインデックススイッチを可能にし、検索拡張生成(RAG)の柔軟性を著しく向上する。 この手法は全てのグラフベースのANNSアルゴリズムに適用でき、将来的にはより高度なANNS手法と組み合わせることができる。

In approximate nearest neighbor search (ANNS) methods based on approximate proximity graphs, DiskANN achieves good recall-speed balance for large-scale datasets using both of RAM and storage. Despite it claims to save memory usage by loading compressed vectors by product quantization (PQ), its memory usage increases in proportion to the scale of datasets. In this paper, we propose All-in-Storage ANNS with Product Quantization (AiSAQ), which offloads the compressed vectors to storage. Our method achieves $\sim$10 MB memory usage in query search even with billion-scale datasets with minor performance degradation. AiSAQ also reduces the index load time before query search, which enables the index switch between muitiple billion-scale datasets and significantly enhances the flexibility of retrieval-augmented generation (RAG). This method is applicable to all graph-based ANNS algorithms and can be combined with higher-spec ANNS methods in the future.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# Cloud-RAN上でのコラボレーティブエッジAI推論

Collaborative Edge AI Inference over Cloud-RAN ( http://arxiv.org/abs/2404.06007v1 )

ライセンス: Link先を確認
Pengfei Zhang, Dingzhu Wen, Guangxu Zhu, Qimei Chen, Kaifeng Han, Yuanming Shi, (参考訳) 本稿では,クラウド無線アクセスネットワーク(Cloud-RAN)を用いた協調エッジAI推論アーキテクチャを提案する。 具体的には、地理的に分散されたデバイスは、リアルタイムのノイズ破壊センサデータサンプルをキャプチャし、ノイズの多い局所特徴ベクトルを抽出し、各リモート無線ヘッド(RRH)に集約して、感知ノイズを抑制する。 効率的なアップリンク機能アグリゲーションを実現するため,各RRHが同一のリソースブロック上の全デバイスから局所的特徴ベクトルを同時に受信し,オーバー・ザ・エア計算(AirComp)技術を活用する。 その後、これらの集約された特徴ベクトルを量子化し、中央プロセッサ(CP)に送信し、さらなる集約および下流推論タスクを行う。 本研究の目的は,特徴空間における異なるクラスの識別性を測定する判別利得と呼ばれる代理精度測定によって,推論精度を最大化することである。 主な課題は、結合されたセンシングノイズ、敵対的な無線チャネルによるAirComp歪み、フロントホールリンクの容量制限による量子化誤差を同時に抑制することである。 これらの課題に対処するため、この研究は、予測精度を高めるために、共同送信プリコーディング、ビームフォーミング、量子化エラー制御スキームを提案する。 大規模な数値実験により,提案アルゴリズムの有効性と優位性を示す。

In this paper, a cloud radio access network (Cloud-RAN) based collaborative edge AI inference architecture is proposed. Specifically, geographically distributed devices capture real-time noise-corrupted sensory data samples and extract the noisy local feature vectors, which are then aggregated at each remote radio head (RRH) to suppress sensing noise. To realize efficient uplink feature aggregation, we allow each RRH receives local feature vectors from all devices over the same resource blocks simultaneously by leveraging an over-the-air computation (AirComp) technique. Thereafter, these aggregated feature vectors are quantized and transmitted to a central processor (CP) for further aggregation and downstream inference tasks. Our aim in this work is to maximize the inference accuracy via a surrogate accuracy metric called discriminant gain, which measures the discernibility of different classes in the feature space. The key challenges lie on simultaneously suppressing the coupled sensing noise, AirComp distortion caused by hostile wireless channels, and the quantization error resulting from the limited capacity of fronthaul links. To address these challenges, this work proposes a joint transmit precoding, receive beamforming, and quantization error control scheme to enhance the inference accuracy. Extensive numerical experiments demonstrate the effectiveness and superiority of our proposed optimization algorithm compared to various baselines.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# ソフトウェア工学における混合・多手法研究の活用ガイドライン

Guidelines for Using Mixed and Multi Methods Research in Software Engineering ( http://arxiv.org/abs/2404.06011v1 )

ライセンス: Link先を確認
Margaret-Anne Storey, Rashina Hoda, Alessandra Maciel Paz Milani, Maria Teresa Baldassarre, (参考訳) 混合・多手法の研究はソフトウェア工学でよく用いられるが、社会科学や人間科学以外の研究者は、これらの設計を使う経験が欠けていることが多い。 ソフトウェア工学における混合手法の意図的・厳密・革新的利用を奨励するために,混合手法と多手法の研究を設計するためのガイドラインとアドバイスを提供する。 また、コア混合方式の研究設計の鍵となる特徴を示す。 多くの架空の、認識可能なソフトウェアエンジニアリング研究シナリオと、プロトタイプ研究者のペルソナを通じて、適切な設計を選択し、設計選択がもたらす必然的なトレードオフを考慮する方法を紹介します。 この論文には、推奨のベストプラクティスと、混在するマルチメソッドの研究で何が避けるべきなのかを示すいくつかのアンチパターンが盛り込まれています。

Mixed and multi methods research is often used in software engineering, but researchers outside of the social or human sciences often lack experience when using these designs. This paper provides guidelines and advice on how to design mixed and multi method research, and to encourage the intentional, rigourous, and innovative use of mixed methods in software engineering. It also presents key characteristics of core mixed method research designs. Through a number of fictitious but recognizable software engineering research scenarios and personas of prototypical researchers, we showcase how to choose suitable designs and consider the inevitable tradeoffs any design choice leads to. We furnish the paper with recommended best practices and several antipatterns that illustrate what to avoid in mixed and multi method research.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# mm波レーダデータの拡散に基づく点雲超解法

Diffusion-Based Point Cloud Super-Resolution for mmWave Radar Data ( http://arxiv.org/abs/2404.06012v1 )

ライセンス: Link先を確認
Kai Luan, Chenghao Shi, Neng Wang, Yuwei Cheng, Huimin Lu, Xieyuanli Chen, (参考訳) ミリ波レーダセンサーは、環境条件下での安定した性能を維持しており、屋外移動ロボットのような全天候の知覚タスクには有望なソリューションである。 しかし、レーダーポイントの雲は比較的狭く、巨大なゴーストポイントを含んでいるため、ミリ波レーダー技術の発達を著しく制限している。 本稿では,レーダ拡散(Radar-diffusion)という3次元ミリ波レーダデータに対する新しい点雲超解像法を提案する。 本手法では, 平均回帰確率微分方程式(SDE)によって定義される拡散モデルを用いる。 提案手法では,対応するLiDAR点雲の監視を行う新たな目的関数を用いて,レーダーゴースト点を効率的に処理し,希薄なミリ波レーダー点雲を高密度LiDARのような点雲に拡張する。 我々は,2つの異なるデータセットに対するアプローチを評価し,実験結果から3次元レーダ超解像課題における最先端のベースライン法よりも優れた結果を得た。 さらに、我々の拡張レーダーポイントクラウドは、下流レーダーポイントベースの登録タスクを実現できることを実証した。

The millimeter-wave radar sensor maintains stable performance under adverse environmental conditions, making it a promising solution for all-weather perception tasks, such as outdoor mobile robotics. However, the radar point clouds are relatively sparse and contain massive ghost points, which greatly limits the development of mmWave radar technology. In this paper, we propose a novel point cloud super-resolution approach for 3D mmWave radar data, named Radar-diffusion. Our approach employs the diffusion model defined by mean-reverting stochastic differential equations(SDE). Using our proposed new objective function with supervision from corresponding LiDAR point clouds, our approach efficiently handles radar ghost points and enhances the sparse mmWave radar point clouds to dense LiDAR-like point clouds. We evaluate our approach on two different datasets, and the experimental results show that our method outperforms the state-of-the-art baseline methods in 3D radar super-resolution tasks. Furthermore, we demonstrate that our enhanced radar point cloud is capable of downstream radar point-based registration tasks.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# Feel-Good Thompson Smpling for Contextual Dueling Bandits

Feel-Good Thompson Sampling for Contextual Dueling Bandits ( http://arxiv.org/abs/2404.06013v1 )

ライセンス: Link先を確認
Xuheng Li, Heyang Zhao, Quanquan Gu, (参考訳) 学習者は、文脈に基づく2つの選択肢を比較し、好みのフィードバックを受け取り、意思決定や嗜好学習に文脈情報を組み込むことで、古典的なデュエルの帯域を広げる。 線形文脈デュエルバンディットに対して、上位信頼境界(UCB)に基づくいくつかのアルゴリズムが提案されている。 しかし、この環境では従来の文脈的帯域で実証的な成功があったにもかかわらず、後続サンプリングに基づくアルゴリズムは開発されていない。 本稿では,FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。 われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。 この用語は2つの選択された腕の独立性を活用し、分析において横断的な項を避ける。 我々は,このアルゴリズムが極小最適後悔,すなわち $\tilde{\mathcal{O}}(d\sqrt T)$,$d$ がモデル次元,$T$ が時間地平線であることを示す。 最後に,このアルゴリズムを合成データ上で評価し,FGTS.CDBが既存のアルゴリズムよりも大きなマージンで優れていることを示す。

Contextual dueling bandits, where a learner compares two options based on context and receives feedback indicating which was preferred, extends classic dueling bandits by incorporating contextual information for decision-making and preference learning. Several algorithms based on the upper confidence bound (UCB) have been proposed for linear contextual dueling bandits. However, no algorithm based on posterior sampling has been developed in this setting, despite the empirical success observed in traditional contextual bandits. In this paper, we propose a Thompson sampling algorithm, named FGTS.CDB, for linear contextual dueling bandits. At the core of our algorithm is a new Feel-Good exploration term specifically tailored for dueling bandits. This term leverages the independence of the two selected arms, thereby avoiding a cross term in the analysis. We show that our algorithm achieves nearly minimax-optimal regret, i.e., $\tilde{\mathcal{O}}(d\sqrt T)$, where $d$ is the model dimension and $T$ is the time horizon. Finally, we evaluate our algorithm on synthetic data and observe that FGTS.CDB outperforms existing algorithms by a large margin.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# 動的チャンス制約Knapsack問題に対する3目的進化アルゴリズムの適用

Using 3-Objective Evolutionary Algorithms for the Dynamic Chance Constrained Knapsack Problem ( http://arxiv.org/abs/2404.06014v1 )

ライセンス: Link先を確認
Ishara Hewa Pathiranage, Frank Neumann, Denis Antipov, Aneta Neumann, (参考訳) 実世界の最適化問題はしばしば確率的および動的成分を含む。 進化的アルゴリズムは、不確実で変化する環境に容易に適応できるため、これらのシナリオで特に効果的であるが、しばしば不確実性や動的変化は独立して研究される。 本稿では,3目的進化的アルゴリズムを動的制約付き制約付きクナプサック問題に適用する。 我々の設定では、アイテムの重量は確率的であり、クナプサックの容量は時間とともに変化する。 確率的および動的成分を同時に扱うことができ、制約に要求される信頼度に依存しない3つの客観的定式化を導入する。 この新しいアプローチは、単一の信頼レベルに制限された2-対象の定式化と比較される。 2つの異なる多目的進化アルゴリズム(MOEA)、すなわちGSEMO(Global simple Evolution Multi-objective Optimizationr)とMOEA/D(MOEA/D)に基づく多目的進化アルゴリズム(MOEA/D)を用いて、様々なベンチマークシナリオにおいてアプローチを評価する。 本分析では, 動的確率制約クナプサック問題に対処する上で, 2-対象の定式化よりも3-対象の定式化の利点を強調した。

Real-world optimization problems often involve stochastic and dynamic components. Evolutionary algorithms are particularly effective in these scenarios, as they can easily adapt to uncertain and changing environments but often uncertainty and dynamic changes are studied in isolation. In this paper, we explore the use of 3-objective evolutionary algorithms for the chance constrained knapsack problem with dynamic constraints. In our setting, the weights of the items are stochastic and the knapsack's capacity changes over time. We introduce a 3-objective formulation that is able to deal with the stochastic and dynamic components at the same time and is independent of the confidence level required for the constraint. This new approach is then compared to the 2-objective formulation which is limited to a single confidence level. We evaluate the approach using two different multi-objective evolutionary algorithms (MOEAs), namely the global simple evolutionary multi-objective optimizer (GSEMO) and the multi-objective evolutionary algorithm based on decomposition (MOEA/D), across various benchmark scenarios. Our analysis highlights the advantages of the 3-objective formulation over the 2-objective formulation in addressing the dynamic chance constrained knapsack problem.
翻訳日:2024-04-10 15:58:48 公開日:2024-04-09
# プロアクティブレコメンデーションのための製品QAにおけるショッピングインテントの同定

Identifying Shopping Intent in Product QA for Proactive Recommendations ( http://arxiv.org/abs/2404.06017v1 )

ライセンス: Link先を確認
Besnik Fetahu, Nachshon Cohen, Elad Haramaty, Liane Lewin-Eytan, Oleg Rokhlenko, Shervin Malmasi, (参考訳) スマートデバイスでは音声アシスタントが普及し、ユーザーは音声質問を通じて即座に情報にアクセスできるようになった。 音声検索に関する質問に対して広範な研究が行われてきたが、音声アシスタントからユーザへの積極的なレコメンデーションを実現する方法についてはほとんど注目されていない。 これは非常に難しい問題で、ユーザの摩擦を招きがちです。 本研究は,商品関連質問に対して,購入ニーズの根底にあると思われる商品問合せ (SPQ) の特定に焦点をあてる。 ユーザのショッピングニーズを識別することで、製品や取引のレコメンデーションや積極的ショッピング行動レコメンデーションなどのレコメンデーションをいつ提供すべきかを判断することで、音声アシスタントによるショッピング体験の向上が可能になる。 SPQの特定は難しい問題であり、質問文だけでは実行できないため、ユーザの過去のショッピング履歴から推測される潜伏したユーザ行動パターンを推測する必要がある。 本稿では,ユーザの購入履歴から潜伏したショッピング行動を捉え,新しいMixture-of-Experts(MoE)モデルを用いて組み合わせる機能を提案する。 評価の結果,提案手法はSPQを高いスコアF1=0.91で識別できることがわかった。 さらに、実際の音声アシスタント利用者によるオンライン評価に基づいて、SPQをリアルタイムに識別し、購入した商品をショッピングリストに追加するようユーザに推奨する。 我々は,SPQ とランダム PQ の後に誘導される場合,利用者のショッピングリストに付加される商品の割合が有意に高いことが示されるように,SPQ を正確に識別できることを実証した。

Voice assistants have become ubiquitous in smart devices allowing users to instantly access information via voice questions. While extensive research has been conducted in question answering for voice search, little attention has been paid on how to enable proactive recommendations from a voice assistant to its users. This is a highly challenging problem that often leads to user friction, mainly due to recommendations provided to the users at the wrong time. We focus on the domain of e-commerce, namely in identifying Shopping Product Questions (SPQs), where the user asking a product-related question may have an underlying shopping need. Identifying a user's shopping need allows voice assistants to enhance shopping experience by determining when to provide recommendations, such as product or deal recommendations, or proactive shopping actions recommendation. Identifying SPQs is a challenging problem and cannot be done from question text alone, and thus requires to infer latent user behavior patterns inferred from user's past shopping history. We propose features that capture the user's latent shopping behavior from their purchase history, and combine them using a novel Mixture-of-Experts (MoE) model. Our evaluation shows that the proposed approach is able to identify SPQs with a high score of F1=0.91. Furthermore, based on an online evaluation with real voice assistant users, we identify SPQs in real-time and recommend shopping actions to users to add the queried product into their shopping list. We demonstrate that we are able to accurately identify SPQs, as indicated by the significantly higher rate of added products to users' shopping lists when being prompted after SPQs vs random PQs.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 顔偽造検出のためのバンドアテンション変調RetNet

Band-Attention Modulated RetNet for Face Forgery Detection ( http://arxiv.org/abs/2404.06022v1 )

ライセンス: Link先を確認
Zhida Zhang, Jie Cao, Wenkui Yang, Qihang Fan, Kai Zhou, Ran He, (参考訳) トランスフォーマーネットワークは,大規模なデータセットにまたがるスケーラビリティのために,大規模なフォージェリ検出において広く活用されている。その成功にもかかわらず,トランスフォーマーは,フォージェリヒントを公開する上で重要なグローバルコンテキストの確保と複雑性のバランスをとる上で,課題に直面している。この問題を軽減するために,破滅的な忘れを回避しつつ,広範囲な視覚的コンテキストを効率的に処理するように設計された軽量ネットワークであるBAR-Netを導入する。我々のアプローチは,異なる距離のトークンに差分注意レベルを割り当てることによって,グローバルな情報を知覚するためのターゲットトークンに権限を与える。 両空間軸に沿って自己アテンションを実装し,空間的先行性を維持し,計算負担を軽減するとともに,離散コサイン変換スペクトログラム全体を学習可能な重み付き一連の周波数帯域として扱う適応周波数バンドアテンション変調機構を提案する。

The transformer networks are extensively utilized in face forgery detection due to their scalability across large datasets.Despite their success, transformers face challenges in balancing the capture of global context, which is crucial for unveiling forgery clues, with computational complexity.To mitigate this issue, we introduce Band-Attention modulated RetNet (BAR-Net), a lightweight network designed to efficiently process extensive visual contexts while avoiding catastrophic forgetting.Our approach empowers the target token to perceive global information by assigning differential attention levels to tokens at varying distances. We implement self-attention along both spatial axes, thereby maintaining spatial priors and easing the computational burden.Moreover, we present the adaptive frequency Band-Attention Modulation mechanism, which treats the entire Discrete Cosine Transform spectrogram as a series of frequency bands with learnable weights.Together, BAR-Net achieves favorable performance on several face forgery datasets, outperforming current state-of-the-art methods.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 定段非平滑型SAのプリリミット結合と定常収束

Prelimit Coupling and Steady-State Convergence of Constant-stepsize Nonsmooth Contractive SA ( http://arxiv.org/abs/2404.06023v1 )

ライセンス: Link先を確認
Yixuan Zhang, Dongyan Huo, Yudong Chen, Qiaomin Xie, (参考訳) Q-learningによって動機づけられ, 定常段階の非滑らかな収縮性確率近似 (SA) について検討した。 ダイナミクスの2つの重要なクラスに焦点を当てます。 1)付加雑音を有する非平滑な収縮型SA 2) 加法ノイズと乗法ノイズの両方を特徴とする同期および非同期Q-ラーニング。 どちらの力学に対しても、ワッサーシュタイン距離の定常極限分布に反復体の弱収束を確立する。 さらに,定常収束を確立するためのプリリミット結合手法を提案し,ステップサイズがゼロになるにつれて定常分布の限界を特徴づける。 この結果から、非滑らかなSAの漸近バイアスは、滑らかなSAと鋭い対照的なステップサイズの平方根に比例することを示した。 このバイアス特性により、非滑らかなSAのバイアス低減にリチャードソン・ロームバーグ外挿を用いることができる。

Motivated by Q-learning, we study nonsmooth contractive stochastic approximation (SA) with constant stepsize. We focus on two important classes of dynamics: 1) nonsmooth contractive SA with additive noise, and 2) synchronous and asynchronous Q-learning, which features both additive and multiplicative noise. For both dynamics, we establish weak convergence of the iterates to a stationary limit distribution in Wasserstein distance. Furthermore, we propose a prelimit coupling technique for establishing steady-state convergence and characterize the limit of the stationary distribution as the stepsize goes to zero. Using this result, we derive that the asymptotic bias of nonsmooth SA is proportional to the square root of the stepsize, which stands in sharp contrast to smooth SA. This bias characterization allows for the use of Richardson-Romberg extrapolation for bias reduction in nonsmooth SA.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# Greedy-DiM:不合理な顔形態に対するグレディアルゴリズム

Greedy-DiM: Greedy Algorithms for Unreasonably Effective Face Morphs ( http://arxiv.org/abs/2404.06025v1 )

ライセンス: Link先を確認
Zander W. Blasingame, Chen Liu, (参考訳) モルフィング攻撃は最先端の顔認識(FR)システムに対する新たな脅威であり、複数のアイデンティティの生体情報を含む単一の画像を作成することを目的としている。 拡散モルフ (Diffusion Morphs, DiM) は近年提案されているモルフ攻撃であり, 表現に基づくモルフ攻撃の最先端性能を実現している。 しかし、既存のDiMの研究では、DiMsの反復的な性質を活かし、DiMモデルをブラックボックスとして残し、ジェネレーティブ・アドバイサル・ネットワーク(GAN)やVariational AutoEncoder(VAE)と同様の扱いをしている。 同一性に基づくヒューリスティック関数によって導かれる最適ステップを探索するDiMモデルの反復サンプリングプロセスに関する欲求戦略を提案する。 我々は,提案アルゴリズムを,オープンソースのSyn-MAD 2022コンペティションデータセットを用いて,他の10種類の最先端のモーフィングアルゴリズムと比較した。 提案アルゴリズムは,100%のMMPMRで試験されたFRシステムの全てを騙し,比較した他の全てのモルヒネアルゴリズムを上回り,不合理に有効であることがわかった。

Morphing attacks are an emerging threat to state-of-the-art Face Recognition (FR) systems, which aim to create a single image that contains the biometric information of multiple identities. Diffusion Morphs (DiM) are a recently proposed morphing attack that has achieved state-of-the-art performance for representation-based morphing attacks. However, none of the existing research on DiMs have leveraged the iterative nature of DiMs and left the DiM model as a black box, treating it no differently than one would a Generative Adversarial Network (GAN) or Varational AutoEncoder (VAE). We propose a greedy strategy on the iterative sampling process of DiM models which searches for an optimal step guided by an identity-based heuristic function. We compare our proposed algorithm against ten other state-of-the-art morphing algorithms using the open-source SYN-MAD 2022 competition dataset. We find that our proposed algorithm is unreasonably effective, fooling all of the tested FR systems with an MMPMR of 100%, outperforming all other morphing algorithms compared.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 知識蒸留による顔のランドマーク検出精度と効率の改善

Improving Facial Landmark Detection Accuracy and Efficiency with Knowledge Distillation ( http://arxiv.org/abs/2404.06029v1 )

ライセンス: Link先を確認
Zong-Wei Hong, Yu-Chen Lin, (参考訳) コンピュータビジョンの領域は、顔認識や顔認識、感情分析といった様々な応用において、顔とランドマークの検出において顕著な進歩を経験してきた。 オブジェクトの検出やセマンティックセグメンテーション(セマンティックセグメンテーション)とは異なり、顔のランドマーク検出は重要な顔の特徴を正確に見つけ、追跡することを目的としている。 しかし、計算資源が限られている組込みシステムにディープラーニングに基づく顔ランドマーク検出モデルをデプロイすることは、特に動的設定において、顔の特徴の複雑さのために課題を生じさせる。 さらに、多様な民族や表現にまたがる堅牢性を確保することで、さらなる障害が生じる。 既存のデータセットは、特に台湾のような人口の中で、顔のニュアンスを包括的に表現していないことが多い。 本稿では,知識蒸留法の開発を通じて,これらの課題に対処する新しいアプローチを提案する。 より大規模なモデルからより小さなモデルに知識を移すことで、顔のランドマーク検出タスクに特化して、軽量でパワフルなディープラーニングモデルを作ることを目指している。 我々の目標は、多様な表情、向き、照明環境を含む様々な条件下で、顔のランドマークを正確に特定できるモデルを設計することです。 最終的な目的は、組み込みシステムへのデプロイに適した高精度でリアルタイムなパフォーマンスを実現することである。 この手法は成功し、IEEE ICME 2024 PAIRコンペティションの参加者165人中6位に終わった。

The domain of computer vision has experienced significant advancements in facial-landmark detection, becoming increasingly essential across various applications such as augmented reality, facial recognition, and emotion analysis. Unlike object detection or semantic segmentation, which focus on identifying objects and outlining boundaries, faciallandmark detection aims to precisely locate and track critical facial features. However, deploying deep learning-based facial-landmark detection models on embedded systems with limited computational resources poses challenges due to the complexity of facial features, especially in dynamic settings. Additionally, ensuring robustness across diverse ethnicities and expressions presents further obstacles. Existing datasets often lack comprehensive representation of facial nuances, particularly within populations like those in Taiwan. This paper introduces a novel approach to address these challenges through the development of a knowledge distillation method. By transferring knowledge from larger models to smaller ones, we aim to create lightweight yet powerful deep learning models tailored specifically for facial-landmark detection tasks. Our goal is to design models capable of accurately locating facial landmarks under varying conditions, including diverse expressions, orientations, and lighting environments. The ultimate objective is to achieve high accuracy and real-time performance suitable for deployment on embedded systems. This method was successfully implemented and achieved a top 6th place finish out of 165 participants in the IEEE ICME 2024 PAIR competition.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# FuSeBMC AI: 機械学習によるハイブリッドアプローチの高速化

FuSeBMC AI: Acceleration of Hybrid Approach through Machine Learning ( http://arxiv.org/abs/2404.06031v1 )

ライセンス: Link先を確認
Kaled M. Alshmrany, Mohannad Aldughaim, Chenfeng Wei, Tom Sweet, Richard Allmendinger, Lucas C. Cordeiro, (参考訳) 本稿では,機械学習技術に基づくテスト生成ツールFuSeBMC-AIを提案する。 FuSeBMC-AIはプログラムから様々な特徴を抽出し、サポートベクターマシンとニューラルネットワークモデルを用いてハイブリッドアプローチの最適構成を予測する。 FuSeBMC-AIは境界モデルチェックとファジングをバックエンド検証エンジンとして使用している。 FuSeBMC-AIは、リソース消費を同時に減少させながら、基礎となる検証エンジンのデフォルト設定よりも優れている。

We present FuSeBMC-AI, a test generation tool grounded in machine learning techniques. FuSeBMC-AI extracts various features from the program and employs support vector machine and neural network models to predict a hybrid approach optimal configuration. FuSeBMC-AI utilizes Bounded Model Checking and Fuzzing as back-end verification engines. FuSeBMC-AI outperforms the default configuration of the underlying verification engine in certain cases while concurrently diminishing resource consumption.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# マルチ露光画像融合のための階層的特徴の強化

Little Strokes Fell Great Oaks: Boosting the Hierarchical Features for Multi-exposure Image Fusion ( http://arxiv.org/abs/2404.06033v1 )

ライセンス: Link先を確認
Pan Mu, Zhiying Du, Jinyuan Liu, Cong Bai, (参考訳) 近年、深層学習ネットワークはマルチ露光画像融合の領域において顕著な進歩を遂げている。 それでも、広く普及しているアプローチは、しばしば過剰に露呈された画像や未公開画像を直接ネットワークに送り込むことによって、ソース画像に存在する固有情報の未利用につながる。 さらに、教師なしの技法は、主にカラーチャネル処理に初歩重み付け和を用い、全体的な不飽和最終画像のトーンに終止符を打つ。 これらの問題を部分的に緩和するため,本研究では,ソース画像に埋め込まれた潜伏情報を完全に活用するガンマ補正モジュールを提案する。 さらに, 自己アテンション機構を取り入れた変圧器ブロックを導入し, 融合プロセスの最適化を行った。 最終的に、複雑な詳細を保存しながら、彩度を増大させる新しい色強調アルゴリズムが提示される。 ソースコードは、この<a href="https://github.com/ZhiyingDu/BHFMEF" rel="external noopener nofollow" class="link-external link-https">https://github.com/ZhiyingDu/BHFMEF</a> urlで入手できる。

In recent years, deep learning networks have made remarkable strides in the domain of multi-exposure image fusion. Nonetheless, prevailing approaches often involve directly feeding over-exposed and under-exposed images into the network, which leads to the under-utilization of inherent information present in the source images. Additionally, unsupervised techniques predominantly employ rudimentary weighted summation for color channel processing, culminating in an overall desaturated final image tone. To partially mitigate these issues, this study proposes a gamma correction module specifically designed to fully leverage latent information embedded within source images. Furthermore, a modified transformer block, embracing with self-attention mechanisms, is introduced to optimize the fusion process. Ultimately, a novel color enhancement algorithm is presented to augment image saturation while preserving intricate details. The source code is available at this <a href="https://github.com/ZhiyingDu/BHFMEF" rel="external noopener nofollow" class="link-external link-https">https://github.com/ZhiyingDu/BHFMEF</a> url.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# ニューラル演算子を用いた時空間ビデオ超解像

Space-Time Video Super-resolution with Neural Operator ( http://arxiv.org/abs/2404.06036v1 )

ライセンス: Link先を確認
Yuantong Zhang, Hanyou Zheng, Daiqin Yang, Zhenzhong Chen, Haichuan Ma, Wenpeng Ding, (参考訳) 本稿では,時空ビデオ超解像(ST-VSR)の課題について述べる。 既存の手法は一般に、大きな動きに対する不正確な動き推定と動き補償(MEMC)の問題に悩まされる。 物理インフォームドニューラルネットワークの最近の進歩に触発されて、ST-VSRにおけるMEMCの課題を、2つの連続関数空間間のマッピングとしてモデル化する。 具体的には、粗粒状連続函数空間における独立な低分解能表現を、微細粒状連続函数空間における高密度な時空間の詳細を持つ洗練された表現に変換する。 効率的かつ正確なMEMCを実現するために,フレームアライメントと時間補間を行うガレルキン型アテンション関数を設計する。 ガレルキン型アテンション機構の線形複雑さのため、我々のモデルはパッチ分割を回避し、大域的受容場を提供し、大きな動きの正確な推定を可能にする。 実験の結果,提案手法は固定サイズおよび連続時空ビデオ超解像処理における最先端技術を上回ることがわかった。

This paper addresses the task of space-time video super-resolution (ST-VSR). Existing methods generally suffer from inaccurate motion estimation and motion compensation (MEMC) problems for large motions. Inspired by recent progress in physics-informed neural networks, we model the challenges of MEMC in ST-VSR as a mapping between two continuous function spaces. Specifically, our approach transforms independent low-resolution representations in the coarse-grained continuous function space into refined representations with enriched spatiotemporal details in the fine-grained continuous function space. To achieve efficient and accurate MEMC, we design a Galerkin-type attention function to perform frame alignment and temporal interpolation. Due to the linear complexity of the Galerkin-type attention mechanism, our model avoids patch partitioning and offers global receptive fields, enabling precise estimation of large motions. The experimental results show that the proposed method surpasses state-of-the-art techniques in both fixed-size and continuous space-time video super-resolution tasks.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# LLMによるソースコードの効率評価について

On Evaluating the Efficiency of Source Code Generated by LLMs ( http://arxiv.org/abs/2404.06041v1 )

ライセンス: Link先を確認
Changan Niu, Ting Zhang, Chuanyi Li, Bin Luo, Vincent Ng, (参考訳) 近年、コード生成のための大規模言語モデル(LLM)の顕著な機能を見てきた。 LLMが生成したコードの正確性を評価する既存の作業と異なり、その効率性をさらに評価することを提案する。 より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。 まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。 そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。 最後に、LLMがより効率的なコードを生成することができるいくつかのプロンプトについて検討する。

Recent years have seen the remarkable capabilities of large language models (LLMs) for code generation. Different from existing work that evaluate the correctness of the code generated by LLMs, we propose to further evaluate its efficiency. More efficient code can lead to higher performance and execution efficiency of programs and software completed by LLM-assisted programming. First, we evaluate the efficiency of the code generated by LLMs on two benchmarks, HumanEval and MBPP. Then, we choose a set of programming problems from the online judge platform LeetCode to conduct a more difficult evaluation. Finally, we explore several prompts that would enable LLMs to generate more efficient code.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 階層的クラウドベース表現を用いたオブジェクトダイナミクスモデリング

Object Dynamics Modeling with Hierarchical Point Cloud-based Representations ( http://arxiv.org/abs/2404.06044v1 )

ライセンス: Link先を確認
Chanho Kim, Li Fuxin, (参考訳) ニューラルネットワークによるオブジェクトダイナミクスのモデリングは多くのアプリケーションにおいて重要な問題である。 最近の研究はグラフニューラルネットワークに基づいている。 しかし、物理は3次元空間で起こり、幾何学的な情報が物理現象をモデル化する上で重要な役割を果たす可能性がある。 本研究では,3次元座標から情報を自然に埋め込む連続点畳み込みに基づく新しいU-netアーキテクチャを提案する。 ダウンサンプリングされた点雲のボトルネック層は、より優れた長距離相互作用モデリングをもたらす。 さらに、点畳み込みの柔軟性により、メッシュ頂点からスパースサンプリングされた点を一般化し、メッシュ面上の重要な相互作用点の特徴を動的に生成することが可能になる。 実験の結果, 精度の高い重力や衝突の推理を必要とするシナリオにおいて, 本手法は最先端の手法を著しく改善することが示された。

Modeling object dynamics with a neural network is an important problem with numerous applications. Most recent work has been based on graph neural networks. However, physics happens in 3D space, where geometric information potentially plays an important role in modeling physical phenomena. In this work, we propose a novel U-net architecture based on continuous point convolution which naturally embeds information from 3D coordinates and allows for multi-scale feature representations with established downsampling and upsampling procedures. Bottleneck layers in the downsampled point clouds lead to better long-range interaction modeling. Besides, the flexibility of point convolutions allows our approach to generalize to sparsely sampled points from mesh vertices and dynamically generate features on important interaction points on mesh faces. Experimental results demonstrate that our approach significantly improves the state-of-the-art, especially in scenarios that require accurate gravity or collision reasoning.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 二次元量子物質の量子コンピューティングトポロジカル不変量

Quantum computing topological invariants of two-dimensional quantum matter ( http://arxiv.org/abs/2404.06048v1 )

ライセンス: Link先を確認
Marcel Niedermeier, Marc Nairn, Christian Flindt, Jose L. Lado, (参考訳) 量子アルゴリズムは、古典的な方法で難解な計算問題を解くための潜在的戦略を提供する。 トポロジカル不変量の計算は、量子材料の研究における中心的な問題であり、この目的のための様々な数値的なアプローチが開発されている。 しかし、量子多体ハミルトニアンの複雑さは、相互作用する系において位相不変量の計算を困難にしている。 本稿では,量子コンピュータ上での二次元量子物質のチャーン数を計算するための2つの量子回路を提案する。 どちらの回路も、離散化されたブリルアンゾーン上のゲートベースの断熱時間進化と特定の位相推定技術を組み合わせている。 最初のアルゴリズムは多くの量子ビットを使用し、量子回路のテンソルネットワークシミュレータを用いて解析する。 第2の回路は回路が少なく、超伝導量子ビットに基づく量子コンピュータで実験的に実装する。 本研究では,量子回路を用いたトポロジカル不変量計算手法を確立し,量子コンピュータを用いた相互作用するトポロジカル量子物体のキャラクタリゼーションに向けた一歩を踏み出した。

Quantum algorithms provide a potential strategy for solving computational problems that are intractable by classical means. Computing the topological invariants of topological matter is one central problem in research on quantum materials, and a variety of numerical approaches for this purpose have been developed. However, the complexity of quantum many-body Hamiltonians makes calculations of topological invariants challenging for interacting systems. Here, we present two quantum circuits for calculating Chern numbers of two-dimensional quantum matter on quantum computers. Both circuits combine a gate-based adiabatic time-evolution over the discretized Brillouin zone with particular phase estimation techniques. The first algorithm uses many qubits, and we analyze it using a tensor-network simulator of quantum circuits. The second circuit uses fewer circuits, and we implement it experimentally on a quantum computer based on superconducting qubits. Our results establish a method for computing topological invariants with quantum circuits, taking a step towards characterizing interacting topological quantum matter using quantum computers.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 大規模シーンにおける単眼カメラにおける奥行き, 姿勢, 暗示シーンのインクリメンタル共同学習

Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes ( http://arxiv.org/abs/2404.06050v1 )

ライセンス: Link先を確認
Tianchen Deng, Nailin Wang, Chongdi Wang, Shenghai Yuan, Jingchuan Wang, Danwei Wang, Weidong Chen, (参考訳) 写真リアルビュー合成のための高密度シーン再構築には、VR/AR、自動運転車など様々な応用がある。 しかし、既存のほとんどのメソッドは、次の3つの主要な課題のために、大規模なシーンで困難を抱えている。 (a)不正確な深さ入力。 実世界の大規模シーンでは正確な深度入力は不可能である。 \textit{ (b)不正確なポーズ推定 既存のアプローチのほとんどは、正確に推定されたカメラのポーズに依存しています。 \textit{ (c)シーン表現能力の不足。 一つのグローバルな放射界は、大規模シーンに効果的にスケールする能力に欠ける。 そこで本研究では,正確な深度,ポーズ推定,大規模シーン再構築を実現するための,段階的な共同学習フレームワークを提案する。 視覚変換器を用いたネットワークをバックボーンとして採用し、スケール情報推定の性能を向上させる。 ポーズ推定のためのFBA法は,大規模シーンにおける高精度でロバストなカメラトラッキングのために設計されている。 暗黙的なシーン表現の観点から、大規模シーン全体を複数の局所放射場として構成し、3次元シーン表現のスケーラビリティを高めるためのインクリメンタルなシーン表現法を提案する。 奥行き推定,ポーズ推定,大規模シーン再構築において,提案手法の有効性と精度を実証するための拡張実験を行った。

Dense scene reconstruction for photo-realistic view synthesis has various applications, such as VR/AR, autonomous vehicles. However, most existing methods have difficulties in large-scale scenes due to three core challenges: \textit{(a) inaccurate depth input.} Accurate depth input is impossible to get in real-world large-scale scenes. \textit{(b) inaccurate pose estimation.} Most existing approaches rely on accurate pre-estimated camera poses. \textit{(c) insufficient scene representation capability.} A single global radiance field lacks the capacity to effectively scale to large-scale scenes. To this end, we propose an incremental joint learning framework, which can achieve accurate depth, pose estimation, and large-scale scene reconstruction. A vision transformer-based network is adopted as the backbone to enhance performance in scale information estimation. For pose estimation, a feature-metric bundle adjustment (FBA) method is designed for accurate and robust camera tracking in large-scale scenes. In terms of implicit scene representation, we propose an incremental scene representation method to construct the entire large-scale scene as multiple local radiance fields to enhance the scalability of 3D scene representation. Extended experiments have been conducted to demonstrate the effectiveness and accuracy of our method in depth estimation, pose estimation, and large-scale scene reconstruction.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 明確に相関したガウスを持つ多電子系および多原子系の正則化相対論的補正

Regularized relativistic corrections for polyelectronic and polyatomic systems with explicitly correlated Gaussians ( http://arxiv.org/abs/2404.06051v1 )

ライセンス: Link先を確認
Balázs Rácsai, Dávid Ferenc, Ádám Margócsy, Edit Mátyus, (参考訳) ドラッハマンの正則化アプローチは、浮動小数点相関ガウス(fECG)と分子系に実装されている。 分子系に対するドラッハマン化相対論的補正の初期の応用は、fECGを持つ1/r_{ix}1/r_{jy}$型作用素の未知の解析行列要素のために妨げられた。 本研究では、1/r$の因子のうちの1つがガウスの線型結合によって近似され、計算可能な積分が得られる。 数値的なアプローチは、分子系や核構成の幅広い範囲において正確かつ堅牢であることが判明し、そのため、多原子系のポテンシャルエネルギー面に対する高精度相対論的補正の自動評価への道を開く。 さらに、新たに開発された積分手法により、エネルギー低バウンドに関連する電子ハミルトニアンの正方形の行列表現と、フレキシブルで高精度なfECG基底表現を持つ分子系の時間依存計算を構築することができる。

Drachmann's regularization approach is implemented for floating explicitly correlated Gaussians (fECGs) and molecular systems. Earlier applications of Drachmannized relativistic corrections for molecular systems were hindered due to the unknown analytic matrix elements of $1/r_{ix}1/r_{jy}$-type operators with fECGs. In the present work, one of the $1/r$ factors is approximated by a linear combination of Gaussians, which results in calculable integrals. The numerical approach is found to be precise and robust over a range of molecular systems and nuclear configurations, and thus, it opens the route towards an automated evaluation of high-precision relativistic corrections over potential energy surfaces of polyatomic systems. Furthermore, the newly developed integration approach makes it possible to construct the matrix representation of the square of the electronic Hamiltonian relevant for energy lower-bound as well as time-dependent computations of molecular systems with a flexible and high-precision fECG basis representation.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 限られたアンシラリー量子ビットを持つ対称関数の浅量子回路実装

Shallow Quantum Circuit Implementation of Symmetric Functions with Limited Ancillary Qubits ( http://arxiv.org/abs/2404.06052v1 )

ライセンス: Link先を確認
Wei Zi, Junhong Nie, Xiaoming Sun, (参考訳) 量子計算では、現在の量子デバイスが課している制約のため、量子回路の深さとアクセル量子ビットの数を最適化することが不可欠である。 本稿では,多対数深度量子回路を用いて任意の対称ブール関数を実装するための革新的な手法を提案する。 対称関数は入力のハミング重みにのみ依存する出力である。 これらの関数は、量子機械学習、演算回路合成、量子アルゴリズム設計(グロバーのアルゴリズムなど)など、様々な分野にまたがる応用を見出す。 さらに、クォートリット(追加エネルギーレベル)のポテンシャルを十分に活用することにより、アンシラ数はさらに1に減らすことができる。 鍵となる技術は、Acillary qubitを必要とせずにハミング重みを計算するように設計された新しい多対数深さ量子回路である。 ハミングウェイトのための量子回路は、量子メモリや量子機械学習などの幅広い応用のために、独立した関心を持っている。

In quantum computation, optimizing depth and number of ancillary qubits in quantum circuits is crucial due to constraints imposed by current quantum devices. This paper presents an innovative approach to implementing arbitrary symmetric Boolean functions using poly-logarithmic depth quantum circuits with logarithmic number of ancillary qubits. Symmetric functions are those whose outputs rely solely on the Hamming weight of the inputs. These functions find applications across diverse domains, including quantum machine learning, arithmetic circuit synthesis, and quantum algorithm design (e.g., Grover's algorithm). Moreover, by fully leveraging the potential of qutrits (an additional energy level), the ancilla count can be further reduced to 1. The key technique involves a novel poly-logarithmic depth quantum circuit designed to compute Hamming weight without the need for ancillary qubits. The quantum circuit for Hamming weight is of independent interest because of its broad applications, such as quantum memory and quantum machine learning.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# 量子環境における量子ビットのコヒーレンス測定

How coherence measurements of a qubit steer its quantum environment ( http://arxiv.org/abs/2404.06053v1 )

ライセンス: Link先を確認
Chu-Dan Qiu, Yuan-De Jin, Jun-Xiang Zhang, Gang-Qin Liu, Wen-Long Ma, (参考訳) 繰り返しラムゼー干渉測定(RIMs)は、各測定後に環境が影響を受けないままであり、全ての測定結果が独立で同一に分布していると仮定して、クビットコヒーレンスを測定するためにしばしば用いられる。 この仮定は古典的な環境では有効であるが、無視できないバックアクションのために量子環境では成り立たない。 ここでは、シーケンシャルRIMにおける測定バックアクションを考慮に入れた一般的な理論的枠組みを示す。 我々は、RIMが量子環境上で量子チャネルを誘導し、シーケンシャルRIMが徐々にチャネルの固定点まで量子環境を操ることを示す。 1)$[B,H_e]=0$のとき、量子環境は徐々に$B$の異なる固有状態に偏極化される; (2)$[B,H_e]\neq 0$のとき、量子環境は徐々にヒルベルト空間全体またはヒルベルト部分空間の最大混合状態に偏極化される; (3)$[B,H_e]\neq 0$のとき、H_e$の1ドルと$B$の1ドルが小幅化される。 環境ステアリングはまた、RIMの連続的な測定統計を非i.d.特徴として発展させる。 中心スピンモデルの実例も提示される。 我々の研究は、繰り返し量子コヒーレンス測定のバックアクションと統計を解明するだけでなく、量子環境の状態やダイナミクスを量子アンシラで設計するためのプロトコルの設計にも有用である。

Repetitive Ramsey interferometry measurements (RIMs) are often used to measure qubit coherence, assuming that the environment remains unaffected after each measurement and the outcomes of all measurements are independent and identically distributed (i.i.d.). While this assumption is often valid for a classical environment, it may not hold for a quantum environment due to non-negligible backaction. Here we present a general theoretical framework to account for the measurement backaction in sequential RIMs. We show that an RIM induces a quantum channel on the quantum environment, and sequential RIMs gradually steer the quantum environment to the fixed points of the channel. For the first time, we reveal three distinct environment steering effects -- polarization, depolarization and metastable polarization, depending on the commutativity of the noise operator $B$ and the environment Hamiltonian $H_e$: (1) When $[B,H_e]=0$, the quantum environment is gradually polarized to different eigenstates of $B$ as the number $m$ of repetitive RIMs increases; (2) When $[B,H_e]\neq 0$, the quantum environment is gradually depolarized to a maximally mixed state of its whole Hilbert space or a Hilbert subspace; (3) When $[B,H_e]\neq 0$ but one of $H_e$ and $B$ is a small perturbation on the other, metastable polarization can happen, such that the quantum environment is first polarized for a finite range of $m$ but becomes gradually depolarized as $m$ increases further. The environment steering also makes the measurement statistics of sequential RIMs develop non-i.i.d. features. Realistic examples of central spin models are also presented. Our work not only elucidates the measurement backaction and statistics of repetitive qubit coherence measurements, but is also useful for designing protocols to engineer the state or dynamics of a quantum environment with a qubit ancilla.
翻訳日:2024-04-10 15:48:59 公開日:2024-04-09
# フォトニックチップにおける損失線形変換と2光子干渉の実証

Demonstration of Lossy Linear Transformations and Two-Photon Interference on a Photonic Chip ( http://arxiv.org/abs/2404.06056v1 )

ライセンス: Link先を確認
Kai Wang, Simon J. U. White, Alexander Szameit, Andrey A. Sukhorukov, Alexander S. Solntsev, (参考訳) 損失の存在下で量子相関を研究することは、実量子系の物理モデリングにおいて重要である。 本稿では, 特異値分解法を用いて設計・モデル化したフォトニックチップにおいて, 絡み合った光子間の空間相関の制御を実証する。 補助導波路を用いた工学的損失は,空間統計を束縛から反膨らみに逆転させることが可能であることを示す。 さらに、損失エミュレーションチャネル内の光子統計を調査し、光子偶然を観測することにより、量子フォトニック集積チップの設計に関する洞察を与えることができる。

Studying quantum correlations in the presence of loss is of critical importance for the physical modeling of real quantum systems. Here, we demonstrate the control of spatial correlations between entangled photons in a photonic chip, designed and modeled using the singular value decomposition approach. We show that engineered loss, using an auxiliary waveguide, allows one to invert the spatial statistics from bunching to antibunching. Furthermore, we study the photon statistics within the loss-emulating channel and observe photon coincidences, which may provide insights into the design of quantum photonic integrated chips.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# 再構成前訓練と異種性結合調整を併用した統合型マルチモーダル診断フレームワーク

Unified Multi-modal Diagnostic Framework with Reconstruction Pre-training and Heterogeneity-combat Tuning ( http://arxiv.org/abs/2404.06057v1 )

ライセンス: Link先を確認
Yupei Zhang, Li Pan, Qiushi Yang, Tan Li, Zhen Chen, (参考訳) 医療用マルチモーダルプレトレーニングは、大規模なラベルなしデータセットを活用することにより、コンピュータ支援診断において有望であることが判明した。 しかし、マスク付きオートエンコーダに基づく既存の手法は、主にデータレベルの再構築作業に依存しているが、高レベルのセマンティック情報はない。 さらに、事前学習された知識を下流のタスクに転送することを妨げる2つの重要な不均一性、事前学習されたデータと下流データの分布不均一性、下流データ内のモダリティ不均一性である。 これらの課題に対処するため、我々は、トレーニング前と下流の調整戦略を調整した統一医療マルチモーダル診断(UMD)フレームワークを提案する。 具体的には、視覚と言語エンコーダの表現能力を高めるために、特徴レベルとデータレベルの再構成を含むマルチレベル再構成事前訓練(MR-Pretraining)戦略を提案する。 さらに、下流調整における2種類の不均一性に対処するため、タスク指向分布校正(TD-Calib)とグラディエント誘導モードコーディネート(GM-Coord)からなる下流調整戦略を提案する。 特に、TD-Calibは、下流データセットの分布に関する事前訓練されたモデルを微調整し、GM-Coordは、異なるモードの動的最適化状況に応じて勾配重みを調整する。 5つの公開医療データセットに対する大規模な実験は、我々のUDDフレームワークの有効性を示し、既存の3種類の下流タスクのアプローチを著しく上回っている。

Medical multi-modal pre-training has revealed promise in computer-aided diagnosis by leveraging large-scale unlabeled datasets. However, existing methods based on masked autoencoders mainly rely on data-level reconstruction tasks, but lack high-level semantic information. Furthermore, two significant heterogeneity challenges hinder the transfer of pre-trained knowledge to downstream tasks, \textit{i.e.}, the distribution heterogeneity between pre-training data and downstream data, and the modality heterogeneity within downstream data. To address these challenges, we propose a Unified Medical Multi-modal Diagnostic (UMD) framework with tailored pre-training and downstream tuning strategies. Specifically, to enhance the representation abilities of vision and language encoders, we propose the Multi-level Reconstruction Pre-training (MR-Pretrain) strategy, including a feature-level and data-level reconstruction, which guides models to capture the semantic information from masked inputs of different modalities. Moreover, to tackle two kinds of heterogeneities during the downstream tuning, we present the heterogeneity-combat downstream tuning strategy, which consists of a Task-oriented Distribution Calibration (TD-Calib) and a Gradient-guided Modality Coordination (GM-Coord). In particular, TD-Calib fine-tunes the pre-trained model regarding the distribution of downstream datasets, and GM-Coord adjusts the gradient weights according to the dynamic optimization status of different modalities. Extensive experiments on five public medical datasets demonstrate the effectiveness of our UMD framework, which remarkably outperforms existing approaches on three kinds of downstream tasks.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# 定数T深度ReLUを含む機械学習活性化関数のための効率的な量子回路

Efficient Quantum Circuits for Machine Learning Activation Functions including Constant T-depth ReLU ( http://arxiv.org/abs/2404.06059v1 )

ライセンス: Link先を確認
Wei Zi, Siyi Wang, Hyunji Kim, Xiaoming Sun, Anupam Chattopadhyay, Patrick Rebentrost, (参考訳) 近年、量子機械学習(QML)は研究者の関心をますます集めている。 この領域の構成要素のうち、活性化関数は基本的で必要不可欠な役割を担っている。 我々の研究は、フォールトトレラントな量子コンピューティングアーキテクチャに統合するためのアクティベーション関数量子回路の開発に焦点を当て、T$-depthの最小化に重点を置いている。 具体的には、ReLUとリークReLUのアクティベーション関数を新たに実装し、それぞれ4および8のT$-depthを一定に達成する。 量子ルックアップテーブルを活用することで、シグモイドのような他の活性化関数への探索を拡大する。 このアプローチにより、キュービットの数を調整することで、精度と$T$-depthをカスタマイズできます。 本研究は,量子機械学習の実用性と応用性向上に向けた重要な進展を示すものである。

In recent years, Quantum Machine Learning (QML) has increasingly captured the interest of researchers. Among the components in this domain, activation functions hold a fundamental and indispensable role. Our research focuses on the development of activation functions quantum circuits for integration into fault-tolerant quantum computing architectures, with an emphasis on minimizing $T$-depth. Specifically, we present novel implementations of ReLU and leaky ReLU activation functions, achieving constant $T$-depths of 4 and 8, respectively. Leveraging quantum lookup tables, we extend our exploration to other activation functions such as the sigmoid. This approach enables us to customize precision and $T$-depth by adjusting the number of qubits, making our results more adaptable to various application scenarios. This study represents a significant advancement towards enhancing the practicality and application of quantum machine learning.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# ボース=アインシュタインは量子重力プローブとして凝縮する; "Erste Abhandlung"

Bose-Einstein condensate as a quantum gravity probe; "Erste Abhandlung" ( http://arxiv.org/abs/2404.06060v1 )

ライセンス: Link先を確認
Soham Sen, Sunandan Gangopadhyay, (参考訳) 重力変動が量子化されて量子重力効果が理論に組み込まれる場合、ボース・アインシュタイン凝縮体が重力波と相互作用すると考える。 擬ゴールドストーン粒子の時間依存性の解は重力波によって誘起されるノイズから注入され、対応する運動の微分方程式はランゲヴィン様である。 この結果を用いて量子重力修正フィッシャー情報(QGFI)を得る。 QGFIの確率平均の逆二乗根は、重力波振幅の測定における最小の不確実性を与える。 測定時間が量子重力設定においてゼロに近づくため、最小の不確実性は無限大に至らず、高いスクイージングを持つ重力子に対して測定可能な有限値を持つ。 最後に,QGFIにおけるフォノンモードの相互作用によるデコヒーレンスの影響を観察し,初期グラビトンを高次にスクイーズする際のデコヒーレンス効果について検討した。

We consider a Bose-Einstein condensate interacting with a gravitational wave for the case when the gravitational fluctuations are quantized in order to incorporate quantum gravity effects into the theory. We observe that the solution of the time-dependent part of the pseudo-Goldstone boson has infusions from the noise induced by gravitons and the corresponding differential equation of motion is Langevin-like. Using this result, we obtain the quantum gravity modified Fisher information which has been termed as the quantum gravitational Fisher information (QGFI). The inverse square root of the stochastic average of the QGFI gives the minimum uncertainty in the measurement of the gravitational wave amplitude. The minimum uncertainty does not go to infinity as the measurement time approaches zero in a quantum gravity setup rather it has a measurable finite value for gravitons with high squeezing. Finally, we observe the effect of decoherence due to interacting phonon modes in the QGFI and observe a less obvious decoherence effect for higher squeezing of the initial graviton.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# All in One:Experiical Study of GPT for Few-Shot Aspect-Based Sentiment Anlaysis

All in One: An Empirical Study of GPT for Few-Shot Aspect-Based Sentiment Anlaysis ( http://arxiv.org/abs/2404.06063v1 )

ライセンス: Link先を確認
Baoxing Jiang, (参考訳) Aspect-Based Sentiment Analysis (ABSA) は自然言語処理において必要不可欠な課題である。 現在の取り組みは特定のサブタスクに焦点を当てており、ABSAドメイン内のすべてのサブタスクを包括的にカバーすることは困難である。 GPT(Generative Pre-trained Transformers)の開発により、感情分析のワンストップソリューションの着想を得た。 本研究では,このアプリケーションのための一般的な学習パラダイムを定義しながら,数発のABSAのすべてのサブタスクに対してGPTを用いた。 すべてのABSAサブタスクに対して,単純かつ効果的な2段階モデルであるAll in One (AiO) モデルを提案する。 第1段階では、特定のバックボーンネットワークがレビューの意味情報を学習し、ヒューリスティックに強化された候補を生成する。 第2段階では、AiOはGPTコンテキスト学習機能を活用して予測を生成する。 この研究は5つのベンチマークデータセットで総合的な比較およびアブレーション実験を行い、その結果、AiOは数ショットのデータであっても全てのABSAサブタスクを効果的に処理できることを示した。

Aspect-Based Sentiment Analysis (ABSA) is an indispensable and highly challenging task in natural language processing. Current efforts have focused on specific sub-tasks, making it difficult to comprehensively cover all sub-tasks within the ABSA domain. With the development of Generative Pre-trained Transformers (GPTs), there came inspiration for a one-stop solution to sentiment analysis. In this study, we used GPTs for all sub-tasks of few-shot ABSA while defining a general learning paradigm for this application. We propose the All in One (AiO) model, a simple yet effective two-stage model for all ABSA sub-tasks. In the first stage, a specific backbone network learns the semantic information of the review and generates heuristically enhanced candidates. In the second stage, AiO leverages GPT contextual learning capabilities to generate predictions. The study conducted comprehensive comparative and ablation experiments on five benchmark datasets, and the results show that AiO can effectively handle all ABSA sub-tasks, even with few-shot data.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# オープンセットテスト時間適応のための統一エントロピー最適化

Unified Entropy Optimization for Open-Set Test-Time Adaptation ( http://arxiv.org/abs/2404.06065v1 )

ライセンス: Link先を確認
Zhengqing Gao, Xu-Yao Zhang, Cheng-Lin Liu, (参考訳) テスト時間適応(TTA)は、ラベル付きソースドメインで事前訓練されたモデルをラベルなしターゲットドメインに適応することを目的としている。 既存の手法は通常、意味的シフトを無視しながら、共変量シフトの下でのTTAパフォーマンスの改善に重点を置いている。 本稿では,対象ドメインが未知のクラスからのサンプルを含むような,現実的なオープンセットのTTA設定を探索する。 多くの最先端のクローズドセットTTA手法は、データ分布の不正確な推定とモデルの信頼性に起因して、オープンセットのシナリオに適用すると性能が低下する。 このような問題に対処するために,共変量シフトしたin-distribution(csID)データと共変量シフトしたout-of-distribution(csOOD)データとの同時適応が可能な統一エントロピー最適化(UniEnt)という,シンプルで効果的なフレームワークを提案する。 具体的には、まずテストデータから擬似csIDおよび擬似csOODサンプルをマイニングし、続いて擬似csIDデータのエントロピー最小化と擬似csOODデータのエントロピー最大化を行う。 さらに,サンプルレベルの信頼性を活かしたハードデータ分割によるノイズを軽減するために,UniEnt+を導入する。 CIFARベンチマークとTiny-ImageNet-Cの大規模な実験は、我々のフレームワークの優位性を示している。 コードはhttps://github.com/gaozhengqing/UniEntで入手できる。

Test-time adaptation (TTA) aims at adapting a model pre-trained on the labeled source domain to the unlabeled target domain. Existing methods usually focus on improving TTA performance under covariate shifts, while neglecting semantic shifts. In this paper, we delve into a realistic open-set TTA setting where the target domain may contain samples from unknown classes. Many state-of-the-art closed-set TTA methods perform poorly when applied to open-set scenarios, which can be attributed to the inaccurate estimation of data distribution and model confidence. To address these issues, we propose a simple but effective framework called unified entropy optimization (UniEnt), which is capable of simultaneously adapting to covariate-shifted in-distribution (csID) data and detecting covariate-shifted out-of-distribution (csOOD) data. Specifically, UniEnt first mines pseudo-csID and pseudo-csOOD samples from test data, followed by entropy minimization on the pseudo-csID data and entropy maximization on the pseudo-csOOD data. Furthermore, we introduce UniEnt+ to alleviate the noise caused by hard data partition leveraging sample-level confidence. Extensive experiments on CIFAR benchmarks and Tiny-ImageNet-C show the superiority of our framework. The code is available at https://github.com/gaozhengqing/UniEnt
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# LIPT:遅延対応画像処理変換器

LIPT: Latency-aware Image Processing Transformer ( http://arxiv.org/abs/2404.06075v1 )

ライセンス: Link先を確認
Junbo Qiao, Wei Li, Haizhen Xie, Hanting Chen, Yunshuai Zhou, Zhijun Tu, Jie Hu, Shaohui Lin, (参考訳) Transformerは画像処理の分野でトレンドをリードしている。 既存の軽量画像処理変換器が達成した大きな成功にもかかわらず、実際の推論アクセラレーションよりもFLOPやパラメータ削減に最適化されている。 本稿では、LIPTと呼ばれる遅延対応画像処理変換器を提案する。 我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。 具体的には,非揮発性スパースマスキング・セルフアテンション (NVSM-SA) を提案する。 さらに、LIPTブロック再パラメータ化を快適にするために、高周波数再パラメータ化モジュール(HRM)を提案する。 複数の画像処理タスク(例えば、画像スーパーレゾリューション(SR)、JPEGアーティファクトリダクション、画像デノイング)に対する大規模な実験は、遅延とPSNRの両方においてLIPTの優位性を示す。 LIPTは、複数の画像SRベンチマークで最先端のパフォーマンスでリアルタイムGPU推論を実現する。

Transformer is leading a trend in the field of image processing. Despite the great success that existing lightweight image processing transformers have achieved, they are tailored to FLOPs or parameters reduction, rather than practical inference acceleration. In this paper, we present a latency-aware image processing transformer, termed LIPT. We devise the low-latency proportion LIPT block that substitutes memory-intensive operators with the combination of self-attention and convolutions to achieve practical speedup. Specifically, we propose a novel non-volatile sparse masking self-attention (NVSM-SA) that utilizes a pre-computing sparse mask to capture contextual information from a larger window with no extra computation overload. Besides, a high-frequency reparameterization module (HRM) is proposed to make LIPT block reparameterization friendly, which improves the model's detail reconstruction capability. Extensive experiments on multiple image processing tasks (e.g., image super-resolution (SR), JPEG artifact reduction, and image denoising) demonstrate the superiority of LIPT on both latency and PSNR. LIPT achieves real-time GPU inference with state-of-the-art performance on multiple image SR benchmarks.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# あなたのAIは本当にあなたのものだか? 著作権、保証、行程のためのブロックチェーンを活用する

Is Your AI Truly Yours? Leveraging Blockchain for Copyrights, Provenance, and Lineage ( http://arxiv.org/abs/2404.06077v1 )

ライセンス: Link先を確認
Yilin Sai, Qin Wang, Guangsheng Yu, H. M. N. Dilum Bandara, Shiping Chen, (参考訳) 人工知能(AI)は、特にコンテンツ生成において様々な分野に統合されるため、正当な所有権と倫理的利用が最重要となる。 AIサービスプロバイダは、責任を持ってトレーニングデータをソーシングし、データ所有者からライセンスを取得することを優先される。 しかし、既存の研究は主に静的著作権の保護に重点を置いており、これはメタデータ/データセットを転送可能/トレーディング機能付きで、継続する軌道を形作る訓練手順の動的な性質を無視している。 本稿では,AIモデルのトレーニングワークフローに適したブロックチェーンベースのフレームワークである‘textsc{IBis}を提示する。 \textsc{IBis}は、データセット、ライセンス、モデルのオンチェーンレジストリと、オフチェーン署名サービスを統合して、複数の参加者間のコラボレーションを容易にする。 我々のフレームワークは、データとモデル証明と著作権の遵守に関する懸念に対処する。 \textsc{IBis}は反復モデルの再トレーニングと微調整を可能にし、フレキシブルなライセンスチェックと更新を提供する。 さらに、‘textsc{IBis} は既存の契約管理ソフトウェアとのシームレスな統合のために設計されたAPIを提供する。 Canton ブロックチェーン上で Daml を用いて \textsc{IBis} を実装した。 評価結果は,ユーザ,データセット,モデル,ライセンスの数に応じて,‘textsc{IBis}’の実現可能性とスケーラビリティを示す。

As Artificial Intelligence (AI) integrates into diverse areas, particularly in content generation, ensuring rightful ownership and ethical use becomes paramount. AI service providers are expected to prioritize responsibly sourcing training data and obtaining licenses from data owners. However, existing studies primarily center on safeguarding static copyrights, which simply treats metadata/datasets as non-fungible items with transferable/trading capabilities, neglecting the dynamic nature of training procedures that can shape an ongoing trajectory. In this paper, we present \textsc{IBis}, a blockchain-based framework tailored for AI model training workflows. \textsc{IBis} integrates on-chain registries for datasets, licenses and models, alongside off-chain signing services to facilitate collaboration among multiple participants. Our framework addresses concerns regarding data and model provenance and copyright compliance. \textsc{IBis} enables iterative model retraining and fine-tuning, and offers flexible license checks and renewals. Further, \textsc{IBis} provides APIs designed for seamless integration with existing contract management software, minimizing disruptions to established model training processes. We implement \textsc{IBis} using Daml on the Canton blockchain. Evaluation results showcase the feasibility and scalability of \textsc{IBis} across varying numbers of users, datasets, models, and licenses.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# 離散音声単位チャレンジを用いた2024音声間処理のX-LANCE技術報告

The X-LANCE Technical Report for Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge ( http://arxiv.org/abs/2404.06079v1 )

ライセンス: Link先を確認
Yiwei Guo, Chenrun Wang, Yifan Yang, Hankun Wang, Ziyang Ma, Chenpeng Du, Shuai Wang, Hanzheng Li, Shuai Fan, Hui Zhang, Xie Chen, Kai Yu, (参考訳) 離散音声トークンは、自動音声認識(ASR)、テキスト音声合成(TTS)、歌声合成(SVS)など、複数の音声処理分野でますます普及している。 本稿では,TS (音響+ボコーダ) , SVS, ASR トラックのための SJTU X-LANCE グループが開発したシステムについて述べる。 特に、トレーニングセット全体と1時間トレーニングデータの両方で、TTSトラックのリーダーボードで1位を獲得しました。

Discrete speech tokens have been more and more popular in multiple speech processing fields, including automatic speech recognition (ASR), text-to-speech (TTS) and singing voice synthesis (SVS). In this paper, we describe the systems developed by the SJTU X-LANCE group for the TTS (acoustic + vocoder), SVS, and ASR tracks in the Interspeech 2024 Speech Processing Using Discrete Speech Unit Challenge. Notably, we achieved 1st rank on the leaderboard in the TTS track both with the whole training set and only 1h training data, along with the lowest bitrate among all submissions.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# 肺転移をともなう原発性肺癌と悪性腫瘍の鑑別にFew-Shot Learningを応用した気管支内超音波による細胞像診断

Using Few-Shot Learning to Classify Primary Lung Cancer and Other Malignancy with Lung Metastasis in Cytological Imaging via Endobronchial Ultrasound Procedures ( http://arxiv.org/abs/2404.06080v1 )

ライセンス: Link先を確認
Ching-Kai Lin, Di-Chun Wei, Yun-Chien Cheng, (参考訳) 本研究の目的は, 子宮内膜超音波(EBUS)手術のためのコンピュータ支援診断システムを構築し, 転移性癌の術前診断を支援することである。 これは、EBUS手術後の他の転移性癌の部位の即時検査をアレンジし、報告を待つ必要をなくし、待機時間を半分以上短縮し、患者が他のがんを早期に検出できるようにし、早期の計画と治療計画の実施を可能にする。 トレーニング用データセットが豊富である従来の細胞画像分類法とは異なり, 本研究は肺転移癌の症例データが少ないにもかかわらず, 効果的な分類が可能でなければならない。 小規模なデータセット分類手法の分野では、近年FSL(Few-shot Learning)が主流となっている。 小データセットのトレーニングと強力な一般化能力を通じて、FSLは肺転移細胞画像分類のこの課題における可能性を示す。 本研究は、Few-shot Learningのアプローチを採用し、既存のモデルを参照し、肺転移細胞画像の分類のためのモデルアーキテクチャを設計する。 バッチスペクトル正規化(BSR)は損失更新パラメータとして組み込まれ,PMFのファインチューン法が修正される。 試験結果では、BSRと修正されたファインチューン法がさらに精度を8.89%から65.60%向上させ、他のFSL法よりも優れていた。 本研究は, 転移性腫瘍の分類において, FSL が教師および転写学習より優れていることを確認し, BSR を損失関数として使用し, ファネチューンを修飾することにより, モデルの能力を向上できることを示した。

This study aims to establish a computer-aided diagnosis system for endobronchial ultrasound (EBUS) surgery to assist physicians in the preliminary diagnosis of metastatic cancer. This involves arranging immediate examinations for other sites of metastatic cancer after EBUS surgery, eliminating the need to wait for reports, thereby shortening the waiting time by more than half and enabling patients to detect other cancers earlier, allowing for early planning and implementation of treatment plans. Unlike previous studies on cell image classification, which have abundant datasets for training, this study must also be able to make effective classifications despite the limited amount of case data for lung metastatic cancer. In the realm of small data set classification methods, Few-shot learning (FSL) has become mainstream in recent years. Through its ability to train on small datasets and its strong generalization capabilities, FSL shows potential in this task of lung metastatic cell image classification. This study will adopt the approach of Few-shot learning, referencing existing proposed models, and designing a model architecture for classifying lung metastases cell images. Batch Spectral Regularization (BSR) will be incorporated as a loss update parameter, and the Finetune method of PMF will be modified. In terms of test results, the addition of BSR and the modified Finetune method further increases the accuracy by 8.89% to 65.60%, outperforming other FSL methods. This study confirms that FSL is superior to supervised and transfer learning in classifying metastatic cancer and demonstrates that using BSR as a loss function and modifying Finetune can enhance the model's capabilities.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# 長期LLMを考慮したソースコード探索のためのRAG法

A RAG Method for Source Code Inquiry Tailored to Long-Context LLMs ( http://arxiv.org/abs/2404.06082v1 )

ライセンス: Link先を確認
Toshihiro Kamiya, (参考訳) 大規模言語モデル(LLM)のコンテキスト長制限は緩和されているが、ソフトウェア開発タスクへの適用を妨げている。 本研究では,ソースコードに関する質問に対して,実行トレースをRAGに組み込む手法を提案する。 小型実験により, LLM応答品質の向上に寄与する傾向が確認された。

Although the context length limitation of large language models (LLMs) has been mitigated, it still hinders their application to software development tasks. This study proposes a method incorporating execution traces into RAG for inquiries about source code. Small-scale experiments confirm a tendency for the method to contribute to improving LLM response quality.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# QAOAにおけるオーバーラップギャップ特性制限リミットスワップ

The Overlap Gap Property limits limit swapping in QAOA ( http://arxiv.org/abs/2404.06087v1 )

ライセンス: Link先を確認
Mark Xin Hong Goh, (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、組合せ最適化問題のために設計された量子アルゴリズムである。 我々は、Max-$q$-XORSAT の解空間におけるオーバーラップギャップ特性 (OGP) が単調増加関数であるという仮定の下で、QAOA における極限の交換は、OGP によって制限される準最適結果をもたらすことを示す。 さらに,純$q$-spinモデルに対するQAOAの性能は,大容量正規ハイパーグラフ上でのMax-q$-XORSATと漸近的に一致するため,QAOAが純$q$-spinモデルに対して得られる平均ケース値は,アルゴリズムが無期限に実行しても最適性から外れていることを示す。 このことは、QAOAにおける極限スワップの有効性に対する必要条件は、与えられた組合せ最適化問題における OGP の欠如であることを示している。 これは、OGPを示すハミルトニアンのスペクトルギャップが熱力学の極限で閉じ、量子断熱定理の極限とQAOAパラメータの効率的な最適化をもたらすというものである。 さらに, スピンガラス上でのQAOAの性能は, スピンガラスの平均解法におけるモンタ成の古典的アルゴリズムと同等であることが示唆された。

The Quantum Approximate Optimization Algorithm (QAOA) is a quantum algorithm designed for combinatorial optimization problem. We show that under the assumption that the Overlap Gap Property (OGP) in the solution space for the Max-$q$-XORSAT is a monotonic increasing function, the swapping of limits in QAOA leads to suboptimal results limited by the OGP. Furthermore, since the performance of QAOA for the pure $q$-spin model matches asymptotically for Max-$q$-XORSAT on large-girth regular hypergraph, we show that the average-case value obtained by QAOA for the pure $q$-spin model for even $q\ge 4$ is bounded away from optimality even when the algorithm runs indefinitely. This suggests that a necessary condition for the validity of limit swapping in QAOA is the absence of OGP in a given combinatorial optimization problem. A corollary of this is that the spectral gap of a Hamiltonian exhibiting the OGP will close in the thermodynamic limit resulting in a limitation of the quantum adiabatic theorem and efficient optimization of QAOA parameters. Furthermore, the results suggests that even when sub-optimised, the performance of QAOA on spin glass is equal in performance to Montanari's classical algorithm in solving the mean field spin glass problem, the best known classical algorithm.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# コントラスト正規化を改良した公正グラフニューラルネットワーク

Fair Graph Neural Network with Supervised Contrastive Regularization ( http://arxiv.org/abs/2404.06090v1 )

ライセンス: Link先を確認
Mahdi Tavassoli Kejani, Fadi Dornaika, Jean-Michel Loubes, (参考訳) 近年、グラフニューラルネットワーク(GNN)は、特にノード分類、リンク予測、グラフ表現といったタスクにおいて大きな進歩を遂げている。 しかし、課題は、ノード属性だけでなく、エンティティ間の接続にも隠されるバイアスから生じます。 したがって、グラフニューラルネットワーク学習における公平性の確保は重要な問題となっている。 この問題に対処するため、我々は、CAF(Counterfactual Augmented Fair Graph Neural Network Framework)を強化したフェアネス対応GNNのトレーニングモデルを提案する。 提案手法は, コントラスト損失と環境損失を統合し, 精度と公正性を両立させる。 3つの実データセットに対する実験的な検証は、提案したモデルがCAFや他の既存のグラフベースの学習手法よりも優れていることを示す。

In recent years, Graph Neural Networks (GNNs) have made significant advancements, particularly in tasks such as node classification, link prediction, and graph representation. However, challenges arise from biases that can be hidden not only in the node attributes but also in the connections between entities. Therefore, ensuring fairness in graph neural network learning has become a critical problem. To address this issue, we propose a novel model for training fairness-aware GNN, which enhances the Counterfactual Augmented Fair Graph Neural Network Framework (CAF). Our approach integrates Supervised Contrastive Loss and Environmental Loss to enhance both accuracy and fairness. Experimental validation on three real datasets demonstrates the superiority of our proposed model over CAF and several other existing graph-based learning methods.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# Hash3D:3Dジェネレーションのためのトレーニング不要加速

Hash3D: Training-free Acceleration for 3D Generation ( http://arxiv.org/abs/2404.06091v1 )

ライセンス: Link先を確認
Xingyi Yang, Xinchao Wang, (参考訳) 3次元生成モデリングの進化は、2次元拡散モデルの導入によって顕著に促進されている。 この進歩にもかかわらず、各々の面倒な最適化プロセスは、効率性に重大なハードルをもたらす。 本稿では,モデル学習を伴わない3次元生成のための普遍的加速度であるHash3Dを紹介する。 Hash3Dの中心は、カメラの位置と近接した拡散時間から得られる画像において、特徴マップの冗長性が一般的である、という洞察である。 Hash3Dは、これらの特徴マップを近隣の時間ステップとカメラアングルで効果的にハッシュ・再利用することにより、冗長な計算を実質的に防止し、3D生成タスクにおける拡散モデルの推論を加速させる。 適応的なグリッドベースのハッシュによってこれを実現します。 驚くべきことに、この機能共有機構は生成をスピードアップするだけでなく、合成された3Dオブジェクトの滑らかさとビューの一貫性を高める。 5つのテキスト・ツー・3Dモデルと3つの画像・ツー・3Dモデルを対象として,Hash3Dの最適化を高速化し,効率を1.3倍から4倍に向上させる汎用性を実証した。 さらに、Hash3Dは3Dガウス版と統合され、3Dモデル作成が高速化され、テキストから3Dまでの処理は約10分、画像から3Dへの変換は約30秒に短縮された。 プロジェクトページはhttps://adamdad.github.io/hash3D/にある。

The evolution of 3D generative modeling has been notably propelled by the adoption of 2D diffusion models. Despite this progress, the cumbersome optimization process per se presents a critical hurdle to efficiency. In this paper, we introduce Hash3D, a universal acceleration for 3D generation without model training. Central to Hash3D is the insight that feature-map redundancy is prevalent in images rendered from camera positions and diffusion time-steps in close proximity. By effectively hashing and reusing these feature maps across neighboring timesteps and camera angles, Hash3D substantially prevents redundant calculations, thus accelerating the diffusion model's inference in 3D generation tasks. We achieve this through an adaptive grid-based hashing. Surprisingly, this feature-sharing mechanism not only speed up the generation but also enhances the smoothness and view consistency of the synthesized 3D objects. Our experiments covering 5 text-to-3D and 3 image-to-3D models, demonstrate Hash3D's versatility to speed up optimization, enhancing efficiency by 1.3 to 4 times. Additionally, Hash3D's integration with 3D Gaussian splatting largely speeds up 3D model creation, reducing text-to-3D processing to about 10 minutes and image-to-3D conversion to roughly 30 seconds. The project page is at https://adamdad.github.io/hash3D/.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# リーブ・ライニガーガスの熱力学特性の解析

Analytic thermodynamic properties of the Lieb-Liniger gas ( http://arxiv.org/abs/2404.06092v1 )

ライセンス: Link先を確認
M. L. Kerr, G. De Rosi, K. V. Kheruntsyan, (参考訳) 本稿では, 1次元(1D)ボース気体のリーブ・ライニッガー模型の有限温度熱力学量と接触反発相互作用について概説する。 この量子多体理論のパラダイムモデルは、その積分性と、準1次元幾何学に制限された超低温のボゾン原子のアンサンブルを用いた実験的実現により、物理学の多くの領域において重要な役割を果たす。 均一なリーブ・ライニガー気体の熱力学は、1969年にヤンとヤンによって初めて導かれた正確な熱的Bethe ansatz (TBA)法を用いて数値的に得ることができる。 しかし、TBAの数値計算では、リーブ・ライニガー気体の熱力学挙動を有限温度で制御する基礎となる物理機構の深い理解ができない。 この研究は, 閉形式解析結果の透明性から自然に生じる知見によって動機付けられ, ガスの6つの異なる状態から導出され, TBA数値と良好な一致を示す。 本研究は, 局所密度近似における非均一(eg, 調和捕捉)1次元ボースガスの平衡特性を解析し, 基礎となる熱力学方程式に依存する呼吸モード周波数の計算を可能にした。 我々の分析手法は、量子浴、液体ヘリウム-4、超低温ボースガス混合系の不純物を含む他のシステムにも適用できる。

We present a comprehensive review on the state-of-the-art of the approximate analytic approaches describing the finite-temperature thermodynamic quantities of the Lieb-Liniger model of the one-dimensional (1D) Bose gas with contact repulsive interactions. This paradigmatic model of quantum many-body-theory plays an important role in many areas of physics -- thanks to its integrability and possible experimental realization using, e.g., ensembles of ultracold bosonic atoms confined to quasi-1D geometries. The thermodynamics of the uniform Lieb-Liniger gas can be obtained numerically using the exact thermal Bethe ansatz (TBA) method, first derived in 1969 by Yang and Yang. However, the TBA numerical calculations do not allow for the in-depth understanding of the underlying physical mechanisms that govern the thermodynamic behavior of the Lieb-Liniger gas at finite temperature. Our work is then motivated by the insights that emerge naturally from the transparency of closed-form analytic results, which are derived here in six different regimes of the gas and which exhibit an excellent agreement with the TBA numerics. Our findings can be further adopted for characterising the equilibrium properties of inhomogeneous (e.g., harmonically trapped) 1D Bose gases within the local density approximation and for the development of improved hydrodynamic theories, allowing for the calculation of breathing mode frequencies which depend on the underlying thermodynamic equation of state. Our analytic approaches can be applied to other systems including impurities in a quantum bath, liquid helium-4, and ultracold Bose gas mixtures.
翻訳日:2024-04-10 15:39:15 公開日:2024-04-09
# NIST軽量暗号候補のSボックスセキュリティ解析 : 批判的実証研究

S-box Security Analysis of NIST Lightweight Cryptography Candidates: A Critical Empirical Study ( http://arxiv.org/abs/2404.06094v1 )

ライセンス: Link先を確認
Mahnoor Naseer, Sundas Tariq, Naveed Riaz, Naveed Ahmed, Mureed Hussain, (参考訳) デジタルランドスケープの資源制約のある世界では、軽量暗号は情報保護と様々なシステム、デバイス、通信チャネルのセキュリティ確保において重要な役割を果たす。 その効率的でリソースに優しい性質は、計算能力に制限があるアプリケーションにとって理想的なソリューションである。 プラットフォーム固有の実装の必要性が高まっているため、2018年にNISTは軽量暗号アルゴリズムの標準化を要求した。 アスコンはこの競技の勝者として登場した。 NISTは当初、セキュリティ強化、サイドチャネルおよびフォールトインジェクション攻撃に対する緩和、実装効率など、標準的な軽量スキームの一般的な評価基準を確立した。 セキュリティクレームを検証するためには、暗号化アルゴリズムで使用される個々のコンポーネントを評価することが重要なステップである。 置換箱(Sボックス)の品質は、暗号プリミティブの全体的なセキュリティに大きな影響を及ぼす。 本稿では,NISTライトウェイト暗号(LWC)標準化プロセスにおける6つのファイナリストのSボックスを解析する。 確立された暗号特性に基づいて評価する。 我々の分析では、これらの特性が既知の暗号解析攻撃や実装固有の脆弱性に対するSボックスの抵抗にどのように影響するかを考察し、NISTのセキュリティ要件への準拠を反映している。

In the resource-constrained world of the digital landscape, lightweight cryptography plays a critical role in safeguarding information and ensuring the security of various systems, devices, and communication channels. Its efficient and resource-friendly nature makes it the ideal solution for applications where computational power is limited. In response to the growing need for platform-specific implementations, NIST issued a call for standardization of Lightweight cryptography algorithms in 2018. Ascon emerged as the winner of this competition. NIST initially established general evaluation criteria for a standard lightweight scheme including security strength, mitigation against side-channel and fault-injection attacks, and implementation efficiency. To verify the security claims, evaluating the individual components used in any cryptographic algorithm is a crucial step. The quality of a substitution box (S-box) significantly impacts the overall security of a cryptographic primitive. This paper analyzes the S-boxes of six finalists in the NIST Lightweight Cryptography (LWC) standardization process. We evaluate them based on well-established cryptographic properties. Our analysis explores how these properties influence the S-boxes' resistance against known cryptanalytic attacks and potential implementation-specific vulnerabilities, thus reflecting on their compliance with NIST's security requirements.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# 利用可能な光学式文字認識エンジンの強化による旧クルド語出版のプロセス化

Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines ( http://arxiv.org/abs/2404.06101v1 )

ライセンス: Link先を確認
Blnd Yaseen, Hossein Hassani, (参考訳) クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。 これらの出版物を処理し、クルド語として重要なクルド語資源に貢献するための優れた光学文字認識(OCR)は、低リソース言語と見なされている。 現在のOCRシステムは、多くの問題があり、損傷があり、非常に脆弱で、多くのマークが残っていて、しばしば標準でないフォントで書かれるなど、歴史的文書からテキストを抽出することができない。 これは、現在処理しているドキュメントは、非常に時間がかかる手動のタイピングを必要とするため、これらのドキュメントを処理する大きな障害である。 本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。 現在、パブリックデータセットは存在せず、1950年以前に印刷されたZheen Center for Documentation and Researchから史料を収集し、それぞれが転写された1233の行のデータセットを作成した。 次に、アラビアモデルをベースモデルとして使用し、データセットを使用してモデルをトレーニングしました。 テッセラクトを内蔵した評価器lstmevalでは文字誤り率(CER)が0.755%であった。 さらに、Ocrevalは平均的な文字精度84.02%を示した。 最後に、エンドユーザー向けの使いやすいインターフェースを提供するWebアプリケーションを開発し、ページのイメージを入力してテキストを抽出することでモデルと対話できるようにした。 大規模なデータセットを持つことは、OCRシステムを合理的な精度で開発する上で極めて重要であり、現在、クルド人の歴史的文書には公開データセットが利用できない。 さらに、文字と単語の間の不整合空間は、我々の研究で別の課題を証明した。

Kurdish libraries have many historical publications that were printed back in the early days when printing devices were brought to Kurdistan. Having a good Optical Character Recognition (OCR) to help process these publications and contribute to the Kurdish languages resources which is crucial as Kurdish is considered a low-resource language. Current OCR systems are unable to extract text from historical documents as they have many issues, including being damaged, very fragile, having many marks left on them, and often written in non-standard fonts and more. This is a massive obstacle in processing these documents as currently processing them requires manual typing which is very time-consuming. In this study, we adopt an open-source OCR framework by Google, Tesseract version 5.0, that has been used to extract text for various languages. Currently, there is no public dataset, and we developed our own by collecting historical documents from Zheen Center for Documentation and Research, which were printed before 1950 and resulted in a dataset of 1233 images of lines with transcription of each. Then we used the Arabic model as our base model and trained the model using the dataset. We used different methods to evaluate our model, Tesseracts built-in evaluator lstmeval indicated a Character Error Rate (CER) of 0.755%. Additionally, Ocreval demonstrated an average character accuracy of 84.02%. Finally, we developed a web application to provide an easy- to-use interface for end-users, allowing them to interact with the model by inputting an image of a page and extracting the text. Having an extensive dataset is crucial to develop OCR systems with reasonable accuracy, as currently, no public datasets are available for historical Kurdish documents; this posed a significant challenge in our work. Additionally, the unaligned spaces between characters and words proved another challenge with our work.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# ディープニューラルネットワークに対する特異リーマン幾何学的アプローチIII.$n$次元のクラス上での微分可能な層とランダムウォーク

A singular Riemannian Geometry Approach to Deep Neural Networks III. Piecewise Differentiable Layers and Random Walks on $n$-dimensional Classes ( http://arxiv.org/abs/2404.06104v1 )

ライセンス: Link先を確認
Alessandro Benfenati, Alessio Marta, (参考訳) ニューラルネットワークは日常生活において重要な役割を演じており、最も現代的な生成モデルは印象的な結果を得ることができる。 それでも、それらの機能はあまり明確ではなく、これらのモデルが出力に達する方法と理由を研究するためにいくつかの戦略が採用されている。 近年では、このパラダイムから、より一般的なフレームワーク、すなわちリーマン幾何学へと移行している。 最近の2つの研究は、特異リーマン計量を用いてニューラルネットワークを研究する幾何学的枠組みを導入した。 本稿では、これらの結果を畳み込み、残留、再帰的なニューラルネットワークに拡張し、ReLUのような非微分可能活性化関数についても検討する。 本稿では,画像の分類と熱力学問題に関する数値実験を行った。

Neural networks are playing a crucial role in everyday life, with the most modern generative models able to achieve impressive results. Nonetheless, their functioning is still not very clear, and several strategies have been adopted to study how and why these model reach their outputs. A common approach is to consider the data in an Euclidean settings: recent years has witnessed instead a shift from this paradigm, moving thus to more general framework, namely Riemannian Geometry. Two recent works introduced a geometric framework to study neural networks making use of singular Riemannian metrics. In this paper we extend these results to convolutional, residual and recursive neural networks, studying also the case of non-differentiable activation functions, such as ReLU. We illustrate our findings with some numerical experiments on classification of images and thermodynamic problems.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# 深い線形非拘束特徴モデルによるディープラーニングにおける低次元観測の統一

Unifying Low Dimensional Observations in Deep Learning Through the Deep Linear Unconstrained Feature Model ( http://arxiv.org/abs/2404.06106v1 )

ライセンス: Link先を確認
Connall Garrod, Jonathan P. Keating, (参考訳) 現代のディープニューラルネットワークは、様々なタスクで高いパフォーマンスを実現している。 近年、研究者らは、重み、ヘッセン、勾配、特徴ベクトルにおける低次元構造が、収束の訓練の際に異なるデータセットやアーキテクチャにまたがって発生することを報告している。 本研究では,これらの観測を理論的に実証し,解析的に考慮できる一般化された非制約特徴モデル内でどのように統合できるかを示す。 具体的には,ニューラルネットワークがグローバルオプティマに近づくと,その多層構造であるDeep Neural Collapseについて検討する。 この現象は、ヘッセンスペクトルに見られるバルク構造や外層構造、およびヘッセンスペクトルの外層固有空間との勾配降下のアライメントなど、層レベルで観察された他の低次元の挙動を説明する。 深部線形非拘束特徴モデルと非線形同値モデルの両方がこれらの予測された観測を支持した経験的結果である。

Modern deep neural networks have achieved high performance across various tasks. Recently, researchers have noted occurrences of low-dimensional structure in the weights, Hessian's, gradients, and feature vectors of these networks, spanning different datasets and architectures when trained to convergence. In this analysis, we theoretically demonstrate these observations arising, and show how they can be unified within a generalized unconstrained feature model that can be considered analytically. Specifically, we consider a previously described structure called Neural Collapse, and its multi-layer counterpart, Deep Neural Collapse, which emerges when the network approaches global optima. This phenomenon explains the other observed low-dimensional behaviours on a layer-wise level, such as the bulk and outlier structure seen in Hessian spectra, and the alignment of gradient descent with the outlier eigenspace of the Hessian. Empirical results in both the deep linear unconstrained feature model and its non-linear equivalent support these predicted observations.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# 認証データセットを用いたマルチモーダル機械翻訳における視覚的モダリティの必要性の探索

Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets ( http://arxiv.org/abs/2404.06107v1 )

ライセンス: Link先を確認
Zi Long, Zhenhao Tang, Xianghua Fu, Jian Chen, Shilong Hou, Jinze Lyu, (参考訳) マルチモーダル機械翻訳(MMT)の分野における最近の研究は、視覚的モダリティが許容可能であるか、限界的な優位性しか提供していないことを示唆している。 しかし、これらの結論のほとんどは、Multi30kのようなバイリンガルな文-画像対の限られたセットに基づく実験結果の分析から導かれる。 このようなデータセットでは、1つのバイリンガル並列文ペアの内容は、実際の翻訳シナリオとは異なる手動の注釈付き画像で表現されなければならない。 本研究では,Tang et al (2022) が提唱した普遍的マルチモーダル機械翻訳の枠組みに固執する。 このアプローチにより,実世界の翻訳データセットを活用することで,視覚的モダリティが翻訳効率に与える影響を探索することができる。 探索タスクによる包括的探索により、視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。 特に、翻訳性能は、主にテキストコンテンツと視覚コンテンツ間のアライメントとコヒーレンスに依存している。 さらに, 視覚情報は多モーダル翻訳における補助的役割を担い, 代用できる可能性が示唆された。

Recent research in the field of multimodal machine translation (MMT) has indicated that the visual modality is either dispensable or offers only marginal advantages. However, most of these conclusions are drawn from the analysis of experimental results based on a limited set of bilingual sentence-image pairs, such as Multi30k. In these kinds of datasets, the content of one bilingual parallel sentence pair must be well represented by a manually annotated image, which is different from the real-world translation scenario. In this work, we adhere to the universal multimodal machine translation framework proposed by Tang et al. (2022). This approach allows us to delve into the impact of the visual modality on translation efficacy by leveraging real-world translation datasets. Through a comprehensive exploration via probing tasks, we find that the visual modality proves advantageous for the majority of authentic translation datasets. Notably, the translation performance primarily hinges on the alignment and coherence between textual and visual contents. Furthermore, our results suggest that visual information serves a supplementary role in multimodal translation and can be substituted.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# 量子ニューラルネットワークの対称性誘導勾配勾配勾配

Symmetry-guided gradient descent for quantum neural networks ( http://arxiv.org/abs/2404.06108v1 )

ライセンス: Link先を確認
Kaiming Bian, Shitao Zhang, Fei Meng, Wen Zhang, Oscar Dahlsten, (参考訳) 多くの教師付き学習タスクは、画像分類における翻訳対称性や回転対称性のような固有の対称性を持っている。 これらの対称性は性能を高めるために利用することができる。 対称性の制約を簡潔な数学的形式に定式化する。 コスト関数に制約を適用する2つの方法を設計し、それによって、与えられた対称性を尊重するパラメータ選択を優先してコストランドスケープを形成する。 ニューラルネットワークのアンサッツを対称性を付与するために変更する手法とは異なり、我々の手法は勾配降下の古典的な後処理だけを変化させるが、実装は簡単である。 対称誘導勾配降下法(SGGD)と呼ぶ。 本稿では、ワーナー状態の絡み合い分類におけるSGGDと、2次元特徴空間における二項分類タスクについて説明する。 いずれの場合も、SGGDはトレーニングを加速し、一般化能力を改善し、特にトレーニングデータに偏った場合、消滅する勾配を取り除くことができる。

Many supervised learning tasks have intrinsic symmetries, such as translational and rotational symmetry in image classifications. These symmetries can be exploited to enhance performance. We formulate the symmetry constraints into a concise mathematical form. We design two ways to adopt the constraints into the cost function, thereby shaping the cost landscape in favour of parameter choices which respect the given symmetry. Unlike methods that alter the neural network circuit ansatz to impose symmetry, our method only changes the classical post-processing of gradient descent, which is simpler to implement. We call the method symmetry-guided gradient descent (SGGD). We illustrate SGGD in entanglement classification of Werner states and in a binary classification task in a 2-D feature space. In both cases, the results show that SGGD can accelerate the training, improve the generalization ability, and remove vanishing gradients, especially when the training data is biased.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# ガウススメッティングにおけるデンシフィケーションの改訂

Revising Densification in Gaussian Splatting ( http://arxiv.org/abs/2404.06109v1 )

ライセンス: Link先を確認
Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, (参考訳) 本稿では,3次元ガウススティング(3DGS)における適応密度制御(ADC)の限界に対処する。 ADCは、デンシフィケーションとプルーニングを制御する自動3Dポイントプリミティブ管理のために導入されたが、デンシフィケーションロジックには一定の制限がある。 我々の主な貢献は、3DGSにおける密度制御のためのより原理化された画素エラー駆動型定式化であり、補助的な画素単位の誤差関数をデンシフィケーションの基準として活用する。 さらに、シーン毎に生成されたプリミティブの総数を制御する機構を導入し、クローン操作中のADCの現在の不透明処理戦略のバイアスを補正する。 我々のアプローチは、メソッドの効率を犠牲にすることなく、様々なベンチマークシーンで一貫した品質改善をもたらす。

In this paper, we address the limitations of Adaptive Density Control (ADC) in 3D Gaussian Splatting (3DGS), a scene representation method achieving high-quality, photorealistic results for novel view synthesis. ADC has been introduced for automatic 3D point primitive management, controlling densification and pruning, however, with certain limitations in the densification logic. Our main contribution is a more principled, pixel-error driven formulation for density control in 3DGS, leveraging an auxiliary, per-pixel error function as the criterion for densification. We further introduce a mechanism to control the total number of primitives generated per scene and correct a bias in the current opacity handling strategy of ADC during cloning operations. Our approach leads to consistent quality improvements across a variety of benchmark scenes, without sacrificing the method's efficiency.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# コミュニケーション効率のよい大規模分散ディープラーニング:包括的調査

Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey ( http://arxiv.org/abs/2404.06114v1 )

ライセンス: Link先を確認
Feng Liang, Zhen Zhang, Haifeng Lu, Victor C. M. Leung, Yanyi Guo, Xiping Hu, (参考訳) ディープラーニング分野におけるデータセット,モデル,デバイス量の急激な増加に伴い,大規模分散ディープラーニングへの注目が高まっている。 従来の分散ディープラーニングとは対照的に、大規模なシナリオでは、フォールトトレランス、アルゴリズムとインフラストラクチャのスケーラビリティ、データセット、モデル、リソースの不均一性など、新たな課題が発生している。 分散トレーニングと推論プロセスの間、モデルの集中的な同期とGPUと計算ノード間のデータの共有により、通信効率は大規模に高性能を実現するボトルネックとなる。 本稿では,アルゴリズム,フレームワーク,インフラストラクチャなど,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する2018-2023年の文献を調査する。 具体的には、大規模分散トレーニングの文脈において、モデル同期と通信データ圧縮のための効率的なアルゴリズムを最初に導入する。 次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。 その後,大規模で異種な環境下での通信オーバーヘッドの影響を検討することを目的とした,分散ディープラーニングに使用される現代的な通信基盤に関する最新の技術を紹介する。 最後に,大規模言語モデルの大規模分散学習について事例研究を行い,これらの技術を実例に適用する方法を説明する。 本稿では,大規模分散深層学習の現在の展望を包括的に理解し,この領域におけるコミュニケーション効率向上に向けた将来的な研究の方向性を明らかにすることを目的とする。

With the rapid growth in the volume of data sets, models, and devices in the domain of deep learning, there is increasing attention on large-scale distributed deep learning. In contrast to traditional distributed deep learning, the large-scale scenario poses new challenges that include fault tolerance, scalability of algorithms and infrastructures, and heterogeneity in data sets, models, and resources. Due to intensive synchronization of models and sharing of data across GPUs and computing nodes during distributed training and inference processes, communication efficiency becomes the bottleneck for achieving high performance at a large scale. This article surveys the literature over the period of 2018-2023 on algorithms and technologies aimed at achieving efficient communication in large-scale distributed deep learning at various levels, including algorithms, frameworks, and infrastructures. Specifically, we first introduce efficient algorithms for model synchronization and communication data compression in the context of large-scale distributed training. Next, we introduce efficient strategies related to resource allocation and task scheduling for use in distributed training and inference. After that, we present the latest technologies pertaining to modern communication infrastructures used in distributed deep learning with a focus on examining the impact of the communication overhead in a large-scale and heterogeneous setting. Finally, we conduct a case study on the distributed training of large language models at a large scale to illustrate how to apply these technologies in real cases. This article aims to offer researchers a comprehensive understanding of the current landscape of large-scale distributed deep learning and to reveal promising future research directions toward communication-efficient solutions in this scope.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# DreamView: ビュー固有のテキストガイダンスをテキストから3D生成に注入する

DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation ( http://arxiv.org/abs/2404.06119v1 )

ライセンス: Link先を確認
Junkai Yan, Yipeng Gao, Qize Yang, Xihan Wei, Xuansong Xie, Ancong Wu, Wei-Shi Zheng, (参考訳) テキスト記述に従って3Dアセットを合成するテキスト・ツー・3D生成は著しく進歩している。 しかし、指定した視点をカスタマイズする必要があるが、3Dオブジェクトを生成するための全体的な記述にのみ言及する場合に、課題が生じる。 例えば、前と後ろに異なるパターンを持つTシャツを1つの全体テキストガイダンスで作成する場合、曖昧さは容易に発生します。 本研究では,協調的なテキスト誘導インジェクションモジュールを通じて,ビュー固有および全体テキストガイダンスを適応的に注入することで,総合的な一貫性を維持しつつ,マルチビューのカスタマイズを可能にするテキスト・ツー・イメージのアプローチであるDreamViewを提案する。 DreamViewは、大規模なレンダリングされたマルチビューイメージと、それに対応するビュー固有のテキストでトレーニングされ、各ビューにおける個別のコンテンツ操作と、全体的なオブジェクトのグローバルな一貫性のバランスをとることができる。 その結果、DreamViewはアーティストに3Dオブジェクトを創造的にデザインする権限を与え、より革新的で多様な3Dアセットの作成を促進する。 コードとモデルはhttps://github.com/iSEE-Laboratory/DreamView.comでリリースされる。

Text-to-3D generation, which synthesizes 3D assets according to an overall text description, has significantly progressed. However, a challenge arises when the specific appearances need customizing at designated viewpoints but referring solely to the overall description for generating 3D objects. For instance, ambiguity easily occurs when producing a T-shirt with distinct patterns on its front and back using a single overall text guidance. In this work, we propose DreamView, a text-to-image approach enabling multi-view customization while maintaining overall consistency by adaptively injecting the view-specific and overall text guidance through a collaborative text guidance injection module, which can also be lifted to 3D generation via score distillation sampling. DreamView is trained with large-scale rendered multi-view images and their corresponding view-specific texts to learn to balance the separate content manipulation in each view and the global consistency of the overall object, resulting in a dual achievement of customization and consistency. Consequently, DreamView empowers artists to design 3D objects creatively, fostering the creation of more innovative and diverse 3D assets. Code and model will be released at https://github.com/iSEE-Laboratory/DreamView.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# 議論要素の支持によるバイオメディカル抽象化における応用分野の検出

Detection of fields of applications in biomedical abstracts with the support of argumentation elements ( http://arxiv.org/abs/2404.06121v1 )

ライセンス: Link先を確認
Mariana Neves, (参考訳) 完全なテキストではなく、特定の事実に焦点を当てることによって、科学文献における特定の情報の検索を改善する可能性がある。 特に、議論的要素は出版物の特定の部分、例えば背景部分や著者の主張に焦点を合わせることができる。 バイオメディシンにおける特定のタスクに対する議論要素の抽出,すなわち,疾患診断や薬物開発の問題に対処するかどうかなど,バイオメディカル・パブリッシングの分野を検出するためのいくつかのツールを評価した。 タスクの特定のコーパスを微調整したPubMedBERT事前学習モデルを用いて実験を行った。 タイトルと抽象語の使用を、いくつかの議論的要素に限定するのと比較した。 トップF1スコアは適用分野によって0.22から0.84まで変化した。 最良の議論ラベルは、抽象の結論と背景部分に関連するものである。

Focusing on particular facts, instead of the complete text, can potentially improve searching for specific information in the scientific literature. In particular, argumentative elements allow focusing on specific parts of a publication, e.g., the background section or the claims from the authors. We evaluated some tools for the extraction of argumentation elements for a specific task in biomedicine, namely, for detecting the fields of the application in a biomedical publication, e.g, whether it addresses the problem of disease diagnosis or drug development. We performed experiments with the PubMedBERT pre-trained model, which was fine-tuned on a specific corpus for the task. We compared the use of title and abstract to restricting to only some argumentative elements. The top F1 scores ranged from 0.22 to 0.84, depending on the field of application. The best argumentative labels were the ones related the conclusion and background sections of an abstract.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# 階層的視点:信頼性の高い3次元セマンティックセグメンテーションのための構造的類似点の爆発的発見

Hierarchical Insights: Exploiting Structural Similarities for Reliable 3D Semantic Segmentation ( http://arxiv.org/abs/2404.06124v1 )

ライセンス: Link先を確認
Mariella Dreissig, Florian Piewak, Joschka Boedecker, (参考訳) 自律運転のような安全クリティカルなアプリケーションは、高度に多様性がありあいまいな環境に耐えられる堅牢な3D環境認識アルゴリズムを求めている。 分類モデルの予測性能は、下層のデータセットと注釈付きラベルによって伝達される事前知識に強く依存する。 ラベルは学習プロセスの基盤を提供するが、通常は、人間の知覚システムの自然な要素であるクラス(表現)の間の固有の関係を表現できない。 本稿では,3次元LiDARセマンティックセマンティックセマンティクスモデルを用いて,抽象を通してクラス間の構造的関係を学習する訓練戦略を提案する。 本研究では,階層型マルチラベル分類(HMC)の学習規則を用いて,これらの関係を暗黙的にモデル化することで実現した。 詳細な分析により、このトレーニング戦略がモデルの信頼性の校正を改善するだけでなく、融合、予測、計画といった下流タスクのための追加情報を保持するかが示される。

Safety-critical applications like autonomous driving call for robust 3D environment perception algorithms which can withstand highly diverse and ambiguous surroundings. The predictive performance of any classification model strongly depends on the underlying dataset and the prior knowledge conveyed by the annotated labels. While the labels provide a basis for the learning process, they usually fail to represent inherent relations between the classes - representations, which are a natural element of the human perception system. We propose a training strategy which enables a 3D LiDAR semantic segmentation model to learn structural relationships between the different classes through abstraction. We achieve this by implicitly modeling those relationships through a learning rule for hierarchical multi-label classification (HMC). With a detailed analysis we show, how this training strategy not only improves the model's confidence calibration, but also preserves additional information for downstream tasks like fusion, prediction and planning.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# バッテリ高速充電のためのベイズ最適化による予測制御パラメータの学習モデル

Learning Model Predictive Control Parameters via Bayesian Optimization for Battery Fast Charging ( http://arxiv.org/abs/2404.06125v1 )

ライセンス: Link先を確認
Sebastian Hirt, Andreas Höhl, Joachim Schaeffer, Johannes Pohlodek, Richard D. Braatz, Rolf Findeisen, (参考訳) モデル予測制御(MPC)のチューニングパラメータは、特に制御器の予測と閉ループプラントの実際の挙動との間に顕著な相違がある場合、重大な課題を示す。 このミスマッチは、実質的なモデル・プラントの違い、関心の時間全体をカバーすることのできない限られた予測地平線、予期せぬシステム障害などの要因に起因している可能性がある。 このようなミスマッチは、制約満足度を含むパフォーマンスと安全性の両方を損なう可能性がある。 従来の手法では、有限地平線コスト関数を修正して全体の運用コストを反映し、データから予測モデルのパーツを学習したり、計算集約的あるいは過度に注意を要するような堅牢なMPC戦略を実装したりすることでこの問題に対処している。 代替として、閉ループ性能を高めるためにコントローラパラメータを直接最適化または学習する手法が提案されている。 本研究では,バッテリ高速充電の閉ループ性能向上を目的とした,未知のモデルパラメータとパラメータ化された制約バックオフ項の効率的な学習にベイズ最適化を適用した。 このアプローチは、MPCが低レベルで短期的な制御タスクを処理するのに対し、ベイズ最適化は、グローバルおよび長期の目的に向けて直接微調整された閉ループの挙動を微調整する階層的な制御フレームワークを確立する。 リチウムイオン電池の高速充電では, 学習手法が安全な操作を保証できるだけでなく, 閉ループ性能を最大化できることを示す。 これには、バッテリーの動作を最大端子電圧以下に維持し、充電時間を短縮することが含まれる。

Tuning parameters in model predictive control (MPC) presents significant challenges, particularly when there is a notable discrepancy between the controller's predictions and the actual behavior of the closed-loop plant. This mismatch may stem from factors like substantial model-plant differences, limited prediction horizons that do not cover the entire time of interest, or unforeseen system disturbances. Such mismatches can jeopardize both performance and safety, including constraint satisfaction. Traditional methods address this issue by modifying the finite horizon cost function to better reflect the overall operational cost, learning parts of the prediction model from data, or implementing robust MPC strategies, which might be either computationally intensive or overly cautious. As an alternative, directly optimizing or learning the controller parameters to enhance closed-loop performance has been proposed. We apply Bayesian optimization for efficient learning of unknown model parameters and parameterized constraint backoff terms, aiming to improve closed-loop performance of battery fast charging. This approach establishes a hierarchical control framework where Bayesian optimization directly fine-tunes closed-loop behavior towards a global and long-term objective, while MPC handles lower-level, short-term control tasks. For lithium-ion battery fast charging, we show that the learning approach not only ensures safe operation but also maximizes closed-loop performance. This includes maintaining the battery's operation below its maximum terminal voltage and reducing charging times, all achieved using a standard nominal MPC model with a short horizon and notable initial model-plant mismatch.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# FLEX:FLEXible Federated Learning Framework

FLEX: FLEXible Federated Learning Framework ( http://arxiv.org/abs/2404.06127v1 )

ライセンス: Link先を確認
Francisco Herrera, Daniel Jiménez-López, Alberto Argente-Garrido, Nuria Rodríguez-Barroso, Cristina Zuheros, Ignacio Aguilera-Martos, Beatriz Bello, Mario García-Márquez, M. Victoria Luzón, (参考訳) 人工知能(AI)の領域では、データ処理におけるプライバシとセキュリティの必要性が最重要になっている。 AIアプリケーションが拡大を続けるにつれて、機密データの収集と処理によって、個人のプライバシー保護に関する懸念が高まる。 Federated Learning(FL)は、ローカルデバイス上で分散モデルトレーニングを可能にし、データのプライバシを保存することによって、これらの課題に対処するための有望なソリューションとして登場した。 本稿ではFLEX(FLEXible Federated Learning Framework)について紹介する。 データ配布、プライバシパラメータ、通信戦略のカスタマイズ可能な機能を提供することで、FLEXは研究者に新しいFLテクニックの革新と開発を許可する。 フレームワークには、(1)異常、(2)ブロックチェーン、(3)敵の攻撃と防御、(4)自然言語処理、(5)決定木など、特定のFL実装のためのライブラリが含まれており、様々なドメインでその汎用性と適用性を高めている。 全体として、FLEXはFL研究の大きな進歩であり、堅牢で効率的なFLアプリケーションの開発を促進する。

In the realm of Artificial Intelligence (AI), the need for privacy and security in data processing has become paramount. As AI applications continue to expand, the collection and handling of sensitive data raise concerns about individual privacy protection. Federated Learning (FL) emerges as a promising solution to address these challenges by enabling decentralized model training on local devices, thus preserving data privacy. This paper introduces FLEX: a FLEXible Federated Learning Framework designed to provide maximum flexibility in FL research experiments. By offering customizable features for data distribution, privacy parameters, and communication strategies, FLEX empowers researchers to innovate and develop novel FL techniques. The framework also includes libraries for specific FL implementations including: (1) anomalies, (2) blockchain, (3) adversarial attacks and defences, (4) natural language processing and (5) decision trees, enhancing its versatility and applicability in various domains. Overall, FLEX represents a significant advancement in FL research, facilitating the development of robust and efficient FL applications.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# ガウスパンケーキ : 実視的内視鏡的再建のための幾何学的3次元ガウススプレイティング

Gaussian Pancakes: Geometrically-Regularized 3D Gaussian Splatting for Realistic Endoscopic Reconstruction ( http://arxiv.org/abs/2404.06128v1 )

ライセンス: Link先を確認
Sierra Bonilla, Shuai Zhang, Dimitrios Psychogyios, Danail Stoyanov, Francisco Vasconcelos, Sophia Bano, (参考訳) 大腸癌の診断では、従来の大腸内視鏡検査では、視野の制限や深度情報の欠如など、重要な限界に直面しており、虫垂病変の検出を阻害する可能性がある。 現在の方法では、大腸表面の包括的かつ正確な3次元再構築が困難であり、欠落した領域を最小化し、先管ポリープの再検査に役立てることができる。 そこで我々は,3次元ガウス分割(3D GS)とリカレントニューラルネットワークを用いた同時局在マッピング(RNNSLAM)システムを組み合わせた「ガウスパンケーキ」を提案する。 3D GSフレームワークに幾何学的, 深さ的規則化を導入することで, ガウスと結腸表面とのより正確なアライメントが確保され, よりスムーズな3D再構成が可能となった。 3つの多様なデータセットで評価したところ、ガウスパンケーキは、PSNRが18%、SSIMが16%向上し、新しいビュー合成品質が向上した。 また、100倍以上の高速レンダリングと10倍以上のトレーニング時間を提供し、リアルタイムアプリケーションに実用的なツールを提供する。 したがって、このことは大腸癌の検出と診断を改善するための臨床翻訳の達成を約束する。

Within colorectal cancer diagnostics, conventional colonoscopy techniques face critical limitations, including a limited field of view and a lack of depth information, which can impede the detection of precancerous lesions. Current methods struggle to provide comprehensive and accurate 3D reconstructions of the colonic surface which can help minimize the missing regions and reinspection for pre-cancerous polyps. Addressing this, we introduce 'Gaussian Pancakes', a method that leverages 3D Gaussian Splatting (3D GS) combined with a Recurrent Neural Network-based Simultaneous Localization and Mapping (RNNSLAM) system. By introducing geometric and depth regularization into the 3D GS framework, our approach ensures more accurate alignment of Gaussians with the colon surface, resulting in smoother 3D reconstructions with novel viewing of detailed textures and structures. Evaluations across three diverse datasets show that Gaussian Pancakes enhances novel view synthesis quality, surpassing current leading methods with a 18% boost in PSNR and a 16% improvement in SSIM. It also delivers over 100X faster rendering and more than 10X shorter training times, making it a practical tool for real-time applications. Hence, this holds promise for achieving clinical translation for better detection and diagnosis of colorectal cancer.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# ロボットの適応的回復行動: 動作木と動作生成器(BTMG)による故障管理

Adaptable Recovery Behaviors in Robotics: A Behavior Trees and Motion Generators(BTMG) Approach for Failure Management ( http://arxiv.org/abs/2404.06129v1 )

ライセンス: Link先を確認
Faseeh Ahmad, Matthias Mayr, Sulthan Suresh-Fazeela, Volker Kreuger, (参考訳) 動的運用環境、特に協調型ロボティクスでは、障害の回避は堅牢で適応可能な回復戦略を必要とする。 従来の自動リカバリ戦略は、事前に定義されたシナリオでは有効だが、オンザフライのタスク管理や期待される障害への適応に必要な柔軟性を欠いていることが多い。 このギャップに対処するため,我々は,リカバリ行動を適応可能なロボット技術としてモデル化し,行動木と運動生成器(BTMG)フレームワークを政策表現に活用する手法を提案する。 このアプローチは、リカバリ行動パラメータを動的に洗練するために強化学習~(RL)を用いることで、人間の介入を最小限に抑えた幅広い障害シナリオに対する調整された応答を可能にする。 我々は,ペグ・イン・ア・ホール作業における一連の段階的なシナリオを通じて方法論を評価し,ロボットの協調作業における作業効率の向上とタスク成功率の向上に対するアプローチの有効性を実証した。 両腕のKUKAロボットを用いてアプローチを検証する。

In dynamic operational environments, particularly in collaborative robotics, the inevitability of failures necessitates robust and adaptable recovery strategies. Traditional automated recovery strategies, while effective for predefined scenarios, often lack the flexibility required for on-the-fly task management and adaptation to expected failures. Addressing this gap, we propose a novel approach that models recovery behaviors as adaptable robotic skills, leveraging the Behavior Trees and Motion Generators~(BTMG) framework for policy representation. This approach distinguishes itself by employing reinforcement learning~(RL) to dynamically refine recovery behavior parameters, enabling a tailored response to a wide array of failure scenarios with minimal human intervention. We assess our methodology through a series of progressively challenging scenarios within a peg-in-a-hole task, demonstrating the approach's effectiveness in enhancing operational efficiency and task success rates in collaborative robotics settings. We validate our approach using a dual-arm KUKA robot.
翻訳日:2024-04-10 15:29:31 公開日:2024-04-09
# マンスフォーマー:画像の劣化と超過に対する混合注意の効率的な変換器

Mansformer: Efficient Transformer of Mixed Attention for Image Deblurring and Beyond ( http://arxiv.org/abs/2404.06135v1 )

ライセンス: Link先を確認
Pin-Hung Kuo, Jinshan Pan, Shao-Yi Chien, Ming-Hsuan Yang, (参考訳) Transformerはここ数年、自然言語処理とハイレベルなビジョンで大きな成功を収めてきた。 しかし、自己注意の複雑さは画像サイズに二次的であるため、高解像度の視覚タスクでは実現不可能である。 本稿では,マルチアテンション,ゲート,多層認識(MLP)を組み合わせた混合注意変換器Mansformerを提案する。 効率を考慮すると、複雑度はすべて線形である4種類の自己注意を設計する。 点積のテンソル形状と次元を精巧に調整することにより、2次複雑性の典型的な自己アテンションを線形複雑性の4つの演算に分割する。 これらの種類の自己注意を適応的にマージするには、Squeeze-and-Excitation Networksのようなアーキテクチャを利用する。 さらに,2段トランスフォーマー設計を1段にマージする。 画像のデブロアリングが主なターゲットであり,定量的および定性的な評価により,この手法は単にデブロアリングよりもむしろ最先端の手法に対して好適に機能することが示された。 ソースコードとトレーニングされたモデルが一般公開される予定だ。

Transformer has made an enormous success in natural language processing and high-level vision over the past few years. However, the complexity of self-attention is quadratic to the image size, which makes it infeasible for high-resolution vision tasks. In this paper, we propose the Mansformer, a Transformer of mixed attention that combines multiple self-attentions, gate, and multi-layer perceptions (MLPs), to explore and employ more possibilities of self-attention. Taking efficiency into account, we design four kinds of self-attention, whose complexities are all linear. By elaborate adjustment of the tensor shapes and dimensions for the dot product, we split the typical self-attention of quadratic complexity into four operations of linear complexity. To adaptively merge these different kinds of self-attention, we take advantage of an architecture similar to Squeeze-and-Excitation Networks. Furthermore, we make it to merge the two-staged Transformer design into one stage by the proposed gated-dconv MLP. Image deblurring is our main target, while extensive quantitative and qualitative evaluations show that this method performs favorably against the state-of-the-art methods far more than simply deblurring. The source codes and trained models will be made available to the public.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection

SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection ( http://arxiv.org/abs/2404.06137v1 )

ライセンス: Link先を確認
Elisei Rykov, Yana Shishkina, Kseniia Petrushina, Kseniia Titova, Sergey Petrakov, Alexander Panchenko, (参考訳) 本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。 本研究は,モデル予測を基準基準と比較し,多様なベースライン,教師付き学習による事前学習エンコーダの改良,高パフォーマンスモデルを用いたアンサンブルアプローチなど,幅広い手法を対象としている。 これらの調査を通じて、強力なパフォーマンス指標を示す3つの異なる手法を紹介した。 トレーニングデータを増幅するために、未学習のトレーニングサブセットから追加のトレーニングサンプルを生成します。 さらに,本手法の詳細な比較分析を行う。 特に,本手法は,競技者のモデル非依存トラックで9位,モデル認識トラックで17位を達成し,その有効性と可能性を強調した。

In this paper, we present our novel systems developed for the SemEval-2024 hallucination detection task. Our investigation spans a range of strategies to compare model predictions with reference standards, encompassing diverse baselines, the refinement of pre-trained encoders through supervised learning, and an ensemble approaches utilizing several high-performing models. Through these explorations, we introduce three distinct methods that exhibit strong performance metrics. To amplify our training data, we generate additional training samples from unlabelled training subset. Furthermore, we provide a detailed comparative analysis of our approaches. Notably, our premier method achieved a commendable 9th place in the competition's model-agnostic track and 17th place in model-aware track, highlighting its effectiveness and potential.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# Cendol: インドネシア語のためのオープンインストラクションでチューニングされた大規模言語モデル

Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages ( http://arxiv.org/abs/2404.06138v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Fajri Koto, Rifki Afina Putri, Emmanuel Dave, Jhonson Lee, Nuur Shadieq, Wawan Cenggoro, Salsabil Maulana Akbar, Muhammad Ihza Mahendra, Dea Annisayanti Putri, Bryan Wilie, Genta Indra Winata, Alham Fikri Aji, Ayu Purwarianti, Pascale Fung, (参考訳) 大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。 しかし、インドネシア原住民の言語のような低リソース言語では顕著な品質の差が生じ、そのような言語的文脈ではそれらが非効率で非効率である。 この品質ギャップを埋めるために、インドネシアのLLMのコレクションであるCendolを紹介します。 我々は、さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、インドネシアの見知らぬタスクや先住民言語に一般化する能力を実証した。 さらに、インドネシアの先住民の知識と文化的価値の獲得に制限があるにもかかわらず、センドルモデルは人間の好ましさを改善した。 さらに,言語適応のためのパラメータ効率調整(LoRAなど)の欠点についても論じる。 また,効率向上のための語彙適応手法を提案する。 最後に、Cendolの安全性を評価し、RLHFや安全性の微調整がなくても、インドネシア語などの低リソース言語に英語などの1言語での事前学習の安全性が移行可能であることを示す。

Large language models (LLMs) show remarkable human-like capability in various domains and languages. However, a notable quality gap arises in low-resource languages, e.g., Indonesian indigenous languages, rendering them ineffective and inefficient in such linguistic contexts. To bridge this quality gap, we introduce Cendol, a collection of Indonesian LLMs encompassing both decoder-only and encoder-decoder architectures across a range of model sizes. We highlight Cendol's effectiveness across a diverse array of tasks, attaining 20% improvement, and demonstrate its capability to generalize to unseen tasks and indigenous languages of Indonesia. Furthermore, Cendol models showcase improved human favorability despite their limitations in capturing indigenous knowledge and cultural values in Indonesia. In addition, we discuss the shortcomings of parameter-efficient tunings, such as LoRA, for language adaptation. Alternatively, we propose the usage of vocabulary adaptation to enhance efficiency. Lastly, we evaluate the safety of Cendol and showcase that safety in pre-training in one language such as English is transferable to low-resource languages, such as Indonesian, even without RLHF and safety fine-tuning.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# DiffHarmony: 遅延拡散モデルと画像調和

DiffHarmony: Latent Diffusion Model Meets Image Harmonization ( http://arxiv.org/abs/2404.06139v1 )

ライセンス: Link先を確認
Pengfei Zhou, Fangxiang Feng, Xiaojie Wang, (参考訳) 合成画像の前景を調整して背景との統一的な視覚的整合性を実現する画像調和は、画像から画像への変換タスクとして概念化することができる。 拡散モデルは近年,画像から画像への翻訳タスクの迅速な開発を推進している。 しかし、スクラッチからのトレーニング拡散モデルは計算集約的である。 微調整済み遅延拡散モデルでは、画像圧縮オートエンコーダによって誘導される再構成エラーに対処する必要があるため、ピクセルレベルの評価指標を含む画像生成タスクには適さない。 これらの問題に対処するため,本稿ではまず,事前学習した遅延拡散モデルを画像調和化タスクに適用し,調和性はあるが曖昧な初期画像を生成する。 次に、推論中に高分解能画像を活用することと、さらに改良段階を取り入れることで、初期調和画像の明瞭度をさらに高めるという2つの戦略を実装した。 iHarmony4データセットの大規模な実験により,提案手法の優位性を実証した。 コードとモデルはhttps://github.com/nicecv/DiffHarmony.comで公開される。

Image harmonization, which involves adjusting the foreground of a composite image to attain a unified visual consistency with the background, can be conceptualized as an image-to-image translation task. Diffusion models have recently promoted the rapid development of image-to-image translation tasks . However, training diffusion models from scratch is computationally intensive. Fine-tuning pre-trained latent diffusion models entails dealing with the reconstruction error induced by the image compression autoencoder, making it unsuitable for image generation tasks that involve pixel-level evaluation metrics. To deal with these issues, in this paper, we first adapt a pre-trained latent diffusion model to the image harmonization task to generate the harmonious but potentially blurry initial images. Then we implement two strategies: utilizing higher-resolution images during inference and incorporating an additional refinement stage, to further enhance the clarity of the initially harmonized images. Extensive experiments on iHarmony4 datasets demonstrate the superiority of our proposed method. The code and model will be made publicly available at https://github.com/nicecv/DiffHarmony .
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# 異常検出のための差分プライバシー:プライバシーと説明可能性のトレードオフの分析

Differential Privacy for Anomaly Detection: Analyzing the Trade-off Between Privacy and Explainability ( http://arxiv.org/abs/2404.06144v1 )

ライセンス: Link先を確認
Fatima Ezzeddine, Mirna Saad, Omran Ayoub, Davide Andreoletti, Martin Gjoreski, Ihab Sbeity, Marc Langheinrich, Silvia Giordano, (参考訳) 異常検出(Anomaly Detection, AD)は、データの大部分の予測パターンから著しく逸脱するデータセット内の観測を識別することを目的とした統計処理である。 このようなプロセスは、金融や医療など、さまざまな分野で広く適用されている。 ADの主な目的は高い検出精度を得ることであるが、説明可能性とプライバシーの要件も最重要である。 第1はADプロセスの透明性を保証し、第2は機密情報が信頼できない当事者にリークされることを保証します。 本研究では、SHAP(SHapley Additive ExPlanations)とDP(差分プライバシー)による説明可能なAI(XAI)の適用のトレードオフを利用する。 我々は、異なるモデルと様々なデータセットでADを行い、精度と説明可能性の低下の観点から、プライバシーのコストを徹底的に評価する。 以上の結果から,DPによるプライバシの実施は,データセットと検討されたADモデルの両方に依存する検出精度と説明可能性に大きな影響を及ぼすことが明らかとなった。 さらに,説明文の視覚的解釈は,ADアルゴリズムの選択にも影響されていることを示す。

Anomaly detection (AD), also referred to as outlier detection, is a statistical process aimed at identifying observations within a dataset that significantly deviate from the expected pattern of the majority of the data. Such a process finds wide application in various fields, such as finance and healthcare. While the primary objective of AD is to yield high detection accuracy, the requirements of explainability and privacy are also paramount. The first ensures the transparency of the AD process, while the second guarantees that no sensitive information is leaked to untrusted parties. In this work, we exploit the trade-off of applying Explainable AI (XAI) through SHapley Additive exPlanations (SHAP) and differential privacy (DP). We perform AD with different models and on various datasets, and we thoroughly evaluate the cost of privacy in terms of decreased accuracy and explainability. Our results show that the enforcement of privacy through DP has a significant impact on detection accuracy and explainability, which depends on both the dataset and the considered AD model. We further show that the visual interpretation of explanations is also influenced by the choice of the AD algorithm.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# (Not)深層学習によるラテン詩の文体理解

(Not) Understanding Latin Poetic Style with Deep Learning ( http://arxiv.org/abs/2404.06150v1 )

ライセンス: Link先を確認
Ben Nagy, (参考訳) 本稿では、古典ラテン詩のコーパスで訓練された様々なニューラルネットワーク(LSTM、CNN)の注意を、音韻的特徴とメートル法的特徴を含むように符号化することで、著者のスタイルを理解する試みがほとんど失敗していることを要約する。 慎重に構成されたニューラルネットワークは、非常に強力な著者分類器であることが示されており、それゆえ、著者のスタイルの違いについて「伝統的な」読者に何かを教えることが期待されている。 残念ながら、彼らの推論は精査できない。 全体的な目標はまだ達成されていないが、この研究は、詩をエンコードして埋め込む効果的な方法、ニューラルネットワークファミリーの相対的な長所と短所、ドメイン内のNNモデルを設計し、検査するのに有用な(あまり役に立たない)テクニックについて、いくつかの有用な発見を報告している。 この記事では、詩において、CNNはLSTMよりも優れた選択である、と提案する。 多数の実験に基づいて、シンプルなトレーニング可能な埋め込みはドメイン固有のスキームよりも効果的であり、ドロップアウトやバッチ正規化といったオーバーフィッティングを減らす技術の重要性を強調している。

This article summarizes some mostly unsuccessful attempts to understand authorial style by examining the attention of various neural networks (LSTMs and CNNs) trained on a corpus of classical Latin verse that has been encoded to include sonic and metrical features. Carefully configured neural networks are shown to be extremely strong authorship classifiers, so it is hoped that they might therefore teach `traditional' readers something about how the authors differ in style. Sadly their reasoning is, so far, inscrutable. While the overall goal has not yet been reached, this work reports some useful findings in terms of effective ways to encode and embed verse, the relative strengths and weaknesses of the neural network families, and useful (and not so useful) techniques for designing and inspecting NN models in this domain. This article suggests that, for poetry, CNNs are better choices than LSTMs -- they train more quickly, have equivalent accuracy, and (potentially) offer better interpretability. Based on a great deal of experimentation, it also suggests that simple, trainable embeddings are more effective than domain-specific schemes, and stresses the importance of techniques to reduce overfitting, like dropout and batch normalization.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# HFNeRF: 神経放射場を用いた生体力学的特徴の学習

HFNeRF: Learning Human Biomechanic Features with Neural Radiance Fields ( http://arxiv.org/abs/2404.06152v1 )

ライセンス: Link先を確認
Arnab Dey, Di Yang, Antitza Dantcheva, Jean Martinet, (参考訳) 近年の新規な視線合成の進歩の中で,人体に応用された一般化可能なニューラルレイディアンス場(NeRF)法は,少ない画像から新たな視線を生成する際,顕著な結果を示した。 しかし、この一般化能力は全てのインスタンスで共有される骨格の構造的特徴を捉えることはできない。 そこで我々は,HFNeRFを紹介した。HFNeRFは,ヒトの生体力学的特徴を事前に学習した画像エンコーダを用いて生成することを目的とした,新しい一般化可能な人体機能NeRFである。 従来のヒトのNeRF法は、フォトリアリスティックな仮想アバターの生成において有望な結果を示しているが、これらの手法には、Augmented Reality (AR)やVirtual Reality (VR)といった下流アプリケーションにとって重要な人体構造や、骨格や関節情報といった生体力学的特徴が欠如している。 HFNeRFは、ニューラルネットワークを使用して3Dで人間の特徴を学習し、2D特徴マップを生成するためのボリュームレンダリングに、2D事前訓練された基礎モデルを活用する。 骨格推定作業におけるHFNeRFの評価は,熱マップを特徴として予測することで行う。 提案手法は, 色, 形状, 人体骨格を同時に学習することが可能である。 本稿では,HFNeRFを用いたバイオメカニカルな仮想アバターの創出の可能性について述べる。

In recent advancements in novel view synthesis, generalizable Neural Radiance Fields (NeRF) based methods applied to human subjects have shown remarkable results in generating novel views from few images. However, this generalization ability cannot capture the underlying structural features of the skeleton shared across all instances. Building upon this, we introduce HFNeRF: a novel generalizable human feature NeRF aimed at generating human biomechanic features using a pre-trained image encoder. While previous human NeRF methods have shown promising results in the generation of photorealistic virtual avatars, such methods lack underlying human structure or biomechanic features such as skeleton or joint information that are crucial for downstream applications including Augmented Reality (AR)/Virtual Reality (VR). HFNeRF leverages 2D pre-trained foundation models toward learning human features in 3D using neural rendering, and then volume rendering towards generating 2D feature maps. We evaluate HFNeRF in the skeleton estimation task by predicting heatmaps as features. The proposed method is fully differentiable, allowing to successfully learn color, geometry, and human skeleton in a simultaneous manner. This paper presents preliminary results of HFNeRF, illustrating its potential in generating realistic virtual avatars with biomechanic features using NeRF.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# scRDiT:拡散トランスフォーマによる単一細胞RNA-seqデータの生成とサンプリングの高速化

scRDiT: Generating single-cell RNA-seq data by diffusion transformers and accelerating sampling ( http://arxiv.org/abs/2404.06153v1 )

ライセンス: Link先を確認
Shengze Dong, Zhuorui Cui, Ding Liu, Jinzhi Lei, (参考訳) モチベーション: 単細胞RNAシークエンシング(scRNA-seq)は、生物学的研究で広く利用されている基盤技術であり、特定の組織サンプル内の個々の細胞レベルでの遺伝子発現の検査を容易にする。 scRNA-seqデータ分析のための多くのツールが開発されているが、これらのデータの異なる特徴をキャプチャし、類似の統計特性を共有する仮想データセットを複製するという課題は続いている。 結果: 本研究は, scRNA-seq Diffusion Transformer (scRDiT) と呼ばれる生成的アプローチを導入する。 この方法は、実際のデータセットを活用して、仮想scRNA-seqデータを生成する。 DDPM(Denoising Diffusion Probabilistic Models)とDiT(Diffusion Transformers)に基づいて構築されたニューラルネットワークである。 これは、反復的なノイズ付加ステップを通じてガウスノイズを実際のデータセットに印加し、最終的にノイズを復元し、scRNA-seqサンプルを形成する。 この手法により,モデルトレーニング中に実際の scRNA-seq サンプルからデータ特徴を学習することができる。 2つの異なるscRNA-seqデータセットを用いて実験を行い、優れた性能を示した。 さらに, DDIM(Denoising Diffusion Implicit Models)を組み込むことにより, モデルサンプリングを高速化する。 scRDiTは、ユーザが独自のscRNA-seqデータセットでニューラルネットワークモデルをトレーニングすることを可能にする統一的な方法論を提供し、多数の高品質のscRNA-seqサンプルを生成する。 可用性と実装:https://github.com/DongShengze/scRDiT

Motivation: Single-cell RNA sequencing (scRNA-seq) is a groundbreaking technology extensively utilized in biological research, facilitating the examination of gene expression at the individual cell level within a given tissue sample. While numerous tools have been developed for scRNA-seq data analysis, the challenge persists in capturing the distinct features of such data and replicating virtual datasets that share analogous statistical properties. Results: Our study introduces a generative approach termed scRNA-seq Diffusion Transformer (scRDiT). This method generates virtual scRNA-seq data by leveraging a real dataset. The method is a neural network constructed based on Denoising Diffusion Probabilistic Models (DDPMs) and Diffusion Transformers (DiTs). This involves subjecting Gaussian noises to the real dataset through iterative noise-adding steps and ultimately restoring the noises to form scRNA-seq samples. This scheme allows us to learn data features from actual scRNA-seq samples during model training. Our experiments, conducted on two distinct scRNA-seq datasets, demonstrate superior performance. Additionally, the model sampling process is expedited by incorporating Denoising Diffusion Implicit Models (DDIM). scRDiT presents a unified methodology empowering users to train neural network models with their unique scRNA-seq datasets, enabling the generation of numerous high-quality scRNA-seq samples. Availability and implementation: https://github.com/DongShengze/scRDiT
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# 低表面・体積モデルのための簡潔な平面配置

Concise Plane Arrangements for Low-Poly Surface and Volume Modelling ( http://arxiv.org/abs/2404.06154v1 )

ライセンス: Link先を確認
Raphael Sulzer, Florent Lafarge, (参考訳) 平面配置は表面および体積モデリングに有用なツールである。 しかし、主な欠点はスケーラビリティの低下である。 本稿では,複雑な物体やシーン全体に対する平面配置の構築を可能にする2つの重要な新機能を紹介する。 どちらの成分も不要な分割数を減らすため、既存のアルゴリズムと比較して最大2桁のスケーラビリティが向上する。 さらに,低ポリゴン表面メッシュを抽出し,体積の軽量な凸分解を可能にするリメッシング・簡易化手法を導入する。 提案手法は,様々なデータセットの学習ベースおよび従来のアプローチと比較することにより,上記の課題に対する最先端の結果につながることを示す。 私たちの実装はhttps://github.com/raphaelsulzer/compodで公開しています。

Plane arrangements are a useful tool for surface and volume modelling. However, their main drawback is poor scalability. We introduce two key novelties that enable the construction of plane arrangements for complex objects and entire scenes: an ordering scheme for the plane insertion and the direct use of input points during arrangement construction. Both ingredients reduce the number of unwanted splits, resulting in improved scalability of the construction mechanism by up to two orders of magnitude compared to existing algorithms. We further introduce a remeshing and simplification technique that allows us to extract low-polygon surface meshes and lightweight convex decompositions of volumes from the arrangement. We show that our approach leads to state-of-the-art results for the aforementioned tasks by comparing it to learning-based and traditional approaches on various different datasets. Our implementation is available at https://github.com/raphaelsulzer/compod .
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# ヒューリスティックス誘導パラメータサーチによる効率的なロバストポイントクラウド登録

Efficient and Robust Point Cloud Registration via Heuristics-guided Parameter Search ( http://arxiv.org/abs/2404.06155v1 )

ライセンス: Link先を確認
Tianyu Huang, Haoang Li, Liangzu Peng, Yinlong Liu, Yun-Hui Liu, (参考訳) 配置された3次元対応セットに基づいて6自由度で剛体変換を推定することは、点雲登録において決定的な手順である。 既存の対応識別法は、通常、大きな外付け率(=95$\%$は一般的)につながり、ロバストな登録法の重要性を暗示している。 多くの研究者は、ロバストな登録のためにパラメータ検索ベースの戦略(例:ブランチ・アンド・ラウンド)に目を向けている。 関連する手法は高いロバスト性を示すが、その効率は高次元探索空間に限られる。 本稿では,高ロバスト性を維持しながら探索を高速化するためのヒューリスティックス誘導パラメータ探索手法を提案する。 まず、いくつかの対応(すなわちヒューリスティックス)をサンプリングし、次に、各サンプルをより多くする実行可能な領域をシーケンシャルに探索する。 我々の戦略は検索スペースを大幅に減らし、少数の不整合サンプルで精度を保証できるので、効率と堅牢性の間に優れたトレードオフを享受できる。 効率的な探索を行うために, 6次元非線形可視領域を直接パラメータ化することは困難であるため, 実現可能な領域を再パラメータ化するための3段階分解パイプラインを構築した。 探索次元の削減に加えて, この分解により, 探索加速度の3段階すべてにおいて, 1次元間隔スタビングの活用が可能となる。 さらに、サンプリングの有効性を保証するための有効なサンプリング戦略と、検索をさらに高速化するための互換性確認設定を提案する。 シミュレーションと実世界の両方のデータセットに対する大規模な実験は、我々のアプローチが最先端の手法と同等の堅牢性を示しながら、大幅な効率向上を実現していることを示している。

Estimating the rigid transformation with 6 degrees of freedom based on a putative 3D correspondence set is a crucial procedure in point cloud registration. Existing correspondence identification methods usually lead to large outlier ratios ($>$ 95 $\%$ is common), underscoring the significance of robust registration methods. Many researchers turn to parameter search-based strategies (e.g., Branch-and-Bround) for robust registration. Although related methods show high robustness, their efficiency is limited to the high-dimensional search space. This paper proposes a heuristics-guided parameter search strategy to accelerate the search while maintaining high robustness. We first sample some correspondences (i.e., heuristics) and then just need to sequentially search the feasible regions that make each sample an inlier. Our strategy largely reduces the search space and can guarantee accuracy with only a few inlier samples, therefore enjoying an excellent trade-off between efficiency and robustness. Since directly parameterizing the 6-dimensional nonlinear feasible region for efficient search is intractable, we construct a three-stage decomposition pipeline to reparameterize the feasible region, resulting in three lower-dimensional sub-problems that are easily solvable via our strategy. Besides reducing the searching dimension, our decomposition enables the leverage of 1-dimensional interval stabbing at all three stages for searching acceleration. Moreover, we propose a valid sampling strategy to guarantee our sampling effectiveness, and a compatibility verification setup to further accelerate our search. Extensive experiments on both simulated and real-world datasets demonstrate that our approach exhibits comparable robustness with state-of-the-art methods while achieving a significant efficiency boost.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# マルチモーダルロングフォーム要約の特徴付け:財務報告を事例として

Characterizing Multimodal Long-form Summarization: A Case Study on Financial Reports ( http://arxiv.org/abs/2404.06162v1 )

ライセンス: Link先を確認
Tianyu Cao, Natraj Raman, Danial Dervovic, Chenhao Tan, (参考訳) 大規模言語モデル(LLM)が長い入力を処理するために自然言語処理の能力を拡大するにつれ、その能力や振る舞いを理解するためには厳密で体系的な分析が必要である。 健全な応用は要約であり、その普遍性と論争のためである(例えば、研究者は要約の死を宣言している)。 本稿では,財務報告の要約をケーススタディとして用いた。 本稿では,複数モーダルな長文要約を特徴付ける計算フレームワークを提案し,Claude 2.0/2.1,GPT-4/3.5,Commandの動作について検討する。 GPT-3.5とCommandは、この要約タスクを有意に実行できないことがわかった。 クロード2, GPT-4では, 要約の抽出性を分析し, LLMにおける位置バイアスを同定する。 この位置バイアスは、クロードの入力をシャッフルした後で消え、クロードが重要な情報を認識する能力を持っていることを示唆している。 また,LSM生成サマリーにおける数値データの利用に関する包括的調査を行い,数値幻覚の分類を提供する。 我々は、GPT-4の数値使用率の向上のために、限られた成功率で即時エンジニアリングを採用する。 GPT-4と比較して,長時間のマルチモーダル入力処理におけるClaude 2の強みを概説した。

As large language models (LLMs) expand the power of natural language processing to handle long inputs, rigorous and systematic analyses are necessary to understand their abilities and behavior. A salient application is summarization, due to its ubiquity and controversy (e.g., researchers have declared the death of summarization). In this paper, we use financial report summarization as a case study because financial reports not only are long but also use numbers and tables extensively. We propose a computational framework for characterizing multimodal long-form summarization and investigate the behavior of Claude 2.0/2.1, GPT-4/3.5, and Command. We find that GPT-3.5 and Command fail to perform this summarization task meaningfully. For Claude 2 and GPT-4, we analyze the extractiveness of the summary and identify a position bias in LLMs. This position bias disappears after shuffling the input for Claude, which suggests that Claude has the ability to recognize important information. We also conduct a comprehensive investigation on the use of numeric data in LLM-generated summaries and offer a taxonomy of numeric hallucination. We employ prompt engineering to improve GPT-4's use of numbers with limited success. Overall, our analyses highlight the strong capability of Claude 2 in handling long multimodal inputs compared to GPT-4.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# マルチタスク学習によるレーダー知覚の強化:センサフュージョンへの応用に向けて

Enhanced Radar Perception via Multi-Task Learning: Towards Refined Data for Sensor Fusion Applications ( http://arxiv.org/abs/2404.06165v1 )

ライセンス: Link先を確認
Huawei Sun, Hao Feng, Gianfranco Mauro, Julius Ott, Georg Stettinger, Lorenzo Servadei, Robert Wille, (参考訳) レーダーとカメラの融合は、両方のセンサーの強度を活用することにより、知覚タスクにおいて堅牢性をもたらす。 典型的な抽出レーダーポイント雲は、高度軸に沿ったアンテナが不十分なため、高さ情報のない2Dであり、ネットワーク性能に挑戦する。 本研究は,3次元物体に関連付けられたレーダー点の高さを推定するための学習に基づくアプローチを導入する。 スパース目標問題に対処するために、新しい堅牢な回帰損失を導入する。 さらに、重要な特徴を強調するマルチタスクトレーニング戦略が採用されている。 平均レーダー絶対高さ誤差は、最先端の高度拡張法と比較して1.69mから0.25mに減少する。 推定目標高さ値は、下流認識タスクのためのレーダデータを前処理し、濃縮するために使用される。 この改良されたレーダー情報の統合により、既存のレーダーカメラ融合モデルの性能が向上し、物体検出および深度推定タスクが実現される。

Radar and camera fusion yields robustness in perception tasks by leveraging the strength of both sensors. The typical extracted radar point cloud is 2D without height information due to insufficient antennas along the elevation axis, which challenges the network performance. This work introduces a learning-based approach to infer the height of radar points associated with 3D objects. A novel robust regression loss is introduced to address the sparse target challenge. In addition, a multi-task training strategy is employed, emphasizing important features. The average radar absolute height error decreases from 1.69 to 0.25 meters compared to the state-of-the-art height extension method. The estimated target height values are used to preprocess and enrich radar data for downstream perception tasks. Integrating this refined radar information further enhances the performance of existing radar camera fusion models for object detection and depth estimation tasks.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# 移動境界を持つ箱内の古典的および量子場理論:動的カシミール効果の数値的研究

Classical and quantum field theory in a box with moving boundaries: A numerical study of the Dynamical Casimir Effect ( http://arxiv.org/abs/2404.06166v1 )

ライセンス: Link先を確認
Alberto García Martín-Caro, Gerardo García-Moreno, Javier Olmedo, Jose M. Sánchez Velázquez, (参考訳) 完全に反射する運動境界を持つ空洞に閉じ込められた平坦な時空における量子スカラー場理論の詳細な記述を示す。 さらに,静的ディリクレ境界条件を持つ音響測定値に対して,時間依存性の設定と場理論の等価性を確立する。 後者の観点から理論の古典的および量子的側面について議論し、任意の境界軌道に適用可能な動的カシミール効果に起因する粒子生成の(摂動的でない)計算のために設計された新しい数値的手法を導入する。 これらの手法の具体例として、1+1次元の無質量場に対する粒子生成を計算する。 特に、我々のアプローチは、大規模フィールドや高次元を含むシナリオまで容易に拡張できる。

We present a detailed description of a quantum scalar field theory within a flat spacetime confined to a cavity with perfectly reflecting moving boundaries. Moreover, we establish an equivalence between this time-dependent setting and a field theory on an acoustic metric with static Dirichlet boundary conditions. We discuss the classical and quantum aspects of the theory from the latter perspective, accompanied by the introduction of novel numerical techniques designed for the (nonperturbative) computation of particle production attributed to the Dynamical Casimir effect, applicable to arbitrary boundary trajectories. As an illustrative example of these methodologies, we compute the particle production for a massless field in 1+1 dimensions. Notably, our approaches readily extend to encompass scenarios involving massive fields and higher dimensions
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# scCDCG:Deep Cut-informed Graph EmbeddingによるシングルセルRNA-seqの効率的な深部構造クラスタリング

scCDCG: Efficient Deep Structural Clustering for single-cell RNA-seq via Deep Cut-informed Graph Embedding ( http://arxiv.org/abs/2404.06167v1 )

ライセンス: Link先を確認
Ping Xu, Zhiyuan Ning, Meng Xiao, Guihai Feng, Xin Li, Yuanchun Zhou, Pengfei Wang, (参考訳) 単細胞RNAシークエンシング(scRNA-seq)は、細胞内の不均一性と多様性の解明に不可欠であり、バイオインフォマティクスの進歩に重要な洞察を与える。 scRNA-seqデータ解析における従来のクラスタリング手法は、その可能性にもかかわらず、細胞間の相関や依存関係を理解するのに不可欠な、遺伝子発現プロファイルに埋め込まれた構造情報を無視することが多い。 グラフニューラルネットワークを含む既存の戦略は、scRNA-seqデータの本質的な高次元と高スパーシリティによる非効率処理の課題に直面している。 このような制約に対処するため,我々はcCDCG (Single-cell RNA-seq Clustering via Deep Cut-informed Graph)を導入した。 scCDCGは3つの主成分から構成される。 一 ディープカットインフォームド技術を利用したグラフ埋め込みモジュールで、細胞間高次構造情報を効果的に捕捉し、従来のグラフニューラルネットワーク手法でよく見られる過度に滑らかで非効率な問題を克服する。 二 最適な輸送によって導かれる自己教師型学習モジュールで、cRNA-seqデータの特異な複雑さ、特にその高次元と高疎度に対応するように調整された。 三 有効次元の削減及び特徴抽出によりモデルの複雑さを簡易化するオートエンコーダに基づく特徴学習モジュール。 6つのデータセットに対する広範な実験により、scCDCGが確立された7つのモデルと比較して優れた性能と効率を示し、scRNA-seqデータ解析における変換ツールとしてのSCCDCGの可能性を強調した。 私たちのコードは、https://github.com/XPgogogo/scCDCG.comで利用可能です。

Single-cell RNA sequencing (scRNA-seq) is essential for unraveling cellular heterogeneity and diversity, offering invaluable insights for bioinformatics advancements. Despite its potential, traditional clustering methods in scRNA-seq data analysis often neglect the structural information embedded in gene expression profiles, crucial for understanding cellular correlations and dependencies. Existing strategies, including graph neural networks, face challenges in handling the inefficiency due to scRNA-seq data's intrinsic high-dimension and high-sparsity. Addressing these limitations, we introduce scCDCG (single-cell RNA-seq Clustering via Deep Cut-informed Graph), a novel framework designed for efficient and accurate clustering of scRNA-seq data that simultaneously utilizes intercellular high-order structural information. scCDCG comprises three main components: (i) A graph embedding module utilizing deep cut-informed techniques, which effectively captures intercellular high-order structural information, overcoming the over-smoothing and inefficiency issues prevalent in prior graph neural network methods. (ii) A self-supervised learning module guided by optimal transport, tailored to accommodate the unique complexities of scRNA-seq data, specifically its high-dimension and high-sparsity. (iii) An autoencoder-based feature learning module that simplifies model complexity through effective dimension reduction and feature extraction. Our extensive experiments on 6 datasets demonstrate scCDCG's superior performance and efficiency compared to 7 established models, underscoring scCDCG's potential as a transformative tool in scRNA-seq data analysis. Our code is available at: https://github.com/XPgogogo/scCDCG.
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# CLIP-Embed-KD: 埋め込みを教師として用いた効率的な知識蒸留

CLIP-Embed-KD: Computationally Efficient Knowledge Distillation Using Embeddings as Teachers ( http://arxiv.org/abs/2404.06170v1 )

ライセンス: Link先を確認
Lakshmi Nair, (参考訳) 対照的な言語-画像事前学習(CLIP)は、言語と視覚モデルのゼロショット一般化能力を改善することが示されている。 本稿では,CLIPを拡張して知識蒸留の効率化を図り,埋め込みを教師として活用する。 典型的な知識蒸留フレームワークは、数十億のパラメーターの教師の場合、しばしば禁止される教師モデルを通して前方通過する必要がある。 これらの場合、蒸留を導くために教師モデルの埋め込みのみを使用すると、かなりの計算的節約が得られる。 予備的な知見は,CLIPを用いた知識蒸留は,9-times$少ないメモリと8-times$少ないトレーニング時間を用いて,完全な知識蒸留よりも優れていることを示している。 https://github.com/lnairGT/CLIP-Distillation/

Contrastive Language-Image Pre-training (CLIP) has been shown to improve zero-shot generalization capabilities of language and vision models. In this paper, we extend CLIP for efficient knowledge distillation, by utilizing embeddings as teachers. Typical knowledge distillation frameworks require running forward passes through a teacher model, which is often prohibitive in the case of billion or trillion parameter teachers. In these cases, using only the embeddings of the teacher models to guide the distillation can yield significant computational savings. Our preliminary findings show that CLIP-based knowledge distillation with embeddings can outperform full scale knowledge distillation using $9\times$ less memory and $8\times$ less training time. Code available at: https://github.com/lnairGT/CLIP-Distillation/
翻訳日:2024-04-10 15:19:37 公開日:2024-04-09
# 生成キャプションとマルチワード概念バンクを用いたアドホック動画検索のための解釈可能な埋め込みの改善

Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank ( http://arxiv.org/abs/2404.06173v1 )

ライセンス: Link先を確認
Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan, (参考訳) ユーザクエリとビデオクリップをクロスモーダルなラテント空間で調整し,セマンティックな概念を取り入れることで,アドホックビデオ検索(AVS)の主流となるアプローチが2つある。 しかし、既存のアプローチの有効性は、利用可能なビデオテキストデータセットの小さなサイズとコンセプトバンクの低品質によってボトルネックとなり、見当たらないクエリの失敗や語彙外問題が発生する。 本稿では、新しいデータセットを構築し、マルチワードの概念バンクを開発することにより、これらの2つの問題を解決する。 具体的には、生成モデルに基づいて、700万件のテキストとビデオペアを事前学習用に構築する。 語彙外問題に対処するために,構文解析に基づく多語概念バンクを開発し,クエリ語間の関係をモデル化する最先端の解釈可能なAVS法の能力を向上させる。 また,現在の高度な特徴が手法に与える影響についても検討した。 以上の結果から,MSRVTTデータセット上でのAVSメソッドのR@1性能を2倍に向上し,2016-2023年(8年)のTRECVid AVSクエリセットのxinfAPを2%から77%改善し,平均20%向上した。

Aligning a user query and video clips in cross-modal latent space and that with semantic concepts are two mainstream approaches for ad-hoc video search (AVS). However, the effectiveness of existing approaches is bottlenecked by the small sizes of available video-text datasets and the low quality of concept banks, which results in the failures of unseen queries and the out-of-vocabulary problem. This paper addresses these two problems by constructing a new dataset and developing a multi-word concept bank. Specifically, capitalizing on a generative model, we construct a new dataset consisting of 7 million generated text and video pairs for pre-training. To tackle the out-of-vocabulary problem, we develop a multi-word concept bank based on syntax analysis to enhance the capability of a state-of-the-art interpretable AVS method in modeling relationships between query words. We also study the impact of current advanced features on the method. Experimental results show that the integration of the above-proposed elements doubles the R@1 performance of the AVS method on the MSRVTT dataset and improves the xinfAP on the TRECVid AVS query sets for 2016-2023 (eight years) by a margin from 2% to 77%, with an average about 20%.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 強化学習支援量子アーキテクチャ探索の量子情報理論解析

A quantum information theoretic analysis of reinforcement learning-assisted quantum architecture search ( http://arxiv.org/abs/2404.06174v1 )

ライセンス: Link先を確認
Abhishek Sadhu, Aritra Sarkar, Akash Kundu, (参考訳) 量子コンピューティングの分野では、変分量子アルゴリズム (VQA) は幅広い応用範囲にわたる量子解の重要なカテゴリを表す。 これらのアルゴリズムは、量子計算の優位性を実現するための大きな可能性を示している。 VQAの基本的な側面は、表現的で効率的な量子回路(すなわち、アンザッツ)を定式化し、そのようなアンザッツの探索を自動化することであり、量子アーキテクチャサーチ(QAS)として知られている。 RL-QASは強化学習技術を用いてQASを最適化する。 本研究は, 変分量子状態対角化問題に適したアンサーゼ製造のためのRL-QASについて検討する。 本研究は, 得られた状態の絡み合い閾値, 初期条件がRL-エージェントの性能に及ぼす影響, 相関関係の位相変化挙動, および条件エントロピー指標による固有値の導出におけるキュービットの離散的寄与など, 様々な次元の包括的分析を含む。 これらの知見を利用して、ランダム量子状態の対角化に最適で許容可能なQASを考案する。 さらに、本論文では、変分量子アルゴリズムに適用可能なRL-QAS内の報酬関数を構築するための一般化されたフレームワークを提供する。

In the field of quantum computing, variational quantum algorithms (VQAs) represent a pivotal category of quantum solutions across a broad spectrum of applications. These algorithms demonstrate significant potential for realising quantum computational advantage. A fundamental aspect of VQAs involves formulating expressive and efficient quantum circuits (namely ansatz) and automating the search of such ansatz is known as quantum architecture search (QAS). RL-QAS involves optimising QAS using reinforcement learning techniques. This study investigates RL-QAS for crafting ansatzes tailored to the variational quantum state diagonalization problem. Our investigation includes a comprehensive analysis of various dimensions, such as the entanglement thresholds of the resultant states, the impact of initial conditions on the performance of RL-agent, the phase change behavior of correlation in concurrence bounds, and the discrete contributions of qubits in deducing eigenvalues through conditional entropy metrics. We leverage these insights to devise an optimal, admissible QAS to diagonalize random quantum states. Furthermore, the methodologies presented herein offer a generalised framework for constructing reward functions within RL-QAS applicable to variational quantum algorithms.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 半教師型医用画像セグメンテーションのための不確かさを意識した情報融合型学習

Uncertainty-aware Evidential Fusion-based Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2404.06177v1 )

ライセンス: Link先を確認
Yuanpeng He, Lijian Li, (参考訳) 既存の不確実性に基づく半教師付き医療セグメンテーション法は優れた性能を達成しているが、彼らは通常は単一の不確実性評価しか考慮していない。 そこで,本研究では, 従来のエビデンス理論における確率割当融合則の不確実な情報を強調することにより, 各ボクセルの信頼度と不確実性度を再配置するために, 混合試料と原試料の交叉領域における明らかな予測結果を統合した。 さらに,情報エントロピーを導入し,融合した不確実性指標と組み合わせ,より正確にボクセル予測を推定することで,ボクセルレベルの漸近学習戦略を設計する。 モデルは、学習過程における高い不確実性を伴う予測結果に徐々に注意を払って、習得が難しい特徴を学習する。 LA, Pancreas-CT, ACDC, TBADデータセットを用いた実験結果は, 既存の最先端技術と比較して, 提案手法の優れた性能を示した。

Although the existing uncertainty-based semi-supervised medical segmentation methods have achieved excellent performance, they usually only consider a single uncertainty evaluation, which often fails to solve the problem related to credibility completely. Therefore, based on the framework of evidential deep learning, this paper integrates the evidential predictive results in the cross-region of mixed and original samples to reallocate the confidence degree and uncertainty measure of each voxel, which is realized by emphasizing uncertain information of probability assignments fusion rule of traditional evidence theory. Furthermore, we design a voxel-level asymptotic learning strategy by introducing information entropy to combine with the fused uncertainty measure to estimate voxel prediction more precisely. The model will gradually pay attention to the prediction results with high uncertainty in the learning process, to learn the features that are difficult to master. The experimental results on LA, Pancreas-CT, ACDC and TBAD datasets demonstrate the superior performance of our proposed method in comparison with the existing state of the arts.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# YOLC: 空撮画像の細い物体検出のためのクラスターのみを見る

YOLC: You Only Look Clusters for Tiny Object Detection in Aerial Images ( http://arxiv.org/abs/2404.06180v1 )

ライセンス: Link先を確認
Chenguang Liu, Guangshuai Gao, Ziyue Huang, Zhenghui Hu, Qingjie Liu, Yunhong Wang, (参考訳) 空中画像から物体を検出することは、以下の要因により大きな課題となる。 1) 空中画像は一般に非常に大きなサイズを持ち、一般に数百万または数億のピクセルを持つが、計算資源は限られている。 2) 対象物の大きさが小さいと, 有効検出に十分な情報が得られない。 3)不均一なオブジェクト分布は計算資源の浪費につながる。 これらの問題に対処するために、我々は、アンカーフリーなオブジェクト検出器であるCenterNet上に構築された効率的で効果的なフレームワークであるYOLC(You Only Look Clusters)を提案する。 大規模画像や非一様オブジェクトの分布がもたらす課題を克服するため,正確な検出のためにクラスタ領域のズームインを適応的に検索するローカルスケールモジュール(LSM)を導入する。 さらに、ガウスワッサーシュタイン距離(GWD)を用いて回帰損失を修正し、高品質なバウンディングボックスを得る。 検出ヘッドに変形可能な畳み込み・精細化法を用い、小型物体の検出を強化する。 Visdrone2019 と UAVDT を含む2つの航空画像データセットに対する広範な実験を行い、提案手法の有効性と優位性を実証した。

Detecting objects from aerial images poses significant challenges due to the following factors: 1) Aerial images typically have very large sizes, generally with millions or even hundreds of millions of pixels, while computational resources are limited. 2) Small object size leads to insufficient information for effective detection. 3) Non-uniform object distribution leads to computational resource wastage. To address these issues, we propose YOLC (You Only Look Clusters), an efficient and effective framework that builds on an anchor-free object detector, CenterNet. To overcome the challenges posed by large-scale images and non-uniform object distribution, we introduce a Local Scale Module (LSM) that adaptively searches cluster regions for zooming in for accurate detection. Additionally, we modify the regression loss using Gaussian Wasserstein distance (GWD) to obtain high-quality bounding boxes. Deformable convolution and refinement methods are employed in the detection head to enhance the detection of small objects. We perform extensive experiments on two aerial image datasets, including Visdrone2019 and UAVDT, to demonstrate the effectiveness and superiority of our proposed approach.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# EPL: 半教師型医用画像分割のためのエビデンシャルプロトタイプ学習

EPL: Evidential Prototype Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2404.06181v1 )

ライセンス: Link先を確認
Yuanpeng He, (参考訳) 現在の半監督型医療セグメンテーション法は良好な性能を発揮するが、まだラベルのないデータの不確実性やモデル予測の影響を受けており、同時に両方の不確実な側面を探求できる効果的な戦略が欠如している。 上記の課題に対処するために,拡張確率的フレームワークを用いて異なるソースからボクセル確率予測を効果的に融合し,ボクセルレベルの二重不確実性マスキングを利用してラベル付きおよびラベルなしデータのプロトタイプ融合利用を実現するEvidential Prototype Learning (EPL)を提案する。 この不確実性は、モデルを自己修正するだけでなく、擬似ラベルでガイド付き学習プロセスを改善し、隠れた特徴の構築にフィードバックすることができる。 提案手法は, LA, Pancreas-CT, TBADの3つのラベル付き比で最先端性能を実現し, 本手法の有効性を強く実証する。

Although current semi-supervised medical segmentation methods can achieve decent performance, they are still affected by the uncertainty in unlabeled data and model predictions, and there is currently a lack of effective strategies that can explore the uncertain aspects of both simultaneously. To address the aforementioned issues, we propose Evidential Prototype Learning (EPL), which utilizes an extended probabilistic framework to effectively fuse voxel probability predictions from different sources and achieves prototype fusion utilization of labeled and unlabeled data under a generalized evidential framework, leveraging voxel-level dual uncertainty masking. The uncertainty not only enables the model to self-correct predictions but also improves the guided learning process with pseudo-labels and is able to feed back into the construction of hidden features. The method proposed in this paper has been experimented on LA, Pancreas-CT and TBAD datasets, achieving the state-of-the-art performance in three different labeled ratios, which strongly demonstrates the effectiveness of our strategy.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# Clue-Instruct: 教育用クロスワードパズルのためのテキストベースのクローズ生成

Clue-Instruct: Text-Based Clue Generation for Educational Crossword Puzzles ( http://arxiv.org/abs/2404.06186v1 )

ライセンス: Link先を確認
Andrea Zugarini, Kamyar Zeinalipour, Surya Sai Kadali, Marco Maggini, Marco Gori, Leonardo Rigutini, (参考訳) クロスワードパズル(Crossword puzzles)は、学生が学習に携わるツールとしてよく使われる人気のある言語ゲームである。 教育用クロスワードは、伝統的なクロスワードパズルと区別する、より暗号化され、より現実的な手がかりによって特徴づけられる。 従来のクロスワード用のシークエンス・アンサー・ペア・データベースはいくつか存在するが、教育用シークエンス・アンサー・ペア・データセットは欠落している。 本稿では,Large Language Models (LLM) の教育用手掛かり生成データセットを構築する手法を提案する。 ウィキペディアページから関連キーワードに関連する情報的コンテンツを集めることで、Large Language Modelsを使用して、与えられた入力キーワードとそのコンテキストに関連する教育的手がかりを自動的に生成する。 このようなアプローチにより、3つの異なるクロスワード手がかりに関連付けられたテキストキーワードペアを持つ44,075個のユニークな例を含むデータセットであるインストラクションを作成した。 我々は、与えられた入力内容とキーワードから教育用手がかりを生成するために、異なるLLMを指示するためにヒントインストラクションを使用した。 人的評価と自動評価の両方が生成した手がかりの品質を確認し,提案手法の有効性を検証した。

Crossword puzzles are popular linguistic games often used as tools to engage students in learning. Educational crosswords are characterized by less cryptic and more factual clues that distinguish them from traditional crossword puzzles. Despite there exist several publicly available clue-answer pair databases for traditional crosswords, educational clue-answer pairs datasets are missing. In this article, we propose a methodology to build educational clue generation datasets that can be used to instruct Large Language Models (LLMs). By gathering from Wikipedia pages informative content associated with relevant keywords, we use Large Language Models to automatically generate pedagogical clues related to the given input keyword and its context. With such an approach, we created clue-instruct, a dataset containing 44,075 unique examples with text-keyword pairs associated with three distinct crossword clues. We used clue-instruct to instruct different LLMs to generate educational clues from a given input content and keyword. Both human and automatic evaluations confirmed the quality of the generated clues, thus validating the effectiveness of our approach.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 二重量子ドットにおける高忠実CZゲート --回転波近似を超えた回路QEDシステム

High-Fidelity CZ Gates in Double Quantum Dot -- Circuit QED Systems Beyond the Rotating-Wave Approximation ( http://arxiv.org/abs/2404.06187v1 )

ライセンス: Link先を確認
Guangzhao Yang, Marek Gluza, Si Yan Koh, Calvin Pei Yu Wong, Kuan Eng Johnson Goh, Bent Weber, Hui Khoon Ng, Teck Seng Koh, (参考訳) 超伝導マイクロ波共振器を介して結合された半導体二重量子ドット(DQD)は、量子ビットのスピンと電荷自由度を長距離操作する強力な手段を提供する。 量子ゲートは量子ビットをパラメトリックに駆動することで実装でき、その遷移周波数は共振器周波数から逸脱する。 回転波近似(RWA)におけるDQDスピンキュービットに対して、長距離2量子CZゲートが提案されている。 急速ゲートは強い結合を必要とするが、RWAは結合強度が系の周波数に対して重要なものになったときに崩壊する。 したがって、RWAによって無視される時間依存用語の有害な影響を理解することは、高忠実度操作には不可欠である。 ここでは、RWAを超えて、DQDスピンおよび電荷量子ビットのCZゲート忠実度を研究する。 電荷量子ビット上の新しいパラメトリックドライブを提案し、時間依存項を少なくし、スピン値よりも優れていることを示す。 駆動振幅(RWAで落とされたパラメータ)は、忠実度を最適化し、高忠実度レギュレーションをマップアウトするために重要である。 この結果から,DQD量子ビットにおける長距離ゲートの実現方法の理解において,RWAを超越する必要性が示唆された。

Semiconductor double quantum dot (DQD) qubits coupled via superconducting microwave resonators provide a powerful means of long-range manipulation of the qubits' spin and charge degrees of freedom. Quantum gates can be implemented by parametrically driving the qubits while their transition frequencies are detuned from the resonator frequency. Long-range two-qubit CZ gates have been proposed for the DQD spin qubit within the rotating-wave approximation (RWA). Rapid gates demand strong coupling, but RWA breaks down when coupling strengths become significant relative to system frequencies. Therefore, understanding the detrimental impact of time-dependent terms ignored by RWA is critical for high-fidelity operation. Here, we go beyond RWA to study CZ gate fidelity for both DQD spin and charge qubits. We propose a novel parametric drive on the charge qubit that produces fewer time-dependent terms and show that it outperforms its spin counterpart. We find that drive amplitude - a parameter dropped in RWA - is critical for optimizing fidelity and map out high-fidelity regimes. Our results demonstrate the necessity of going beyond RWA in understanding how long-range gates can be realized in DQD qubits, with charge qubits offering considerable advantages in high-fidelity operation.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 多様なランダム化値関数--オフライン強化学習における悲観的アプローチ

Diverse Randomized Value Functions: A Provably Pessimistic Approach for Offline Reinforcement Learning ( http://arxiv.org/abs/2404.06188v1 )

ライセンス: Link先を確認
Xudong Yu, Chenjia Bai, Hongyi Guo, Changhong Wang, Zhen Wang, (参考訳) オフライン強化学習(RL)は、特にアウト・オブ・ディストリビューション(OOD)アクションにおいて、分散シフトと信頼できない値推定に直面する。 これを解決するために、既存の不確実性に基づく手法は、不確実な定量化で値関数をペナルティ化し、多数のアンサンブルネットワークを必要とし、計算上の課題と準最適結果に対処する。 本稿では,多種多様なランダム化値関数を用いて,$Q$-値の後方分布を推定する手法を提案する。 堅牢な不確実性定量化と、$Q$-値の低い信頼境界(LCB)を推定する。 OOD行動に適度な値ペナルティを適用することで,本手法は悲観的なアプローチを育むことができる。 また、ランダム化値関数内の多様性を強調し、ダイバーシティ正規化手法を導入し、ネットワークの必要数を減らすことで効率を向上させる。 これらのモジュールは、信頼性の高い値推定と、オフラインデータからの効率的なポリシー学習につながる。 理論的解析により, 線形MDP仮定の下で, 有効効率のLCB-ペナルティを回復することが示唆された。 また,提案手法は,性能およびパラメトリック効率の点で,ベースライン法よりも有意に優れていた。

Offline Reinforcement Learning (RL) faces distributional shift and unreliable value estimation, especially for out-of-distribution (OOD) actions. To address this, existing uncertainty-based methods penalize the value function with uncertainty quantification and demand numerous ensemble networks, posing computational challenges and suboptimal outcomes. In this paper, we introduce a novel strategy employing diverse randomized value functions to estimate the posterior distribution of $Q$-values. It provides robust uncertainty quantification and estimates lower confidence bounds (LCB) of $Q$-values. By applying moderate value penalties for OOD actions, our method fosters a provably pessimistic approach. We also emphasize on diversity within randomized value functions and enhance efficiency by introducing a diversity regularization method, reducing the requisite number of networks. These modules lead to reliable value estimation and efficient policy learning from offline data. Theoretical analysis shows that our method recovers the provably efficient LCB-penalty under linear MDP assumptions. Extensive empirical results also demonstrate that our proposed method significantly outperforms baseline methods in terms of performance and parametric efficiency.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 開語彙HOI検出のための大規模基礎モデルの可能性を探る

Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection ( http://arxiv.org/abs/2404.06194v1 )

ライセンス: Link先を確認
Ting Lei, Shaofeng Yin, Yang Liu, (参考訳) 自然言語で案内される新規なHOIを検出することに関わるオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(HOI)検出は,人間中心のシーンを理解する上で重要である。 しかしながら、以前のゼロショットHOI検出器は、異なる距離でHOIをモデル化するために、同じレベルの特徴マップを使用することが多く、幅広い距離を持つ人間と物体のペアを含むシーンにおいて、最適以下のパフォーマンスをもたらす。 さらに、これらの検出器は主にカテゴリ名に依存しており、言語が提供できる豊富な文脈情報を見落としている。 本稿では,視覚言語モデル(VLM)の可能性を生かした,条件付き多レベル復号化と細粒度セマンティックエンハンスメント(CMD-SE)を備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。 具体的には,両部間マッチングプロセス中にソフト制約を組み込むことで,特徴マップのレベルが異なる距離の人物体対をモデル化することを提案する。 さらに,GPTモデルなどの大規模言語モデル(LLM)を活用することで,人間の身体部分状態の記述を多種多様なインタラクションに活用する。 次に,人体部分の汎用的,きめ細かな意味論を統合し,インタラクション認識を改善する。 SWIG-HOI とHICO-DET の2つの実験結果から,提案手法が開語彙HOI 検出の最先端化を実現することを示す。 コードとモデルはhttps://github.com/ltttpku/CMD-SE-releaseで公開されている。

Open-vocabulary human-object interaction (HOI) detection, which is concerned with the problem of detecting novel HOIs guided by natural language, is crucial for understanding human-centric scenes. However, prior zero-shot HOI detectors often employ the same levels of feature maps to model HOIs with varying distances, leading to suboptimal performance in scenes containing human-object pairs with a wide range of distances. In addition, these detectors primarily rely on category names and overlook the rich contextual information that language can provide, which is essential for capturing open vocabulary concepts that are typically rare and not well-represented by category names alone. In this paper, we introduce a novel end-to-end open vocabulary HOI detection framework with conditional multi-level decoding and fine-grained semantic enhancement (CMD-SE), harnessing the potential of Visual-Language Models (VLMs). Specifically, we propose to model human-object pairs with different distances with different levels of feature maps by incorporating a soft constraint during the bipartite matching process. Furthermore, by leveraging large language models (LLMs) such as GPT models, we exploit their extensive world knowledge to generate descriptions of human body part states for various interactions. Then we integrate the generalizable and fine-grained semantics of human body parts to improve interaction recognition. Experimental results on two datasets, SWIG-HOI and HICO-DET, demonstrate that our proposed method achieves state-of-the-art results in open vocabulary HOI detection. The code and models are available at https://github.com/ltttpku/CMD-SE-release.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 3つの戦略を組み合わせた古典ゲームと量子ゲームの許容拡張

Permissible extensions of classical to quantum games combining three strategies ( http://arxiv.org/abs/2404.06196v1 )

ライセンス: Link先を確認
Piotr Frąckiewicz, Marek Szopa, (参考訳) 各プレイヤーの2つの古典的戦略に1つのユニタリ戦略を追加することによって生成される量子領域への古典ゲームの拡張について研究する。 入力ゲームの同型変換に対して拡張ゲームが不変であることを保証するために、ユニタリ演算で満たさなければならない条件が決定される。 これらの拡張には3つの種類があり、そのうちの2つは純粋に量子的であることが示されている。 一方、これらの条件を満たさないユニタリ作用素による同じ古典ゲームの2つのバージョンの拡張は、非等価な量子ゲーム、例えば異なるナッシュ平衡を持つ結果をもたらすことが示されている。 得られた結果を用いて、古典的な囚人のジレンマゲームから、パレート最適解に近いユニークなナッシュ平衡を持つ量子ゲームへと拡張する。

We study the extension of classical games to the quantum domain, generated by the addition of one unitary strategy to two classical strategies of each player. The conditions that need to be met by unitary operations to ensure that the extended game is invariant with respect to the isomorphic transformations of the input game are determined. It has been shown that there are three types of these extensions, two of them are purely quantum. On the other hand, it has been demonstrated that the extensions of two versions of the same classical game by a unitary operator that does not meet these conditions may result in quantum games that are non-equivalent, e.g. having different Nash equilibria. We use the obtained results to extend the classical Prisoner's Dilemma game to a quantum game that has a unique Nash equilibrium closer to Pareto-optimal solutions than the original one.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 時系列予測におけるデータセットの類似性と多様性が伝達学習成功に及ぼす影響

The impact of data set similarity and diversity on transfer learning success in time series forecasting ( http://arxiv.org/abs/2404.06198v1 )

ライセンス: Link先を確認
Claudia Ehrig, Catherine Cleophas, Germain Forestier, (参考訳) 類似あるいは多様なソースデータセット上で事前学習されたモデルは、転送学習を活用することで、ターゲットデータセット上での時系列予測の効率性と精度を高める上で重要なものとなっている。 ベンチマークでは、様々な対象データセット上でのモデル一般化の性能を検証しているが、ソースとターゲットデータの特徴がどの学習の成功に繋がるかを説明する類似性や多様性の指標を提供する構造化された研究は存在しない。 本研究の先駆者は,精度,バイアス,不確実性評価の観点から,ソースターゲットの類似性とソース多様性がゼロショットおよび微調整による予測結果に与える影響を体系的に評価する。 本研究では,5つのオープンソースデータセットを対象としたトレーニング済みニューラルネットワークを用いて,実世界全体データを含む5つのターゲットデータセットの予測に適用した。 ソースターゲットの類似度は予測精度を高め、バイアスを低減する一方、ソースの多様性は予測精度と不確実性評価を高め、バイアスを増加させる。

Models, pre-trained on a similar or diverse source data set, have become pivotal in enhancing the efficiency and accuracy of time series forecasting on target data sets by leveraging transfer learning. While benchmarks validate the performance of model generalization on various target data sets, there is no structured research providing similarity and diversity measures explaining which characteristics of source and target data lead to transfer learning success. Our study pioneers in systematically evaluating the impact of source-target similarity and source diversity on zero-shot and fine-tuned forecasting outcomes in terms of accuracy, bias, and uncertainty estimation. We investigate these dynamics using pre-trained neural networks across five public source datasets, applied in forecasting five target data sets, including real-world wholesales data. We identify two feature-based similarity and diversity measures showing: Source-target similarity enhances forecasting accuracy and reduces bias, while source diversity enhances forecasting accuracy and uncertainty estimation and increases the bias.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 二次元レーザー場を持つキラル分子の強電界イオン化 : サブバリアダイナミクス、干渉、渦

Strong-field ionization of chiral molecules with bicircular laser fields : sub-barrier dynamics, interference, and vortices ( http://arxiv.org/abs/2404.06199v1 )

ライセンス: Link先を確認
Samuel Beaulieu, Sylvain Larroque, Dominique Descamps, Baptiste Fabre, Stéphane Petit, Richard Taïeb, Bernard Pons, Yann Mairesse, (参考訳) 反回転二色レーザー場による強電界電離は、レーザー場振動の前縁と後縁に放出される光電子間の量子干渉を生成する。 キラル分子では、この干渉は光伝播方向に沿って非対称であり、分子のキラル性に対するアトータイムスキームの感度を強く向上させる。 短距離カイラルポテンシャルを持つトイモデル分子の計算により、トンネルの出口でこの高感度が既に出現していることが示されている。 トンネル工法におけるキラル感度の発生源について検討し, キラル応答において電子渦間の干渉が重要な役割を担っていることを明らかにする。

Strong-field ionization by counter-rotating two-color laser fields produces quantum interference between photoelectrons emitted on the leading and trailing edges of the laser field oscillations. We show that in chiral molecules, this interference is asymmetric along the light propagation direction and strongly enhances the sensitivity of the attoclock scheme to molecular chirality. Calculations in a toy-model molecule with a short-range chiral potential show that this enhanced sensitivity already emerges at the exit of the tunnel. We investigate the possible sources of chiral sensitivity in the tunneling process, and find that the interference between electron vortices plays a crucial role in the chiral response.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 局所ガウス過程近似のさらなる理解:有限レジームにおける収束の特徴

Further Understanding of a Local Gaussian Process Approximation: Characterising Convergence in the Finite Regime ( http://arxiv.org/abs/2404.06200v1 )

ライセンス: Link先を確認
Anthony Stephenson, Robert Allison, Edward Pyzer-Knapp, (参考訳) 我々は,高度に正確かつ大規模に拡張可能な近接場に基づくGP回帰モデル (GPnn: \cite{GPnn}) に対するカーネル関数の共通選択が,データセットサイズ$n$の増加とともに漸近的行動への漸近的収束を示すことを示した。 Mat\'{e}rn や squared-exponential のような等方的核に対して、予測的 MSE 上の上限は$O(n^{-\frac{p}{d}})$ for input dimension $d$, $p$ dictated by the kernel (and $d>p$) and fixed number of Near-neighbours $m$ with minimal assumptions on the input distribution。 同様の境界はモデルの不特定の下で見出され、MSEと重要な校正計量の総合的な収束率を与えるために組み合わせられる。 m$, $l$, $p$, $d$, a tolerance $\varepsilon$ および a probability $\delta$ の観点から、$n$ の下位境界が与えられることを示す。 m$ が $O(n^{\frac{p}{p+d}})$ minimax となるとき、収束の最適速度が得られる。 最後に、経験的性能を示し、多くの場合、上界よりも収束が速いことを示す。

We show that common choices of kernel functions for a highly accurate and massively scalable nearest-neighbour based GP regression model (GPnn: \cite{GPnn}) exhibit gradual convergence to asymptotic behaviour as dataset-size $n$ increases. For isotropic kernels such as Mat\'{e}rn and squared-exponential, an upper bound on the predictive MSE can be obtained as $O(n^{-\frac{p}{d}})$ for input dimension $d$, $p$ dictated by the kernel (and $d>p$) and fixed number of nearest-neighbours $m$ with minimal assumptions on the input distribution. Similar bounds can be found under model misspecification and combined to give overall rates of convergence of both MSE and an important calibration metric. We show that lower bounds on $n$ can be given in terms of $m$, $l$, $p$, $d$, a tolerance $\varepsilon$ and a probability $\delta$. When $m$ is chosen to be $O(n^{\frac{p}{p+d}})$ minimax optimal rates of convergence are attained. Finally, we demonstrate empirical performance and show that in many cases convergence occurs faster than the upper bounds given here.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# オープンソースAIベースのSEツール:コラボレーション型ソフトウェア学習の可能性と課題

Open-Source AI-based SE Tools: Opportunities and Challenges of Collaborative Software Learning ( http://arxiv.org/abs/2404.06201v1 )

ライセンス: Link先を確認
Zhihao Lin, Wei Ma, Tao Lin, Yaowen Zheng, Jingquan Ge, Jun Wang, Jacques Klein, Tegawende Bissyande, Yang Liu, Li Li, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学(SE)タスクの進歩に役立ち、コード理解やその他の分野での有効性を示している。 従来のSEツールと同様に、優れた製品を実現する上で、オープンソースのコラボレーションが重要なのです。 しかし、AIモデルでは、データに必要不可欠である。 これらのAIベースのSEモデルのコラボレーションは、高品質なデータソースの最大化に重点を置いている。 しかし、特に高品質のデータは、しばしば商業的または機密性の高い価値を持ち、オープンソースAIベースのSEプロジェクトではアクセスできない。 この現実は、ソフトウェアエンジニアリングコミュニティ内でAIベースのSEツールの開発と強化に重大な障壁をもたらします。 したがって、研究者は、オープンソースAIベースのSEモデルがさまざまな組織によってリソースにアクセスできるようにするためのソリューションを見つける必要がある。 この課題に対処するために、我々のポジションペーパーは、オープンソースのAIモデルのための多様な組織リソースへのアクセスを容易にし、プライバシと商業的感受性を尊重する一つのソリューションを調査する。 我々は、データプライバシとセキュリティを保護しつつ、オープンソースのAIコードモデルの共同開発とメンテナンスを促進するために設計された、フェデレートラーニング(FL)を中心としたガバナンスフレームワークを紹介します。 さらに、AIベースのSEツールコラボレーション、データ要件、モデルアーキテクチャ、アップデート戦略、バージョン管理に関するガイドラインも提示します。 本研究は,データ特性がFLに与える影響を考慮し,FLの性能に及ぼすコードデータの不均一性の影響について検討する。

Large Language Models (LLMs) have become instrumental in advancing software engineering (SE) tasks, showcasing their efficacy in code understanding and beyond. Like traditional SE tools, open-source collaboration is key in realising the excellent products. However, with AI models, the essential need is in data. The collaboration of these AI-based SE models hinges on maximising the sources of high-quality data. However, data especially of high quality, often holds commercial or sensitive value, making it less accessible for open-source AI-based SE projects. This reality presents a significant barrier to the development and enhancement of AI-based SE tools within the software engineering community. Therefore, researchers need to find solutions for enabling open-source AI-based SE models to tap into resources by different organisations. Addressing this challenge, our position paper investigates one solution to facilitate access to diverse organizational resources for open-source AI models, ensuring privacy and commercial sensitivities are respected. We introduce a governance framework centered on federated learning (FL), designed to foster the joint development and maintenance of open-source AI code models while safeguarding data privacy and security. Additionally, we present guidelines for developers on AI-based SE tool collaboration, covering data requirements, model architecture, updating strategies, and version control. Given the significant influence of data characteristics on FL, our research examines the effect of code data heterogeneity on FL performance.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# 都市地図の自動抽出

Automated National Urban Map Extraction ( http://arxiv.org/abs/2404.06202v1 )

ライセンス: Link先を確認
Hasan Nasrallah, Abed Ellatif Samhat, Cristiano Nattero, Ali J. Ghandour, (参考訳) 発展途上国は通常、国家の屋上地図を作成し、定期的に更新する適切な統治手段を欠いている。 連邦レベルで建物マップを作成するのに、従来のフォトグラムと測量法を使うことは、費用と時間を要する。 地球観測と深層学習の手法により,このギャップを埋めることができ,そのような都市地図を収集する自動パイプラインを提案する。 本稿では,多層建物のインスタンスセグメンテーションのための完全畳み込みニューラルネットワークのパワーを活用して,高いオブジェクトワイド精度を実現することを目的とする。 サブメートル高解像度衛星画像からの建物のインスタンスセグメンテーションは、比較的高いピクセル単位のメートル法スコアで達成できる。 我々は、この作業を再現し、グローバル・サウスの適切な都市計画を欠いた地域で目撃された密集したスラム地帯で、非常に正確な結果を得るためのすべてのエンジニアリング手順を詳述する。 提案したパイプラインのケーススタディをレバノンに適用し,約100万ユニットの総面積を84%の精度で達成した。 提案したアーキテクチャは、発展途上国でよく見られるデータセットの不足を克服するために、高度な拡張技術に依存している。

Developing countries usually lack the proper governance means to generate and regularly update a national rooftop map. Using traditional photogrammetry and surveying methods to produce a building map at the federal level is costly and time consuming. Using earth observation and deep learning methods, we can bridge this gap and propose an automated pipeline to fetch such national urban maps. This paper aims to exploit the power of fully convolutional neural networks for multi-class buildings' instance segmentation to leverage high object-wise accuracy results. Buildings' instance segmentation from sub-meter high-resolution satellite images can be achieved with relatively high pixel-wise metric scores. We detail all engineering steps to replicate this work and ensure highly accurate results in dense and slum areas witnessed in regions that lack proper urban planning in the Global South. We applied a case study of the proposed pipeline to Lebanon and successfully produced the first comprehensive national building footprint map with approximately 1 Million units with an 84% accuracy. The proposed architecture relies on advanced augmentation techniques to overcome dataset scarcity, which is often the case in developing countries.
翻訳日:2024-04-10 15:09:49 公開日:2024-04-09
# ストリーム処理フレームワークにおける異常回復の総合ベンチマーク解析

A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks ( http://arxiv.org/abs/2404.06203v1 )

ライセンス: Link先を確認
Adriano Vogel, Sören Henning, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser, (参考訳) 現在、いくつかのソフトウェアシステムは、スケーラブルなパフォーマンスを提供し、ほぼリアルタイムで大量のデータを処理するために、ストリーム処理アーキテクチャに依存している。 ストリーム処理フレームワークは、アプリケーションの実行を複数のマシンに分散することで、スケーラブルなコンピューティングを容易にする。 性能は広く研究されているが、ストリーム処理フレームワークが提供する耐障害性は重要な特徴であり、最も魅力的な特徴であり、更新された総合的なテストベッドでは適切に測定されていない。 さらに、障害復旧がパフォーマンスに与える影響はほとんど無視されます。 本稿では、Flink、Kafka Streams、Spark Structured Streamingといった最新のオープンソースフレームワークを備えたクラウドネイティブ環境での障害復旧性能、安定性、回復時間に関する包括的な分析を提供する。 私たちのベンチマーク分析は、カオスエンジニアリングにインスパイアされて、障害を注入しています。 以上の結果から,従来の分散ストリーム処理における障害回復研究と比較して,大きな変化が見られた。 特に、Flinkは失敗時に最も速く、最も安定していることを示している。 さらに、Kafka Streamsは障害後のパフォーマンスの不安定さを示している。 Spark Structured Streamingは、適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシが高い。 私たちの研究は i)データ集約型アプリケーションの効率的かつ信頼性の高い実行に最適なストリーム処理フレームワークを選択することを支援する。 二 研究者が研究方法及びベンチマークの適用及び拡張を支援すること。 3)本番デプロイメントにおける潜在的な問題の特定、防止、支援。

Nowadays, several software systems rely on stream processing architectures to deliver scalable performance and handle large volumes of data in near real time. Stream processing frameworks facilitate scalable computing by distributing the application's execution across multiple machines. Despite performance being extensively studied, the measurement of fault tolerance-a key and most appealing feature offered by stream processing frameworks-has still not been measured properly with updated and comprehensive testbeds. Moreover, the impact that fault recovery can have on performance is mostly ignored. This paper provides a comprehensive analysis of fault recovery performance, stability, and recovery time in a cloud-native environment with modern open-source frameworks, namely Flink, Kafka Streams, and Spark Structured Streaming. Our benchmarking analysis is inspired by chaos engineering to inject failures. Generally, our results indicate that much has changed compared to previous studies on fault recovery in distributed stream processing. In particular, the results indicate that Flink can be the fastest and stablest under failures. Moreover, Kafka Streams shows performance instabilities after failures, which is due to its current repartitioning strategy that can be suboptimal in terms of load balancing. Spark Structured Streaming shows suitable fault recovery performance and stability, but with higher event latency. Our study intends to (i) help industry practitioners in choosing the most suitable stream processing framework for efficient and reliable executions of data-intensive applications; (ii) support researchers in applying and extending our research method as well as our benchmark; (iii) identify, prevent, and assist in solving potential issues in production deployments.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 適応サンプリングによるコミッタ関数の深層学習法

Deep Learning Method for Computing Committor Functions with Adaptive Sampling ( http://arxiv.org/abs/2404.06206v1 )

ライセンス: Link先を確認
Bo Lin, Weiqing Ren, (参考訳) コミッタ関数は、力学系の準安定状態間の遷移を定量化する中心的なオブジェクトである。 近年,高次元コミッタ関数の計算のために,ディープニューラルネットワークに基づく計算手法が開発されている。 この手法の成功は、遷移のための適切なデータを収集することに依存しており、これは依然として低温の複雑なシステムにとって難しい課題である。 本研究では,2つの新しい適応型サンプリング手法(I,II)を用いたディープラーニング手法を提案する。 この2つのスキームでは、学習したコミッタ関数からバイアスポテンシャルが構築された修正電位でデータを積極的に生成する。 我々は,サンプリング方式の利点を理論的に実証し,サンプリング方式IIのデータが遷移管に沿って均一に分散されていることを示す。 これは複雑なシステムの遷移を研究するための有望な方法である。 アラニンジペプチドおよび溶存二量体系を含む高次元系において、その効率を図示する。

The committor function is a central object for quantifying the transitions between metastable states of dynamical systems. Recently, a number of computational methods based on deep neural networks have been developed for computing the high-dimensional committor function. The success of the methods relies on sampling adequate data for the transition, which still is a challenging task for complex systems at low temperatures. In this work, we propose a deep learning method with two novel adaptive sampling schemes (I and II). In the two schemes, the data are generated actively with a modified potential where the bias potential is constructed from the learned committor function. We theoretically demonstrate the advantages of the sampling schemes and show that the data in sampling scheme II are uniformly distributed along the transition tube. This makes a promising method for studying the transition of complex systems. The efficiency of the method is illustrated in high-dimensional systems including the alanine dipeptide and a solvated dimer system.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# UAVローカライゼーションのためのエッジ検出とニューラルネットワークの活用

Leveraging edge detection and neural networks for better UAV localization ( http://arxiv.org/abs/2404.06207v1 )

ライセンス: Link先を確認
Theo Di Piazza, Enric Meinhardt-Llopis, Gabriele Facciolo, Benedicte Bascle, Corentin Abgrall, Jean-Clement Devaux, (参考訳) グローバルナビゲーション衛星システム(GNSS)を欠いた環境下で無人航空機(UAV)をジオローカライズするための新しい手法を提案する。 現在の最先端技術では、オフラインで訓練されたエンコーダを使用して、UAVの現在のビューのベクトル表現(埋め込み)を生成し、それと、Geo-Referencedイメージの事前計算による埋め込みを比較して、UAVの位置を決定する。 そこで本研究では,画像の前処理によるエッジ抽出により,季節や照明の変動に対するロバスト性を示すことにより,これらの手法の性能を著しく向上できることを実証する。 さらに,エッジの利用により,方向と高度の不正確さに対するレジリエンスが向上することが確認された。 さらに,ローカライゼーションのための信頼性基準を導入する。 我々の発見は合成実験によって裏付けられている。

We propose a novel method for geolocalizing Unmanned Aerial Vehicles (UAVs) in environments lacking Global Navigation Satellite Systems (GNSS). Current state-of-the-art techniques employ an offline-trained encoder to generate a vector representation (embedding) of the UAV's current view, which is then compared with pre-computed embeddings of geo-referenced images to determine the UAV's position. Here, we demonstrate that the performance of these methods can be significantly enhanced by preprocessing the images to extract their edges, which exhibit robustness to seasonal and illumination variations. Furthermore, we establish that utilizing edges enhances resilience to orientation and altitude inaccuracies. Additionally, we introduce a confidence criterion for localization. Our findings are substantiated through synthetic experiments.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# Elephants Never Forget:大規模言語モデルにおける語彙データの記憶と学習

Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models ( http://arxiv.org/abs/2404.06209v1 )

ライセンス: Link先を確認
Sebastian Bordt, Harsha Nori, Vanessa Rodrigues, Besmira Nushi, Rich Caruana, (参考訳) 大規模言語モデル(LLM)が様々なタスクにどのように適用できるかを示すものが多いが、データ汚染と記憶の重大な問題は、しばしば誇張されている。 本稿では,この問題に対処する。 具体的には、トレーニング中に言語モデルが表のデータセットを見たかどうかを評価するために、さまざまなテクニックを紹介します。 この調査は、LLMが多くの人気のある表のデータセットを冗長に記憶していることを示している。 次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。 LLMはトレーニング中に見られるデータセットよりも優れており、記憶が過度に適合することを示している。 同時に、LLMは、新しいデータセットで非自明なパフォーマンスを示し、驚くほどデータ変換に堅牢である。 次に,LLMの文脈内統計的学習能力について検討する。 微調整なしでは、それらに制限がある。 これは、新しいデータセットにおける数ショットのパフォーマンスの大部分は、LLMの世界的知識によるものであることを示唆している。 本研究の結果は,LLMが事前学習中に評価データセットを見たかどうかをテストすることの重要性を強調した。 われわれが開発した露出テストは、https://github.com/interpretml/LLM-Tabular-Memorization-CheckerにあるTabmemcheck Pythonパッケージで利用可能です。

While many have shown how Large Language Models (LLMs) can be applied to a diverse set of tasks, the critical issues of data contamination and memorization are often glossed over. In this work, we address this concern for tabular data. Specifically, we introduce a variety of different techniques to assess whether a language model has seen a tabular dataset during training. This investigation reveals that LLMs have memorized many popular tabular datasets verbatim. We then compare the few-shot learning performance of LLMs on datasets that were seen during training to the performance on datasets released after training. We find that LLMs perform better on datasets seen during training, indicating that memorization leads to overfitting. At the same time, LLMs show non-trivial performance on novel datasets and are surprisingly robust to data transformations. We then investigate the in-context statistical learning abilities of LLMs. Without fine-tuning, we find them to be limited. This suggests that much of the few-shot performance on novel datasets is due to the LLM's world knowledge. Overall, our results highlight the importance of testing whether an LLM has seen an evaluation dataset during pre-training. We make the exposure tests we developed available as the tabmemcheck Python package at https://github.com/interpretml/LLM-Tabular-Memorization-Checker
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 量子状態のコヒーレンスと想像性

Coherence and imaginarity of quantum states ( http://arxiv.org/abs/2404.06210v1 )

ライセンス: Link先を確認
Jianwei Xu, (参考訳) Baumgratz, Cramer, Plenioは、[\href{http://dx.doi.org/10.1103/PhysRevLett.113.140401}{Phys]のコヒーレンスを定量化する厳密なフレームワーク(BCP framework)を確立した。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ 113, 140401 (2014)}。 BCP フレームワークでは、量子状態が不整合(incoherent)と呼ばれるのは、それが固定正則基底において対角的である場合であり、コヒーレンス測度はいくつかの条件を満たすべきである。 固定正則基底に対して、量子状態 $\rho $ が 0 でない虚部を持つなら、$\rho $ はコヒーレントでなければならない。 この事実を定量的に特徴づけるには? この研究において、BCP フレームワークにおける任意のコヒーレンス測度 $C$ は、$C(\rho )-C($Re$\rho )\geq 0$ if $C$ が状態複素共役の下で不変であること、すなわち$C(\rho )=C(\rho ^{\ast })$, ここで $\rho ^{\ast }$ は $\rho の共役であり、$Re$\rho $ は $\rho の実部分であることを示す。 もし$C$が$C(\rho )=C(\rho ^{\ast })を満たさないなら、$C^{\prime }(\rho )=\frac{1}{2}[C(\rho )+C(\rho ^{\ast })]$を$C^{\prime }(\rho )=C^{\prime }(\rho ^{\ast })と定義できる。 さらに、ボソニックなガウス状態についても同様の結果が得られます。

Baumgratz, Cramer and Plenio established a rigorous framework (BCP framework) for quantifying the coherence of quantum states [\href{http://dx.doi.org/10.1103/PhysRevLett.113.140401}{Phys. Rev. Lett. 113, 140401 (2014)}]. In BCP framework, a quantum state is called incoherent if it is diagonal in the fixed orthonormal basis, and a coherence measure should satisfy some conditions. For a fixed orthonormal basis, if a quantum state $\rho $ has nonzero imaginary part, then $\rho $ must be coherent. How to quantitatively characterize this fact? In this work, we show that any coherence measure $C$ in BCP framework has the property $C(\rho )-C($Re$\rho )\geq 0$ if $C$ is invariant under state complex conjugation, i.e., $C(\rho )=C(\rho ^{\ast })$, here $\rho ^{\ast }$ is the conjugate of $\rho ,$ Re$\rho $ is the real part of $\rho .$ If $C$ does not satisfy $C(\rho )=C(\rho ^{\ast }),$ we can define a new coherence measure $C^{\prime }(\rho )=\frac{1}{2}[C(\rho )+C(\rho ^{\ast })]$ such that $C^{\prime }(\rho )=C^{\prime }(\rho ^{\ast }).$ We also establish some similar results for bosonic Gaussian states.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 統一物理デジタル攻撃検出チャレンジ

Unified Physical-Digital Attack Detection Challenge ( http://arxiv.org/abs/2404.06211v1 )

ライセンス: Link先を確認
Haocheng Yuan, Ajian Liu, Junze Zheng, Jun Wan, Jiankang Deng, Sergio Escalera, Hugo Jair Escalante, Isabelle Guyon, Zhen Lei, (参考訳) Face Anti-Spoofing (FAS) は、顔認識(FR)システムを保護するために重要である。 現実のシナリオでは、FRは物理的攻撃とデジタル攻撃の両方に直面します。 しかし、既存のアルゴリズムは一度に1つのタイプの攻撃にのみ対処することが多く、FRシステムがハイブリッドな物理デジタル脅威に直面している現実のシナリオでは大きな制限が生じる。 統一攻撃検出(UAD)アルゴリズムの研究を容易にするため、大規模なUniAttackDataデータセットが収集された。 UniAttackDataは、Unified Detectionの最大の公開データセットであり、合計28,706本のビデオがあり、それぞれが高度な攻撃タイプをすべて含む。 このデータセットに基づいて、統一的攻撃検出の研究を促進するために、統一的物理デジタル顔検出チャレンジを組織した。 開発段階では136チームが参加し、最終ラウンドでは13チームが出場した。 組織チームによって再検証された結果は、最終ランキングに使用された。 本稿では,データセットの導入,プロトコル定義,評価基準,公開結果の概要などを概説する。 最後に,性能の高いアルゴリズムの詳細な解析に焦点をあて,この競合にインスパイアされた物理デジタル攻撃検出のための潜在的な方向を提供する。 Challenge Webサイト: https://sites.google.com/view/face-anti-spoofing-challenge/welcome/challengecvpr2024

Face Anti-Spoofing (FAS) is crucial to safeguard Face Recognition (FR) Systems. In real-world scenarios, FRs are confronted with both physical and digital attacks. However, existing algorithms often address only one type of attack at a time, which poses significant limitations in real-world scenarios where FR systems face hybrid physical-digital threats. To facilitate the research of Unified Attack Detection (UAD) algorithms, a large-scale UniAttackData dataset has been collected. UniAttackData is the largest public dataset for Unified Attack Detection, with a total of 28,706 videos, where each unique identity encompasses all advanced attack types. Based on this dataset, we organized a Unified Physical-Digital Face Attack Detection Challenge to boost the research in Unified Attack Detections. It attracted 136 teams for the development phase, with 13 qualifying for the final round. The results re-verified by the organizing team were used for the final ranking. This paper comprehensively reviews the challenge, detailing the dataset introduction, protocol definition, evaluation criteria, and a summary of published results. Finally, we focus on the detailed analysis of the highest-performing algorithms and offer potential directions for unified physical-digital attack detection inspired by this competition. Challenge Website: https://sites.google.com/view/face-anti-spoofing-challenge/welcome/challengecvpr2024.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# オムニフュージョン技術報告

OmniFusion Technical Report ( http://arxiv.org/abs/2404.06212v1 )

ライセンス: Link先を確認
Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, Maxim Kurkin, Irina Abdullaeva, Matvey Skripkin, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov, (参考訳) 昨年、マルチモーダルアーキテクチャはAIベースのアプローチとソリューションに革命をもたらし、大規模言語モデル(LLM)の機能を拡張した。 本稿では,事前学習されたLCMと視覚的モダリティのためのアダプタをベースとした「textit{OmniFusion}」モデルを提案する。 MLPとトランスフォーマーアダプタ、様々なCLIP ViTベースのエンコーダ(SigLIP、InternVITなど)、その融合手法、画像符号化手法(全画像またはタイル符号化)、および2つの7B LLM(プロプライエタリでオープンソースのMistral)を比較検討した。 8つのビジュアル言語ベンチマークの実験では、VizWiz、Pop、MM-Vet、ScienceQA、MMBench、TextVQA、VQAv2、MMMUといったオープンソースのLLaVAライクなソリューションと比較して、さまざまなVQAタスクの観点から、最高のOmniFusionセットアップのスコアが示されている。 また, OmniFusionは, 住宅管理, 観光, 文化, 医学, 手書き, スキャンされた方程式認識など, さまざまな領域で, 詳細な回答を提供する。 MistralベースのOmniFusionモデルは、https://github.com/AIRI-Institute/OmniFusion.comで利用可能な重み、トレーニング、推論スクリプトを備えたオープンソースのソリューションである。

Last year, multimodal architectures served up a revolution in AI-based approaches and solutions, extending the capabilities of large language models (LLM). We propose an \textit{OmniFusion} model based on a pretrained LLM and adapters for visual modality. We evaluated and compared several architecture design principles for better text and visual data coupling: MLP and transformer adapters, various CLIP ViT-based encoders (SigLIP, InternVIT, etc.), and their fusing approach, image encoding method (whole image or tiles encoding) and two 7B LLMs (the proprietary one and open-source Mistral). Experiments on 8 visual-language benchmarks show the top score for the best OmniFusion setup in terms of different VQA tasks in comparison with open-source LLaVA-like solutions: VizWiz, Pope, MM-Vet, ScienceQA, MMBench, TextVQA, VQAv2, MMMU. We also propose a variety of situations, where OmniFusion provides highly-detailed answers in different domains: housekeeping, sightseeing, culture, medicine, handwritten and scanned equations recognition, etc. Mistral-based OmniFusion model is an open-source solution with weights, training and inference scripts available at https://github.com/AIRI-Institute/OmniFusion.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 論文要旨]第2回BabyLMチャレンジ:発達可能コーパスにおけるサンプル効率事前学習

[Call for Papers] The 2nd BabyLM Challenge: Sample-efficient pretraining on a developmentally plausible corpus ( http://arxiv.org/abs/2404.06214v1 )

ライセンス: Link先を確認
Leshem Choshen, Ryan Cotterell, Michael Y. Hu, Tal Linzen, Aaron Mueller, Candace Ross, Alex Warstadt, Ethan Wilcox, Adina Williams, Chengxu Zhuang, (参考訳) 昨年のBabyLM Challengeの成功の後、2024/2025年に再び開催されます。 挑戦の全体的目標は同じだが、いくつかの競争ルールは異なる。 まず、緩やかなトラックをペーパートラックに置き換えて、(例えば)モデルベースでない投稿、新しい認知にインスパイアされたベンチマーク、分析テクニックを可能にします。 第2に、データの事前トレーニングに関するルールを緩和し、参加者が100Mワードまたは10Mワードの予算内に留まるならば、独自のデータセットを構築することが可能になります。 第3に、マルチモーダル・ヴィジュアル・アンド・ランゲージ・トラックを導入し、LMモデルトレーニングの出発点として、50%のテキストのみと50%の画像テキスト・マルチモーダルデータからなるコーパスをリリースする。 このCfPの目的は、今年のチャレンジのルールを提供し、これらのルールの変更とその理論的根拠をより詳細に説明し、今年の競争のタイムラインを提供し、昨年のチャレンジからの質問に対する回答を提供することである。

After last year's successful BabyLM Challenge, the competition will be hosted again in 2024/2025. The overarching goals of the challenge remain the same; however, some of the competition rules will be different. The big changes for this year's competition are as follows: First, we replace the loose track with a paper track, which allows (for example) non-model-based submissions, novel cognitively-inspired benchmarks, or analysis techniques. Second, we are relaxing the rules around pretraining data, and will now allow participants to construct their own datasets provided they stay within the 100M-word or 10M-word budget. Third, we introduce a multimodal vision-and-language track, and will release a corpus of 50% text-only and 50% image-text multimodal data as a starting point for LM model training. The purpose of this CfP is to provide rules for this year's challenge, explain these rule changes and their rationale in greater detail, give a timeline of this year's competition, and provide answers to frequently asked questions from last year's challenge.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 広汎眼球追跡におけるプライバシ保存型スキャンパスの比較

Privacy-preserving Scanpath Comparison for Pervasive Eye Tracking ( http://arxiv.org/abs/2404.06216v1 )

ライセンス: Link先を確認
Suleyman Ozdel, Efe Bozkir, Enkelejda Kasneci, (参考訳) 視線追跡が画面ベースのデバイスやヘッドマウントディスプレイで普及するにつれ、視線追跡データに関するプライバシー上の懸念が高まっている。 プライバシー保護眼球追跡の最先端のアプローチは、主に差分プライバシーと経験的データ操作を含むが、これまでの研究はスキャンパスの方法に重点を置いていなかった。 本稿では,編集距離アルゴリズムの一般化版であるニードルマン・ウンシュアルゴリズムのために設計された,新しいプライバシ保存型スキャンパス比較プロトコルを提案する。 特に、Paillier準同型暗号方式を組み込むことで、プライベート情報が明らかにされることが保証される。 さらに,ランダムな処理戦略と多層マスキング手法を導入し,本来の編集作業コストの順序を保ちながら,値の難読化を図る。 これにより通信オーバーヘッドを最小限に抑え、ニードルマン・ウンシュプロセスの各イテレーションに1回の通信ラウンドを必要とする。 計算性能解析を網羅した3つの公開データセット上で,我々のプロトコルの効率性と適用性を実証し,ソースコードを一般公開する。

As eye tracking becomes pervasive with screen-based devices and head-mounted displays, privacy concerns regarding eye-tracking data have escalated. While state-of-the-art approaches for privacy-preserving eye tracking mostly involve differential privacy and empirical data manipulations, previous research has not focused on methods for scanpaths. We introduce a novel privacy-preserving scanpath comparison protocol designed for the widely used Needleman-Wunsch algorithm, a generalized version of the edit distance algorithm. Particularly, by incorporating the Paillier homomorphic encryption scheme, our protocol ensures that no private information is revealed. Furthermore, we introduce a random processing strategy and a multi-layered masking method to obfuscate the values while preserving the original order of encrypted editing operation costs. This minimizes communication overhead, requiring a single communication round for each iteration of the Needleman-Wunsch process. We demonstrate the efficiency and applicability of our protocol on three publicly available datasets with comprehensive computational performance analyses and make our source code publicly accessible.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# VI-OOD: テキスト・アウト・オブ・ディストリビューション検出のための統一表現学習フレームワーク

VI-OOD: A Unified Representation Learning Framework for Textual Out-of-distribution Detection ( http://arxiv.org/abs/2404.06217v1 )

ライセンス: Link先を確認
Li-Ming Zhan, Bo Liu, Xiao-Ming Wu, (参考訳) オフ・オブ・ディストリビューション(OOD)検出は、さまざまなアプリケーションにおけるディープニューラルネットワークの安全性と信頼性を保証する上で重要な役割を果たす。 視覚データにおけるOOD検出に注目が集まっているが、テキストによるOOD検出の分野は、あまり注目されていない。 テキストデータの特徴を適切に考慮することなく、自然言語処理(NLP)タスクに一般的なOOD検出法を直接適用する試みは、ほんの数回しか行われていない。 本稿では,変換器を用いたテキストOOD検出について検討する。 我々はまず,既存のOOD検出手法でよく見られる重要な問題,すなわち条件付き可能性$p(y\mid)の最大化によって学習された偏り表現を同定する。 x)$は、サブパーパフォーマンスをもたらす可能性がある。 次に,OOD検出のための新しい変分推論フレームワーク(VI-OOD)を提案する。 y)$$p(y\mid)の代わりに x)$。 VI-OODは、事前訓練されたトランスフォーマーの表現を効率的に活用することにより、テキストOOD検出用に調整されている。 テキスト分類タスクの総合的な実験を通じて、VI-OODはその有効性と幅広い適用性を示す。 我々のコードは \url{https://github.com/liam0949/LLM-OOD} でリリースされた。

Out-of-distribution (OOD) detection plays a crucial role in ensuring the safety and reliability of deep neural networks in various applications. While there has been a growing focus on OOD detection in visual data, the field of textual OOD detection has received less attention. Only a few attempts have been made to directly apply general OOD detection methods to natural language processing (NLP) tasks, without adequately considering the characteristics of textual data. In this paper, we delve into textual OOD detection with Transformers. We first identify a key problem prevalent in existing OOD detection methods: the biased representation learned through the maximization of the conditional likelihood $p(y\mid x)$ can potentially result in subpar performance. We then propose a novel variational inference framework for OOD detection (VI-OOD), which maximizes the likelihood of the joint distribution $p(x, y)$ instead of $p(y\mid x)$. VI-OOD is tailored for textual OOD detection by efficiently exploiting the representations of pre-trained Transformers. Through comprehensive experiments on various text classification tasks, VI-OOD demonstrates its effectiveness and wide applicability. Our code has been released at \url{https://github.com/liam0949/LLM-OOD}.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 量子回路$C^*$-代数ネット

Quantum Circuit $C^*$-algebra Net ( http://arxiv.org/abs/2404.06218v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Ryuichiro Hataya, (参考訳) 本稿では、古典的な機械学習と量子回路で提案される$C^*$-algebra net間の接続を提供する量子回路$C^*$-algebra netを紹介する。 複素数の空間の一般化である$C^*$-algebraを用いて、ニューラルネットワークの重みパラメータとして量子ゲートを表現できる。 追加パラメータを導入することで、量子ゲートによって構築された複数の回路間の相互作用を誘導することができる。 この相互作用により、回路は情報を共有することができ、機械学習タスクにおける一般化性能の向上に寄与する。 応用として、量子回路$C^*$-algebra netを用いて古典的なデータを量子状態にエンコードし、古典的なデータを量子アルゴリズムに統合することを提案する。 数値計算の結果,回路間の相互作用により画像分類の性能は著しく向上し,量子回路$C^*$-algebra ネットによる符号化は,下流の量子機械学習タスクに有用であることがわかった。

This paper introduces quantum circuit $C^*$-algebra net, which provides a connection between $C^*$-algebra nets proposed in classical machine learning and quantum circuits. Using $C^*$-algebra, a generalization of the space of complex numbers, we can represent quantum gates as weight parameters of a neural network. By introducing additional parameters, we can induce interaction among multiple circuits constructed by quantum gates. This interaction enables the circuits to share information among them, which contributes to improved generalization performance in machine learning tasks. As an application, we propose to use the quantum circuit $C^*$-algebra net to encode classical data into quantum states, which enables us to integrate classical data into quantum algorithms. Numerical results demonstrate that the interaction among circuits improves performance significantly in image classification, and encoded data by the quantum circuit $C^*$-algebra net are useful for downstream quantum machine learning tasks.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 深層学習型物体検出器を用いた下水道網の欠陥自動検出

Automatic Defect Detection in Sewer Network Using Deep Learning Based Object Detector ( http://arxiv.org/abs/2404.06219v1 )

ライセンス: Link先を確認
Bach Ha, Birgit Schalter, Laura White, Joachim Koehler, (参考訳) 大都市における下水道システムの維持は重要であるが、現在、視覚検査が手作業で行われているため、時間と労力がかかる。 上記の手作業の量を減らすため、下水道管内の欠陥を自動的に見つけて分類する必要がある。 これまでは、古典的な画像処理や機械学習、あるいはそれらの組み合わせを使って、この問題を解決してきた研究がいくつかあった。 しかし、提供された各ソリューションは、フィジャー、ルート、および/または接続のような、限定された欠陥/構造タイプの検出のみに焦点を当てている。 さらに、手作りの特徴と小さなトレーニングデータセットの使用により、一般化も問題となる。 これらの欠点を克服するために、様々な下水道管14.7kmの巨大なデータセットが、この作業の範囲内で下水道保守の専門家によって注釈付けされた。 その上、オブジェクト検出器(EfficientDet-D0)が自動欠陥検出のために訓練された。 いくつかのエクセレミタンスの結果から,アノテーションやトレーニングプロセスに大きな影響を及ぼすオブジェクト検出の文脈における欠陥の特異な性質を発見し,議論した。 結局、最終検出器はテストセットの83%の欠陥を検出することができ、17%の欠陥のうち、非常に深刻な欠陥はわずか0.77%であった。 この研究は、ディープラーニングに基づくオブジェクト検出を、重要だが静かなエンジニアリング分野に適用する例を提供する。 また、欠陥のような特異な"オブジェクト"に注釈を付けるための実践的なポインタも提供します。

Maintaining sewer systems in large cities is important, but also time and effort consuming, because visual inspections are currently done manually. To reduce the amount of aforementioned manual work, defects within sewer pipes should be located and classified automatically. In the past, multiple works have attempted solving this problem using classical image processing, machine learning, or a combination of those. However, each provided solution only focus on detecting a limited set of defect/structure types, such as fissure, root, and/or connection. Furthermore, due to the use of hand-crafted features and small training datasets, generalization is also problematic. In order to overcome these deficits, a sizable dataset with 14.7 km of various sewer pipes were annotated by sewer maintenance experts in the scope of this work. On top of that, an object detector (EfficientDet-D0) was trained for automatic defect detection. From the result of several expermients, peculiar natures of defects in the context of object detection, which greatly effect annotation and training process, are found and discussed. At the end, the final detector was able to detect 83% of defects in the test set; out of the missing 17%, only 0.77% are very severe defects. This work provides an example of applying deep learning-based object detection into an important but quiet engineering field. It also gives some practical pointers on how to annotate peculiar "object", such as defects.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# マルチモーダル知識グラフのためのゼロショット関係学習

Zero-Shot Relational Learning for Multimodal Knowledge Graphs ( http://arxiv.org/abs/2404.06220v1 )

ライセンス: Link先を確認
Rui Cai, Shichao Pei, Xiangliang Zhang, (参考訳) 関係学習は知識表現の領域、特に知識グラフ補完(KGC)において重要な課題である。 従来の単一モーダルな環境でのリレーショナル学習は広く研究されているが、マルチモーダルなKGCコンテキスト内でのリレーショナル学習は、異なる課題と機会を提示している。 主な課題の1つは、関連するトレーニングデータなしで新たに発見された関係を推測することである。 このゼロショットリレーショナル学習シナリオは、マルチモーダルなKGC、すなわち、リレーショナル学習を促進するためにマルチモーダルを活用するためのユニークな要件を呈する。 しかし、既存の作業はマルチモーダル情報の活用をサポートしておらず、未解決のままである。 本稿では,ゼロショットリレーショナル学習を容易にするために,多モード情報と知識グラフ構造を統合するために,多モード学習者,構造コンソリエータ,関係埋め込みジェネレータという3つのコンポーネントからなる新しいエンドツーエンドフレームワークを提案する。 2つのマルチモーダル知識グラフの評価結果は,提案手法の優れた性能を示す。

Relational learning is an essential task in the domain of knowledge representation, particularly in knowledge graph completion (KGC).While relational learning in traditional single-modal settings has been extensively studied, exploring it within a multimodal KGC context presents distinct challenges and opportunities. One of the major challenges is inference on newly discovered relations without any associated training data. This zero-shot relational learning scenario poses unique requirements for multimodal KGC, i.e., utilizing multimodality to facilitate relational learning. However, existing works fail to support the leverage of multimodal information and leave the problem unexplored. In this paper, we propose a novel end-to-end framework, consisting of three components, i.e., multimodal learner, structure consolidator, and relation embedding generator, to integrate diverse multimodal information and knowledge graph structures to facilitate the zero-shot relational learning. Evaluation results on two multimodal knowledge graphs demonstrate the superior performance of our proposed method.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 辞書例文の低コスト生成と評価

Low-Cost Generation and Evaluation of Dictionary Example Sentences ( http://arxiv.org/abs/2404.06224v1 )

ライセンス: Link先を確認
Bill Cai, Clarence Boon Liang Ng, Daniel Tan, Shelvia Hotama, (参考訳) 辞書の例 文は、単語の定義と使用法を説明する上で重要な役割を果たすが、手作業による質の高い文の作成は困難である。 先行研究は、言語モデルが例文を生成するために訓練できることを実証している。 しかし、彼らは作業の生成と評価のために、高価なカスタマイズされたモデルとワードセンスデータセットを頼りにしていた。 基礎モデルの急速な進歩は、辞書例文の生成と評価のための低コストでゼロショットの手法を作成する機会を与える。 我々は、既存のオックスフォード辞書文に対して生成された文の勝利率を測定する、OxfordEvalと呼ばれる新しい自動評価指標を導入する。 OxfordEvalは人間の判断と高い整合性を示し、大規模な自動品質評価を可能にしている。 我々は、様々なLLMと構成を用いて、単語クラス間で辞書文を生成する実験を行った。 単語の意味を最もよく表す文を識別し、選択するために、マスク付き言語モデルを用いた新しいアプローチでこれを補完する。 最終的なモデルであるFM-MLMはオックスフォードの基準文に対して85.1%以上の勝利率を達成したが、以前のモデル生成文では39.8%の勝利率であった。

Dictionary example sentences play an important role in illustrating word definitions and usage, but manually creating quality sentences is challenging. Prior works have demonstrated that language models can be trained to generate example sentences. However, they relied on costly customized models and word sense datasets for generation and evaluation of their work. Rapid advancements in foundational models present the opportunity to create low-cost, zero-shot methods for the generation and evaluation of dictionary example sentences. We introduce a new automatic evaluation metric called OxfordEval that measures the win-rate of generated sentences against existing Oxford Dictionary sentences. OxfordEval shows high alignment with human judgments, enabling large-scale automated quality evaluation. We experiment with various LLMs and configurations to generate dictionary sentences across word classes. We complement this with a novel approach of using masked language models to identify and select sentences that best exemplify word meaning. The eventual model, FM-MLM, achieves over 85.1% win rate against Oxford baseline sentences according to OxfordEval, compared to 39.8% win rate for prior model-generated sentences.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 難解なイジングモデルのためのメッセージパッシング変分自己回帰ネットワーク

Message Passing Variational Autoregressive Network for Solving Intractable Ising Models ( http://arxiv.org/abs/2404.06225v1 )

ライセンス: Link先を確認
Qunlong Ma, Zhi Ma, Jinlong Xu, Hairui Zhang, Ming Gao, (参考訳) 自己回帰型ニューラルネットワーク、畳み込み型ニューラルネットワーク、リカレントニューラルネットワーク、グラフニューラルネットワークなど、多くのディープニューラルネットワークがIsingモデルの解決に使用されている。 エネルギー構成の確率分布の学習や、乱れた完全連結イジングモデルの基底状態の発見は、統計力学やNPハード問題に不可欠である。 膨大な努力にもかかわらず、これら完全に接続された極めて難解な問題を高精度に解決できるニューラルネットワークアーキテクチャは、いまだに不足している。 本稿では、スピン変数間の相互作用を効果的に活用できるメッセージパッシング機構を備えた変分自己回帰アーキテクチャを提案する。 新しいネットワークは、アニーリングフレームワークの下で訓練され、いくつかの原型スピンハミルトニアンの解法、特に低温での大きなスピン系において、既存の方法よりも優れている。 この利点は、ディープニューラルネットワークのトレーニングプロセスにおけるモード崩壊の大幅な緩和にもたらされる。 このような難解な問題を考慮し,提案手法は非教師なしニューラルネットワークの現在の計算限界を拡張し,組合せ最適化問題を解く。

Many deep neural networks have been used to solve Ising models, including autoregressive neural networks, convolutional neural networks, recurrent neural networks, and graph neural networks. Learning a probability distribution of energy configuration or finding the ground states of a disordered, fully connected Ising model is essential for statistical mechanics and NP-hard problems. Despite tremendous efforts, a neural network architecture with the ability to high-accurately solve these fully connected and extremely intractable problems on larger systems is still lacking. Here we propose a variational autoregressive architecture with a message passing mechanism, which can effectively utilize the interactions between spin variables. The new network trained under an annealing framework outperforms existing methods in solving several prototypical Ising spin Hamiltonians, especially for larger spin systems at low temperatures. The advantages also come from the great mitigation of mode collapse during the training process of deep neural networks. Considering these extremely difficult problems to be solved, our method extends the current computational limits of unsupervised neural networks to solve combinatorial optimization problems.
翻訳日:2024-04-10 15:00:05 公開日:2024-04-09
# 言語間のアライメントを理解する - サーベイ

Understanding Cross-Lingual Alignment -- A Survey ( http://arxiv.org/abs/2404.06228v1 )

ライセンス: Link先を確認
Katharina Hämmerl, Jindřich Libovický, Alexander Fraser, (参考訳) 多言語言語モデルにおける言語間の表現の有意義な類似性である言語間アライメントは、近年、活発な研究分野となっている。 我々は,言語間のアライメントを改善する手法の文献を調査し,手法の分類を提供し,各分野の洞察を要約する。 我々は、言語間のアライメントとその制限について、異なる理解を提示する。 多数の調査論文から得られた結果の質的な要約を提供する。 最後に、この知見をエンコーダモデルだけでなく、エンコーダデコーダやデコーダのみのモデルにも適用し、言語ニュートラルと言語固有の情報の効果的なトレードオフが重要であると論じる。

Cross-lingual alignment, the meaningful similarity of representations across languages in multilingual language models, has been an active field of research in recent years. We survey the literature of techniques to improve cross-lingual alignment, providing a taxonomy of methods and summarising insights from throughout the field. We present different understandings of cross-lingual alignment and their limitations. We provide a qualitative summary of results from a large number of surveyed papers. Finally, we discuss how these insights may be applied not only to encoder models, where this topic has been heavily studied, but also to encoder-decoder or even decoder-only models, and argue that an effective trade-off between language-neutral and language-specific information is key.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# 小型車による自律走行に向けて:最近の研究動向

Towards Autonomous Driving with Small-Scale Cars: A Survey of Recent Development ( http://arxiv.org/abs/2404.06229v1 )

ライセンス: Link先を確認
Dianzhao Li, Paul Auerbach, Ostap Okhrin, (参考訳) 自動運転における展開する革命と関わりながら、この変革的な傾向に対する社会内の認識を効果的に高めるにはどうすればよいのか? フルスケールの自動運転車には高額な価格のタグが付くことが多いが、小型の自動車プラットフォームの出現は魅力的な代替手段となる。 これらのプラットフォームは、公共や若い世代にとって貴重な教育ツールとして機能するだけでなく、堅牢な研究プラットフォームとしても機能し、自動運転技術の進歩に大きく貢献している。 本調査では、様々な小型自動車プラットフォームを概説し、それらを分類し、その利用によって達成された研究の進歩について詳述する。 結論は、この分野における将来有望な方向性の提案である。

While engaging with the unfolding revolution in autonomous driving, a challenge presents itself, how can we effectively raise awareness within society about this transformative trend? While full-scale autonomous driving vehicles often come with a hefty price tag, the emergence of small-scale car platforms offers a compelling alternative. These platforms not only serve as valuable educational tools for the broader public and young generations but also function as robust research platforms, contributing significantly to the ongoing advancements in autonomous driving technology. This survey outlines various small-scale car platforms, categorizing them and detailing the research advancements accomplished through their usage. The conclusion provides proposals for promising future directions in the field.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# 攻撃的・非受容的・両方:フェデレート学習におけるハイブリッドビザンチンのネットワーク操作

Aggressive or Imperceptible, or Both: Network Pruning Assisted Hybrid Byzantines in Federated Learning ( http://arxiv.org/abs/2404.06230v1 )

ライセンス: Link先を確認
Emre Ozfatura, Kerem Ozfatura, Alptekin Kupcu, Deniz Gunduz, (参考訳) フェデレーテッド・ラーニング(FL)は、多数のクライアント(おそらくモバイルデバイス)が、多くのローカルサンプルを共有せずに利用し、特定のプライバシをクライアントに提供することによって、一般化された機械学習モデルの生成に協力できるようにするために導入された。 しかし、多数のクライアントが参加しているため、各クライアントのプロファイルや検証が難しい場合が多いため、悪意のある参加者がトレーニング中に有毒なモデルを伝達することで、トレーニングモデルの精度を損なう恐れがある。 したがって、パラメータサーバのアグリゲーションフレームワークは、これらの悪意のあるクライアントの有害な影響を最小限に抑える必要がある。 文献では数多くの攻撃・防衛戦略が分析されている。 しかしながら、しばしばビザンチン問題は、ニューラルネットワーク(NN)のトポロジに不利な外乱検出の観点からのみ分析される。 本研究の範囲内では、NNトポロジに特有の特定の側面情報を抽出することにより、より強力な攻撃を設計できると主張している。 したがって、スパルスニューラルネットワークにインスパイアされたハイブリッド・スパルス・ビザンチン攻撃は、2つの部分から構成される: 1つはスパースな性質を示し、より感度の高い特定のNNロケーションのみを攻撃し、もう1つはよりサイレントで、時間とともに蓄積する。 最後に,提案したハイブリッド・ビザンチン攻撃が8種類の防御方法に対して有効であることを示す。

Federated learning (FL) has been introduced to enable a large number of clients, possibly mobile devices, to collaborate on generating a generalized machine learning model thanks to utilizing a larger number of local samples without sharing to offer certain privacy to collaborating clients. However, due to the participation of a large number of clients, it is often difficult to profile and verify each client, which leads to a security threat that malicious participants may hamper the accuracy of the trained model by conveying poisoned models during the training. Hence, the aggregation framework at the parameter server also needs to minimize the detrimental effects of these malicious clients. A plethora of attack and defence strategies have been analyzed in the literature. However, often the Byzantine problem is analyzed solely from the outlier detection perspective, being oblivious to the topology of neural networks (NNs). In the scope of this work, we argue that by extracting certain side information specific to the NN topology, one can design stronger attacks. Hence, inspired by the sparse neural networks, we introduce a hybrid sparse Byzantine attack that is composed of two parts: one exhibiting a sparse nature and attacking only certain NN locations with higher sensitivity, and the other being more silent but accumulating over time, where each ideally targets a different type of defence mechanism, and together they form a strong but imperceptible attack. Finally, we show through extensive simulations that the proposed hybrid Byzantine attack is effective against 8 different defence methods.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# ロバスト領域生成アルゴリズムの分類に向けて

Towards Robust Domain Generation Algorithm Classification ( http://arxiv.org/abs/2404.06236v1 )

ライセンス: Link先を確認
Arthur Drichel, Marc Meyer, Ulrike Meyer, (参考訳) 本研究では,ドメイン生成アルゴリズム(DGA)分類器の堅牢性に関する総合的研究を行う。 我々は32個のホワイトボックス攻撃を実装し、そのうち19個は非常に効果的であり、未硬化の分類器に対して$\approx$100\%の偽陰性率(FNR)を誘導する。 分類器の保護のために, 異なるハードニング手法を評価し, 対角線空間ベクトルと離散化された対角線領域を活用し, 堅牢性を大幅に向上させる新しいトレーニング手法を提案する。 本研究では,攻撃者が容易に回避できるが,敵の訓練(AT)によって軽減できるような,分類器の硬化や訓練バイアスの発見を防止するための落とし穴について強調する。 本研究では、ロバスト性と性能のトレードオフを観測しないが、それとは対照的に、強化により、未知のDGAに対する分類器の検出性能が向上する。 本論文では、DGA分類器の強化を容易にするために、スタンドアロンライブラリとして議論されたすべての攻撃と防御を実装している。

In this work, we conduct a comprehensive study on the robustness of domain generation algorithm (DGA) classifiers. We implement 32 white-box attacks, 19 of which are very effective and induce a false-negative rate (FNR) of $\approx$ 100\% on unhardened classifiers. To defend the classifiers, we evaluate different hardening approaches and propose a novel training scheme that leverages adversarial latent space vectors and discretized adversarial domains to significantly improve robustness. In our study, we highlight a pitfall to avoid when hardening classifiers and uncover training biases that can be easily exploited by attackers to bypass detection, but which can be mitigated by adversarial training (AT). In our study, we do not observe any trade-off between robustness and performance, on the contrary, hardening improves a classifier's detection performance for known and unknown DGAs. We implement all attacks and defenses discussed in this paper as a standalone library, which we make publicly available to facilitate hardening of DGA classifiers: https://gitlab.com/rwth-itsec/robust-dga-detection
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# データ共有のためのハイパーパラメータフリー医用画像合成とサイト特異的セグメンテーションの改善

Hyperparameter-Free Medical Image Synthesis for Sharing Data and Improving Site-Specific Segmentation ( http://arxiv.org/abs/2404.06240v1 )

ライセンス: Link先を確認
Alexander Chebykin, Peter A. N. Bosman, Tanja Alderliesten, (参考訳) 合成医療画像の共有は、患者のプライバシーとデータセキュリティを改善するために、実際の画像を共有するための有望な代替手段だ。 良好な結果を得るためには、既存の医用画像合成法は、見えないデータに適用した場合に手動で調整する必要がある。 この手動負担を取り除くために,HyFree-S3と呼ばれる医療画像の自動合成,共有,セグメンテーションのためのハイパーパラメータフリー分散学習手法を提案する。 3つの多様なセグメンテーション設定(骨盤MRI、肺X線、ポリプ写真)において、HyFree-S3の使用により、サイト固有のデータ(ほとんどの場合)でのみトレーニングよりもパフォーマンスが向上する。 この方法のハイパーパラメータフリーな性質により、データの合成と共有が容易になり、利用可能なデータの量が増加し、結果として最終的にクリニックに適用される可能性があるモデルの質が向上する可能性がある。 私たちのコードはhttps://github.com/AwesomeLemon/HyFree-S3で利用可能です。

Sharing synthetic medical images is a promising alternative to sharing real images that can improve patient privacy and data security. To get good results, existing methods for medical image synthesis must be manually adjusted when they are applied to unseen data. To remove this manual burden, we introduce a Hyperparameter-Free distributed learning method for automatic medical image Synthesis, Sharing, and Segmentation called HyFree-S3. For three diverse segmentation settings (pelvic MRIs, lung X-rays, polyp photos), the use of HyFree-S3 results in improved performance over training only with site-specific data (in the majority of cases). The hyperparameter-free nature of the method should make data synthesis and sharing easier, potentially leading to an increase in the quantity of available data and consequently the quality of the models trained that may ultimately be applied in the clinic. Our code is available at https://github.com/AwesomeLemon/HyFree-S3
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# ActNetFormer:ビデオにおける半スーパービジョン動作認識のためのトランスフォーマー-ResNetハイブリッド方式

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos ( http://arxiv.org/abs/2404.06243v1 )

ライセンス: Link先を確認
Sharana Dharshikgan Suresh Dass, Hrishav Bakul Barua, Ganesh Krishnasamy, Raveendran Paramesran, Raphael C. -W. Phan, (参考訳) ビデオにおけるヒューマンアクションやアクティビティ認識は、監視や監視、自動運転車、スポーツ分析、人間とロボットのインタラクションなど、コンピュータビジョンにおける基本的なタスクである。 従来の教師付き手法では、トレーニングには大きな注釈付きデータセットが必要です。 本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。 我々のフレームワークはラベル付きデータと非ラベル付きデータの両方を活用し、ビデオ中のアクション表現を堅牢に学習し、擬似ラベルと対照的な学習を組み合わせて、両方のタイプのサンプルから効果的な学習を行う。 本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面をキャプチャし,それを ActNetFormer と呼ぶ。 3D CNNは時間領域における空間的特徴と局所的依存関係のキャプチャに優れ、VITはフレーム間の長距離依存関係のキャプチャに優れている。 ActNetFormerフレームワークにこれらの補完アーキテクチャを統合することで、アクションのローカルおよびグローバル両方のコンテキスト情報を効果的にキャプチャすることができる。 この包括的表現学習により、各アーキテクチャの強みを活用することで、半教師ありアクション認識タスクにおいて、より優れたパフォーマンスを実現することができる。 標準動作認識データセットによる実験結果から,本手法は従来の手法よりも優れた性能を示し,ラベル付きデータのごく一部で最先端の性能を実現している。 この作業の公式ウェブサイトは、https://github.com/rana2149/ActNetFormer.comで公開されている。

Human action or activity recognition in videos is a fundamental task in computer vision with applications in surveillance and monitoring, self-driving cars, sports analytics, human-robot interaction and many more. Traditional supervised methods require large annotated datasets for training, which are expensive and time-consuming to acquire. This work proposes a novel approach using Cross-Architecture Pseudo-Labeling with contrastive learning for semi-supervised action recognition. Our framework leverages both labeled and unlabelled data to robustly learn action representations in videos, combining pseudo-labeling with contrastive learning for effective learning from both types of samples. We introduce a novel cross-architecture approach where 3D Convolutional Neural Networks (3D CNNs) and video transformers (VIT) are utilised to capture different aspects of action representations; hence we call it ActNetFormer. The 3D CNNs excel at capturing spatial features and local dependencies in the temporal domain, while VIT excels at capturing long-range dependencies across frames. By integrating these complementary architectures within the ActNetFormer framework, our approach can effectively capture both local and global contextual information of an action. This comprehensive representation learning enables the model to achieve better performance in semi-supervised action recognition tasks by leveraging the strengths of each of these architectures. Experimental results on standard action recognition datasets demonstrate that our approach performs better than the existing methods, achieving state-of-the-art performance with only a fraction of labeled data. The official website of this work is available at: https://github.com/rana2149/ActNetFormer.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# アンカーを用いた視覚言語モデルのロバストファインタニング

Anchor-based Robust Finetuning of Vision-Language Models ( http://arxiv.org/abs/2404.06244v1 )

ライセンス: Link先を確認
Jinwei Han, Zhiwen Lin, Zhongyisun Sun, Yingguo Gao, Ke Yan, Shouhong Ding, Yuan Gao, Gui-Song Xia, (参考訳) 我々は、そのアウト・オブ・ディストリビューション(OOD)の一般化を損なうことなく、視覚言語モデルを微調整することを目指している。 我々はOOD一般化の2つのタイプ、すなわち 一 自然なスケッチ画像等の領域シフト及び 二 微妙なデータに含まれない分類を識別するゼロショット能力 おそらく、微調整後のOOD一般化の減少は、過度に単純化された微調整対象からのものであり、「[CLASS]' の写真」のようなクラス情報のみを提供する。 これは、CLIPが事前訓練されたプロセスとは異なっている。 そこで本研究では,OODの一般化を維持するアンカーとして機能する,リッチなセマンティック情報を用いた補助的監視を用いたファインチューンプロセスの補償を提案する。 具体的には,本手法では2種類のアンカーを詳述する。 一 ファインチューンセットの画像を使用するが、予め訓練されたキャプターからのテキスト監督を強化するテキスト補償アンカー 二 下流タスクに従ってCLIPの事前学習データと同様のデータセットから取得した画像-テキスト-ペアアンカーで、元のCLIPテキストとリッチセマンティクスを関連付ける。 これらのアンカーは補助的なセマンティック情報として利用され、CLIPの本来の特徴空間を維持し、OOD一般化機能を保存する。 包括的実験により,ドメインシフトとゼロショット学習ベンチマークにおいて,従来のファインタニングに類似した分散性能が得られた。

We aim at finetuning a vision-language model without hurting its out-of-distribution (OOD) generalization. We address two types of OOD generalization, i.e., i) domain shift such as natural to sketch images, and ii) zero-shot capability to recognize the category that was not contained in the finetune data. Arguably, the diminished OOD generalization after finetuning stems from the excessively simplified finetuning target, which only provides the class information, such as ``a photo of a [CLASS]''. This is distinct from the process in that CLIP was pretrained, where there is abundant text supervision with rich semantic information. Therefore, we propose to compensate for the finetune process using auxiliary supervision with rich semantic information, which acts as anchors to preserve the OOD generalization. Specifically, two types of anchors are elaborated in our method, including i) text-compensated anchor which uses the images from the finetune set but enriches the text supervision from a pretrained captioner, ii) image-text-pair anchor which is retrieved from the dataset similar to pretraining data of CLIP according to the downstream task, associating with the original CLIP text with rich semantics. Those anchors are utilized as auxiliary semantic information to maintain the original feature space of CLIP, thereby preserving the OOD generalization capabilities. Comprehensive experiments demonstrate that our method achieves in-distribution performance akin to conventional finetuning while attaining new state-of-the-art results on domain shift and zero-shot learning benchmarks.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# GHNeRF:高能率ニューラルネットワークを用いた一般化可能なヒューマン特徴の学習

GHNeRF: Learning Generalizable Human Features with Efficient Neural Radiance Fields ( http://arxiv.org/abs/2404.06246v1 )

ライセンス: Link先を確認
Arnab Dey, Di Yang, Rohith Agaram, Antitza Dantcheva, Andrew I. Comport, Srinath Sridhar, Jean Martinet, (参考訳) 近年のNeural Radiance Fields (NeRF) の進歩は、3次元の人間の表現を含む3次元のシーン表現において有望な結果を示している。 しかし、これらの表現は、AR/VRアプリケーションやゲームにとって重要な、基礎となる人間のポーズと構造に関する重要な情報を欠いていることが多い。 本稿では,人体の2D/3D関節位置をNeRF表現で学習することで,これらの制約に対処する新しい手法GHNeRFを提案する。 GHNeRFは、トレーニング済みの2Dエンコーダを使用して、2D画像から重要な人間の特徴を抽出し、人間の生体力学的特徴をエンコードするためにNeRFフレームワークに組み込まれる。 これにより、ネットワークは人間の幾何学やテクスチャとともに、関節位置などの生体力学的特徴を同時に学習することができる。 提案手法の有効性を評価するため,最先端のヒトNeRF技術と共同推定アルゴリズムを総合的に比較した。 以上の結果から,GHNeRFは最先端の成果をほぼリアルタイムに達成できることが示唆された。

Recent advances in Neural Radiance Fields (NeRF) have demonstrated promising results in 3D scene representations, including 3D human representations. However, these representations often lack crucial information on the underlying human pose and structure, which is crucial for AR/VR applications and games. In this paper, we introduce a novel approach, termed GHNeRF, designed to address these limitations by learning 2D/3D joint locations of human subjects with NeRF representation. GHNeRF uses a pre-trained 2D encoder streamlined to extract essential human features from 2D images, which are then incorporated into the NeRF framework in order to encode human biomechanic features. This allows our network to simultaneously learn biomechanic features, such as joint locations, along with human geometry and texture. To assess the effectiveness of our method, we conduct a comprehensive comparison with state-of-the-art human NeRF techniques and joint estimation algorithms. Our results show that GHNeRF can achieve state-of-the-art results in near real-time.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# LRR: 言語駆動型Resmplable Resmplable Continuous Representation for Adversarial Tracking Attacks

LRR: Language-Driven Resamplable Continuous Representation against Adversarial Tracking Attacks ( http://arxiv.org/abs/2404.06247v1 )

ライセンス: Link先を確認
Jianlang Chen, Xuhong Ren, Qing Guo, Felix Juefei-Xu, Di Lin, Wei Feng, Lei Ma, Jianjun Zhao, (参考訳) ビジュアルオブジェクトトラッキングは、ライブビデオ内の対象物の位置とサイズを推定することを目的として、視覚ベースの自律システムにおいて重要な役割を果たす。 この分野で大きな進歩があったにもかかわらず、最先端のSOTA(State-of-the-art)トラッカーは、入ってくるフレームの対向的摂動に直面すると、しばしば失敗する。 これにより、これらのトラッカーが現実世界にデプロイされると、大きな堅牢性とセキュリティ上の問題が発生する可能性がある。 クリーンデータと逆データの両方において高い精度を実現するために,関心対象の意味的テキストガイダンスを用いて空間的・時間的連続表現を構築することを提案する。 この新しい連続表現により、入ってくるフレームを再構築し、興味の対象とそのクリーンなフレームとのセマンティックおよび外観整合性を維持することができる。 その結果,提案手法は清潔なデータに対して高い精度を維持しつつ,異なるSOTA敵追尾攻撃に対する防御に成功している。 特に,UAV123の相対的改善率約90%で敵攻撃時の追跡精度が有意に向上し,クリーンデータの精度よりも高い値が得られた。

Visual object tracking plays a critical role in visual-based autonomous systems, as it aims to estimate the position and size of the object of interest within a live video. Despite significant progress made in this field, state-of-the-art (SOTA) trackers often fail when faced with adversarial perturbations in the incoming frames. This can lead to significant robustness and security issues when these trackers are deployed in the real world. To achieve high accuracy on both clean and adversarial data, we propose building a spatial-temporal continuous representation using the semantic text guidance of the object of interest. This novel continuous representation enables us to reconstruct incoming frames to maintain semantic and appearance consistency with the object of interest and its clean counterparts. As a result, our proposed method successfully defends against different SOTA adversarial tracking attacks while maintaining high accuracy on clean data. In particular, our method significantly increases tracking accuracy under adversarial attacks with around 90% relative improvement on UAV123, which is even higher than the accuracy on clean data.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# ColorMNet:ビデオカラー化のためのメモリベースの深部空間時間特徴伝達ネットワーク

ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization ( http://arxiv.org/abs/2404.06251v1 )

ライセンス: Link先を確認
Yixin Yang, Jiangxin Dong, Jinhui Tang, Jinshan Pan, (参考訳) 映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。 時間次元に沿って複数のフレームを積み重ねたり、エラーを蓄積したり、遠方のフレームから情報を探索できないような推定特徴を反復的に伝播させる代わりに、遠方のフレームからの特徴との信頼性の高い接続を確立し、不正確な推定特徴の影響を軽減するメモリベースの特徴伝搬モジュールを開発する。 上記の特徴伝達のために,各フレームからより優れた特徴を抽出するために,大域的な視覚モデルから特徴を探索し,推定された特徴が複雑なシナリオをモデル化できるように,各フレームの特徴推定を導出する。 また、隣接するフレームには、通常、類似した内容が含まれていることに留意する。 空間的特徴量と時間的特徴量をよりよく活用するために,近接するフレームから特徴量を集約するローカルアテンションモジュールを開発した。 メモリベースの特徴伝搬モジュール,大規模事前学習型視覚モデル誘導型特徴推定モジュール,およびローカルアテンションモジュールを,エンドツーエンドのトレーニング可能なネットワーク(ColorMNet)に公式化し,ベンチマークデータセットと実世界のシナリオの両方において,最先端の手法に対して好適に動作することを示す。 ソースコードと事前トレーニングされたモデルは、 \url{https://github.com/yyang181/colormnet}で入手できる。

How to effectively explore spatial-temporal features is important for video colorization. Instead of stacking multiple frames along the temporal dimension or recurrently propagating estimated features that will accumulate errors or cannot explore information from far-apart frames, we develop a memory-based feature propagation module that can establish reliable connections with features from far-apart frames and alleviate the influence of inaccurately estimated features. To extract better features from each frame for the above-mentioned feature propagation, we explore the features from large-pretrained visual models to guide the feature estimation of each frame so that the estimated features can model complex scenarios. In addition, we note that adjacent frames usually contain similar contents. To explore this property for better spatial and temporal feature utilization, we develop a local attention module to aggregate the features from adjacent frames in a spatial-temporal neighborhood. We formulate our memory-based feature propagation module, large-pretrained visual model guided feature estimation module, and local attention module into an end-to-end trainable network (named ColorMNet) and show that it performs favorably against state-of-the-art methods on both the benchmark datasets and real-world scenarios. The source code and pre-trained models will be available at \url{https://github.com/yyang181/colormnet}.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# バーロウ双生児からトリプルトトレーニングへ:限られたデータによる認知症の鑑別

From Barlow Twins to Triplet Training: Differentiating Dementia with Limited Data ( http://arxiv.org/abs/2404.06253v1 )

ライセンス: Link先を確認
Yitong Li, Tom Nuno Wolf, Sebastian Pölsterl, Igor Yakushev, Dennis M. Hedderich, Christian Wachinger, (参考訳) 認知症の鑑別診断は重度の症状が重なり,MRIが主な診断方法である。 コンピュータ支援型鑑別診断の臨床的価値にもかかわらず、多種多様な認知症を含む公的データセットがないために研究は限られている。 これにより、ディープニューラルネットワーク(DNN)のトレーニングに不十分な、小さな社内データセットを研究者に残すことができる。 自己教師付き学習は、トレーニングでラベルなしのMRIスキャンを活用することを約束するが、ボリューム脳スキャンの小さなバッチサイズは、その応用を困難にしている。 これらの課題に対処するために,限定的対象データを用いたディファレンシャル診断のためのトリプルトトレーニングを提案する。 3つの重要な段階から構成される。 (i)Barlow Twinsによるラベルなしデータによる自己教師付き事前トレーニング (二)タスク関連データに対する自己蒸留、及び (iii)ターゲットデータセットの微調整。 私たちのアプローチは従来のトレーニング戦略を著しく上回り、75.6%のバランスの取れた精度を実現しています。 さらに、各ステップの後に潜伏空間の変化を可視化することで、トレーニングプロセスに関する洞察を提供する。 最後に, 包括的アブレーション研究において, 個々の構成要素の観点から, トリプルトトレーニングの頑健さを検証した。 私たちのコードはhttps://github.com/ai-med/TripletTraining.comで利用可能です。

Differential diagnosis of dementia is challenging due to overlapping symptoms, with structural magnetic resonance imaging (MRI) being the primary method for diagnosis. Despite the clinical value of computer-aided differential diagnosis, research has been limited, mainly due to the absence of public datasets that contain diverse types of dementia. This leaves researchers with small in-house datasets that are insufficient for training deep neural networks (DNNs). Self-supervised learning shows promise for utilizing unlabeled MRI scans in training, but small batch sizes for volumetric brain scans make its application challenging. To address these issues, we propose Triplet Training for differential diagnosis with limited target data. It consists of three key stages: (i) self-supervised pre-training on unlabeled data with Barlow Twins, (ii) self-distillation on task-related data, and (iii) fine-tuning on the target dataset. Our approach significantly outperforms traditional training strategies, achieving a balanced accuracy of 75.6%. We further provide insights into the training process by visualizing changes in the latent space after each step. Finally, we validate the robustness of Triplet Training in terms of its individual components in a comprehensive ablation study. Our code is available at https://github.com/ai-med/TripletTraining.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# 道路側ユニットのためのラベル効率の良い3次元物体検出

Label-Efficient 3D Object Detection For Road-Side Units ( http://arxiv.org/abs/2404.06256v1 )

ライセンス: Link先を確認
Minh-Quan Dao, Holger Caesar, Julie Stephany Berrio, Mao Shan, Stewart Worrall, Vincent Frémont, Ezio Malis, (参考訳) 閉塞は、自律運転のような安全クリティカルなアプリケーションにとって重要な課題である。 協調的知覚は、インテリジェントロードサイドユニット(RSU)との深層情報融合による自動運転車の認識を高める能力により、最近大きな研究関心を集めており、閉塞の影響を最小限に抑えることができる。 大幅な進歩が見られたが、これらの手法は、特に注釈付きRSUデータを必要とするため、実世界の展開において大きなハードルを生んでいる。 手動でトレーニングに必要な大量のRSUデータを注釈付けするのは、多くの交差点と点雲のアノテートにかかわる労力を考えると、違法に高価である。 本研究では、教師なしオブジェクト発見に基づくRSUのラベル効率の高いオブジェクト検出手法を考案することで、この問題に対処する。 本稿では,2つの新たなモジュールについて紹介する。1つは点雲の時空間集約に基づく物体発見のためのモジュールであり,もう1つは改良のためのモジュールである。 さらに、アノテーション付きデータのごく一部を微調整することで、オブジェクト発見モデルが完全に教師されたモデルとの性能ギャップを狭めるか、あるいは超えることを実証する。 シミュレーションおよび実世界のデータセットを用いて大規模な実験を行い,本手法の評価を行った。

Occlusion presents a significant challenge for safety-critical applications such as autonomous driving. Collaborative perception has recently attracted a large research interest thanks to the ability to enhance the perception of autonomous vehicles via deep information fusion with intelligent roadside units (RSU), thus minimizing the impact of occlusion. While significant advancement has been made, the data-hungry nature of these methods creates a major hurdle for their real-world deployment, particularly due to the need for annotated RSU data. Manually annotating the vast amount of RSU data required for training is prohibitively expensive, given the sheer number of intersections and the effort involved in annotating point clouds. We address this challenge by devising a label-efficient object detection method for RSU based on unsupervised object discovery. Our paper introduces two new modules: one for object discovery based on a spatial-temporal aggregation of point clouds, and another for refinement. Furthermore, we demonstrate that fine-tuning on a small portion of annotated data allows our object discovery models to narrow the performance gap with, or even surpass, fully supervised models. Extensive experiments are carried out in simulated and real-world datasets to evaluate our method.
翻訳日:2024-04-10 14:50:19 公開日:2024-04-09
# 軽量き裂セグメンテーションモデルの性能向上のためのロバスト特徴量蒸留

Robust feature knowledge distillation for enhanced performance of lightweight crack segmentation models ( http://arxiv.org/abs/2404.06258v1 )

ライセンス: Link先を確認
Zhaohui Chen, Elyas Asadi Shamsabadi, Sheng Jiang, Luming Shen, Daniel Dias-da-Costa, (参考訳) 視覚ベースの亀裂検出は、ロバストモデルのサイズとエッジデバイス制限のため、デプロイメント上の課題に直面します。 これらは知識蒸留(KD)で訓練された軽量モデルで対処することができる。 しかし、SOTA (State-of-the-art) KD法は反雑音の頑健さを損なう。 本稿では,クラックセグメンテーションのための光モデルの精度を維持しつつ,ロバスト特徴知識蒸留(RFKD)を開発した。 RFKDは教師モデルのロジット層と中間特徴写像からの知識を消し去るとともに、混在したクリーンでノイズの多い画像を利用して学生モデルにロバストなパターンを伝達し、精度、一般化、アンチノイズ性能を向上させる。 提案したRFKDを検証するために, 0.5Mパラメータしか持たない軽量クラックセグメンテーションモデルPoolingCrack Tiny (PCT) を設計・使用した。 RFKDは,SOTA KD法と比較して62%,平均Diceスコア (mDS) に達した。

Vision-based crack detection faces deployment challenges due to the size of robust models and edge device limitations. These can be addressed with lightweight models trained with knowledge distillation (KD). However, state-of-the-art (SOTA) KD methods compromise anti-noise robustness. This paper develops Robust Feature Knowledge Distillation (RFKD), a framework to improve robustness while retaining the precision of light models for crack segmentation. RFKD distils knowledge from a teacher model's logit layers and intermediate feature maps while leveraging mixed clean and noisy images to transfer robust patterns to the student model, improving its precision, generalisation, and anti-noise performance. To validate the proposed RFKD, a lightweight crack segmentation model, PoolingCrack Tiny (PCT), with only 0.5 M parameters, is also designed and used as the student to run the framework. The results show a significant enhancement in noisy images, with RFKD reaching a 62% enhanced mean Dice score (mDS) compared to SOTA KD methods.
翻訳日:2024-04-10 14:50:18 公開日:2024-04-09
# ステレオマッチングにおけるビジョンファウンデーションモデルの効果

Playing to Vision Foundation Model's Strengths in Stereo Matching ( http://arxiv.org/abs/2404.06261v1 )

ライセンス: Link先を確認
Chuang-Wei Liu, Qijun Chen, Rui Fan, (参考訳) ステレオマッチングは、インテリジェントな車両における3次元環境認識の鍵となる技術となっている。 長い間、畳み込みニューラルネットワーク(CNN)がこの領域の機能抽出の主要な選択肢であり続けている。 にもかかわらず、既存のパラダイムはビジョン基盤モデル(VFM)、特にビジョントランスフォーマー(ViT)に基づいて開発され、広範囲でラベルのないデータセットの自己スーパービジョンを通じて事前訓練されるモデルへと進化するべきだという意見の一致はますます高まっている。 VFMは、特に高密度な予測タスクのために、情報的で汎用的な視覚特徴の抽出に長けているが、その性能は幾何学的な視覚タスクに欠けることが多い。 この研究は、VFMをステレオマッチングに適応するための有効なアプローチの最初の調査となる。 当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。 最初のモジュールは特徴ピラミッドを初期化し、後者の2つのアグリゲートステレオとマルチスケールコンテキスト情報をそれぞれ細かな特徴に分割する。 ViTAStereoは、ViTASとコストボリュームベースのステレオマッチングバックエンドプロセスを組み合わせて、KITTI Stereo 2012データセットのトップランクを獲得し、エラー画素の割合で2番目に高いネットワークであるStereoBaseを約7.9%上回る3ピクセルの耐性を実現している。 様々なシナリオにまたがる追加の実験は、他の最先端の手法と比較して、より優れた一般化性を示す。 我々は、この新しいパラダイムが次世代のステレオマッチングネットワークの道を開くと信じている。

Stereo matching has become a key technique for 3D environment perception in intelligent vehicles. For a considerable time, convolutional neural networks (CNNs) have remained the mainstream choice for feature extraction in this domain. Nonetheless, there is a growing consensus that the existing paradigm should evolve towards vision foundation models (VFM), particularly those developed based on vision Transformers (ViTs) and pre-trained through self-supervision on extensive, unlabeled datasets. While VFMs are adept at extracting informative, general-purpose visual features, specifically for dense prediction tasks, their performance often lacks in geometric vision tasks. This study serves as the first exploration of a viable approach for adapting VFMs to stereo matching. Our ViT adapter, referred to as ViTAS, is constructed upon three types of modules: spatial differentiation, patch attention fusion, and cross-attention. The first module initializes feature pyramids, while the latter two aggregate stereo and multi-scale contextual information into fine-grained features, respectively. ViTAStereo, which combines ViTAS with cost volume-based stereo matching back-end processes, achieves the top rank on the KITTI Stereo 2012 dataset and outperforms the second-best network StereoBase by approximately 7.9% in terms of the percentage of error pixels, with a tolerance of 3 pixels. Additional experiments across diverse scenarios further demonstrate its superior generalizability compared to all other state-of-the-art approaches. We believe this new paradigm will pave the way for the next generation of stereo matching networks.
翻訳日:2024-04-10 14:50:18 公開日:2024-04-09
# 確率ハミルトニアンから量子シミュレーションへ:エクシトンダイナミクスにおける記憶効果を探る

From Stochastic Hamiltonian to Quantum Simulation: Exploring Memory Effects in Exciton Dynamics ( http://arxiv.org/abs/2404.06264v1 )

ライセンス: Link先を確認
Federico Gallina, Matteo Bruschi, Barbara Fresch, (参考訳) 確率的量子軌道の観点からのオープン量子系力学の展開は、環境変動の有限相関時間から生じるメモリ効果を一貫して考慮するオープン系力学の図を提供する。 これらの変動は、励起系のコヒーレンスとエネルギー輸送特性に大きな影響を及ぼす。 相関時間がハミルトニアン進化の時間スケールに匹敵すると、マルコフ極限から開系力学が逸脱する。 本研究では、確率的ハミルトンプロパゲータによるエクシトンダイナミクスの展開を利用して、エクシトン輸送をシミュレートし、有限メモリ効果を捉える量子回路を設計する。 パラメトリゾブル量子回路の合成を可能にすることに加えて、確率的ユニタリプロパゲータは、エクシトン輸送に対する非マルコフ効果を研究するための透過的な枠組みを提供する。 分析の結果,環境相関時間と輸送効率の微妙な関係が明らかとなり,時間関連ゆらぎによってシステムがより高い効率に達する「メモリアシスト」量子輸送の仕組みが明らかになった。 しかし、この性質は普遍的ではなく、ハミルトニアン系の特定の特徴と組み合わせてしか実現できない。

The unraveling of open quantum system dynamics in terms of stochastic quantum trajectories offers a picture of open system dynamics that consistently considers memory effects stemming from the finite correlation time of environment fluctuations. These fluctuations significantly influence the coherence and energy transport properties of excitonic systems. When their correlation time is comparable to the timescale of the Hamiltonian evolution, it leads to the departure of open system dynamics from the Markovian limit. In this work, we leverage the unraveling of exciton dynamics through stochastic Hamiltonian propagators to design quantum circuits that simulate exciton transport, capturing finite memory effects. In addition to enabling the synthesis of parametrizable quantum circuits, stochastic unitary propagators provide a transparent framework for investigating non-Markovian effects on exciton transport. Our analysis reveals a nuanced relationship between environment correlation time and transport efficiency, identifying a regime of "memory-assisted" quantum transport where time-correlated fluctuations allow the system to reach higher efficiency. However, this property is not universal and can only be realized in conjunction with specific features of the system Hamiltonian.
翻訳日:2024-04-10 14:50:18 公開日:2024-04-09
# ビデオオブジェクトセグメンテーションのための空間的マルチレベルアソシエーション

Spatial-Temporal Multi-level Association for Video Object Segmentation ( http://arxiv.org/abs/2404.06265v1 )

ライセンス: Link先を確認
Deshui Miao, Xin Li, Zhenyu He, Huchuan Lu, Ming-Hsuan Yang, (参考訳) 既存の半教師付きビデオオブジェクトセグメンテーション手法は、時間的特徴マッチングや時空間的特徴モデリングに重点を置いている。 しかし、十分なターゲットインタラクションと効率的な並列処理の問題を同時に解決することはできず、それによって動的でターゲット対応な特徴の学習が制限される。 これらの制約に対処するために,ビデオオブジェクトの効率的なセグメンテーションのために,参照フレーム,テストフレーム,オブジェクト特徴を協調的に関連付け,十分なインタラクションと並列ターゲットIDを空間時間記憶バンクと組み合わせた空間時空間多レベルアソシエーションフレームワークを提案する。 具体的には,対象の自己アテンション,参照対象のエンハンスメント,テスト基準相関の効率的な操作として特徴抽出と相互作用を定式化する,より優れた目標認識特徴を学習するための空間時間的多段階特徴関連モジュールを構築した。 さらに,特徴関連と時間的ID割り当てと相関を補助する空間時空間メモリを提案する。 提案手法は, DAVIS 2016/2017 val, DAVIS 2017 test-dev, YouTube-VOS 2018/2019 val など,多数のビデオオブジェクトセグメンテーションデータセットに対して広範な実験を行うことで評価した。 最先端手法に対する良好な性能は、我々のアプローチの有効性を示すものである。 すべてのソースコードとトレーニングされたモデルは公開されます。

Existing semi-supervised video object segmentation methods either focus on temporal feature matching or spatial-temporal feature modeling. However, they do not address the issues of sufficient target interaction and efficient parallel processing simultaneously, thereby constraining the learning of dynamic, target-aware features. To tackle these limitations, this paper proposes a spatial-temporal multi-level association framework, which jointly associates reference frame, test frame, and object features to achieve sufficient interaction and parallel target ID association with a spatial-temporal memory bank for efficient video object segmentation. Specifically, we construct a spatial-temporal multi-level feature association module to learn better target-aware features, which formulates feature extraction and interaction as the efficient operations of object self-attention, reference object enhancement, and test reference correlation. In addition, we propose a spatial-temporal memory to assist feature association and temporal ID assignment and correlation. We evaluate the proposed method by conducting extensive experiments on numerous video object segmentation datasets, including DAVIS 2016/2017 val, DAVIS 2017 test-dev, and YouTube-VOS 2018/2019 val. The favorable performance against the state-of-the-art methods demonstrates the effectiveness of our approach. All source code and trained models will be made publicly available.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# PGTNet:ビジネスプロセスインスタンスの時間予測を保持するプロセスグラフトランスフォーマネットワーク

PGTNet: A Process Graph Transformer Network for Remaining Time Prediction of Business Process Instances ( http://arxiv.org/abs/2404.06267v1 )

ライセンス: Link先を確認
Keyvan Amiri Elyasi, Han van der Aa, Heiner Stuckenschmidt, (参考訳) 本稿では,イベントログをグラフデータセットに変換し,プロセスグラフトランスフォーマーネットワークをトレーニングするためのグラフ指向データを活用するPGTNetを提案する。 PGTNetは、現在使用されている20の現実世界のイベントログにおいて、最先端のディープラーニングアプローチを一貫して上回っている。 既存のディープラーニングアプローチは、プロセスアクティビティ間の制御-フロー関係を学習し、長距離依存関係をキャプチャする能力に制限があるため、困難に直面する。 PGTNetはこれらの課題に対処し、学習プロセス中に複数のプロセス視点を考慮できる。

We present PGTNet, an approach that transforms event logs into graph datasets and leverages graph-oriented data for training Process Graph Transformer Networks to predict the remaining time of business process instances. PGTNet consistently outperforms state-of-the-art deep learning approaches across a diverse range of 20 publicly available real-world event logs. Notably, our approach is most promising for highly complex processes, where existing deep learning approaches encounter difficulties stemming from their limited ability to learn control-flow relationships among process activities and capture long-range dependencies. PGTNet addresses these challenges, while also being able to consider multiple process perspectives during the learning process.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# 動的ビュー合成のための3次元幾何学的変形可能なガウス平滑化

3D Geometry-aware Deformable Gaussian Splatting for Dynamic View Synthesis ( http://arxiv.org/abs/2404.06270v1 )

ライセンス: Link先を確認
Zhicheng Lu, Xiang Guo, Le Hui, Tianrui Chen, Min Yang, Xiao Tang, Feng Zhu, Yuchao Dai, (参考訳) 本稿では,動的ビュー合成のための3次元幾何学的変形可能なガウススメッティング法を提案する。 既存のニューラル放射場(NeRF)ベースの解は、3次元シーン幾何学を組み込むことができない暗黙の方法で変形を学習する。 したがって、学習された変形は幾何学的にコヒーレントであるとは限らないため、不満足な動的ビュー合成と3次元動的再構成をもたらす。 近年,3次元ガウススプラッティングは,複雑な3次元変形の学習に3次元幾何学を活用可能な3次元シーンの新たな表現を提供する。 具体的には、シーンは3Dガウスアンのコレクションとして表現され、各3Dガウスアンは時間とともに動き、回転して変形をモデル化するように最適化される。 変形中の3次元シーンの幾何学的制約を強制するために,3次元の幾何学的特徴を明示的に抽出し,それらを3次元の変形を学習するために統合する。 このようにして、3次元幾何学的変形モデリングを実現し、動的ビュー合成の改善と3次元動的再構成を実現する。 合成データセットと実データセットの両方に対する大規模な実験結果から,新たな最先端性能を実現するソリューションの優位性が確認された。 プロジェクトはhttps://npucvr.github.io/GaGS/で公開されている。

In this paper, we propose a 3D geometry-aware deformable Gaussian Splatting method for dynamic view synthesis. Existing neural radiance fields (NeRF) based solutions learn the deformation in an implicit manner, which cannot incorporate 3D scene geometry. Therefore, the learned deformation is not necessarily geometrically coherent, which results in unsatisfactory dynamic view synthesis and 3D dynamic reconstruction. Recently, 3D Gaussian Splatting provides a new representation of the 3D scene, building upon which the 3D geometry could be exploited in learning the complex 3D deformation. Specifically, the scenes are represented as a collection of 3D Gaussian, where each 3D Gaussian is optimized to move and rotate over time to model the deformation. To enforce the 3D scene geometry constraint during deformation, we explicitly extract 3D geometry features and integrate them in learning the 3D deformation. In this way, our solution achieves 3D geometry-aware deformation modeling, which enables improved dynamic view synthesis and 3D dynamic reconstruction. Extensive experimental results on both synthetic and real datasets prove the superiority of our solution, which achieves new state-of-the-art performance. The project is available at https://npucvr.github.io/GaGS/
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# 可能性理論を用いたステレオマッチングにおけるロバスト信頼区間

Robust Confidence Intervals in Stereo Matching using Possibility Theory ( http://arxiv.org/abs/2404.06273v1 )

ライセンス: Link先を確認
Roman Malinowski, Emmanuelle Sarrazin, Loïc Dumas, Emmanuel Dubois, Sébastien Destercke, (参考訳) ステレオマッチング問題における不一致信頼区間を推定する手法を提案する。 信頼区間は、通常の信頼度測定に補完的な情報を提供する。 我々の知る限りでは、これはコストボリュームに基づいて不均一な信頼区間を生成する最初の方法である。 この方法は、コストボリュームのエピステマティックな不確かさを解釈するために、可能性分布に依存する。 我々の手法は、現在の最先端のディープニューラルネットワークアプローチと異なり、ホワイトボックスの性質を持つ利点がある。 ミドルベリーのステレオデータセットと衛星画像のデータセットを用いて、信頼区間の精度とサイズを検証した。 このコントリビューションはGitHubで無償公開されている。

We propose a method for estimating disparity confidence intervals in stereo matching problems. Confidence intervals provide complementary information to usual confidence measures. To the best of our knowledge, this is the first method creating disparity confidence intervals based on the cost volume. This method relies on possibility distributions to interpret the epistemic uncertainty of the cost volume. Our method has the benefit of having a white-box nature, differing in this respect from current state-of-the-art deep neural networks approaches. The accuracy and size of confidence intervals are validated using the Middlebury stereo datasets as well as a dataset of satellite images. This contribution is freely available on GitHub.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# ロボットグラスピングにおける物体識別のためのセントロイドトリプレット損失の学習

Learning Embeddings with Centroid Triplet Loss for Object Identification in Robotic Grasping ( http://arxiv.org/abs/2404.06277v1 )

ライセンス: Link先を確認
Anas Gouda, Max Schwarz, Christopher Reining, Sven Behnke, Alice Kirchheim, (参考訳) 基礎モデルはディープラーニングとコンピュータビジョンの強力なトレンドだ。 これらのモデルは、開発者がアプリケーションに統合するために、マイナーまたはそれ以上の微調整を必要としないため、アプリケーションの基盤として機能する。 Segment Anything (SAM) のようなゼロショットオブジェクトセグメンテーションのための基礎モデルは、追加のオブジェクト情報なしで画像からセグメンテーションマスクを出力する。 それらがオブジェクト識別モデルによってパイプラインに追従されると、トレーニングなしでオブジェクト検出を行うことができる。 本稿では,そのような物体識別モデルの訓練に焦点をあてる。 オブジェクト識別モデルにとって重要な実践的側面は、入力サイズで柔軟であることである。 オブジェクト識別は画像検索の問題であるため、入力画像の数(例えば、一定の大きさの集約層を持つことで)を制約することなく、複数クエリのマルチギャラリ状況を扱うのに適した方法が必要である。 このようなモデルをトレーニングする鍵となる解決策は、遠心三重項損失(CTL)である。 CTLは精度が高く、誤った学習信号を避け、モデルの入力サイズを柔軟に保つ。 実験では、ArmBenchオブジェクト識別タスクに新たな最先端技術を導入し、モデルの汎用性を示す。 さらに、難易度の高いHOPEデータセット上で、未確認オブジェクト検出パイプラインの統合を実証する。 そこで、私たちのパイプラインは、データセット固有のデータに基づいてトレーニングされた関連するメソッドと一致し、オーバーします。

Foundation models are a strong trend in deep learning and computer vision. These models serve as a base for applications as they require minor or no further fine-tuning by developers to integrate into their applications. Foundation models for zero-shot object segmentation such as Segment Anything (SAM) output segmentation masks from images without any further object information. When they are followed in a pipeline by an object identification model, they can perform object detection without training. Here, we focus on training such an object identification model. A crucial practical aspect for an object identification model is to be flexible in input size. As object identification is an image retrieval problem, a suitable method should handle multi-query multi-gallery situations without constraining the number of input images (e.g. by having fixed-size aggregation layers). The key solution to train such a model is the centroid triplet loss (CTL), which aggregates image features to their centroids. CTL yields high accuracy, avoids misleading training signals and keeps the model input size flexible. In our experiments, we establish a new state of the art on the ArmBench object identification task, which shows general applicability of our model. We furthermore demonstrate an integrated unseen object detection pipeline on the challenging HOPE dataset, which requires fine-grained detection. There, our pipeline matches and surpasses related methods which have been trained on dataset-specific data.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# 高速フーリエ変換を用いた文変換ベクトルデータベースの次元化

Dimensionality Reduction in Sentence Transformer Vector Databases with Fast Fourier Transform ( http://arxiv.org/abs/2404.06278v1 )

ライセンス: Link先を確認
Vitaly Bulgakov, Alec Segal, (参考訳) ベクトルデータベースの次元性低減は、AIデータ管理の合理化、効率的なストレージの実現、高速な計算、モデルパフォーマンスの向上に重要である。 本稿では,ベクトルデータベースの次元を減らし,計算効率を重視し,次元の呪いを克服する利点について考察する。 本稿では,Fast Fourier Transform (FFT) の次元化への応用について紹介する。 Retrieval-Augmented Generation(RAG)モデルや画像処理など、さまざまなAIドメインにまたがる実用性を実証することにより、このFFTベースのアプローチは、データ検索プロセスの改善と、AIソリューションの効率性とスケーラビリティの向上を約束する。 FFTの組み込みは、リアルタイム処理とレコメンデーションシステムにおける操作を最適化するだけでなく、次元削減により性能と解析効率が大幅に向上する高度な画像処理技術にも拡張できる。 本稿では、ベクトルデータベース管理におけるFFTの広範な採用を提唱し、AI研究やアプリケーションにおけるデータボリュームと複雑性の課題に対処するための重要な取り組みを示す。 多くの既存手法とは異なり、テスト入力処理後にモデルが生成した埋め込みベクトルを直接処理する。

Dimensionality reduction in vector databases is pivotal for streamlining AI data management, enabling efficient storage, faster computation, and improved model performance. This paper explores the benefits of reducing vector database dimensions, with a focus on computational efficiency and overcoming the curse of dimensionality. We introduce a novel application of Fast Fourier Transform (FFT) to dimensionality reduction, a method previously underexploited in this context. By demonstrating its utility across various AI domains, including Retrieval-Augmented Generation (RAG) models and image processing, this FFT-based approach promises to improve data retrieval processes and enhance the efficiency and scalability of AI solutions. The incorporation of FFT may not only optimize operations in real-time processing and recommendation systems but also extend to advanced image processing techniques, where dimensionality reduction can significantly improve performance and analysis efficiency. This paper advocates for the broader adoption of FFT in vector database management, marking a significant stride towards addressing the challenges of data volume and complexity in AI research and applications. Unlike many existing approaches, we directly handle the embedding vectors produced by the model after processing a test input.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# ノイズNCA:ニューラルセルオートマタの時空間連続性を改善するノイジー種子

NoiseNCA: Noisy Seed Improves Spatio-Temporal Continuity of Neural Cellular Automata ( http://arxiv.org/abs/2404.06279v1 )

ライセンス: Link先を確認
Ehsan Pajouheshgar, Yitao Xu, Sabine Süsstrunk, (参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)はセルオートマタの一種で、ニューラルネットワークによって更新ルールをパラメータ化して、勾配降下を用いてトレーニングすることができる。 本稿では, 反応拡散系を記述する偏微分方程式 (PDE) に着想を得て, テクスチャ合成に使用されるNAAモデルに着目した。 NCAモデルをトレーニングするために、時空間領域を離散化し、オイラー積分を用いてPDEを数値シミュレーションする。 しかし、訓練されたNAAが、対応するPDEによって記述される連続力学を真に学習するかどうか、あるいは単にトレーニングで使用される離散化を過度に適合させるだけなのかは、未解決の問題である。 時空離散化が連続性に近づく極限において, NCA モデルについて検討する。 既存のNAAモデルは、特に「シード」とも呼ばれる初期状態に近い場合、トレーニングの離散化に過度に適合する傾向にある。 そこで本研究では,一様雑音を初期条件とする解を提案する。 本研究では, NCA の動的一貫性を幅広い時空間的粒度にわたって維持する手法の有効性を実証する。 NCAモデルの改良により、パターン生成速度と合成パターンのスケールを連続的に制御し、2つの新しいテスト時間相互作用が可能となった。 インタラクティブなオンラインデモでは、この新しいNAA機能を実演しています。 我々の研究は、NAAモデルが連続力学を学習し、動的システムの観点からNAA研究の新たな場を開くことを明らかにしている。

Neural Cellular Automata (NCA) is a class of Cellular Automata where the update rule is parameterized by a neural network that can be trained using gradient descent. In this paper, we focus on NCA models used for texture synthesis, where the update rule is inspired by partial differential equations (PDEs) describing reaction-diffusion systems. To train the NCA model, the spatio-termporal domain is discretized, and Euler integration is used to numerically simulate the PDE. However, whether a trained NCA truly learns the continuous dynamic described by the corresponding PDE or merely overfits the discretization used in training remains an open question. We study NCA models at the limit where space-time discretization approaches continuity. We find that existing NCA models tend to overfit the training discretization, especially in the proximity of the initial condition, also called "seed". To address this, we propose a solution that utilizes uniform noise as the initial condition. We demonstrate the effectiveness of our approach in preserving the consistency of NCA dynamics across a wide range of spatio-temporal granularities. Our improved NCA model enables two new test-time interactions by allowing continuous control over the speed of pattern formation and the scale of the synthesized patterns. We demonstrate this new NCA feature in our interactive online demo. Our work reveals that NCA models can learn continuous dynamics and opens new venues for NCA research from a dynamical systems' perspective.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# キャッシングとMTSの予測数削減のためのアルゴリズム

Algorithms for Caching and MTS with reduced number of predictions ( http://arxiv.org/abs/2404.06280v1 )

ライセンス: Link先を確認
Karim Abdel Sadek, Marek Elias, (参考訳) ML拡張アルゴリズムは、予測を利用して、最悪のケース境界を超えるパフォーマンスを達成する。 このIm et al '22は、予測を同義に使用するアルゴリズムの研究を導入する動機となった。 我々は,Antoniadisらによって提案された動作予測を用いたキャッシングとTSの類似アルゴリズムを設計し,一貫性(完全予測性能)と滑らかさ(予測誤差依存性)のパラメータに着目した。 キャッシングのアルゴリズムは, 1-consistent, robust, and its smoothness with the decrease of available predictions。 本稿では, 予測数の減少とともに, 整合性と滑らかさが線形にスケールする一般MTSのアルゴリズムを提案する。 利用可能な予測数の制限がなければ、両方のアルゴリズムはAntoniadisらによる以前の保証と一致している。

ML-augmented algorithms utilize predictions to achieve performance beyond their worst-case bounds. Producing these predictions might be a costly operation -- this motivated Im et al. '22 to introduce the study of algorithms which use predictions parsimoniously. We design parsimonious algorithms for caching and MTS with action predictions, proposed by Antoniadis et al. '20, focusing on the parameters of consistency (performance with perfect predictions) and smoothness (dependence of their performance on the prediction error). Our algorithm for caching is 1-consistent, robust, and its smoothness deteriorates with the decreasing number of available predictions. We propose an algorithm for general MTS whose consistency and smoothness both scale linearly with the decreasing number of predictions. Without the restriction on the number of available predictions, both algorithms match the earlier guarantees achieved by Antoniadis et al. '20.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# 局所ハミルトニアンのテストと学習のための簡単なアルゴリズム

Simple algorithms to test and learn local Hamiltonians ( http://arxiv.org/abs/2404.06282v1 )

ライセンス: Link先を確認
Francisco Escudero Gutiérrez, (参考訳) 我々は、パウリスペクトルの2ノルム、あるいは同等に正規化されたフロベニウスノルムに関して、クエリからその進化作用素への$n$-qubit $k$-local Hamiltonianのテストと学習の問題を考察する。 Hamiltonian が $k$-local に $\epsilon_1$-close か $k$-local に $\epsilon_2$-far であるかどうかをテストするために、$O(1/(\epsilon_2-\epsilon_1)^{8})$クエリが十分であることを示す。 これはBluhm氏、Caro氏、Oufkir氏による最近の研究で提起された2つの質問を解決する。 エラーを学習するために、$\exp(O(k^2+k\log(1/\epsilon))$クエリが十分であることを示す。 我々の証明は単純で簡潔であり、パウリ分析技術に基づいている。

We consider the problems of testing and learning an $n$-qubit $k$-local Hamiltonian from queries to its evolution operator with respect the 2-norm of the Pauli spectrum, or equivalently, the normalized Frobenius norm. For testing whether a Hamiltonian is $\epsilon_1$-close to $k$-local or $\epsilon_2$-far from $k$-local, we show that $O(1/(\epsilon_2-\epsilon_1)^{8})$ queries suffice. This solves two questions posed in a recent work by Bluhm, Caro and Oufkir. For learning up to error $\epsilon$, we show that $\exp(O(k^2+k\log(1/\epsilon)))$ queries suffice. Our proofs are simple, concise and based on Pauli-analytic techniques.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# LLMの読解理解はパラメトリック知識と仮説文によるストラグルによって影響される

LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements ( http://arxiv.org/abs/2404.06283v1 )

ライセンス: Link先を確認
Victoria Basmov, Yoav Goldberg, Reut Tsarfaty, (参考訳) 文脈に基づく質問応答(QA)としてしばしば実装される理解理解(RC)の課題は、言語モデルの自然言語理解(NLU)能力を評価するための主要な手段を提供する。 しかし,世界知識の豊富な大規模言語モデル(LLM)に適用すると,この手法は誤認される可能性がある。 文脈がLLMの内部知識と一致している場合、モデルの回答が文脈理解に由来するか、LLMの内部情報に由来するのかを判別することは困難である。 逆に、モデルの知識と矛盾するデータを使用することで、結果を歪ませる誤った傾向が生じる。 この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。 このタスクはモデルの世界知識とは独立しており、パラメトリック知識の干渉なしにLLMの言語能力を評価することができる。 このような想像上のデータに基づいてChatGPT,GPT-4,LLaMA 2,Mixtralを検証したところ,代案的,仮説的シナリオの観点から考えることで,現在のLLMに挑戦する言語現象のクラスが明らかになった。 すべてのモデルは、単純な肯定的および負のコンテキストを高い精度で扱うが、モーダルおよび条件付きコンテキストを扱う場合、エラーがより多く発生する。 重要なことに、これらの現象はLLMの脆弱性を再び知識の衝突に引き起こす。 特に、いくつかのモデルは、肯定的および否定的な文脈における知識の衝突によって事実上影響を受けないことが証明されているが、より意味論的に関係する様相や条件的環境に直面した場合には、テキストを内部の知識から切り離すことがしばしば失敗する。

The task of reading comprehension (RC), often implemented as context-based question answering (QA), provides a primary means to assess language models' natural language understanding (NLU) capabilities. Yet, when applied to large language models (LLMs) with extensive built-in world knowledge, this method can be deceptive. If the context aligns with the LLMs' internal knowledge, it is hard to discern whether the models' answers stem from context comprehension or from LLMs' internal information. Conversely, using data that conflicts with the models' knowledge creates erroneous trends which distort the results. To address this issue, we suggest to use RC on imaginary data, based on fictitious facts and entities. This task is entirely independent of the models' world knowledge, enabling us to evaluate LLMs' linguistic abilities without the interference of parametric knowledge. Testing ChatGPT, GPT-4, LLaMA 2 and Mixtral on such imaginary data, we uncover a class of linguistic phenomena posing a challenge to current LLMs, involving thinking in terms of alternative, hypothetical scenarios. While all the models handle simple affirmative and negative contexts with high accuracy, they are much more prone to error when dealing with modal and conditional contexts. Crucially, these phenomena also trigger the LLMs' vulnerability to knowledge-conflicts again. In particular, while some models prove virtually unaffected by knowledge conflicts in affirmative and negative contexts, when faced with more semantically involved modal and conditional environments, they often fail to separate the text from their internal knowledge.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# アビニットにおける線形応答ハバードパラメータU,Jの施設と実践

Facilities and practices for linear response Hubbard parameters U and J in Abinit ( http://arxiv.org/abs/2404.06284v1 )

ライセンス: Link先を確認
Lórien MacEnulty, Matteo Giantomassi, Bernard Amadon, Gian-Marco Rignanese, David D. O'Regan, (参考訳) DFT+Uファミリーのメンバーは、最小計算コストで(半)局所交換相関関数に固有のエラーに対処する方法がますます一般的になっているが、そのパラメータ U と J は、特定の利害関係、シミュレーションスキーム、実行時パラメータを計算しなければならない。 SCF線形応答アプローチは、Uのab初期取得を提供し、最近、交換様効果に関連する局所的誤差を測定するJを類似的に計算するために拡張されている。 本稿では,更新後プロセッサであるlrUJユーティリティと,この詳細なベストプラクティスガイドを導入し,オープンソースのAbinitファーストプリンシプルシミュレーションスイートのユーザに対して,ハバードパラメータの挿入を容易に行うとともに,興味のある材料シミュレーションへの導入を合理化できるようにする。 このユーティリティの特徴は、また他のDFTコードのユーザや開発者が興味を持つかもしれないが、$n$-degreeの多項式回帰、エラー解析、Pythonプロット機能、ドクティックドキュメンテーション、さらなる開発への道のりなどである。 本稿では,プロジェクタ拡張波(PAW)法,SCF混合スキーム,非線形応答による複雑な落とし穴と潜在的な落とし穴に着目し,その一部は他のパッケージのDFT+U(+J)実装に変換可能である。

Members of the DFT+U family of functionals are increasingly prevalent methods of addressing errors intrinsic to (semi-) local exchange-correlation functionals at minimum computational cost, but require their parameters U and J to be calculated in situ for a given system of interest, simulation scheme, and runtime parameters. The SCF linear response approach offers ab initio acquisition of the U and has recently been extended to compute the J analogously, which measures localized errors related to exchange-like effects. We introduce a renovated post-processor, the lrUJ utility, together with this detailed best-practices guide, to enable users of the popular, open-source Abinit first-principles simulation suite to engage easily with in situ Hubbard parameters and streamline their incorporation into material simulations of interest. Features of this utility, which may also interest users and developers of other DFT codes, include $n$-degree polynomial regression, error analysis, Python plotting facilities, didactic documentation, and avenues for further developments. In this technical introduction and guide, we place particular emphasis on the intricacies and potential pitfalls introduced by the projector augmented wave (PAW) method, SCF mixing schemes, and non-linear response, several of which are translatable to DFT+U(+J) implementations in other packages.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# 最適POVM構成による粗粒量子状態トモグラフィ

Coarse-grained quantum state tomography with optimal POVM construction ( http://arxiv.org/abs/2404.06285v1 )

ライセンス: Link先を確認
Donghun Jung, Young-Wook Cho, Yosep Kim, Junghyun Lee, (参考訳) 現実的なサイズの大規模な量子ビットシステムを構築するには、量子ビット間の物理的集団化の課題に対処する必要がある。 この制約は粗粒度測定(CG)の問題であり、多ビットシステムからの情報をまとめて収集する。 本稿では,CG測定の制約下でのパラメータ化量子回路(PQC)を用いて,POVM(Positive Operator-Valued Measures)の包括的集合からターゲット密度行列を再構築する手法を提案する。 我々は、フォン・ノイマンエントロピーの最大化により、一般化された対称情報完全(GSIC)POVMを達成するためにPOVMセットを最適化することにより、CG量子状態トモグラフィ(QST)の堅牢性と安定性を向上させる。 この最適化されたCG-POVMは、N-qubitシステムにスケーラブルである。 さらに,N-qubit CG-QSTのより効率的な構築について検討する。 提案手法は, 集団計測から重要な量子情報を再構成することにより, 検出器効率の高い大規模固体埋込み量子ビットプラットフォームへの実行可能な経路を提供する。

Constructing an integrated large-scale qubit system of realistic size requires addressing the challenge of physical crowding among qubits. This constraint poses an issue of coarse-grained (CG) measurement, wherein information from the multi-qubit system is collectively gathered. In this work, we introduce a novel approach to reconstruct the target density matrix from a comprehensive set of Positive Operator-Valued Measures (POVM) using a Parameterized Quantum Circuit (PQC) under the constraint of CG measurement. We improve the robustness and stability of CG quantum state tomography (QST) by optimizing the POVM set to achieve a generalized symmetric informationally complete (GSIC) POVM through maximization of the von Neumann entropy. This optimized construction of CG-POVMs is scalable to an N-qubit system. We further discuss a more efficient construction of N-qubit CG-QST without exponential increases in two-qubit gates or circuit depth per measurement. Our scheme offers a viable pathway towards a detector-efficient large-scale solid-state embedded qubit platform by reconstructing crucial quantum information from collective measurements.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# パッチベーストレーニングによるマルチラベル画像分類のファクトファクト推論

Counterfactual Reasoning for Multi-Label Image Classification via Patching-Based Training ( http://arxiv.org/abs/2404.06287v1 )

ライセンス: Link先を確認
Ming-Kun Xie, Jia-Hao Xiao, Pei Peng, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang, (参考訳) マルチラベル画像分類(MLC)の鍵は,ラベル相関を利用してモデル性能を向上させることである。 残念なことに、共起関係の過度な強調はモデルの過度な適合問題を招き、最終的に性能低下につながることが示されている。 本稿では,対象物とその共起物による相関特性を媒介者とみなすことができ,モデル予測に肯定的かつ否定的な影響を与えることを示す因果推論フレームワークを提案する。 正の面では、メディエータは共起関係を捉えてモデルの認識性能を高め、負の面では、画像中に共起対象のみが存在する場合でも、モデルが対象対象に対して誤った予測をさせる有害な因果効果を有する。 この問題に対処するために,対象対象物のみによる直接効果を高めることで達成した,全直接効果を測定するための反実的推論手法を提案する。 対象オブジェクトの位置が不明なため、この目標を達成するためにパッチベースのトレーニングと推論を提案し、画像を複数のパッチに分割し、対象オブジェクトを含むピボットパッチを特定する。 多様な構成を持つ複数のベンチマークデータセットの実験結果から,提案手法が最先端の性能を達成できることが確認された。

The key to multi-label image classification (MLC) is to improve model performance by leveraging label correlations. Unfortunately, it has been shown that overemphasizing co-occurrence relationships can cause the overfitting issue of the model, ultimately leading to performance degradation. In this paper, we provide a causal inference framework to show that the correlative features caused by the target object and its co-occurring objects can be regarded as a mediator, which has both positive and negative impacts on model predictions. On the positive side, the mediator enhances the recognition performance of the model by capturing co-occurrence relationships; on the negative side, it has the harmful causal effect that causes the model to make an incorrect prediction for the target object, even when only co-occurring objects are present in an image. To address this problem, we propose a counterfactual reasoning method to measure the total direct effect, achieved by enhancing the direct effect caused only by the target object. Due to the unknown location of the target object, we propose patching-based training and inference to accomplish this goal, which divides an image into multiple patches and identifies the pivot patch that contains the target object. Experimental results on multiple benchmark datasets with diverse configurations validate that the proposed method can achieve state-of-the-art performance.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# 真の可能性を探る:大規模言語モデルのブラックボックス最適化能力の評価

Exploring the True Potential: Evaluating the Black-box Optimization Capability of Large Language Models ( http://arxiv.org/abs/2404.06290v1 )

ライセンス: Link先を確認
Beichen Huang, Xingyu Wu, Yu Zhou, Jibin Wu, Liang Feng, Ran Cheng, Kay Chen Tan, (参考訳) 大規模言語モデル(LLM)は広く普及し、自然言語処理(NLP)タスクだけでなく、非言語領域でも例外的な性能を示した。 人工知能としての可能性はNLPを超えて広がり、様々な最適化シナリオにおいて有望な能力を示す。 この傾向にもかかわらず、これらのブラックボックス最適化問題へのLSMの統合が真に有益かどうかはまだ明らかになっていない。 本稿では、総合的な調査を通じて、最適化タスクにおけるLLMの可能性についてより深い洞察を提供することにより、この問題に取り組みます。 提案手法は,LLMが最適化の領域にもたらす有効性と特徴を評価することを目的として,離散的および連続的な最適化問題を網羅的に評価することを含む。 本研究は,LLMの最適化における限界と利点を明らかにした。 一方、モデルを実行するのに必要なかなりの電力を消費しているにもかかわらず、LLMは性能が劣り、問題領域と処理能力のミスマッチのため、純粋な数値処理では望ましい性質が欠如している。 一方、LLMは従来の数値最適化には向いていないかもしれないが、より広い最適化コンテキストにおけるその可能性はまだ有望である。 LLMは、非数値領域の問題を解く能力を示し、その性能を高めるプロンプトからヒューリスティックスを活用することができる。 我々の知る限り、この研究は、数値最適化のためのLLMの体系的評価を初めて提示し、進歩的で広範かつ行動分析を提供する。 本研究は, LLMの最適化における役割を深く理解し, LLMの多様なシナリオにおける将来的な応用を導くための道を開くものである。

Large language models (LLMs) have gained widespread popularity and demonstrated exceptional performance not only in natural language processing (NLP) tasks but also in non-linguistic domains. Their potential as artificial general intelligence extends beyond NLP, showcasing promising capabilities in diverse optimization scenarios. Despite this rising trend, whether the integration of LLMs into these black-box optimization problems is genuinely beneficial remains unexplored. This paper endeavors to tackle this issue by offering deeper insights into the potential of LLMs in optimization tasks through a comprehensive investigation. Our approach involves a comprehensive evaluation, covering both discrete and continuous optimization problems, aiming to assess the efficacy and distinctive characteristics that LLMs bring to the realm of optimization. Our findings reveal both the limitations and advantages of LLMs in optimization. On one hand, despite consuming the significant power required to run the model, LLMs exhibit subpar performance and lack desirable properties in pure numerical tasks, primarily due to a mismatch between the problem domain and their processing capabilities. On the other hand, although LLMs may not be ideal for traditional numerical optimization, their potential in broader optimization contexts remains promising. LLMs exhibit the ability to solve problems in non-numerical domains and can leverage heuristics from the prompt to enhance their performance. To the best of our knowledge, this work presents the first systematic evaluation of LLMs for numerical optimization, offering a progressive, wide-coverage, and behavioral analysis. Our findings pave the way for a deeper understanding of LLMs' role in optimization and guide future application in diverse scenarios for LLMs.
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# nEMO:ポーランドにおける感情音声のデータセット

nEMO: Dataset of Emotional Speech in Polish ( http://arxiv.org/abs/2404.06292v1 )

ライセンス: Link先を確認
Iwona Christop, (参考訳) 近年、医療、カスタマーサービス、対話システムのパーソナライズなどにおける潜在的な応用により、音声感情認識の重要性が高まっている。 しかし、この分野の大きな問題は、様々な言語家族の基本的な感情状態を適切に表現するデータセットの欠如である。 スラヴ語をカバーするデータセットは稀であるため、この研究ギャップに対処する必要がある。 本稿では,ポーランド語における感情音声の新しいコーパスであるnEMOの開発について述べる。 データセットは、怒り、恐怖、幸福、悲しみ、驚き、中立状態という6つの感情状態を描いた9人の俳優が参加して記録された3時間以上のサンプルで構成されている。 使用したテキストはポーランド語の音声学を適切に表現するために慎重に選択された。 コーパスはクリエイティブ・コモンズ・ライセンス(CC BY-NC-SA 4.0)の下で無料で利用できる。

Speech emotion recognition has become increasingly important in recent years due to its potential applications in healthcare, customer service, and personalization of dialogue systems. However, a major issue in this field is the lack of datasets that adequately represent basic emotional states across various language families. As datasets covering Slavic languages are rare, there is a need to address this research gap. This paper presents the development of nEMO, a novel corpus of emotional speech in Polish. The dataset comprises over 3 hours of samples recorded with the participation of nine actors portraying six emotional states: anger, fear, happiness, sadness, surprise, and a neutral state. The text material used was carefully selected to represent the phonetics of the Polish language adequately. The corpus is freely available under the terms of a Creative Commons license (CC BY-NC-SA 4.0).
翻訳日:2024-04-10 14:40:35 公開日:2024-04-09
# ダイバージェンス対策を用いた画像超解法のための完全畳み込み生成逆数ネットワークの構築

Fortifying Fully Convolutional Generative Adversarial Networks for Image Super-Resolution Using Divergence Measures ( http://arxiv.org/abs/2404.06294v1 )

ライセンス: Link先を確認
Arkaprabha Basu, Kushal Bose, Sankha Subhra Mullick, Anish Chakrabarty, Swagatam Das, (参考訳) 超解像(英: Super-Resolution, SR)は、高解像(英: High-Resolution, HR)の標準となる低解像(LR)の画質向上を目的とした、時間制限の画像処理問題である。 我々は,SRのためのGANベースのアーキテクチャであるSuper-Resolution Generator (SuRGe)を導入することで,この問題に対処することを目指している。 本稿では, GAN発生器の深度を増大させることで得られる差分畳み込み特性を, 学習可能な凸重みの集合で最適に組み合わせることで, 生成したSR試料の品質を向上できることを示す。 この過程では, SR-HRとLR-SRの2組の分布間でのGromov-Wasserstein損失をJensen-ShannonとGromov-Wassersteinの損失を利用して, SuRGeの生成元をさらに支援し, SRの改善を図る。 さらに,モード崩壊を防止するために,Wasserstein損失によるSuRGe判別器を勾配ペナルティで訓練する。 提案したSuRGeは、超高解像度に適したエンドツーエンドのGANワークフローであり、低推論時間を維持しながら性能を向上する。 SuRGeの有効性は、10のベンチマークデータセット上の18の最先端競合と比較すると、優れたパフォーマンスで裏付けられている。

Super-Resolution (SR) is a time-hallowed image processing problem that aims to improve the quality of a Low-Resolution (LR) sample up to the standard of its High-Resolution (HR) counterpart. We aim to address this by introducing Super-Resolution Generator (SuRGe), a fully-convolutional Generative Adversarial Network (GAN)-based architecture for SR. We show that distinct convolutional features obtained at increasing depths of a GAN generator can be optimally combined by a set of learnable convex weights to improve the quality of generated SR samples. In the process, we employ the Jensen-Shannon and the Gromov-Wasserstein losses respectively between the SR-HR and LR-SR pairs of distributions to further aid the generator of SuRGe to better exploit the available information in an attempt to improve SR. Moreover, we train the discriminator of SuRGe with the Wasserstein loss with gradient penalty, to primarily prevent mode collapse. The proposed SuRGe, as an end-to-end GAN workflow tailor-made for super-resolution, offers improved performance while maintaining low inference time. The efficacy of SuRGe is substantiated by its superior performance compared to 18 state-of-the-art contenders on 10 benchmark datasets.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# 自然界の量子シミュレーション

Quantum Simulating Nature's Fundamental Fields ( http://arxiv.org/abs/2404.06298v1 )

ライセンス: Link先を確認
Christian W. Bauer, Zohreh Davoudi, Natalie Klco, Martin J. Savage, (参考訳) 物質の主要な静的および動的性質をシミュレートする - ビッグバンの創造から、準原子的および天体物理学的な環境への進化 - 標準模型の基礎となる量子場とそれらの効果的な説明から生じる - は、古典的な計算のみの能力を超えたものである。 量子技術の進歩により、量子の絡み合いとコヒーレンスに対する制御が改善され、将来はロバストなシミュレーションが可能になると期待されている。 本稿では, 標準モデル物理学の量子シミュレーションの新たな領域, 今後の課題, 核・高エネルギー物理学の文脈における進歩の機会について論じる。

Simulating key static and dynamic properties of matter -- from creation in the Big Bang to evolution into sub-atomic and astrophysical environments -- arising from the underlying fundamental quantum fields of the Standard Model and their effective descriptions, lies beyond the capabilities of classical computation alone. Advances in quantum technologies have improved control over quantum entanglement and coherence to the point where robust simulations are anticipated to be possible in the foreseeable future. We discuss the emerging area of quantum simulations of Standard-Model physics, challenges that lie ahead, and opportunities for progress in the context of nuclear and high-energy physics.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# 固体NMRにおける連続フロケット理論

Continuous Floquet Theory in Solid-State NMR ( http://arxiv.org/abs/2404.06300v1 )

ライセンス: Link先を確認
Matías Chávez, Matthias Ernst, (参考訳) 本稿では、固体NMRにおける連続フロケ理論の適用について述べる。 連続フロケ理論は、伝統的なフロケ理論を非連続ハミルトニアンに拡張し、周期ハミルトニアンの要求により、伝統的なフロケ理論によって完全に捉えられない観測可能な効果の記述を可能にする。 第一級および第二級有効ハミルトニアンに対する閉形式表現、従来のフロケ理論との統合の合理化、および多重変調周波数を特徴とするNMR実験における適用の促進について述べる。 その後,いくつかの固体NMR実験による連続フロケ理論の適用例を示す。 これらの例は、共振条件の幅と近接共振挙動に関するパルススキームの持続時間の重要性を示している。

This article presents the application of continuous Floquet theory in solid-state NMR. Continuous Floquet theory extends traditional Floquet theory to non-continuous Hamiltonians, enabling the description of observable effects not fully captured by traditional Floquet theory due to its requirement for a periodic Hamiltonian. We present closed-form expressions for computing first and second-order effective Hamiltonians, streamlining integration with traditional Floquet theory and facilitating application in NMR experiments featuring multiple modulation frequencies. Subsequently, we show examples of the practical application of Continuous Floquet theory by investigating several solid-state NMR experiments. These examples illustrate the importance of the duration of the pulse scheme regarding the width of the resonance conditions and the near-resonance behavior.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# 事前学習型大規模マルチモーダルモデルを用いた音声視覚一般化ゼロショット学習

Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models ( http://arxiv.org/abs/2404.06309v1 )

ライセンス: Link先を確認
David Kurzendörfer, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata, (参考訳) オーディオ視覚ゼロショット学習法は、訓練済みのモデル、例えばビデオやオーディオ分類モデルから抽出された特徴に基づいて構築される。 しかし、既存のベンチマークはCLIPやCLAPのような大規模なマルチモーダルモデルの普及よりも前である。 本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。 さらに、CLIPとCLAPテキストエンコーダは、システムの性能を高めるために、クラスラベルの埋め込みを提供する。 我々は、フィードフォワードニューラルネットワークのみに依存し、新しい音声・視覚・テキスト機能の強力な一般化機能を活用する、単純で効果的なモデルを提案する。 我々のフレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLの最先端性能を実現する。 コードとデータは、https://github.com/dkurzend/ClipClap-GZSL.comで公開されている。

Audio-visual zero-shot learning methods commonly build on features extracted from pre-trained models, e.g. video or audio classification models. However, existing benchmarks predate the popularization of large multi-modal models, such as CLIP and CLAP. In this work, we explore such large pre-trained models to obtain features, i.e. CLIP for visual features, and CLAP for audio features. Furthermore, the CLIP and CLAP text encoders provide class label embeddings which are combined to boost the performance of the system. We propose a simple yet effective model that only relies on feed-forward neural networks, exploiting the strong generalization capabilities of the new audio, visual and textual features. Our framework achieves state-of-the-art performance on VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL with our new features. Code and data available at: https://github.com/dkurzend/ClipClap-GZSL.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# 敵対的訓練と最近近傍分類器について

On adversarial training and the 1 Nearest Neighbor classifier ( http://arxiv.org/abs/2404.06313v1 )

ライセンス: Link先を確認
Amir Hagai, Yair Weiss, (参考訳) 入力の摂動が小さい深層学習分類器を騙す能力は、学習例に加えて、敵の例に対する損失を最小限に抑える敵の訓練の開発につながる。 逆行訓練は学習した分類器の堅牢性を改善するが、この手順は計算コストが高く、ハイパーパラメータに敏感であり、いまだに他の種類の小さな摂動に弱い分類器を残している可能性がある。 本稿では,1 NNN(Nearest Neighbor)分類器の対向ロバスト性を解析し,その性能を対向トレーニングと比較する。 妥当な仮定の下では、1 NN分類器はトレーニング画像の小さな画像摂動に頑健であり、トレーニング例の数が無限に近づくにつれて、テスト画像に対して高い逆の精度が得られることを証明している。 CIFAR10から抽出した45種類のバイナリ画像分類問題を用いた実験では、平均対角精度で1NNがTRADES(強力な対向訓練アルゴリズム)より優れていた。 CIFAR10のための69の事前訓練されたロバストモデルによる追加実験では、1NNはトレーニング中に見られたモデルとわずかに異なる摂動に対するロバスト性においてほぼすべてのモデルより優れていた。 この結果から, 現代の逆行訓練手法は, 単純な1NN分類器の頑健さに欠けていたことが示唆された。 私たちのコードはhttps://github.com/amirhagai/On-Adversarial-Training-And-The-1-Nearest-Neighbor-Classifierで確認できます。

The ability to fool deep learning classifiers with tiny perturbations of the input has lead to the development of adversarial training in which the loss with respect to adversarial examples is minimized in addition to the training examples. While adversarial training improves the robustness of the learned classifiers, the procedure is computationally expensive, sensitive to hyperparameters and may still leave the classifier vulnerable to other types of small perturbations. In this paper we analyze the adversarial robustness of the 1 Nearest Neighbor (1NN) classifier and compare its performance to adversarial training. We prove that under reasonable assumptions, the 1 NN classifier will be robust to {\em any} small image perturbation of the training images and will give high adversarial accuracy on test images as the number of training examples goes to infinity. In experiments with 45 different binary image classification problems taken from CIFAR10, we find that 1NN outperform TRADES (a powerful adversarial training algorithm) in terms of average adversarial accuracy. In additional experiments with 69 pretrained robust models for CIFAR10, we find that 1NN outperforms almost all of them in terms of robustness to perturbations that are only slightly different from those seen during training. Taken together, our results suggest that modern adversarial training methods still fall short of the robustness of the simple 1NN classifier. our code can be found at https://github.com/amirhagai/On-Adversarial-Training-And-The-1-Nearest-Neighbor-Classifier
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# Qiskit-Torch-Module:量子ニューラルネットワークの高速プロトタイピング

Qiskit-Torch-Module: Fast Prototyping of Quantum Neural Networks ( http://arxiv.org/abs/2404.06314v1 )

ライセンス: Link先を確認
Nico Meyer, Christian Ufrecht, Maniraman Periyasamy, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, Andreas Maier, (参考訳) 量子コンピュータシミュレーションソフトウェアは、量子コンピューティングコミュニティの研究に不可欠なツールである。 重要な側面は、特に変分量子アルゴリズムのトレーニングにおいて、それぞれのフレームワークの効率性である。 広く使われているQiskitソフトウェア環境に着目し,qiskit-torch-moduleを開発した。 既存のコードベースとの低オーバーヘッド統合を容易にしながら、同等のライブラリよりも2桁のパフォーマンス向上を実現している。 さらにこのフレームワークは、量子ニューラルネットワークとPyTorchを統合するための高度なツールを提供する。 パイプラインはシングルマシンの計算システム向けに調整されており、日々の研究で広く利用されている。

Quantum computer simulation software is an integral tool for the research efforts in the quantum computing community. An important aspect is the efficiency of respective frameworks, especially for training variational quantum algorithms. Focusing on the widely used Qiskit software environment, we develop the qiskit-torch-module. It improves runtime performance by two orders of magnitude over comparable libraries, while facilitating low-overhead integration with existing codebases. Moreover, the framework provides advanced tools for integrating quantum neural networks with PyTorch. The pipeline is tailored for single-machine compute systems, which constitute a widely employed setup in day-to-day research efforts.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# O-RAN上での動的D2D支援フェデレーション学習:性能解析,MACスケジューリング,非対称ユーザ選択

Dynamic D2D-Assisted Federated Learning over O-RAN: Performance Analysis, MAC Scheduler, and Asymmetric User Selection ( http://arxiv.org/abs/2404.06324v1 )

ライセンス: Link先を確認
Payam Abdisarabshali, Kwang Taik Kim, Michael Langberg, Weifeng Su, Seyyedali Hosseinalipour, (参考訳) 既存のFL(Federated Learning)の研究は、主にネットワークの静的スナップショットのためのシステムオーケストレーションと静的制御決定(スペクトル割り当てなど)に焦点を当てている。 しかし、現実の無線ネットワークは、無線チャネル容量とユーザのデータセットの時間的変動に影響を受けやすい。 本稿では,マルチグラニュラ・システム・ダイナミックス(MSD)をFLに組み込み,(M1)動的無線チャネル容量を,(M1)離散時間イベント($\mathscr{D}$-Events,(M2)動的データセット)と呼ばれる一連の離散時間イベントによってキャプチャする。 後者の特徴は、(M2-a) 通常の微分方程式を用いてユーザーのデータセットサイズをモデル化し、(M2-b) ダイナミックモデルドリフトを導入し、(M2-b) ユーザデータセットのダイナミックスとFL精度の間の具体的な解析的接続を描画する偏微分不等式によって定式化することである。 次に、オープン無線アクセスネットワーク(O-RAN)のユニークな特徴を利用して、専用MACスケジューラ(DCLM)を用いた動的協調FLを導入することで、MSD下でFLオーケストレーションを行う。 DCLMの提案 (i)階層型デバイス・ツー・デバイス(D2D)支援モデルトレーニング (二)専用O-RANMACスケジューラによる動的制御決定及び (iii)非対称なユーザ選択。 我々は、DCLMの収束を研究するために、広範囲な理論的解析を行う。 次に、非凸最適化問題を用いて、DCLMの自由度(例えば、ユーザ選択とスペクトル割り当て)を最適化する。 この問題を解決するための体系的なアプローチを開発し、様々なネットワーク対応FL最適化問題を解くための扉を開く。 数値シミュレーションによるDCLMの効率性を示すとともに,今後の方向性を示す。

Existing studies on federated learning (FL) are mostly focused on system orchestration for static snapshots of the network and making static control decisions (e.g., spectrum allocation). However, real-world wireless networks are susceptible to temporal variations of wireless channel capacity and users' datasets. In this paper, we incorporate multi-granular system dynamics (MSDs) into FL, including (M1) dynamic wireless channel capacity, captured by a set of discrete-time events, called $\mathscr{D}$-Events, and (M2) dynamic datasets of users. The latter is characterized by (M2-a) modeling the dynamics of user's dataset size via an ordinary differential equation and (M2-b) introducing dynamic model drift}, formulated via a partial differential inequality} drawing concrete analytical connections between the dynamics of users' datasets and FL accuracy. We then conduct FL orchestration under MSDs by introducing dynamic cooperative FL with dedicated MAC schedulers (DCLM), exploiting the unique features of open radio access network (O-RAN). DCLM proposes (i) a hierarchical device-to-device (D2D)-assisted model training, (ii) dynamic control decisions through dedicated O-RAN MAC schedulers, and (iii) asymmetric user selection. We provide extensive theoretical analysis to study the convergence of DCLM. We then optimize the degrees of freedom (e.g., user selection and spectrum allocation) in DCLM through a highly non-convex optimization problem. We develop a systematic approach to obtain the solution for this problem, opening the door to solving a broad variety of network-aware FL optimization problems. We show the efficiency of DCLM via numerical simulations and provide a series of future directions.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# ランドマークからのHTN自動学習

Automatically Learning HTN Methods from Landmarks ( http://arxiv.org/abs/2404.06325v1 )

ライセンス: Link先を確認
Ruoxi Li, Dana Nau, Mark Roberts, Morgan Fine-Morris, (参考訳) 階層的タスクネットワーク(HTN)計画は通常、ドメインエンジニアに計画上の問題を分解する方法に関する手作業によるインプットを提供する必要がある。 有名なメソッド学習アルゴリズムであるHTN-MAKERでさえ、ドメインエンジニアは、何を学習すべきかに関する情報でタスクをアノテートする必要がある。 本稿では,学習プロセスを完全に自動化するHTN法学習アルゴリズムであるCURRICULAMAを紹介する。 ランドマーク分析を使用して注釈付きタスクを構成し、カリキュラム学習を活用して、メソッドの学習をよりシンプルからより複雑なものに順序付けする。 これにより手動入力が不要になり、HTN-MAKERでコア問題が解決される。 我々はCURRICULAMAの音質を証明し、HTN-MAKERに対する完全な手法の学習において、ほぼ同様の収束率を持つことを実験的に示す。

Hierarchical Task Network (HTN) planning usually requires a domain engineer to provide manual input about how to decompose a planning problem. Even HTN-MAKER, a well-known method-learning algorithm, requires a domain engineer to annotate the tasks with information about what to learn. We introduce CURRICULAMA, an HTN method learning algorithm that completely automates the learning process. It uses landmark analysis to compose annotated tasks and leverages curriculum learning to order the learning of methods from simpler to more complex. This eliminates the need for manual input, resolving a core issue with HTN-MAKER. We prove CURRICULAMA's soundness, and show experimentally that it has a substantially similar convergence rate in learning a complete set of methods to HTN-MAKER.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# バイナリデータの$\textit{intrinsic}$ dimensionとは何でしょうか?

What is the $\textit{intrinsic}$ dimension of your binary data? -- and how to compute it quickly ( http://arxiv.org/abs/2404.06326v1 )

ライセンス: Link先を確認
Tom Hanika, Tobias Hille, (参考訳) 次元性は、(高次元の)データを解析し、理解するための重要な側面である。 2006年のICDMの論文Tatti et alは、正規化相関次元を導入してバイナリデータテーブルの(解釈可能な)次元に関する質問に答えた。 本研究では, それらの結果を再考し, 幾何学的データセットに最近導入された本質的次元の概念と対比する。 そこで本研究では,特定のサポート値のみを計算概念とする新しい近似法を提案する。 我々は,469から41271の外部次元を持つTatti et al から得られるすべてのデータセットを用いて,我々の近似を実証し,評価した。

Dimensionality is an important aspect for analyzing and understanding (high-dimensional) data. In their 2006 ICDM paper Tatti et al. answered the question for a (interpretable) dimension of binary data tables by introducing a normalized correlation dimension. In the present work we revisit their results and contrast them with a concept based notion of intrinsic dimension (ID) recently introduced for geometric data sets. To do this, we present a novel approximation for this ID that is based on computing concepts only up to a certain support value. We demonstrate and evaluate our approximation using all available datasets from Tatti et al., which have between 469 and 41271 extrinsic dimensions.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# シンボリック回帰ベースインコンテクスト強化学習のための生成事前学習変換器

Generative Pre-Trained Transformer for Symbolic Regression Base In-Context Reinforcement Learning ( http://arxiv.org/abs/2404.06330v1 )

ライセンス: Link先を確認
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Meilan Hao, Shu Wei, Yusong Deng, (参考訳) 数学的公式は自然を記述する人間の言語であり、科学研究の本質である。 観測データから数学的公式を見つけることは、科学研究の大きな需要であり、人工知能の大きな課題である。 この領域は記号回帰と呼ばれる。 当初、記号回帰は組合せ最適化問題として定式化され、GPアルゴリズムや強化学習アルゴリズムを用いて解かれた。 これらの2種類のアルゴリズムは、強いノイズ堅牢性と優れたVersatilityを持つ。 しかし、推論には通常長い時間がかかるため、探索効率は比較的低い。 その後、大規模な事前学習データに基づいて、生成事前学習変換器(GPT)を訓練するために、多数の合成データポイントと式ペアを使用する。 そして、このGPTは結果を得るためには1つの前方伝播のみを実行する必要があり、その利点は推論速度が非常に速いことである。 しかし、その性能はトレーニングデータに非常に依存しており、トレーニングセット外のデータにはあまり依存しないため、そのような手法のノイズ堅牢性やVersatilityが低下する。 では、上記の2つのカテゴリのSRアルゴリズムの利点を組み合わせてみましょうか。 本稿では,強化学習に基づくSRアルゴリズムの巨額の報酬学習履歴をトレーニングデータとして,GPTをトレーニングする \textbf{FormulaGPT} を提案する。 訓練後、強化学習に基づくSRアルゴリズムを変換器に蒸留する。 新しいテストデータがやってくると、フォーミュラGPTは直接「強化学習プロセス」を生成し、文脈で学習ポリシーを自動的に更新する。 SRBenchを含む10以上のデータセットでテストした結果、フォーミュラGPTは4つのベースラインと比較して、適合性の最先端のパフォーマンスを実現している。 さらに、ノイズ堅牢性、汎用性、推論効率の良好な結果が得られる。

The mathematical formula is the human language to describe nature and is the essence of scientific research. Finding mathematical formulas from observational data is a major demand of scientific research and a major challenge of artificial intelligence. This area is called symbolic regression. Originally symbolic regression was often formulated as a combinatorial optimization problem and solved using GP or reinforcement learning algorithms. These two kinds of algorithms have strong noise robustness ability and good Versatility. However, inference time usually takes a long time, so the search efficiency is relatively low. Later, based on large-scale pre-training data proposed, such methods use a large number of synthetic data points and expression pairs to train a Generative Pre-Trained Transformer(GPT). Then this GPT can only need to perform one forward propagation to obtain the results, the advantage is that the inference speed is very fast. However, its performance is very dependent on the training data and performs poorly on data outside the training set, which leads to poor noise robustness and Versatility of such methods. So, can we combine the advantages of the above two categories of SR algorithms? In this paper, we propose \textbf{FormulaGPT}, which trains a GPT using massive sparse reward learning histories of reinforcement learning-based SR algorithms as training data. After training, the SR algorithm based on reinforcement learning is distilled into a Transformer. When new test data comes, FormulaGPT can directly generate a "reinforcement learning process" and automatically update the learning policy in context. Tested on more than ten datasets including SRBench, formulaGPT achieves the state-of-the-art performance in fitting ability compared with four baselines. In addition, it achieves satisfactory results in noise robustness, versatility, and inference efficiency.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# 構造保存拡散モデルによる量子状態生成

Quantum State Generation with Structure-Preserving Diffusion Model ( http://arxiv.org/abs/2404.06336v1 )

ライセンス: Link先を確認
Yuchen Zhu, Tianrong Chen, Evangelos A. Theodorou, Xie Chen, Molei Tao, (参考訳) 本稿では,量子系の状態の生成モデルについて考察し,拡散モデルに基づくアプローチを提案する。 鍵となる貢献は、量子状態の物理的性質を尊重するアルゴリズム的な革新である。 より正確には、混合状態の一般的な密度行列表現は複素値のエルミート、正の半定値、トレース 1 でなければならない。 ジェネリック拡散モデルや他の生成的手法は、たとえ全てのトレーニングデータが可能であるとしても、これらの構造的制約を厳密に満たすデータを生成することができないかもしれない。 物理を固定した機械学習アルゴリズムを開発するために,ミラー拡散モデルの最近の発展を活用し,これまで考えられていなかったミラーマップを設計し,厳密な構造保存生成を実現する。 非条件生成と無分類化誘導による条件生成の両方が実験的に有効であることが示され、後者は未確認ラベルで生成されたときの新しい量子状態の設計まで可能である。

This article considers the generative modeling of the states of quantum systems, and an approach based on denoising diffusion model is proposed. The key contribution is an algorithmic innovation that respects the physical nature of quantum states. More precisely, the commonly used density matrix representation of mixed-state has to be complex-valued Hermitian, positive semi-definite, and trace one. Generic diffusion models, or other generative methods, may not be able to generate data that strictly satisfy these structural constraints, even if all training data do. To develop a machine learning algorithm that has physics hard-wired in, we leverage the recent development of Mirror Diffusion Model and design a previously unconsidered mirror map, to enable strict structure-preserving generation. Both unconditional generation and conditional generation via classifier-free guidance are experimentally demonstrated efficacious, the latter even enabling the design of new quantum states when generated on unseen labels.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# 3次元における2次元画像のマッチング:メトリック対応からのメトリック相対性

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences ( http://arxiv.org/abs/2404.06337v1 )

ライセンス: Link先を確認
Axel Barroso-Laguna, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann, (参考訳) 2つの画像が与えられた場合、画像と画像の対応を確立することで、相対的なカメラのポーズを推定できる。 通常、対応は2D-to-2Dで、推定したポーズはスケールまでしか定義されない。 インスタント拡張現実を目指すいくつかのアプリケーションは、スケールメトリックのポーズ推定を必要とするため、スケールを回復するために外部の深さ推定器に依存する。 我々は、3次元カメラ空間における距離対応を予測できるキーポイントマッチングパイプラインであるMicKeyを提案する。 画像間での3次元座標の一致を学習することにより、深度測定なしで距離相対的なポーズを推測することができる。 深度測定はトレーニングにも必要ではなく、シーン再構築や画像重複情報も不要である。 MicKeyは、イメージのペアとその相対的なポーズによってのみ監視される。 MicKeyはMap-Free再ローカライゼーションベンチマークで最先端のパフォーマンスを達成し、競合するアプローチよりも監督を必要としない。

Given two images, we can estimate the relative camera pose between them by establishing image-to-image correspondences. Usually, correspondences are 2D-to-2D and the pose we estimate is defined only up to scale. Some applications, aiming at instant augmented reality anywhere, require scale-metric pose estimates, and hence, they rely on external depth estimators to recover the scale. We present MicKey, a keypoint matching pipeline that is able to predict metric correspondences in 3D camera space. By learning to match 3D coordinates across images, we are able to infer the metric relative pose without depth measurements. Depth measurements are also not required for training, nor are scene reconstructions or image overlap information. MicKey is supervised only by pairs of images and their relative poses. MicKey achieves state-of-the-art performance on the Map-Free Relocalisation benchmark while requiring less supervision than competing approaches.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# ハイブリッドアルゴリズムによるeコマースプラットフォームにおける偽レビューの発見

Finding fake reviews in e-commerce platforms by using hybrid algorithms ( http://arxiv.org/abs/2404.06339v1 )

ライセンス: Link先を確認
Mathivanan Periasamy, Rohith Mahadevan, Bagiya Lakshmi S, Raja CSP Raman, Hasan Kumar S, Jasper Jessiman, (参考訳) 自然言語処理において重要な要素である感性分析は、テキストデータに表される感情や意見を理解する上で重要な役割を担っている。 本稿では,支援ベクトルマシン(SVM),K-Nearest Neighbors(KNN),決定木分類器(Decision Tree Classifiers)の予測能力に適合する偽レビューを見つけるための,感情分析のための革新的なアンサンブルアプローチを提案する。 我々のアンサンブルアーキテクチャは、これらの多様なモデルを戦略的に組み合わせて、固有の弱点を軽減しつつ、その強みを生かし、偽レビュー予測においてより優れた精度と堅牢性を達成する。 分類器のすべてのモデルを組み合わせることにより、予測性能が向上し、実世界のデータセットに存在するさまざまな言語パターンやニュアンスへの適応性も向上する。 偽レビューで説明された指標は、従来の単一モデルアプローチに対して提案されたアンサンブル手法の有効性と競争力を示すものである。 我々の研究は、さまざまなソーシャルメディアやeプラットフォームにおける様々なアプリケーションにおいて、最良のレビューを見つけ、フェイクレビューを無視し、パフやブラフをなくすために、ハイブリッドアルゴリズムを用いたフェイクレビューの最先端化におけるアンサンブル技術の可能性を強調した。

Sentiment analysis, a vital component in natural language processing, plays a crucial role in understanding the underlying emotions and opinions expressed in textual data. In this paper, we propose an innovative ensemble approach for sentiment analysis for finding fake reviews that amalgamate the predictive capabilities of Support Vector Machine (SVM), K-Nearest Neighbors (KNN), and Decision Tree classifiers. Our ensemble architecture strategically combines these diverse models to capitalize on their strengths while mitigating inherent weaknesses, thereby achieving superior accuracy and robustness in fake review prediction. By combining all the models of our classifiers, the predictive performance is boosted and it also fosters adaptability to varied linguistic patterns and nuances present in real-world datasets. The metrics accounted for on fake reviews demonstrate the efficacy and competitiveness of the proposed ensemble method against traditional single-model approaches. Our findings underscore the potential of ensemble techniques in advancing the state-of-the-art in finding fake reviews using hybrid algorithms, with implications for various applications in different social media and e-platforms to find the best reviews and neglect the fake ones, eliminating puffery and bluffs.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# Synaptogen:大規模ニューロモルフィック回路設計のためのクロスドメイン生成デバイスモデル

Synaptogen: A cross-domain generative device model for large-scale neuromorphic circuit design ( http://arxiv.org/abs/2404.06344v1 )

ライセンス: Link先を確認
Tyler Hennen, Leon Brackmann, Tobias Ziegler, Sebastian Siegel, Stephan Menzel, Rainer Waser, Dirk J. Wouters, Daniel Bedau, (参考訳) 実世界のデバイスの複雑な統計特性を再現する抵抗記憶のための高速な生成モデリング手法を提案する。 アナログ回路の効率的なモデリングを実現するため、モデルはVerilog-Aで実装される。 統合された1T1Rアレイ(512デバイスの6000サイクル)の広範な測定データをトレーニングすることにより、自動回帰確率過程はスイッチングパラメータ間の相互相関を正確に説明し、非線形変換はサイクルツーサイクル(C2C)とデバイスツーデバイス(D2D)のばらつきを確実にする。 ベンチマークにより、この統計的に包括的なモデルは、非常に単純化された決定論的コンパクトモデルよりも読み書きのスループットを達成できることが示されている。

We present a fast generative modeling approach for resistive memories that reproduces the complex statistical properties of real-world devices. To enable efficient modeling of analog circuits, the model is implemented in Verilog-A. By training on extensive measurement data of integrated 1T1R arrays (6,000 cycles of 512 devices), an autoregressive stochastic process accurately accounts for the cross-correlations between the switching parameters, while non-linear transformations ensure agreement with both cycle-to-cycle (C2C) and device-to-device (D2D) variability. Benchmarks show that this statistically comprehensive model achieves read/write throughputs exceeding those of even highly simplified and deterministic compact models.
翻訳日:2024-04-10 14:30:51 公開日:2024-04-09
# AgentsCoDriver: 生涯学習によるコラボレーション駆動を活用した大規模言語モデル

AgentsCoDriver: Large Language Model Empowered Collaborative Driving with Lifelong Learning ( http://arxiv.org/abs/2404.06345v1 )

ライセンス: Link先を確認
Senkang Hu, Zhengru Fang, Zihan Fang, Xianhao Chen, Yuguang Fang, (参考訳) 近年、コネクテッド・自動運転は急速に発展している。 しかし、主にデータ駆動型アプローチに基づく現在の自律運転システムは、解釈可能性、一般化、継続的な学習能力の欠如を示す。 さらに、単一車両の自動運転システムには、他の車両との協調や交渉の能力が欠如しており、これは自動運転システムの安全性と効率性に不可欠である。 これらの問題に対処するために,我々は大規模言語モデル(LLM)を活用して新しいフレームワークであるAgentsCoDriverを開発し,複数の車両が協調運転を行えるようにした。 AgentsCoDriverは、観測モジュール、推論エンジン、認知メモリモジュール、強化反射モジュール、通信モジュールの5つのモジュールで構成されている。 環境と継続的に対話することで、知識、教訓、経験を蓄積し、生涯の学習を可能にする。 また,通信モジュールを活用することで,複雑な交通環境下で情報交換を行い,交渉や協調を実現することができる。 大規模な実験を行い、AgensCoDriverの優位性を示す。

Connected and autonomous driving is developing rapidly in recent years. However, current autonomous driving systems, which are primarily based on data-driven approaches, exhibit deficiencies in interpretability, generalization, and continuing learning capabilities. In addition, the single-vehicle autonomous driving systems lack of the ability of collaboration and negotiation with other vehicles, which is crucial for the safety and efficiency of autonomous driving systems. In order to address these issues, we leverage large language models (LLMs) to develop a novel framework, AgentsCoDriver, to enable multiple vehicles to conduct collaborative driving. AgentsCoDriver consists of five modules: observation module, reasoning engine, cognitive memory module, reinforcement reflection module, and communication module. It can accumulate knowledge, lessons, and experiences over time by continuously interacting with the environment, thereby making itself capable of lifelong learning. In addition, by leveraging the communication module, different agents can exchange information and realize negotiation and collaboration in complex traffic environments. Extensive experiments are conducted and show the superiority of AgentsCoDriver.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# RAR-b:検索ベンチマークとしての推論

RAR-b: Reasoning as Retrieval Benchmark ( http://arxiv.org/abs/2404.06347v1 )

ライセンス: Link先を確認
Chenghao Xiao, G Thomas Hudson, Noura Al Moubayed, (参考訳) セマンティックテキスト類似性(STS)と情報検索タスク(IR)タスクは,過去数年間の埋め込みモデルの進展を記録するための主要な方法である。 新たなRAG(Retrieval-augmented Generation)パラダイムの下では、埋め込みモデルの次世代言語理解能力を評価し、それらに格納される推論能力について意識的に検討する必要がある。 検索者は推論の問題を解けるだろうか? 推論タスクを検索タスクに変換することで、推論レベルの言語理解の訓練がなければ、現在の最先端の検索モデルは、特に推論集約タスクにおいてLLMを補助する役割を演じる能力にはまだ及ばないことが分かる。 さらに、指示に気付くように訓練されているにもかかわらず、命令を意識したIRモデルは、推論タスクの推論時間に指示を使わずに、しばしば、研究コミュニティが協調するように見落としているレトリバー-LLMの行動ギャップを装う。 しかし、最近のデコーダベースの埋め込みモデルは、そのギャップを狭め、推論レベルの言語理解を達成するための埋め込みモデルの経路を強調している。 また,現行のオフ・ザ・シェルフ・リランカモデルではこれらのタスクではフェールするが,微調整による推論能力の注入はバイエンコーダよりも容易であることを示す。 Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。 RAR-bはhttps://github.com/gowitheflow-1998/RAR-bで入手できる。

Semantic textual similartiy (STS) and information retrieval tasks (IR) tasks have been the two major avenues to record the progress of embedding models in the past few years. Under the emerging Retrieval-augmented Generation (RAG) paradigm, we envision the need to evaluate next-level language understanding abilities of embedding models, and take a conscious look at the reasoning abilities stored in them. Addressing this, we pose the question: Can retrievers solve reasoning problems? By transforming reasoning tasks into retrieval tasks, we find that without specifically trained for reasoning-level language understanding, current state-of-the-art retriever models may still be far from being competent for playing the role of assisting LLMs, especially in reasoning-intensive tasks. Moreover, albeit trained to be aware of instructions, instruction-aware IR models are often better off without instructions in inference time for reasoning tasks, posing an overlooked retriever-LLM behavioral gap for the research community to align. However, recent decoder-based embedding models show great promise in narrowing the gap, highlighting the pathway for embedding models to achieve reasoning-level language understanding. We also show that, although current off-the-shelf re-ranker models fail on these tasks, injecting reasoning abilities into them through fine-tuning still appears easier than doing so to bi-encoders, and we are able to achieve state-of-the-art performance across all tasks by fine-tuning a reranking model. We release Reasoning as Retrieval Benchmark (RAR-b), a holistic suite of tasks and settings to evaluate the reasoning abilities stored in retriever models. RAR-b is available at https://github.com/gowitheflow-1998/RAR-b.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# CausalBench: 大規模言語モデルの因果学習能力に関する総合ベンチマーク

CausalBench: A Comprehensive Benchmark for Causal Learning Capability of Large Language Models ( http://arxiv.org/abs/2404.06349v1 )

ライセンス: Link先を確認
Yu Zhou, Xingyu Wu, Beicheng Huang, Jibin Wu, Liang Feng, Kay Chen Tan, (参考訳) 因果性(Causality)は、現実世界のシナリオにおけるデータ分散の背後にある基本的な原則を明らかにし、因果性を理解する大きな言語モデル(LLM)の能力は、アウトプットの説明、新しいエビデンスへの適応、反事実の生成などを通じて、それらの有効性に直接影響する。 LLMの増殖に伴い、この能力の評価はますます注目を集めている。 しかし、包括的なベンチマークがないため、既存の評価研究は単純で、多様性がなく、均一である。 これらの課題に対処するために,LLMの因果理解能力を評価するために,CausalBenchという包括的なベンチマークを提案する。 因果研究コミュニティから派生したCausalBenchは、3つの因果学習関連タスクを含んでいる。 一方、様々なスケールと密度の因果ネットワークをCausalBenchに統合し、様々な難易度のタスクシナリオにまたがるLLMの能力の上限を探索する。 特に、背景知識と構造化データもCausalBenchに組み込まれ、LLMの基盤となる可能性を長期的理解と事前情報利用のために完全に解き放つ。 CausalBenchをベースとして,19のLLMの評価を行い,多様な側面における洞察に富んだ結論を明らかにした。 まず, LLMの長所と短所を示し, 様々なシナリオにおいて, それらの能力の上限を定量的に検討する。 一方、LLMの特定の構造ネットワークや複雑な思考構造への適応性や能力についてさらに明らかにする。 さらに,多種多様な情報ソース間の差異を定量的に検討し,テキストコンテキストと数値領域における因果理解におけるLLMの能力のギャップを明らかにする。

Causality reveals fundamental principles behind data distributions in real-world scenarios, and the capability of large language models (LLMs) to understand causality directly impacts their efficacy across explaining outputs, adapting to new evidence, and generating counterfactuals. With the proliferation of LLMs, the evaluation of this capacity is increasingly garnering attention. However, the absence of a comprehensive benchmark has rendered existing evaluation studies being straightforward, undiversified, and homogeneous. To address these challenges, this paper proposes a comprehensive benchmark, namely CausalBench, to evaluate the causality understanding capabilities of LLMs. Originating from the causal research community, CausalBench encompasses three causal learning-related tasks, which facilitate a convenient comparison of LLMs' performance with classic causal learning algorithms. Meanwhile, causal networks of varying scales and densities are integrated in CausalBench, to explore the upper limits of LLMs' capabilities across task scenarios of varying difficulty. Notably, background knowledge and structured data are also incorporated into CausalBench to thoroughly unlock the underlying potential of LLMs for long-text comprehension and prior information utilization. Based on CausalBench, this paper evaluates nineteen leading LLMs and unveils insightful conclusions in diverse aspects. Firstly, we present the strengths and weaknesses of LLMs and quantitatively explore the upper limits of their capabilities across various scenarios. Meanwhile, we further discern the adaptability and abilities of LLMs to specific structural networks and complex chain of thought structures. Moreover, this paper quantitatively presents the differences across diverse information sources and uncovers the gap between LLMs' capabilities in causal understanding within textual contexts and numerical domains.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# 中間変形流推定による転がりシャッター補正

Rolling Shutter Correction with Intermediate Distortion Flow Estimation ( http://arxiv.org/abs/2404.06350v1 )

ライセンス: Link先を確認
Mingdeng Cao, Sidi Yang, Yujiu Yang, Yinqiang Zheng, (参考訳) 本稿では,グローバルシャッタ(GS)からRSへの歪み流を直接推定することにより,ローリングシャッタ(RS)歪み画像を補正することを提案する。 既存の手法は通常、RSからGSへの非歪流を用いて補正を行う。 彼らは最初、連続したRSフレームからのフローを予測し、その後、時間依存のスケーリング因子を用いてRSフレームから基礎となるGSイメージへの変位場として再スケーリングした。 その後、RS画像からGS画像に変換するためにRS対応前方ワープが使用される。 しかし、この戦略は2つの欠点がある。 まず、複雑な非線形運動の性質のため、フローを単に線形にスケーリングすることで、非歪フロー推定が不正確になる。 第2に、RS対応のフォワード・ワープは、しばしば避けられないアーティファクトをもたらす。 これらの制約に対処するために,歪み流を直接推定し,後方ワープ操作でRS画像を補正する新しいフレームワークを導入する。 具体的には,まず大域的相関に基づくフローアテンション機構を提案し,初期歪み流とGS特徴を共同で推定し,その後,以下の粗いデコーダ層によって洗練する。 さらに,不正確な流量推定の問題を緩和するために,多変量流予測戦略を統合した。 提案手法の有効性を実験的に検証し, 高い効率性を維持しつつ, 各種ベンチマークにおける最先端手法より優れていることを示した。 このプロジェクトは \url{https://github.com/ljzycmd/DFRSC} で入手できる。

This paper proposes to correct the rolling shutter (RS) distorted images by estimating the distortion flow from the global shutter (GS) to RS directly. Existing methods usually perform correction using the undistortion flow from the RS to GS. They initially predict the flow from consecutive RS frames, subsequently rescaling it as the displacement fields from the RS frame to the underlying GS image using time-dependent scaling factors. Following this, RS-aware forward warping is employed to convert the RS image into its GS counterpart. Nevertheless, this strategy is prone to two shortcomings. First, the undistortion flow estimation is rendered inaccurate by merely linear scaling the flow, due to the complex non-linear motion nature. Second, RS-aware forward warping often results in unavoidable artifacts. To address these limitations, we introduce a new framework that directly estimates the distortion flow and rectifies the RS image with the backward warping operation. More specifically, we first propose a global correlation-based flow attention mechanism to estimate the initial distortion flow and GS feature jointly, which are then refined by the following coarse-to-fine decoder layers. Additionally, a multi-distortion flow prediction strategy is integrated to mitigate the issue of inaccurate flow estimation further. Experimental results validate the effectiveness of the proposed method, which outperforms state-of-the-art approaches on various benchmarks while maintaining high efficiency. The project is available at \url{https://github.com/ljzycmd/DFRSC}.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# HPNet: 歴史的予測を考慮した動的軌道予測

HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention ( http://arxiv.org/abs/2404.06351v1 )

ライセンス: Link先を確認
Xiaolong Tang, Meina Kan, Shiguang Shan, Zhilong Ji, Jinfeng Bai, Xilin Chen, (参考訳) 自動運転システムには,道路エージェントの軌道予測が不可欠である。 最近の主流手法は静的なパラダイムに従っており、過去のフレームの一定期間を用いて将来の軌跡を予測する。 これらの手法は、隣接する時間ステップでも独立して予測を行い、潜在的な不安定性と時間的不整合をもたらす。 連続した時間ステップは、主に歴史的フレームが重複しているため、予測された軌道の重なり合いは一貫性があるか、あるいは異なるが、道路状況に応じて同じ運動目標を共有するように、その予測は本質的な相関を持つべきである。 そこで本研究では,新しい動的軌道予測法HPNetを紹介する。 安定かつ正確な軌道予測を目指して,本手法は地図やエージェント状態を含む過去のフレームだけでなく,過去の予測も活用する。 具体的には、逐次予測間の動的関係を自動的に符号化する履歴予測アテンションモジュールを新たに設計する。 さらに、歴史的予測の使用による現在の目に見える窓を越えて、注意範囲を拡大する。 The proposed Historical Prediction Attention with the Agent Attention and Mode Attention is further formulated as the Triple Factorized Attention module, served as the core design of HPNet. on the Argoverse and InterAction datasets shows that HPNet achieves state-of-the-art performance and generated accurate and stable future trajectories。 私たちのコードはhttps://github.com/XiaolongTang23/HPNetで公開されています。

Predicting the trajectories of road agents is essential for autonomous driving systems. The recent mainstream methods follow a static paradigm, which predicts the future trajectory by using a fixed duration of historical frames. These methods make the predictions independently even at adjacent time steps, which leads to potential instability and temporal inconsistency. As successive time steps have largely overlapping historical frames, their forecasting should have intrinsic correlation, such as overlapping predicted trajectories should be consistent, or be different but share the same motion goal depending on the road situation. Motivated by this, in this work, we introduce HPNet, a novel dynamic trajectory forecasting method. Aiming for stable and accurate trajectory forecasting, our method leverages not only historical frames including maps and agent states, but also historical predictions. Specifically, we newly design a Historical Prediction Attention module to automatically encode the dynamic relationship between successive predictions. Besides, it also extends the attention range beyond the currently visible window benefitting from the use of historical predictions. The proposed Historical Prediction Attention together with the Agent Attention and Mode Attention is further formulated as the Triple Factorized Attention module, serving as the core design of HPNet.Experiments on the Argoverse and INTERACTION datasets show that HPNet achieves state-of-the-art performance, and generates accurate and stable future trajectories. Our code are available at https://github.com/XiaolongTang23/HPNet.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# DaF-BEVSeg: Occlusion Reasoningを用いた変形型魚眼カメラによる鳥の視線分割

DaF-BEVSeg: Distortion-aware Fisheye Camera based Bird's Eye View Segmentation with Occlusion Reasoning ( http://arxiv.org/abs/2404.06352v1 )

ライセンス: Link先を確認
Senthil Yogamani, David Unger, Venkatraman Narayanan, Varun Ravi Kumar, (参考訳) セマンティックセグメンテーションはシーン理解に有効な方法である。 近年,3D Bird's Eye View (BEV)空間におけるセグメンテーションが,ドライブポリシーの直接利用として人気を集めている。 しかし、商業車両で一般的に使用されるサラウンドビュー魚眼カメラのBEVセグメンテーションについては限定的な研究がなされている。 このタスクには実世界のパブリックデータセットがなく、既存の合成データセットは閉塞によるアモーダル領域を扱わないため、様々な道路タイプ、天気、照明条件からなるコニャータシミュレーターを用いて合成データセットを作成する。 我々は,BEVセグメンテーションを任意のカメラモデルで動作するように一般化し,多様なカメラを混合するのに有用である。 魚眼画像に筒状整形を施し,標準的なLSSベースのBEVセグメンテーションモデルを用いてベースラインを実装した。 我々は、前処理や視野の縮小、アーティファクトの再サンプリングによる実行時間の増加による悪影響がある、歪曲を伴わずにより良いパフォーマンスを実現することができることを示した。 さらに,魚眼カメラに有効である歪み認識型学習可能なBEVプーリング戦略を導入する。 BEV空間における推定に欠かせないオクルージョン推論モジュールを用いてモデルを拡張する。 DaF-BEVSegの質的なパフォーマンスは、https://streamable.com/ge4v51.comで紹介されている。

Semantic segmentation is an effective way to perform scene understanding. Recently, segmentation in 3D Bird's Eye View (BEV) space has become popular as its directly used by drive policy. However, there is limited work on BEV segmentation for surround-view fisheye cameras, commonly used in commercial vehicles. As this task has no real-world public dataset and existing synthetic datasets do not handle amodal regions due to occlusion, we create a synthetic dataset using the Cognata simulator comprising diverse road types, weather, and lighting conditions. We generalize the BEV segmentation to work with any camera model; this is useful for mixing diverse cameras. We implement a baseline by applying cylindrical rectification on the fisheye images and using a standard LSS-based BEV segmentation model. We demonstrate that we can achieve better performance without undistortion, which has the adverse effects of increased runtime due to pre-processing, reduced field-of-view, and resampling artifacts. Further, we introduce a distortion-aware learnable BEV pooling strategy that is more effective for the fisheye cameras. We extend the model with an occlusion reasoning module, which is critical for estimating in BEV space. Qualitative performance of DaF-BEVSeg is showcased in the video at https://streamable.com/ge4v51.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# 高騒音スケジューリングは必要である

High Noise Scheduling is a Must ( http://arxiv.org/abs/2404.06353v1 )

ライセンス: Link先を確認
Mahmut S. Gokmen, Cody Bumgardner, Jie Zhang, Ge Wang, Jin Chen, (参考訳) 一貫性モデルは、画像生成の能力が高く、高度な技術を通じてサンプリングステップを1ステップに進める。 現在の進歩は、一段前進し、蒸留訓練の限界をなくす。 改良された訓練手法におけるカリキュラムとノイズスケジューリングは、基本的な一貫性モデルよりも優れた結果をもたらすが、十分なバランスの取れたノイズ分布とカリキュラム間の一貫性は欠如している。 本研究では,高雑音レベルと低雑音レベルのバランスについて検討し,安定性を維持するために多項式雑音分布を提供した。 提案する多項式雑音分布は,カーラス雑音発生アルゴリズムで発生する一意ノイズレベルを防止するために,予め定義されたカーラス雑音も支持する。 さらに、正弦波関数に基づくカリキュラムによる学習ノイズステップの除去により、復調時のモデルの性能が向上する。 最新の整合モデルトレーニング手法と公正に比較するために,カリキュラムと雑音分布を除いて,同じハイパーパラメータで実験を行う。 実験で利用したモデルは,提案手法の堅牢性を証明するために,低深度で決定される。 その結果、多項式雑音分布は対数正規雑音分布で訓練されたモデルよりも優れており、連続的な離散化ステップを施した10万のトレーニングステップの後、33.54のFIDスコアが得られることがわかった。 さらに、正弦波ベースのカリキュラムの実装により、ノイズ発生性能が向上し、FIDスコアは30.48となった。

Consistency models possess high capabilities for image generation, advancing sampling steps to a single step through their advanced techniques. Current advancements move one step forward consistency training techniques and eliminates the limitation of distillation training. Even though the proposed curriculum and noise scheduling in improved training techniques yield better results than basic consistency models, it lacks well balanced noise distribution and its consistency between curriculum. In this study, it is investigated the balance between high and low noise levels in noise distribution and offered polynomial noise distribution to maintain the stability. This proposed polynomial noise distribution is also supported with a predefined Karras noises to prevent unique noise levels arises with Karras noise generation algorithm. Furthermore, by elimination of learned noisy steps with a curriculum based on sinusoidal function increase the performance of the model in denoising. To make a fair comparison with the latest released consistency model training techniques, experiments are conducted with same hyper-parameters except curriculum and noise distribution. The models utilized during experiments are determined with low depth to prove the robustness of our proposed technique. The results show that the polynomial noise distribution outperforms the model trained with log-normal noise distribution, yielding a 33.54 FID score after 100,000 training steps with constant discretization steps. Additionally, the implementation of a sinusoidal-based curriculum enhances denoising performance, resulting in a FID score of 30.48.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# 政策誘導拡散

Policy-Guided Diffusion ( http://arxiv.org/abs/2404.06356v1 )

ライセンス: Link先を確認
Matthew Thomas Jackson, Michael Tryfan Matthews, Cong Lu, Benjamin Ellis, Shimon Whiteson, Jakob Foerster, (参考訳) 多くの現実世界の設定では、エージェントは以前の行動ポリシーによって収集されたオフラインデータセットから学ぶ必要がある。 このような設定は、行動ポリシーとトレーニング中のターゲットポリシーの間の分散シフトを自然に引き起こします。 自己回帰的世界モデルは、合成されたオン・ポリティクス体験を生成することによって、これに対する別のソリューションを提供する。 しかし、実際には、複雑なエラーを避けるために、モデルロールアウトを厳しく切り詰める必要がある。 代替手段として,政策誘導拡散法を提案する。 提案手法は拡散モデルを用いて,行動分布下での全軌道を生成する。 本研究では,政策誘導拡散モデルがターゲット分布の正規化形式であり,目標と行動の両ポリシの双方で行動可能性のバランスを保ちつつ,目標目標の確率の高い妥当な軌道を導出するとともに,オフライン世界モデルベースラインよりも低ダイナミックス誤差を保っていることを示す。 実データのドロップイン代替としてポリシー誘導拡散による合成経験を用いることで、標準的なオフライン強化学習アルゴリズムや環境において、性能が大幅に向上したことを示す。 我々の手法は、自動回帰的オフライン世界モデルに代わる効果的な代替手段を提供し、制御可能な合成トレーニングデータの生成への扉を開く。

In many real-world settings, agents must learn from an offline dataset gathered by some prior behavior policy. Such a setting naturally leads to distribution shift between the behavior policy and the target policy being trained - requiring policy conservatism to avoid instability and overestimation bias. Autoregressive world models offer a different solution to this by generating synthetic, on-policy experience. However, in practice, model rollouts must be severely truncated to avoid compounding error. As an alternative, we propose policy-guided diffusion. Our method uses diffusion models to generate entire trajectories under the behavior distribution, applying guidance from the target policy to move synthetic experience further on-policy. We show that policy-guided diffusion models a regularized form of the target distribution that balances action likelihood under both the target and behavior policies, leading to plausible trajectories with high target policy probability, while retaining a lower dynamics error than an offline world model baseline. Using synthetic experience from policy-guided diffusion as a drop-in substitute for real data, we demonstrate significant improvements in performance across a range of standard offline reinforcement learning algorithms and environments. Our approach provides an effective alternative to autoregressive offline world models, opening the door to the controllable generation of synthetic training data.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# 一般化可能なサーカスム検出は、もちろんコーナーのすぐ近く!

Generalizable Sarcasm Detection Is Just Around The Corner, Of Course! ( http://arxiv.org/abs/2404.06357v1 )

ライセンス: Link先を確認
Hyewon Jang, Diego Frassinelli, (参考訳) ラベルソース(著者対第三者)、ドメイン(ソーシャルメディア/オンライン対オフライン会話/対話)、スタイル(攻撃的対ユーモラスモック)の4つのサルカズムデータセットを微調整し、サルカズム検出モデルのロバスト性を検証した。 私たちは、同じデータセット(イントラデータセット)と異なるデータセット(クロスデータセット)で予測性能をテストしました。 データセット内予測では、モデルが著者ラベルではなく、サードパーティラベルで微調整された場合、一貫してパフォーマンスが向上した。 データセット間の予測では、ほとんどのモデルは他のデータセットとよく一致せず、あるタイプのデータセットは異なるスタイルやドメインであらゆる種類の皮肉を表現できないことを示唆している。 既存のデータセットと比較して、本研究でリリースした新しいデータセットを微調整したモデルは、他のデータセットに対して最も高い一般化性を示した。 データセットの手動検査とポストホック解析によって、一般化の難しさは、サルカズムが実際には異なるドメインやスタイルから来ているという事実に起因している。 今後のサルカズム研究は、広い範囲のサルカズムを考慮に入れるべきである。

We tested the robustness of sarcasm detection models by examining their behavior when fine-tuned on four sarcasm datasets containing varying characteristics of sarcasm: label source (authors vs. third-party), domain (social media/online vs. offline conversations/dialogues), style (aggressive vs. humorous mocking). We tested their prediction performance on the same dataset (intra-dataset) and across different datasets (cross-dataset). For intra-dataset predictions, models consistently performed better when fine-tuned with third-party labels rather than with author labels. For cross-dataset predictions, most models failed to generalize well to the other datasets, implying that one type of dataset cannot represent all sorts of sarcasm with different styles and domains. Compared to the existing datasets, models fine-tuned on the new dataset we release in this work showed the highest generalizability to other datasets. With a manual inspection of the datasets and post-hoc analysis, we attributed the difficulty in generalization to the fact that sarcasm actually comes in different domains and styles. We argue that future sarcasm research should take the broad scope of sarcasm into account.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# SaLIPによるテスト時間適応:ゼロショット医用画像分割のためのSAMとCLIPのケース

Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation ( http://arxiv.org/abs/2404.06362v1 )

ライセンス: Link先を確認
Sidra Aleem, Fangyijie Wang, Mayug Maniparambil, Eric Arazo, Julia Dietlmeier, Kathleen Curran, Noel E. O'Connor, Suzanne Little, (参考訳) Segment Anything Model (SAM) と CLIP は目覚しいビジョン基盤モデル (VFM) である。 プロンプト駆動セグメンテーションモデルであるSAMは、さまざまなドメインにわたるセグメンテーションタスクを優れており、CLIPはそのゼロショット認識機能で有名である。 しかし, 医用画像のセグメンテーションにおいて, 統一された可能性はまだ検討されていない。 SAMを医用画像に適応させるためには、既存の手法は主に、広範囲なデータや特定のタスクに合わせた事前プロンプトを必要とするチューニング戦略に依存しており、限られたデータサンプルしか利用できない場合には特に困難である。 本研究は、SAMとCLIPを医用画像セグメンテーションの統一フレームワークに統合するための深層探査である。 具体的には,臓器分割のための単純な統合フレームワークSaLIPを提案する。 SAMは画像内の部分ベースのセグメンテーションに使用され、CLIPはSAM生成マスクのプールから関心領域(ROI)に対応するマスクを検索する。 最後に、SAMは検索されたROIによって特定の臓器を分節するように促される。 従って、SaLIPはトレーニングと微調整を無償で行い、ドメインの専門知識やラベル付きデータに即時エンジニアリングを頼らない。 提案法は, ゼロショットセグメンテーションにおいて顕著な改善を示し, 脳(63.46%), 肺(50.11%), 胎児頭(30.82%)におけるDICEスコアの顕著な改善を示した。 コードとテキストのプロンプトはオンラインで入手できる。

The Segment Anything Model (SAM) and CLIP are remarkable vision foundation models (VFMs). SAM, a prompt driven segmentation model, excels in segmentation tasks across diverse domains, while CLIP is renowned for its zero shot recognition capabilities. However, their unified potential has not yet been explored in medical image segmentation. To adapt SAM to medical imaging, existing methods primarily rely on tuning strategies that require extensive data or prior prompts tailored to the specific task, making it particularly challenging when only a limited number of data samples are available. This work presents an in depth exploration of integrating SAM and CLIP into a unified framework for medical image segmentation. Specifically, we propose a simple unified framework, SaLIP, for organ segmentation. Initially, SAM is used for part based segmentation within the image, followed by CLIP to retrieve the mask corresponding to the region of interest (ROI) from the pool of SAM generated masks. Finally, SAM is prompted by the retrieved ROI to segment a specific organ. Thus, SaLIP is training and fine tuning free and does not rely on domain expertise or labeled data for prompt engineering. Our method shows substantial enhancements in zero shot segmentation, showcasing notable improvements in DICE scores across diverse segmentation tasks like brain (63.46%), lung (50.11%), and fetal head (30.82%), when compared to un prompted SAM. Code and text prompts will be available online.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# SurveyAgent: パーソナライズされた効率的なリサーチサーベイのための会話システム

SurveyAgent: A Conversational System for Personalized and Efficient Research Survey ( http://arxiv.org/abs/2404.06364v1 )

ライセンス: Link先を確認
Xintao Wang, Jiangjie Chen, Nianqi Li, Lida Chen, Xinfeng Yuan, Wei Shi, Xuyang Ge, Rui Xu, Yanghua Xiao, (参考訳) AIのような急速に進歩する研究分野において、最新の科学文献の管理と維持は研究者にとって重要な課題となっている。 これまでの取り組みでは、文献検索、論文レコメンデーション、質問回答を支援するためにAIを活用してきたが、研究者の全体的ニーズに対処する包括的なサポートシステムに欠けていた。 本稿では,研究者にパーソナライズされた効率的な調査支援を目的とした会話システムであるSurveyAgentを紹介する。 SurveyAgentは3つの重要なモジュールを統合している。文書を整理するための知識管理、関連する文献を発見するための勧告、より深いレベルでコンテンツを扱うためのクエリ回答だ。 このシステムは,ユーザインタラクションとパーソナライゼーションを優先した対話インタフェースによって促進される,文献レビュープロセスのさまざまな段階を通じて研究者を支援する統一プラットフォームを提供することで,際立っている。 本評価は,研究活動の合理化におけるSurveyAgentの有効性を実証し,研究者の科学文献との交流を促進する能力を示すものである。

In the rapidly advancing research fields such as AI, managing and staying abreast of the latest scientific literature has become a significant challenge for researchers. Although previous efforts have leveraged AI to assist with literature searches, paper recommendations, and question-answering, a comprehensive support system that addresses the holistic needs of researchers has been lacking. This paper introduces SurveyAgent, a novel conversational system designed to provide personalized and efficient research survey assistance to researchers. SurveyAgent integrates three key modules: Knowledge Management for organizing papers, Recommendation for discovering relevant literature, and Query Answering for engaging with content on a deeper level. This system stands out by offering a unified platform that supports researchers through various stages of their literature review process, facilitated by a conversational interface that prioritizes user interaction and personalization. Our evaluation demonstrates SurveyAgent's effectiveness in streamlining research activities, showcasing its capability to facilitate how researchers interact with scientific literature.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# 表情認識のための動的解像度誘導

Dynamic Resolution Guidance for Facial Expression Recognition ( http://arxiv.org/abs/2404.06365v1 )

ライセンス: Link先を確認
Jie Ou, Xu Li, Tianxiang Jiang, Yuanlun Xie, (参考訳) 顔の表情認識(FER)は人間とコンピュータの相互作用や感情分析に不可欠であるが、低解像度画像における表情の認識は依然として困難である。 本稿では,表情認識のための動的解像度誘導法 (DRGFER) を提案する。 本フレームワークは,解像度認識ネットワーク(RRN)とMRAFER(Multi-Resolution Adaptation Facial Expression Recognition Network)の2つの主要コンポーネントから構成される。 RRNは画像解像度を決定し、バイナリベクトルを出力し、MRAFERは解像度に基づいて適切な表情認識ネットワークに画像を割り当てる。 DRGFERをRAFDBとFERPlusで評価し,提案手法が各解像度で最適なモデル性能を維持し,代替解法よりも優れていることを示した。 提案したフレームワークは、解像度の変動や表情に対する堅牢性を示し、現実世界のアプリケーションに有望なソリューションを提供する。

Facial expression recognition (FER) is vital for human-computer interaction and emotion analysis, yet recognizing expressions in low-resolution images remains challenging. This paper introduces a practical method called Dynamic Resolution Guidance for Facial Expression Recognition (DRGFER) to effectively recognize facial expressions in images with varying resolutions without compromising FER model accuracy. Our framework comprises two main components: the Resolution Recognition Network (RRN) and the Multi-Resolution Adaptation Facial Expression Recognition Network (MRAFER). The RRN determines image resolution, outputs a binary vector, and the MRAFER assigns images to suitable facial expression recognition networks based on resolution. We evaluated DRGFER on widely-used datasets RAFDB and FERPlus, demonstrating that our method retains optimal model performance at each resolution and outperforms alternative resolution approaches. The proposed framework exhibits robustness against resolution variations and facial expressions, offering a promising solution for real-world applications.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# ルイ・ド・ブロイはシュレーディンガー方程式の発見を見逃したのか。

Did Louis de Broglie miss the discovery of the Schrödinger equation? ( http://arxiv.org/abs/2404.06366v1 )

ライセンス: Link先を確認
Aurélien Drezet, (参考訳) 本稿では、1926年にシュリンガーが有名な量子波方程式を発見し、1923-1925年にド・ブロイが発表した物質波の導入に関する基本的な研究に続いて、歴史的に議論する。 歴史家の業績と個人分析に基づいて、ド・ブロイはシュリンガー方程式(少なくとも定常的な1電子問題)の発見に非常に近いことを示した。

In this note, we discuss a historical point regarding Schr\"odinger's discovery of the famous quantum wave equation in 1926 following de Broglie's fundamental works published in 1923-1925 regarding the introduction of matter waves. Drawing on the work of historians and personal analysis, we show that de Broglie was very close to the discovery of the Schr\"odinger equation (at least for the stationary one-electron problem).
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# ClinLinker: スペインにおける臨床概念の医療エンティティリンク

ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish ( http://arxiv.org/abs/2404.06367v1 )

ライセンス: Link先を確認
Fernando Gallego, Guillermo López-García, Luis Gasco-Sánchez, Martin Krallinger, Francisco J. Veredas, (参考訳) UMLS や SNOMED-CT のような広く使われている標準用語への名前付きエンティティ認識や正規化などの自然言語処理技術の進歩は、電子健康記録のデジタル化とともに、かなり進んだ臨床テキスト分析をもたらした。 本研究では,SapBERTベースのバイエンコーダを用いた初期候補検索と,それに続くクロスエンコーダを用いた再ランク付けを行い,スペインにおける医学的概念に適合する対照的な学習戦略に従って学習する,医療エンティティリンクのための2段階パイプラインを用いた新しいアプローチであるClinLinkerを提案する。 この方法論は、最初はスペイン語のコンテンツに焦点を合わせ、同じ目的のために設計された多言語言語モデルを大幅に上回った。 これは、異種医療用語を伴い、元のデータのサブセットで訓練される複雑なシナリオにも当てはまる。 以上の結果から,Gold Standard corpora, DisTEMIST (diseases) および MedProcNER (clinical procedure) をリンクする2つの異なる臨床組織において, 従来のベンチマークではdisTEMIST が40点, MedProcNER が43点, SNOMED-CT が正常化した。 これらの知見は、我々のアプローチが言語固有のニュアンスに対処する能力を強調し、エンティティリンクの新しいベンチマークを設定し、デジタル医療記録の有用性を高める強力なツールを提供する。 得られたシステムは,臨床記録から得られた構造化データの大規模自動生成と,予め定義された臨床変数の抜本的抽出と調和のための実用的価値である。

Advances in natural language processing techniques, such as named entity recognition and normalization to widely used standardized terminologies like UMLS or SNOMED-CT, along with the digitalization of electronic health records, have significantly advanced clinical text analysis. This study presents ClinLinker, a novel approach employing a two-phase pipeline for medical entity linking that leverages the potential of in-domain adapted language models for biomedical text mining: initial candidate retrieval using a SapBERT-based bi-encoder and subsequent re-ranking with a cross-encoder, trained by following a contrastive-learning strategy to be tailored to medical concepts in Spanish. This methodology, focused initially on content in Spanish, substantially outperforming multilingual language models designed for the same purpose. This is true even for complex scenarios involving heterogeneous medical terminologies and being trained on a subset of the original data. Our results, evaluated using top-k accuracy at 25 and other top-k metrics, demonstrate our approach's performance on two distinct clinical entity linking Gold Standard corpora, DisTEMIST (diseases) and MedProcNER (clinical procedures), outperforming previous benchmarks by 40 points in DisTEMIST and 43 points in MedProcNER, both normalized to SNOMED-CT codes. These findings highlight our approach's ability to address language-specific nuances and set a new benchmark in entity linking, offering a potent tool for enhancing the utility of digital medical records. The resulting system is of practical value, both for large scale automatic generation of structured data derived from clinical records, as well as for exhaustive extraction and harmonization of predefined clinical variables of interest.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# VISION2UI: UI設計によるコード生成のためのレイアウト付きリアルタイムデータセット

VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs ( http://arxiv.org/abs/2404.06369v1 )

ライセンス: Link先を確認
Yi Gui, Zhen Li, Yao Wan, Yemin Shi, Hongyu Zhang, Yi Su, Shaoling Dong, Xing Zhou, Wenbin Jiang, (参考訳) WebページのデザインビジョンからUIコードを自動的に生成することは、開発者の負担を大幅に軽減し、初心者開発者やデザイナがデザインダイアグラムから直接Webページを生成することを可能にする。 現在、先行研究は、ディープニューラルネットワークを設計することで、初歩的な設計ビジョンやスケッチからUIコードを生成する目的を達成している。 MLLM(Multimodal Large Language Models)による画期的な進歩に触発されて,高忠実度デザインイメージからUIコードの自動生成が実現可能な可能性として浮上している。 それにもかかわらず、既存のMLLMは、信頼性、高品質、大規模データセットの不足によって妨げられ、自動UIコード生成において不満足なパフォーマンスをもたらすことが明らかになった。 このギャップを緩和するため,実世界のシナリオから抽出したVISION2UIと呼ばれる新しいデータセットを,UIコード生成におけるMLLMの微調整に特化した包括的レイアウト情報で拡張する。 具体的には、このデータセットは、オープンソースのCommon Crawlデータセットの収集、クリーニング、フィルタリングを含む一連の操作によって導出される。 品質を維持するために、ラベル付きサンプルでトレーニングされたニューラルスコアラを使用してデータを洗練し、高品質なインスタンスを保持する。 最終的に、このプロセスは、デザインビジョンとUIコードを含む2,000(Much more)の並列サンプルからなるデータセットを生成する。 データセットはhttps://huggingface.co/datasets/xcodemind/vision2uiで公開されている。

Automatically generating UI code from webpage design visions can significantly alleviate the burden of developers, enabling beginner developers or designers to directly generate Web pages from design diagrams. Currently, prior research has accomplished the objective of generating UI code from rudimentary design visions or sketches through designing deep neural networks. Inspired by the groundbreaking advancements achieved by Multimodal Large Language Models (MLLMs), the automatic generation of UI code from high-fidelity design images is now emerging as a viable possibility. Nevertheless, our investigation reveals that existing MLLMs are hampered by the scarcity of authentic, high-quality, and large-scale datasets, leading to unsatisfactory performance in automated UI code generation. To mitigate this gap, we present a novel dataset, termed VISION2UI, extracted from real-world scenarios, augmented with comprehensive layout information, tailored specifically for finetuning MLLMs in UI code generation. Specifically, this dataset is derived through a series of operations, encompassing collecting, cleaning, and filtering of the open-source Common Crawl dataset. In order to uphold its quality, a neural scorer trained on labeled samples is utilized to refine the data, retaining higher-quality instances. Ultimately, this process yields a dataset comprising 2,000 (Much more is coming soon) parallel samples encompassing design visions and UI code. The dataset is available at https://huggingface.co/datasets/xcodemind/vision2ui.
翻訳日:2024-04-10 14:21:03 公開日:2024-04-09
# 大規模言語モデルによる決定分析の強化: Python における MCDA メソッドの包括的ライブラリ pyDecision

Enhancing Decision Analysis with a Large Language Model: pyDecision a Comprehensive Library of MCDA Methods in Python ( http://arxiv.org/abs/2404.06370v1 )

ライセンス: Link先を確認
Valdecy Pereira, Marcio Pereira Basilio, Carlos Henrique Tarjano SantosCarlos Henrique Tarjano Santos, (参考訳) 目的: 複雑な環境における意思決定において, MCDA (Multiplecriteria decision analysis) がますます重要になっている。 このニーズに応えるため、Pythonで実装され、https://bit.ly/3tLFGtHで利用できるpyDecisionライブラリが開発され、MCDAメソッドの包括的でアクセス可能なコレクションを提供している。 メソッド:pyDecisionは、AHP、TOPSIS、Promethee、ELECTREファミリーを含む70のMCDAメソッドを提供する。 幅広いテクニックを提供するだけでなく、ライブラリはより直感的な結果解釈のための可視化ツールを提供する。 これらの機能に加えて、pyDecisionは先進的な大規模言語モデルであるChatGPTを統合し、意思決定者はChatGPTを使用してさまざまなメソッドの結果を議論し比較し、よりインタラクティブで直感的なソリューション理解を提供する。 発見: 大規模言語モデルは間違いなく強力だが、時には両刃の剣になることもある。 その答えは、特に深いドメインの専門知識が欠如している研究者にとって、厳密な検証なしに誤解を招く可能性がある。 認知的な目でその洞察にアプローチし、関連する分野のしっかりとした基盤を構築することが不可欠です。 原点: MCDA法とChatGPTの統合により, pyDecisionは研究者, 実践者, 意思決定者にとって, 複雑な意思決定問題をナビゲートし, MCDA法に基づく最も適切な解を求める上で, 科学的コミュニティにとって重要な貢献となる。

Purpose: Multicriteria decision analysis (MCDA) has become increasingly essential for decision-making in complex environments. In response to this need, the pyDecision library, implemented in Python and available at https://bit.ly/3tLFGtH, has been developed to provide a comprehensive and accessible collection of MCDA methods. Methods: The pyDecision offers 70 MCDA methods, including AHP, TOPSIS, and the PROMETHEE and ELECTRE families. Beyond offering a vast range of techniques, the library provides visualization tools for more intuitive results interpretation. In addition to these features, pyDecision has integrated ChatGPT, an advanced Large Language Model, where decision-makers can use ChatGPT to discuss and compare the outcomes of different methods, providing a more interactive and intuitive understanding of the solutions. Findings: Large Language Models are undeniably potent but can sometimes be a double-edged sword. Its answers may be misleading without rigorous verification of its outputs, especially for researchers lacking deep domain expertise. It's imperative to approach its insights with a discerning eye and a solid foundation in the relevant field. Originality: With the integration of MCDA methods and ChatGPT, pyDecision is a significant contribution to the scientific community, as it is an invaluable resource for researchers, practitioners, and decision-makers navigating complex decision-making problems and seeking the most appropriate solutions based on MCDA methods.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# LLMの必要条件からのモデル生成 : 探索的研究

Model Generation from Requirements with LLMs: an Exploratory Study ( http://arxiv.org/abs/2404.06371v1 )

ライセンス: Link先を確認
Alessio Ferrari, Sallam Abualhaija, Chetan Arora, (参考訳) 自然言語(NL)要求をグラフィカルモデルで補完することは、ステークホルダーのコミュニケーションを改善し、システム設計の方向性を提供する。 しかしながら、要件からモデルを作成するには、手作業が必要です。 生成型大規模言語モデル(LLM)の出現、特にChatGPTは、モデル生成における自動化支援のための有望な道を提供する。 本稿では,NL 要求から UML シーケンス図など,特定の種類のモデルを生成する ChatGPT の能力について検討する。 そこで我々は,ChatGPTが生成したシーケンス図を,さまざまなタイプの28の要件文書と異なるドメインから検証する定性的研究を行った。 生成したダイアグラムの分析から得られた観察は、評価ログを通じて体系的に捉えられ、セマンティック分析によって分類される。 以上の結果から, モデルが標準に適合し, 合理的な理解可能性を示す一方で, 要求条件に対する完全性や正当性は, しばしば課題となることが示唆された。 この問題は、曖昧さや矛盾といった要求の匂いの存在において特に顕著である。 本研究から得られた知見は,REプロセスにおけるLLMの実用化に影響を及ぼし,有効モデル生成を目的とした新しいRE特異的プロンプト戦略への扉を開くことができる。

Complementing natural language (NL) requirements with graphical models can improve stakeholders' communication and provide directions for system design. However, creating models from requirements involves manual effort. The advent of generative large language models (LLMs), ChatGPT being a notable example, offers promising avenues for automated assistance in model generation. This paper investigates the capability of ChatGPT to generate a specific type of model, i.e., UML sequence diagrams, from NL requirements. We conduct a qualitative study in which we examine the sequence diagrams generated by ChatGPT for 28 requirements documents of various types and from different domains. Observations from the analysis of the generated diagrams have systematically been captured through evaluation logs, and categorized through thematic analysis. Our results indicate that, although the models generally conform to the standard and exhibit a reasonable level of understandability, their completeness and correctness with respect to the specified requirements often present challenges. This issue is particularly pronounced in the presence of requirements smells, such as ambiguity and inconsistency. The insights derived from this study can influence the practical utilization of LLMs in the RE process, and open the door to novel RE-specific prompting strategies targeting effective model generation.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# 単一励起のない信頼性双極子モーメントに向けて:軌道回転と動的相関の役割

Toward Reliable Dipole Moments without Single Excitations: The Role of Orbital Rotations and Dynamical Correlation ( http://arxiv.org/abs/2404.06385v1 )

ライセンス: Link先を確認
Rahul Chakraborty, Matheus Morato F. de Moraes, Katharina Boguslawski, Artur Nowak, Julian Swierczynski, Pawel Tecmer, (参考訳) 双極子モーメントは分子系の結合極性と全体的な電子構造に結びつく重要な分子特性である。 そのために、システムの電子密度から生じる電子双極子モーメントは、新しい電子構造法の精度と信頼性を評価するためにしばしば用いられる。 本研究は, 正準ハーツリー-フォックおよびpCCD-最適化(局在化)軌道ベースを用いて, 対結合クラスタアンサッツ(pCCD)アンサッツとその線形結合クラスタ(pCCD-LCC)補正によって計算された電子双極子モーメントを解析する。 pCCDに基づく双極子モーメントの精度を、緩和された密度行列と異なる基底セットサイズを用いて実験およびCCSD(T)基準値と比較した。 テストセットは様々な結合パターンと電子構造の分子から構成され、pCCD法を幅広い電子相関効果に曝露する。 さらに, モデル錯体のpCCD-in-DFT双極子モーメントの性能について検討した。 最後に、pCCDモデルにおける軌道緩和の重要性を示し、多重結合系の電子双極子モーメントの予測における線形化されたカップルクラスタ補正の限界を示す。 最も重要なことは、線形化されたCCD補正を持つpCCDは、単結合分子における双極子モーメント表面を再現することができることである。

The dipole moment is a crucial molecular property linked to a molecular system's bond polarity and overall electronic structure. To that end, the electronic dipole moment, which results from the electron density of a system, is often used to assess the accuracy and reliability of new electronic structure methods. This work analyses electronic dipole moments computed with the pair coupled cluster doubles (pCCD) ansatz and its linearized coupled cluster (pCCD-LCC) corrections using the canonical Hartree--Fock and pCCD-optimized (localized) orbital bases. The accuracy of pCCD-based dipole moments is assessed against experimental and CCSD(T) reference values using relaxed and unrelaxed density matrices and different basis set sizes. Our test set comprises molecules of various bonding patterns and electronic structures, exposing pCCD-based methods to a wide range of electron correlation effects. Additionally, we investigate the performance of pCCD-in-DFT dipole moments of some model complexes. Finally, our work indicates the importance of orbital relaxation in the pCCD model and shows the limitations of the linearized couple cluster corrections in predicting electronic dipole moments of multiple-bonded systems. Most importantly, pCCD with a linearized CCD correction can reproduce the dipole moment surfaces in singly-bonded molecules, which are comparable to the multi-reference ones.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# セキュリティ要件のモデル化のためのアタックディフェンスツリーの理解性と受容性の評価

Assessing the Understandability and Acceptance of Attack-Defense Trees for Modelling Security Requirements ( http://arxiv.org/abs/2404.06386v1 )

ライセンス: Link先を確認
Giovanna Broccia, Maurice H. ter Beek, Alberto Lluch Lafuente, Paola Spoletini, Alessio Ferrari, (参考訳) Context and Motivation Attack-Defense Trees (ADT) は、セキュリティ要件のモデル化と評価に使用されるグラフィカルな表記法である。 ADTは、システムセキュリティ評価に関わるさまざまな利害関係者間のコミュニケーションを容易にし、モデルチェッカーで検証するのに十分な形式であるため、広く普及しています。 質問/問題 この表記法の品質は、主に定量的に評価されているが、その成功の重要な要因として言及されているにもかかわらず、その理解性は評価されていない。 主観/結果 本稿では,ADT表記の理解可能性とユーザ受容性を評価するために,25人の被験者を対象に実験を行った。 本研究は,これらの尺度の関係と,それらが表記法の実践的利用にどのように影響するかを評価することを目的とした,パフォーマンスに基づく変数と知覚に基づく変数に焦点を当てた。 その結果, ADTの理解度は良好であることが確認された。 参加者はそれらを有用とみなし、使用を意図している。 コントリビューション ADTの理解性を実証的に支援し、セキュリティ要件エンジニアリングの理論に貢献する最初の研究である。

Context and Motivation Attack-Defense Trees (ADTs) are a graphical notation used to model and assess security requirements. ADTs are widely popular, as they can facilitate communication between different stakeholders involved in system security evaluation, and they are formal enough to be verified, e.g., with model checkers. Question/Problem While the quality of this notation has been primarily assessed quantitatively, its understandability has never been evaluated despite being mentioned as a key factor for its success. Principal idea/Results In this paper, we conduct an experiment with 25 human subjects to assess the understandability and user acceptance of the ADT notation. The study focuses on performance-based variables and perception-based variables, with the aim of evaluating the relationship between these measures and how they might impact the practical use of the notation. The results confirm a good level of understandability of ADTs. Participants consider them useful, and they show intention to use them. Contribution This is the first study empirically supporting the understandability of ADTs, thereby contributing to the theory of security requirements engineering.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# Raster Forge: インタラクティブなRaster操作ライブラリとPython用GUI

Raster Forge: Interactive Raster Manipulation Library and GUI for Python ( http://arxiv.org/abs/2404.06389v1 )

ライセンス: Link先を確認
Afonso Oliveira, Nuno Fachada, João P. Matos-Carvalho, (参考訳) Raster Forgeは、Rasterデータ操作と分析のためのPythonライブラリとグラフィカルユーザインターフェースである。 このツールはリモートセンシングアプリケーション、特に山火事管理に重点を置いている。 画像合成や地形解析などのタスクのために、ユーザはラスタ層をインポート、視覚化、処理することができる。 森林火災管理のためには、事前に定義されたモデルを用いて燃料マップを生成する。 その影響は災害管理から水文学モデリング、農業、環境モニタリングまで及んでいる。 Raster Forgeは、ラスタデータ分析、地理空間データ処理の強化、さまざまな分野にわたる可視化に依存する地質学者や研究者にとって、貴重な資産となり得る。

Raster Forge is a Python library and graphical user interface for raster data manipulation and analysis. The tool is focused on remote sensing applications, particularly in wildfire management. It allows users to import, visualize, and process raster layers for tasks such as image compositing or topographical analysis. For wildfire management, it generates fuel maps using predefined models. Its impact extends from disaster management to hydrological modeling, agriculture, and environmental monitoring. Raster Forge can be a valuable asset for geoscientists and researchers who rely on raster data analysis, enhancing geospatial data processing and visualization across various disciplines.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# 大規模言語モデルのための潜在距離誘導アライメント訓練

Latent Distance Guided Alignment Training for Large Language Models ( http://arxiv.org/abs/2404.06390v1 )

ライセンス: Link先を確認
Haotian Luo, Wenhao Zheng, Huaxiu Yao, (参考訳) 人間の好みとの整合性を確保することは、大きな言語モデル(LLM)の重要な特徴である。 現在、主要なアライメント手法であるRLHFとDPOは、その有効性にもかかわらず高価である広範囲な人間のアノテーションを必要とする。 現在のアライメント技術に関連するかなりの費用は、研究者にアノテーションのないアライメントトレーニング手法の開発を動機付けている。 外部アノテーションを頼らずにアライメントの改善を追求するため,LD-Align(Latent Distance Guided Alignment Training)を導入する。 このアプローチは、潜在空間からのガイダンスを用いて、高品質な教師付き微調整データセットとモデルを整合させる。 潜伏空間は、自動エンコーディングに似たサンプル再構成によって生成される。 そこで我々は,DPOに基づくアライメントトレーニングを誘導するために,潜時空間におけるサンプルペア間の距離を利用する。 大規模な実験と評価は,本手法が顕著なアライメントを実現する上で有効であることを示す。

Ensuring alignment with human preferences is a crucial characteristic of large language models (LLMs). Presently, the primary alignment methods, RLHF and DPO, require extensive human annotation, which is expensive despite their efficacy. The significant expenses associated with current alignment techniques motivate researchers to investigate the development of annotation-free alignment training methods. In pursuit of improved alignment without relying on external annotation, we introduce Latent Distance Guided Alignment Training (LD-Align). This approach seeks to align the model with a high-quality supervised fine-tune dataset using guidance from a latent space. The latent space is generated through sample reconstruction, akin to auto-encoding. Consequently, we utilize the distance between sample pairs in the latent space to guide DPO-based alignment training. Extensive experimentation and evaluation show the efficacy of our proposed method in achieving notable alignment.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# ニューラルネットワークのランドスケープを探る:星形と測地線接続性

Exploring Neural Network Landscapes: Star-Shaped and Geodesic Connectivity ( http://arxiv.org/abs/2404.06391v1 )

ライセンス: Link先を確認
Zhanran Lin, Puheng Li, Lei Wu, (参考訳) ニューラルネットワークランドスケープの構造における最も興味深い発見の1つは、モード接続の現象である。 このモード接続の概念は、ディープラーニングの重要な現象を理解する上で重要な役割を果たしてきた。 本稿では,この接続現象を詳細に解析する。 まず、過パラメータ化の場合、接続経路は2ピースの線形経路と同じくらい単純であり、経路長はユークリッド距離とほぼ等しくなることを示した。 この発見は、ある意味では、風景がほぼ凸であるべきであることを示唆している。 第2に、驚くべき恒星の形をした接続が明らかになる: 有限個の典型的なミニマに対して、すべてのミニマ多様体を線形経路で同時に接続するミニマ多様体の中心が存在する。 これらの結果は,教師学生が構成したリニアネットワークと2層ReLUネットワークに対して有効であり,MNISTとCIFAR-10で訓練されたモデルによって実証的に支持されている。

One of the most intriguing findings in the structure of neural network landscape is the phenomenon of mode connectivity: For two typical global minima, there exists a path connecting them without barrier. This concept of mode connectivity has played a crucial role in understanding important phenomena in deep learning. In this paper, we conduct a fine-grained analysis of this connectivity phenomenon. First, we demonstrate that in the overparameterized case, the connecting path can be as simple as a two-piece linear path, and the path length can be nearly equal to the Euclidean distance. This finding suggests that the landscape should be nearly convex in a certain sense. Second, we uncover a surprising star-shaped connectivity: For a finite number of typical minima, there exists a center on minima manifold that connects all of them simultaneously via linear paths. These results are provably valid for linear networks and two-layer ReLU networks under a teacher-student setup, and are empirically supported by models trained on MNIST and CIFAR-10.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# バスク語におけるイベント抽出:音韻論的に動機づけられた言語間移動学習分析

Event Extraction in Basque: Typologically motivated Cross-Lingual Transfer-Learning Analysis ( http://arxiv.org/abs/2404.06392v1 )

ライセンス: Link先を確認
Mikel Zubillaga, Oscar Sainz, Ainara Estarrona, Oier Lopez de Lacalle, Eneko Agirre, (参考訳) クロス言語変換学習は低リソース言語のイベント抽出において広く使われており、ソース言語で訓練され、対象言語に適用される多言語言語モデルを含んでいる。 本稿では,ソース言語とターゲット言語との類型的類似性が言語間移動の性能に与える影響について検討する。 まず、バスク語を対象言語として重視する。これは、周辺言語とタイプ学的に異なるため、理想的な対象言語である。 3つのイベント抽出タスクの実験により、ソースとターゲット言語間の共通言語特性が伝達品質に影響を及ぼすことが示された。 72言語対のさらなる分析により、エンティティやイベントトリガの識別などのトークン分類に関わるタスクに対して、共通記述スクリプトや形態的特徴はより高品質な言語間移動をもたらすことが明らかになった。 対照的に、引数抽出のような構造的予測を伴うタスクでは、共通語順が最も関連性が高い。 さらに、トレーニングサイズが大きくなると、すべての言語が言語間設定で同じようにスケールするわけではないことを示す。 実験を行うために,多言語イベント抽出データセット(MEE)に従うBasqueのイベント抽出データセットであるEusIEを紹介した。 データセットとコードは公開されている。

Cross-lingual transfer-learning is widely used in Event Extraction for low-resource languages and involves a Multilingual Language Model that is trained in a source language and applied to the target language. This paper studies whether the typological similarity between source and target languages impacts the performance of cross-lingual transfer, an under-explored topic. We first focus on Basque as the target language, which is an ideal target language because it is typologically different from surrounding languages. Our experiments on three Event Extraction tasks show that the shared linguistic characteristic between source and target languages does have an impact on transfer quality. Further analysis of 72 language pairs reveals that for tasks that involve token classification such as entity and event trigger identification, common writing script and morphological features produce higher quality cross-lingual transfer. In contrast, for tasks involving structural prediction like argument extraction, common word order is the most relevant feature. In addition, we show that when increasing the training size, not all the languages scale in the same way in the cross-lingual setting. To perform the experiments we introduce EusIE, an event extraction dataset for Basque, which follows the Multilingual Event Extraction dataset (MEE). The dataset and code are publicly available.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# MuPT: 再生可能なシンボリック音楽事前学習トランス

MuPT: A Generative Symbolic Music Pretrained Transformer ( http://arxiv.org/abs/2404.06393v1 )

ライセンス: Link先を確認
Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xinrun Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Stephen W. Huang, Wenhu Chen, Jie Fu, Ge Zhang, (参考訳) 本稿では,Large Language Models (LLM) の事前学習への応用について検討する。 音楽モデリングにおけるMIDIの利用は確立されているが,本研究の結果から,LLMは本質的にABC Notationとの互換性が強く,その設計と強みがより密に一致し,楽曲におけるモデルの性能が向上することが示唆された。 そこで我々は,複数トラック間のコヒーレンスを維持することを目的とした,異なるトラック間の不整合対策に関連する課題に対処するため,複数のトラック間のコヒーレンスを維持することを目的とした 'underline{S}ynchronized \underline{M}ulti-\underline{T}rack ABC Notation (\textbf{SMT-ABC Notation}) の開発を提案する。 私たちのコントリビューションには、最大8192トークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。 さらに、モデル性能に対する \underline{S}ymbolic \underline{M}usic \underline{S}caling Law (\textbf{SMS Law) の影響について検討する。 この結果は,コミュニティ主導のコミュニティ主導の研究に,我々のオープンソースコントリビューションを通じて幅広いリソースを提供する,音楽生成における将来的な研究の方向性を示すものである。

In this paper, we explore the application of Large Language Models (LLMs) to the pre-training of music. While the prevalent use of MIDI in music modeling is well-established, our findings suggest that LLMs are inherently more compatible with ABC Notation, which aligns more closely with their design and strengths, thereby enhancing the model's performance in musical composition. To address the challenges associated with misaligned measures from different tracks during generation, we propose the development of a \underline{S}ynchronized \underline{M}ulti-\underline{T}rack ABC Notation (\textbf{SMT-ABC Notation}), which aims to preserve coherence across multiple musical tracks. Our contributions include a series of models capable of handling up to 8192 tokens, covering 90\% of the symbolic music data in our training set. Furthermore, we explore the implications of the \underline{S}ymbolic \underline{M}usic \underline{S}caling Law (\textbf{SMS Law}) on model performance. The results indicate a promising direction for future research in music generation, offering extensive resources for community-led research through our open-source contributions.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# MiniCPM: スケーラブルなトレーニング戦略で小さな言語モデルの可能性を明らかにする

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies ( http://arxiv.org/abs/2404.06395v1 )

ライセンス: Link先を確認
Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, Xinrong Zhang, Zheng Leng Thai, Kaihuo Zhang, Chongyi Wang, Yuan Yao, Chenyang Zhao, Jie Zhou, Jie Cai, Zhongwu Zhai, Ning Ding, Chao Jia, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun, (参考訳) 最大1兆のパラメータを持つLarge Language Models (LLMs) の開発への関心は、特に実験の膨大なコストを考慮すると、資源効率と実践的費用に関する懸念に直面している。 このシナリオは、リソース効率の代替手段としてのSLM(Small Language Models)の可能性を探ることの重要性を浮き彫りにしている。 この文脈では、MiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を導入し、それぞれのカテゴリに優れるだけでなく、7B-13B LLMと同等の機能を示す。 SLMに着目しながら,本手法は将来のLSM研究におけるモデル次元およびデータ次元のスケーラビリティを示す。 モデルスケーリングについては、安定かつ最適なスケーリングのために、広範囲なモデル風洞実験を採用する。 データスケーリングには、継続的トレーニングとドメイン適応に寄与するWarmup-Stable-Decay(WSD)学習率スケジューラ(LRS)を導入する。 本稿では,WSD LRSで発生した興味深いトレーニングダイナミクスを詳細に分析する。 WSD LRSにより、モデル軸とデータ軸の広範な再トレーニング実験をすることなく、データモデルのスケーリング法則を効率的に研究することが可能となり、そこから、Chinchilla Optimalよりもはるかに高い計算最適データモデル比が導出されます。 さらに、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーを導入し、多様なSLMアプリケーションにおけるMiniCPMの基盤をさらに強化した。 MiniCPMモデルはhttps://github.com/OpenBMB/MiniCPMで公開されている。

The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM's foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# 薄膜ニオブ酸リチウムの集積電子光学

Integrated electro-optics on thin-film lithium niobate ( http://arxiv.org/abs/2404.06398v1 )

ライセンス: Link先を確認
Yaowen Hu, Di Zhu, Shengyuan Lu, Xinrui Zhu, Yunxiang Song, Dylan Renaud, Daniel Assumpcao, Rebecca Cheng, CJ Xin, Matthew Yeh, Hana Warner, Xiangwen Guo, Amirhassan Shams-Ansari, David Barton, Neil Sinclair, Marko Loncar, (参考訳) 電子光学は電子工学とフォトニクスの間の重要な橋として機能し、通信やコンピューティング、センシング、量子情報など幅広い応用を解き放つ。 特に集積電気光学のアプローチは、電子工学に相当なフォトニック並列性を提供しながら、フォトニックに必須の電子的高速制御を可能にする。 薄膜ニオブ酸リチウムフォトニクスの最近の進歩は、エレクトロ光学の革命的な進歩をもたらした。 この技術は、必要な強度の電気光学結合を提供するだけでなく、超低光損失と高マイクロ波帯域も備えている。 さらに、ナノファブリケーションとの密接な閉じ込めと互換性により、前例のない再構成性とスケーラビリティが実現し、かつてバルクシステムでは不可能だった新しい複雑なデバイスやシステムの開発が容易になった。 このプラットフォーム上に構築されたこの分野は、現在の最先端を越え、これまで存在しなかった機能を導入し、様々な画期的な電気光学デバイスが出現するのを目撃している。 この技術進歩は、フォトニック非エルミート合成次元、アクティブトポロジカル物理学、量子電気光学など、物理学の様々な領域を探索するためのユニークな枠組みを提供する。 本稿では,電気光学の基本原理を概説し,基礎科学と技術の最前線のつながりを描き出す。 薄膜ニオブ酸リチウムプラットフォームで実現した集積型電子光学の成果と将来展望について論じる。

Electro-optics serves as the crucial bridge between electronics and photonics, unlocking a wide array of applications ranging from communications and computing to sensing and quantum information. Integrated electro-optics approaches in particular enable essential electronic high-speed control for photonics while offering substantial photonic parallelism for electronics. Recent strides in thin-film lithium niobate photonics have ushered revolutionary advancements in electro-optics. This technology not only offers the requisite strong electro-optic coupling but also boasts ultra-low optical loss and high microwave bandwidth. Further, its tight confinement and compatibility with nanofabrication allow for unprecedented reconfigurability and scalability, facilitating the creation of novel and intricate devices and systems that were once deemed nearly impossible in bulk systems. Building upon this platform, the field has witnessed the emergence of various groundbreaking electro-optic devices surpassing the current state of the art, and introducing functionalities that were previously non-existent. This technological leap forward provides a unique framework to explore various realms of physics as well, including photonic non-Hermitian synthetic dimensions, active topological physics, and quantum electro-optics. In this review, we present the fundamental principles of electro-optics, drawing connections between fundamental science and the forefront of technology. We discuss the accomplishments and future prospects of integrated electro-optics, enabled by thin-film lithium niobate platform.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# 動的深層学習に基づく浅水方程式の超解法

Dynamic Deep Learning Based Super-Resolution For The Shallow Water Equations ( http://arxiv.org/abs/2404.06400v1 )

ライセンス: Link先を確認
Maximilian Witte, Fabricio Rodrigues Lapolli, Philip Freese, Sebastian Götschel, Daniel Ruprecht, Peter Korn, Christopher Kadow, (参考訳) 非線形浅水方程式をベンチマークとして、U-net型ニューラルネットワークによって頻繁に修正される20km分解能のICON-O海洋モデルを用いたシミュレーションが、10km分解能のシミュレーションの離散化誤差を達成できることを実証した。 このネットワークは元々、イメージベースのポストプロセッシングのために開発されたもので、両方のメッシュ上のソリューションの違いを計算するために訓練され、12時間毎に粗いメッシュを修正するために使用される。 我々の設定はガレフスキーテストケースであり、バロトロピック不安定性から乱流への遷移をモデル化する。 ML補正された粗い分解能はバランスフローを正しく維持し,高分解能シミュレーションに従って乱流への遷移を捕捉することを示す。 8日間のシミュレーションの後、修正された実行の$L_2$-errorは、より微細なメッシュ上で実行されるシミュレーションに似ている。 質量は補正されたランで保存されるが、運動エネルギーの急激な生成を観測する。

Using the nonlinear shallow water equations as benchmark, we demonstrate that a simulation with the ICON-O ocean model with a 20km resolution that is frequently corrected by a U-net-type neural network can achieve discretization errors of a simulation with 10km resolution. The network, originally developed for image-based super-resolution in post-processing, is trained to compute the difference between solutions on both meshes and is used to correct the coarse mesh every 12h. Our setup is the Galewsky test case, modeling transition of a barotropic instability into turbulent flow. We show that the ML-corrected coarse resolution run correctly maintains a balance flow and captures the transition to turbulence in line with the higher resolution simulation. After 8 day of simulation, the $L_2$-error of the corrected run is similar to a simulation run on the finer mesh. While mass is conserved in the corrected runs, we observe some spurious generation of kinetic energy.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# トンプソンサンプリングによる決定木のオンライン学習

Online Learning of Decision Trees with Thompson Sampling ( http://arxiv.org/abs/2404.06403v1 )

ライセンス: Link先を確認
Ayman Chaouki, Jesse Read, Albert Bifet, (参考訳) 決定木は解釈可能な機械学習のための顕著な予測モデルである。 C4.5、ID3、CARTといった一般的なアルゴリズムに繋がる固定ラベル付きデータセットのバッチ設定で、これらは徹底的に研究されている。 残念なことに、これらの手法はヒューリスティックな性質を持ち、大域的最適性の保証のない欲望分割に依存しており、しばしば必要以上に複雑で解釈が難しい決定木に繋がる。 最近のブレークスルーは、バッチ設定におけるこの亜最適問題に対処しているが、そのような作業は、データがストリームに到着するオンライン設定を考慮していない。 そこで我々は,モンテカルロ木探索アルゴリズムであるトンプソンサンプリング決定木(TSDT)を考案し,オンライン環境で最適な決定木を生成する。 我々はアルゴリズムを解析し、そのほぼ確実に最適な木への収束を証明する。 さらに,本研究の成果を実証的に検証するための広範囲な実験を行った。 提案されたTSDTは、いくつかのベンチマークで既存のアルゴリズムよりも優れており、オンライン設定に合わせて調整されるという現実的な利点を示している。

Decision Trees are prominent prediction models for interpretable Machine Learning. They have been thoroughly researched, mostly in the batch setting with a fixed labelled dataset, leading to popular algorithms such as C4.5, ID3 and CART. Unfortunately, these methods are of heuristic nature, they rely on greedy splits offering no guarantees of global optimality and often leading to unnecessarily complex and hard-to-interpret Decision Trees. Recent breakthroughs addressed this suboptimality issue in the batch setting, but no such work has considered the online setting with data arriving in a stream. To this end, we devise a new Monte Carlo Tree Search algorithm, Thompson Sampling Decision Trees (TSDT), able to produce optimal Decision Trees in an online setting. We analyse our algorithm and prove its almost sure convergence to the optimal tree. Furthermore, we conduct extensive experiments to validate our findings empirically. The proposed TSDT outperforms existing algorithms on several benchmarks, all while presenting the practical advantage of being tailored to the online setting.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# 研究助手へのアプローチ:大規模言語モデルによる研究の促進

Apprentices to Research Assistants: Advancing Research with Large Language Models ( http://arxiv.org/abs/2404.06404v1 )

ライセンス: Link先を確認
M. Namvarpour, A. Razi, (参考訳) 大規模言語モデル(LLM)は、様々な研究領域において強力なツールとして登場した。 本稿では,文献レビューと手動実験を通じてその可能性について考察する。 LLMはコスト効率や効率性などの利点を提供するが、迅速なチューニングやバイアス、主観性といった課題に対処する必要がある。 本研究は, LLMを用いた定性解析実験から得られた知見から, 成功と限界を明らかにする。 さらに、迅速な最適化技術や人間の専門知識の活用など、課題を軽減するための戦略についても論じている。 本研究は,「LLMs as Research Tools」ワークショップにおいて,批判的かつ倫理的にLLMをHCIデータ作業に統合することに焦点を当てたものである。 機会と課題の両方に対処することで、我々の研究は研究における責任ある応用に関する継続的な対話に寄与します。

Large Language Models (LLMs) have emerged as powerful tools in various research domains. This article examines their potential through a literature review and firsthand experimentation. While LLMs offer benefits like cost-effectiveness and efficiency, challenges such as prompt tuning, biases, and subjectivity must be addressed. The study presents insights from experiments utilizing LLMs for qualitative analysis, highlighting successes and limitations. Additionally, it discusses strategies for mitigating challenges, such as prompt optimization techniques and leveraging human expertise. This study aligns with the 'LLMs as Research Tools' workshop's focus on integrating LLMs into HCI data work critically and ethically. By addressing both opportunities and challenges, our work contributes to the ongoing dialogue on their responsible application in research.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# Wuの手法はシンボルAIを銀メダリストに、AlphaGeometryはIMO Geometryで金メダリストに勝る

Wu's Method can Boost Symbolic AI to Rival Silver Medalists and AlphaGeometry to Outperform Gold Medalists at IMO Geometry ( http://arxiv.org/abs/2404.06405v1 )

ライセンス: Link先を確認
Shiven Sinha, Ameya Prabhu, Ponnurangam Kumaraguru, Siddharth Bhat, Matthias Bethge, (参考訳) 幾何学的定理を証明することは、直感的および論理的スキルを兼ね備えた視覚的推論の目印となる。 したがって、オリンピアドレベルの幾何学問題を証明した自動定理は、人間レベルの自動推論において顕著なマイルストーンであると考えられている。 1億の合成サンプルで訓練されたニューロシンボリックモデルであるAlphaGeometryの導入は、大きなブレークスルーとなった。 IMO(International Mathematical Olympiad)問題30件のうち25件を解決したが、Wu法に基づく報告ベースラインは10件に過ぎなかった。 本稿では,AlphaGeometry で導入された IMO-AG-30 Challenge を再検討し,Wu の手法が驚くほど強いことを示す。 ウーの方法だけでは15の問題を解くことができ、そのうちのいくつかは他の方法では解けない。 これは2つの重要な発見につながります。 (i)CPUのみのラップトップを1時間5分に制限しただけで30の手法のうち21の手法をWu法と古典的なデダクティブデータベース、角度、距離追尾法を組み合わせることで解決する。 基本的には、この古典的な手法はAlphaGeometryより4つの問題を解くだけで、IMO銀メダリストのパフォーマンスに匹敵するほどに、最初の完全に象徴的なベースラインを確立する。 (ii)Wuの手法は、AlphaGeometryが解けなかった5つの問題のうち2つを解く。 したがって、AlphaGeometry と Wu の手法を組み合わせることで、IMO-AG-30 で証明された自動定理の最先端を新たに設定し、30 問題のうち27 を解き、IMO ゴールドメダリストを上回った最初のAI手法である。

Proving geometric theorems constitutes a hallmark of visual reasoning combining both intuitive and logical skills. Therefore, automated theorem proving of Olympiad-level geometry problems is considered a notable milestone in human-level automated reasoning. The introduction of AlphaGeometry, a neuro-symbolic model trained with 100 million synthetic samples, marked a major breakthrough. It solved 25 of 30 International Mathematical Olympiad (IMO) problems whereas the reported baseline based on Wu's method solved only ten. In this note, we revisit the IMO-AG-30 Challenge introduced with AlphaGeometry, and find that Wu's method is surprisingly strong. Wu's method alone can solve 15 problems, and some of them are not solved by any of the other methods. This leads to two key findings: (i) Combining Wu's method with the classic synthetic methods of deductive databases and angle, ratio, and distance chasing solves 21 out of 30 methods by just using a CPU-only laptop with a time limit of 5 minutes per problem. Essentially, this classic method solves just 4 problems less than AlphaGeometry and establishes the first fully symbolic baseline strong enough to rival the performance of an IMO silver medalist. (ii) Wu's method even solves 2 of the 5 problems that AlphaGeometry failed to solve. Thus, by combining AlphaGeometry with Wu's method we set a new state-of-the-art for automated theorem proving on IMO-AG-30, solving 27 out of 30 problems, the first AI method which outperforms an IMO gold medalist.
翻訳日:2024-04-10 14:11:18 公開日:2024-04-09
# 神経細胞性オートマタの創発的ダイナミクス

Emergent Dynamics in Neural Cellular Automata ( http://arxiv.org/abs/2404.06406v1 )

ライセンス: Link先を確認
Yitao Xu, Ehsan Pajouheshgar, Sabine Süsstrunk, (参考訳) ニューラルセルオートマタ(Neural Cellular Automata、NCA)は、従来のセルオートマタ(CA)の訓練可能なバリエーションである。 NCAによって生成されたパターンの創発的な動きは、動的テクスチャの合成に成功している。 しかし、NAAが動的パターンを表示するのに必要な条件は未解明のままである。 そこで本研究では,NCAアーキテクチャとトレーニングモデルの創発的ダイナミクスとの関係について検討する。 具体的には、MultiLayer Perceptron (MLP) における細胞状態のチャネル数と隠されたニューロン数を変化させ、これら2つの変数の組み合わせと連続したフレーム間の運動強度の関係を描いている。 解析の結果,これらの変数間の相違と比例性は,NCA出力の創発的ダイナミクスと強い相関関係があることが判明した。 そこで我々は動的NAAを作成するための設計原則を提案する。

Neural Cellular Automata (NCA) models are trainable variations of traditional Cellular Automata (CA). Emergent motion in the patterns created by NCA has been successfully applied to synthesize dynamic textures. However, the conditions required for an NCA to display dynamic patterns remain unexplored. Here, we investigate the relationship between the NCA architecture and the emergent dynamics of the trained models. Specifically, we vary the number of channels in the cell state and the number of hidden neurons in the MultiLayer Perceptron (MLP), and draw a relationship between the combination of these two variables and the motion strength between successive frames. Our analysis reveals that the disparity and proportionality between these two variables have a strong correlation with the emergent dynamics in the NCA output. We thus propose a design principle for creating dynamic NCA.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# これを見てみよう!言語モデルジェイルブレイクの評価方法を再考する

Take a Look at it! Rethinking How to Evaluate Language Model Jailbreak ( http://arxiv.org/abs/2404.06407v1 )

ライセンス: Link先を確認
Hongyu Cai, Arjun Arunasalam, Leo Y. Lin, Antonio Bianchi, Z. Berkay Celik, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションとますます統合されている。 LLMが安全でない応答を生成しないことを保証するため、制限されたコンテンツを指定するセーフガードと整合している。 しかし、このようなアライメントは、一般的にジェイルブレイクと呼ばれる技法を用いて禁止コンテンツを作成するためにバイパスすることができる。 ジェイルブレイクを自動実行する様々なシステムが提案されている。 これらのシステムは、ジェイルブレイクの試みが成功したかどうかを判断するために評価手法に依存している。 しかし,本分析の結果,現在の脱獄評価法には2つの限界があることが判明した。 1) 目的は明確さを欠き, 安全でない応答を識別する目標と一致しない。 2) 2つの結果としてジェイルブレイク結果を過度に単純化する。 本稿では,言語モデルジェイルブレイクを評価するために,保護侵害,情報性,相対真理性の3つの指標を提案する。 さらに、これらの指標が、異なる悪意あるアクターの目標とどのように相関しているかを示す。 これらのメトリクスを計算するために,応答前処理後の自然言語生成評価手法を拡張する多面的手法を提案する。 3つの悪意のある意図的データセットと3つのジェイルブレイクシステムから生成されたベンチマークデータセットで、我々の測定値を評価する。 ベンチマークデータセットには3つのアノテーションがラベル付けされている。 多面的アプローチと既存の3つのジェイルブレイク評価手法を比較した。 実験の結果,F1スコアは既存のベースラインに比べて平均17%向上した。 以上の結果から,脱獄問題のバイナリビューから脱却し,言語モデルの安全性を確保するために,より包括的な評価を組み込むことの必要性が示唆された。

Large language models (LLMs) have become increasingly integrated with various applications. To ensure that LLMs do not generate unsafe responses, they are aligned with safeguards that specify what content is restricted. However, such alignment can be bypassed to produce prohibited content using a technique commonly referred to as jailbreak. Different systems have been proposed to perform the jailbreak automatically. These systems rely on evaluation methods to determine whether a jailbreak attempt is successful. However, our analysis reveals that current jailbreak evaluation methods have two limitations. (1) Their objectives lack clarity and do not align with the goal of identifying unsafe responses. (2) They oversimplify the jailbreak result as a binary outcome, successful or not. In this paper, we propose three metrics, safeguard violation, informativeness, and relative truthfulness, to evaluate language model jailbreak. Additionally, we demonstrate how these metrics correlate with the goal of different malicious actors. To compute these metrics, we introduce a multifaceted approach that extends the natural language generation evaluation method after preprocessing the response. We evaluate our metrics on a benchmark dataset produced from three malicious intent datasets and three jailbreak systems. The benchmark dataset is labeled by three annotators. We compare our multifaceted approach with three existing jailbreak evaluation methods. Experiments demonstrate that our multifaceted evaluation outperforms existing methods, with F1 scores improving on average by 17% compared to existing baselines. Our findings motivate the need to move away from the binary view of the jailbreak problem and incorporate a more comprehensive evaluation to ensure the safety of the language model.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# AgentQuest: LLMエージェントの進捗と改善を計測するモジュール型ベンチマークフレームワーク

AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents ( http://arxiv.org/abs/2404.06411v1 )

ライセンス: Link先を確認
Luca Gioacchini, Giuseppe Siracusano, Davide Sanvito, Kiril Gashteovski, David Friede, Roberto Bifulco, Carolin Lawrence, (参考訳) LLM(Large Language Models)による進歩は、複雑な多段階推論タスクを解くLLMエージェントの追求につながっている。 あらゆる研究の追及と同様に、ベンチマークと評価が効率的で信頼性の高い進歩の鍵となる。 しかし、既存のベンチマークは狭く、タスク全体の成功を単純に計算する。 これらの問題に対処するため、我々はAgentQuestというフレームワークを提案します。 i) ベンチマークとメトリクスはどちらもモジュール化されており、十分にドキュメント化され使いやすいAPIによって容易に拡張できます。 (II) 課題解決中に LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。 一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。 研究コミュニティとともに、AgentQuestをさらに拡張し、https://github.com/nec-research/agentquest.comで利用できるようにしたいと考えています。

The advances made by Large Language Models (LLMs) have led to the pursuit of LLM agents that can solve intricate, multi-step reasoning tasks. As with any research pursuit, benchmarking and evaluation are key corner stones to efficient and reliable progress. However, existing benchmarks are often narrow and simply compute overall task success. To face these issues, we propose AgentQuest -- a framework where (i) both benchmarks and metrics are modular and easily extensible through well documented and easy-to-use APIs; (ii) we offer two new evaluation metrics that can reliably track LLM agent progress while solving a task. We exemplify the utility of the metrics on two use cases wherein we identify common failure points and refine the agent architecture to obtain a significant performance increase. Together with the research community, we hope to extend AgentQuest further and therefore we make it available under https://github.com/nec-research/agentquest.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# 救助のための大規模言語モデル:マルチロボットシステムにおけるデッドロック分解能

Large Language Models to the Rescue: Deadlock Resolution in Multi-Robot Systems ( http://arxiv.org/abs/2404.06413v1 )

ライセンス: Link先を確認
Kunal Garg, Jacob Arkin, Songyuan Zhang, Nicholas Roy, Chuchu Fan, (参考訳) マルチエージェントロボットシステムは、スムーズな低レベル制御ポリシーの下で、システムが所望の場所から遠ざかる障害環境でデッドロックする傾向がある。 外部からの介入がなければ、しばしばハイレベルなコマンドによって、低レベルなコントロールポリシーだけがこのようなデッドロックを解決できることを保証することはできない。 本稿では,大規模言語モデル(LLM)の一般化性と低データ要求を利用して,デッドロック分解能にLLMを用いることの可能性を検討する。 本稿では,LLMがデッドロックを解決するための階層的な制御フレームワークを提案する。 グラフニューラルネットワーク(GNN)に基づく低レベル分散制御ポリシーは、割り当てられた計画を実行する。 デッドロックの解消におけるLCMの性能向上のために,様々なプロンプト手法を体系的に検討した。 特に, プロンプトエンジニアリングの一環として, LLMのコンテキスト内例を提供する。 最大15個のエージェントと40個の障害物を持つ様々なマルチロボット環境について広範囲に実験を行った。 以上の結果から,LSMをベースとした高レベルプランナはMSSにおけるデッドロックの解消に有効であることが示された。

Multi-agent robotic systems are prone to deadlocks in an obstacle environment where the system can get stuck away from its desired location under a smooth low-level control policy. Without an external intervention, often in terms of a high-level command, it is not possible to guarantee that just a low-level control policy can resolve such deadlocks. Utilizing the generalizability and low data requirements of large language models (LLMs), this paper explores the possibility of using LLMs for deadlock resolution. We propose a hierarchical control framework where an LLM resolves deadlocks by assigning a leader and direction for the leader to move along. A graph neural network (GNN) based low-level distributed control policy executes the assigned plan. We systematically study various prompting techniques to improve LLM's performance in resolving deadlocks. In particular, as part of prompt engineering, we provide in-context examples for LLMs. We conducted extensive experiments on various multi-robot environments with up to 15 agents and 40 obstacles. Our results demonstrate that LLM-based high-level planners are effective in resolving deadlocks in MRS.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# 科学的連続場再構築のためのニューラルネットワークにおける潜時表現の影響に関する研究

Studying the Impact of Latent Representations in Implicit Neural Networks for Scientific Continuous Field Reconstruction ( http://arxiv.org/abs/2404.06418v1 )

ライセンス: Link先を確認
Wei Xu, Derek Freeman DeSantis, Xihaier Luo, Avish Parmar, Klaus Tan, Balu Nadiga, Yihui Ren, Shinjae Yoo, (参考訳) スパースサンプリングから連続的で信頼性の高い物理分野の表現を学ぶことは困難であり、様々な科学分野に影響を及ぼす。 近年の研究では、暗黙的ニューラルネットワークを用いたMMGN(Multiplicative and Modulated Gabor Network)と呼ばれる新しいモデルを提案する。 本研究では,従来の実験を補完する説明可能性手法を活用し,モデルが生成した潜在表現の理解を深めるための追加研究を設計する。 採用された手法は、潜時宇宙検査に利用できるほど一般的なものである。 予備的な結果は、潜在表現に組み込まれた文脈情報とそのモデル性能への影響を示す。 今後の課題として,本研究の成果を検証し,新たな説明可能性アプローチを開発していく。

Learning a continuous and reliable representation of physical fields from sparse sampling is challenging and it affects diverse scientific disciplines. In a recent work, we present a novel model called MMGN (Multiplicative and Modulated Gabor Network) with implicit neural networks. In this work, we design additional studies leveraging explainability methods to complement the previous experiments and further enhance the understanding of latent representations generated by the model. The adopted methods are general enough to be leveraged for any latent space inspection. Preliminary results demonstrate the contextual information incorporated in the latent representations and their impact on the model performance. As a work in progress, we will continue to verify our findings and develop novel explainability approaches.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# ニューラルネットワークの近似推論によるベイズ生存解析

Bayesian Survival Analysis by Approximate Inference of Neural Networks ( http://arxiv.org/abs/2404.06421v1 )

ライセンス: Link先を確認
Christian Marius Lillelund, Martin Magris, Christian Fischer Pedersen, (参考訳) 将来の事象を予測することは、常に不確実性を伴うが、伝統的な非ベイズ的手法は、不確実性のある予測と区別したり、それらの予測に対する信頼を説明することはできない。 生存分析において、医療・医療分野における最先端のソリューションに適用されたベイズ的手法はまだ新しいものであり、その影響は十分に評価されていない。 本稿では,予測と校正性能に着目した生存分析のためのディープニューラルネットワークにおける不確実性モデリングの利点について検討する。 そこで我々は,3つのベイズネットワークアーキテクチャからなるベイズディープラーニングフレームワークを提案する。このフレームワークは,Cox部分確率を最適化し,入力依存のアレタリック不確実性とモデル固有のてんかんの不確実性を組み合わせることによって訓練する。 これにより、生存曲線を予測する場合や、予測された中央値生存時間に対して確率密度関数として不確実性推定を信頼区間として提供することができる。 実験により,提案手法を4つのベンチマークデータセットで評価したところ,提案手法は一致指数に基づく最先端技術に匹敵する予測性能を示し,平均絶対誤差の観点から他のCoxベースの手法よりも優れていることがわかった。 我々の研究は、異なるベイズ近似技術が相違する範囲を明示的に比較し、従来の非ベイズ的手法に対する予測を改善する。

Predicting future events always comes with uncertainty, but traditional non-Bayesian methods cannot distinguish certain from uncertain predictions or explain the confidence in their predictions. In survival analysis, Bayesian methods applied to state-of-the-art solutions in the healthcare and biomedical field are still novel, and their implications have not been fully evaluated. In this paper, we study the benefits of modeling uncertainty in deep neural networks for survival analysis with a focus on prediction and calibration performance. For this, we present a Bayesian deep learning framework that consists of three Bayesian network architectures, which we train by optimizing the Cox partial likelihood and combining input-dependent aleatoric uncertainty with model-specific epistemic uncertainty. This enables us to provide uncertainty estimates as credible intervals when predicting the survival curve or as a probability density function over the predicted median survival times. For our empirical analyses, we evaluated our proposed method on four benchmark datasets and found that our method demonstrates prediction performance comparable to the state-of-the-art based on the concordance index and outperforms all other Cox-based approaches in terms of the mean absolute error. Our work explicitly compares the extent to which different Bayesian approximation techniques differ from each other and improves the prediction over traditional non-Bayesian alternatives.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# アルゴリズム時代のEchoチャンバー:Twitterのフレンドリコメンダーシステムの監査

Echo Chambers in the Age of Algorithms: An Audit of Twitter's Friend Recommender System ( http://arxiv.org/abs/2404.06422v1 )

ライセンス: Link先を確認
Kayla Duskin, Joseph S. Schafer, Jevin D. West, Emma S. Spiro, (参考訳) ソーシャルメディアプラットフォーム上での政治的誤報やイデオロギー的エコーチャンバーの存在は、これらのサイトがニュースや現在の出来事への露出において、人々の重要な役割を担っていることを考慮に入れている。 これらのプラットフォームで使用されるアルゴリズムシステムは、これらの現象に重要な役割を果たしていると推定されているが、それらのメカニズムや効果についてはほとんど知られていない。 本研究では,Twitterの友達推薦システムのアルゴリズム監査を行う。 われわれは、2022年の中間選挙では、左右の米国の政治家をフォローする自動Twitterアカウントを作成し、その後、プラットフォームのレコメンデーターシステムを使って、彼らの情報ネットワークを拡大する。 われわれはこの実験を、すでに同じ政治家をフォローしているTwitterユーザーの観察調査と組み合わせた。 広くは、リコメンデーションアルゴリズムに従えば、リコメンデーションはエコーチャンバーに構造的に類似した密集した相互に近隣のアカウントを誘導するが、リコメンデーターは、社会的支持を通じてネットワークを拡大するアカウントに比べて、ユーザのネットワークの政治的均質性を低下させる。 さらに、アルゴリズムによって推奨されたユーザーを排他的にフォローするアカウントは、社会的支持に基づく友人を選ぶよりも、嘘や誤解を招く選挙物語を中心としたコンテンツに遭遇する機会が少なかった。

The presence of political misinformation and ideological echo chambers on social media platforms is concerning given the important role that these sites play in the public's exposure to news and current events. Algorithmic systems employed on these platforms are presumed to play a role in these phenomena, but little is known about their mechanisms and effects. In this work, we conduct an algorithmic audit of Twitter's Who-To-Follow friend recommendation system, the first empirical audit that investigates the impact of this algorithm in-situ. We create automated Twitter accounts that initially follow left and right affiliated U.S. politicians during the 2022 U.S. midterm elections and then grow their information networks using the platform's recommender system. We pair the experiment with an observational study of Twitter users who already follow the same politicians. Broadly, we find that while following the recommendation algorithm leads accounts into dense and reciprocal neighborhoods that structurally resemble echo chambers, the recommender also results in less political homogeneity of a user's network compared to accounts growing their networks through social endorsement. Furthermore, accounts that exclusively followed users recommended by the algorithm had fewer opportunities to encounter content centered on false or misleading election narratives compared to choosing friends based on social endorsement.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# 燃料制約付き単一車両監視問題に対する深部強化学習に基づくアプローチ

Deep Reinforcement Learning-Based Approach for a Single Vehicle Persistent Surveillance Problem with Fuel Constraints ( http://arxiv.org/abs/2404.06423v1 )

ライセンス: Link先を確認
Hritik Bana, Manav Mishra, Saswata Sarkar, Sujeevraja Sanjeevi, Sujit PB, Kaarthik Sundar, (参考訳) 本稿では,無人航空機を燃料や飛行時間の制約で基地に配備し,目標のセットを同じ優先度で繰り返し訪問することを必要とする,永続的な監視任務に取り組むための深層強化学習に基づくアプローチを提案する。 燃料や飛行時間制限のため、車両は定期的に燃料を補給するか、あるいは補給所で電池を充電する必要がある。 問題の目的は、車両が燃料や電荷を使い果たさないことを確実にしながら、あらゆる目標への連続的な訪問の間に経過する最大時間を最小限に抑える、目標への訪問の最適な順序を決定することである。 本稿では,この問題を解決するための深層強化学習アルゴリズムを提案する。また,この手法の有効性を,常識的な経験的ヒューリスティックスと比較した数値実験の結果を示す。

This article presents a deep reinforcement learning-based approach to tackle a persistent surveillance mission requiring a single unmanned aerial vehicle initially stationed at a depot with fuel or time-of-flight constraints to repeatedly visit a set of targets with equal priority. Owing to the vehicle's fuel or time-of-flight constraints, the vehicle must be regularly refueled, or its battery must be recharged at the depot. The objective of the problem is to determine an optimal sequence of visits to the targets that minimizes the maximum time elapsed between successive visits to any target while ensuring that the vehicle never runs out of fuel or charge. We present a deep reinforcement learning algorithm to solve this problem and present the results of numerical experiments that corroborate the effectiveness of this approach in comparison with common-sense greedy heuristics.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# ZeST: 単一画像からのゼロショット物質移動

ZeST: Zero-Shot Material Transfer from a Single Image ( http://arxiv.org/abs/2404.06425v1 )

ライセンス: Link先を確認
Ta-Ying Cheng, Prafull Sharma, Andrew Markham, Niki Trigoni, Varun Jampani, (参考訳) 本稿では,ZeSTを提案する。ZeST,ZeST,ZeST,ZeST,ZeST,ZeST,ZeST,ZeST,ZeST,ZeST,ZeST,ZeST。 ZeSTは既存の拡散アダプタを利用して、模範画像から暗黙の物質表現を抽出する。 この表現は、奥行き推定を幾何学キュー、グレースケールの物体シェーディングを照明キューとして使用し、入力画像中の物体に予め学習した塗布拡散モデルを用いて物質を転写する。 この方法は、トレーニングなしで実画像上で動作し、ゼロショットのアプローチをもたらす。 実際のデータセットと合成データセットの質的および定量的結果の両方で、ZeSTは転写された物質でフォトリアリスティックな画像を出力することを示した。 また,ZeSTを複数の編集や,異なる照明下での頑健な材料割り当てに応用することも示す。 プロジェクトページ: https://ttchengab.github.io/zest

We propose ZeST, a method for zero-shot material transfer to an object in the input image given a material exemplar image. ZeST leverages existing diffusion adapters to extract implicit material representation from the exemplar image. This representation is used to transfer the material using pre-trained inpainting diffusion model on the object in the input image using depth estimates as geometry cue and grayscale object shading as illumination cues. The method works on real images without any training resulting a zero-shot approach. Both qualitative and quantitative results on real and synthetic datasets demonstrate that ZeST outputs photorealistic images with transferred materials. We also show the application of ZeST to perform multiple edits and robust material assignment under different illuminations. Project Page: https://ttchengab.github.io/zest
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# メソスコピックリーズ定式化における量子確率熱力学

Quantum stochastic thermodynamics in the mesoscopic-leads formulation ( http://arxiv.org/abs/2404.06426v1 )

ライセンス: Link先を確認
Laetitia P. Bettmann, Michael J. Kewming, Gabriel T. Landi, John Goold, Mark T. Mitchison, (参考訳) 本研究では, 時間分解能とエネルギー分解能の両面から, 線形応答系を超越した開量子系における電荷, 熱, エントロピー生成の分布を数値的に解析する手法を提案する。 本手法はメソスコピック・リードの定式化を利用しており, マクロスコピック貯水池は, 適切なゴリーニ・コサコフスキー・スダルシャン・リンドブラッドマスター方程式により連続的に熱平衡に減衰する有限なモードの集合によってモデル化されている。 相互作用しないフェルミオン系に着目し、マスター方程式の軌道展開を通じて時間分解された完全数え上げ統計にアクセスする。 総エントロピー生成に対する積分揺らぎ定理とマーチンゲールと不確実エントロピー生成が成り立つことを示す。 さらに, 有限時間情報消去における消散熱の変動について検討した。 概念的には、我々のアプローチは、弱い系-環境結合の体制を超えて、量子確率的熱力学の連続的時間軌道記述を拡張している。

We introduce a numerical method to sample the distributions of charge, heat, and entropy production in open quantum systems coupled strongly to macroscopic reservoirs, with both temporal and energy resolution and beyond the linear-response regime. Our method exploits the mesoscopic-leads formulation, where macroscopic reservoirs are modeled by a finite collection of modes that are continuously damped toward thermal equilibrium by an appropriate Gorini-Kossakowski-Sudarshan-Lindblad master equation. Focussing on non-interacting fermionic systems, we access the time-resolved full counting statistics through a trajectory unraveling of the master equation. We show that the integral fluctuation theorems for the total entropy production, as well as the martingale and uncertainty entropy production, hold. Furthermore, we investigate the fluctuations of the dissipated heat in finite-time information erasure. Conceptually, our approach extends the continuous-time trajectory description of quantum stochastic thermodynamics beyond the regime of weak system-environment coupling.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# Magic-Boost: Mutli-View Conditioned Diffusionによる3D生成

Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion ( http://arxiv.org/abs/2404.06429v1 )

ライセンス: Link先を確認
Fan Yang, Jianfeng Zhang, Yichun Shi, Bowen Chen, Chenxu Zhang, Huichao Zhang, Xiaofeng Yang, Jiashi Feng, Guosheng Lin, (参考訳) 2次元拡散モデルの急速な発展により、3次元コンテンツ作成は近年大きな進歩を遂げている。 1つの有望な解決策は、トレーニング済みの2D拡散モデルの微調整によって、マルチビュー画像の生成能力を活用し、高速NeRFや大規模な再構成モデルなどの方法で正確な3Dモデルに持ち上げられることだ。 しかし、一貫性が残っており、解像度が限られているため、複雑なテクスチャや複雑なジオメトリーはいまだに生成されない。 この問題を解決するために,SDS最適化の短時間(\sim15$min)を通じて粗大な生成結果を著しく洗練するマルチビュー条件付き拡散モデルMagic-Boostを提案する。 従来のテキストや単一画像ベース拡散モデルと比較して、Magic-Boostは擬似的に合成されたマルチビュー画像から高い一貫性を持つ画像を生成する堅牢な能力を示す。 入力画像の同一性によく整合した正確なSDSガイダンスを提供し、初期生成結果の幾何学的およびテクスチャの局所的な詳細を豊かにする。 大規模な実験により、Magic-Boostは粗い入力を大幅に強化し、リッチな幾何学的およびテクスチュラルな詳細で高品質な3Dアセットを生成する。 (プロジェクトページ:https://magic-research.github.io/magic-boost/)

Benefiting from the rapid development of 2D diffusion models, 3D content creation has made significant progress recently. One promising solution involves the fine-tuning of pre-trained 2D diffusion models to harness their capacity for producing multi-view images, which are then lifted into accurate 3D models via methods like fast-NeRFs or large reconstruction models. However, as inconsistency still exists and limited generated resolution, the generation results of such methods still lack intricate textures and complex geometries. To solve this problem, we propose Magic-Boost, a multi-view conditioned diffusion model that significantly refines coarse generative results through a brief period of SDS optimization ($\sim15$min). Compared to the previous text or single image based diffusion models, Magic-Boost exhibits a robust capability to generate images with high consistency from pseudo synthesized multi-view images. It provides precise SDS guidance that well aligns with the identity of the input images, enriching the local detail in both geometry and texture of the initial generative results. Extensive experiments show Magic-Boost greatly enhances the coarse inputs and generates high-quality 3D assets with rich geometric and textural details. (Project Page: https://magic-research.github.io/magic-boost/)
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# pfl-research:Private Federated Learningにおける研究促進のためのシミュレーションフレームワーク

pfl-research: simulation framework for accelerating research in Private Federated Learning ( http://arxiv.org/abs/2404.06430v1 )

ライセンス: Link先を確認
Filip Granqvist, Congzheng Song, Áine Cahill, Rogier van Dalen, Martin Pelikan, Yi Sheng Chan, Xiaojun Feng, Natarajan Krishnaswami, Vojta Jina, Mona Chitnis, (参考訳) Federated Learning(FL)は、クライアントがデータを所有し、サーバや他の参加者にデータを公開せずにグローバルモデルをトレーニングする、新たな機械学習(ML)トレーニングパラダイムである。 研究者は通常、アイデアをすばやく反復するためにシミュレーション環境で実験を行う。 しかし、既存のオープンソースツールは、より大きくより現実的なFLデータセット上でFLをシミュレートするために必要な効率を提供していません。 pfl-researchは、FLをシミュレートするための高速でモジュラーで使いやすいPythonフレームワークである。 TensorFlow、PyTorch、および非神経ネットワークモデルをサポートし、最先端のプライバシアルゴリズムと密に統合されている。 オープンソースFLフレームワークの速度について検討し、pfl-researchが一般的なクロスデバイスセットアップ上の代替オープンソースフレームワークよりも7-72$\times$高速であることを示す。 このようなスピードアップは、FL研究コミュニティの生産性を大幅に向上させ、以前はリソースが多すぎる現実的なFLデータセットに対する仮説のテストを可能にする。 我々は,多様な現実的なシナリオに対して,アルゴリズムの全体的な性能を評価するベンチマークスイートをリリースする。 コードはGitHubでhttps://github.com/apple/pfl-research.comで公開されている。

Federated learning (FL) is an emerging machine learning (ML) training paradigm where clients own their data and collaborate to train a global model, without revealing any data to the server and other participants. Researchers commonly perform experiments in a simulation environment to quickly iterate on ideas. However, existing open-source tools do not offer the efficiency required to simulate FL on larger and more realistic FL datasets. We introduce pfl-research, a fast, modular, and easy-to-use Python framework for simulating FL. It supports TensorFlow, PyTorch, and non-neural network models, and is tightly integrated with state-of-the-art privacy algorithms. We study the speed of open-source FL frameworks and show that pfl-research is 7-72$\times$ faster than alternative open-source frameworks on common cross-device setups. Such speedup will significantly boost the productivity of the FL research community and enable testing hypotheses on realistic FL datasets that were previously too resource intensive. We release a suite of benchmarks that evaluates an algorithm's overall performance on a diverse set of realistic scenarios. The code is available on GitHub at https://github.com/apple/pfl-research.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# 量子グラフ最適化アルゴリズム

Quantum Graph Optimization Algorithm ( http://arxiv.org/abs/2404.06434v1 )

ライセンス: Link先を確認
Yuhan Huang, Ferris Prima Nugraha, Siyuan Jin, Yichi Zhang, Bei Zeng, Qiming Shao, (参考訳) 二次非拘束バイナリ最適化(QUBO)タスクは、グラフ構造を用いて表現できる化学、金融、ジョブスケジューリングなどにおいて非常に重要であり、変数をノードとして、それらの間の相互作用をエッジとして表現する。 変分量子アルゴリズム、特に量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)とその変種は、古典的なアルゴリズムの能力を超え、QUBOタスクに対処するための有望な方法を提供する。 しかし、従来のグラフニューラルネットワークにインスパイアされたメッセージパッシングマシンを用いて、QUBOタスクにおけるこれらの量子アルゴリズムのパワーと性能を向上させる可能性については検討されなかった。 本研究では,QAOAや変種,その他の量子グラフニューラルネットワークと比較して,QUBO問題の解法性能が,資源効率と解精度で大幅に向上したことを示す,メッセージパッシング機構を統合した新しい変分量子グラフ最適化アルゴリズムを提案する。 さらに,QUBOタスクのスケーラビリティに関しては,QAOAよりも優れた性能を示し,量子近似最適化の分野ではかなり進歩している。

Quadratic unconstrained binary optimization (QUBO) tasks are very important in chemistry, finance, job scheduling, and so on, which can be represented using graph structures, with the variables as nodes and the interaction between them as edges. Variational quantum algorithms, especially the Quantum Approximate Optimization Algorithm (QAOA) and its variants, present a promising way, potentially exceeding the capabilities of classical algorithms, for addressing QUBO tasks. However, the possibility of using message-passing machines, inspired by classical graph neural networks, to enhance the power and performance of these quantum algorithms for QUBO tasks was not investigated. This study introduces a novel variational quantum graph optimization algorithm that integrates the message-passing mechanism, which demonstrates significant improvements in performance for solving QUBO problems in terms of resource efficiency and solution precision, compared to QAOA, its variants, and other quantum graph neural networks. Furthermore, in terms of scalability on QUBO tasks, our algorithm shows superior performance compared to QAOA, presenting a substantial advancement in the field of quantum approximate optimization.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# エッジとモバイルIoTのためのソフトウェアベースのセキュリティフレームワーク

Software-based Security Framework for Edge and Mobile IoT ( http://arxiv.org/abs/2404.06435v1 )

ライセンス: Link先を確認
José Cecílio, Alan Oliveira de Sá, André Souto, (参考訳) モノのインターネット(IoT)デバイスの普及に伴い、セキュアな通信が不可欠になっている。 低コストで組み込み性があるため、これらのデバイスの多くは計算とエネルギーの制約で動作し、それらがもたらす潜在的なセキュリティ上の脆弱性を無視している。 このワークインプログレスは、セキュリティの堅牢性とエネルギー効率のバランスをとるために、リモートサーバと組み込みIoTデバイス間のセキュアな通信を設計することに焦点を当てている。 提案手法は軽量な暗号を使い、限られたリソースを過大評価することなくデバイスの性能とセキュリティを最適化する。 当社のアーキテクチャは、Edgeサーバと中央のName Serverを統合することで、セキュアで分散化された認証と、異なるEdgeサーバ間の効率的な接続移行を可能にします。 このアーキテクチャはIoTネットワークのスケーラビリティを高め、各サーバの負荷を低減し、認証とキー管理の責任を分散する。

With the proliferation of Internet of Things (IoT) devices, ensuring secure communications has become imperative. Due to their low cost and embedded nature, many of these devices operate with computational and energy constraints, neglecting the potential security vulnerabilities that they may bring. This work-in-progress is focused on designing secure communication among remote servers and embedded IoT devices to balance security robustness and energy efficiency. The proposed approach uses lightweight cryptography, optimizing device performance and security without overburdening their limited resources. Our architecture stands out for integrating Edge servers and a central Name Server, allowing secure and decentralized authentication and efficient connection transitions between different Edge servers. This architecture enhances the scalability of the IoT network and reduces the load on each server, distributing the responsibility for authentication and key management.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# 時空間深部ニューラルネットワークを用いた季節火災予測

Seasonal Fire Prediction using Spatio-Temporal Deep Neural Networks ( http://arxiv.org/abs/2404.06437v1 )

ライセンス: Link先を確認
Dimitrios Michail, Lefki-Ioanna Panagiotou, Charalampos Davalas, Ioannis Prapas, Spyros Kondylatos, Nikolaos Ioannis Bountos, Ioannis Papoutsis, (参考訳) 気候変動が気象条件を悪化させると予想されているため、世界規模での山火事の正確な予報は、災害の緩和にますます重要になっている。 本研究では,気候,植生,海洋指標,人為的変数を含む総合的な地球規模の山火事データセットであるSeasFireを用いて,機械学習による季節的山火事予報を可能にする。 予測分析のために、私たちは異なるアーキテクチャでディープラーニングモデルを訓練し、時空間を捉えて山火事に繋がる。 本研究は, これらのモデルの有効性を評価することを目的として, 世界規模での予報時間地平線における焼成地域の存在を予測し, 今後6ヶ月まで延長し, 空間的・時間的条件の違いがモデルの性能に与える影響について検討した。 その結果,季節的な火災予報における深層学習モデルの可能性が示され,より長い入力時系列は,様々な予測地平線をまたいでより堅牢な予測を導き,一方,空間情報を統合して山火事時空間動態を捉えることにより,性能が向上することがわかった。 最後に, より長い予測地平線における性能を高めるためには, 空間的に大きな受容場を考える必要があることを示唆する。

With climate change expected to exacerbate fire weather conditions, the accurate anticipation of wildfires on a global scale becomes increasingly crucial for disaster mitigation. In this study, we utilize SeasFire, a comprehensive global wildfire dataset with climate, vegetation, oceanic indices, and human-related variables, to enable seasonal wildfire forecasting with machine learning. For the predictive analysis, we train deep learning models with different architectures that capture the spatio-temporal context leading to wildfires. Our investigation focuses on assessing the effectiveness of these models in predicting the presence of burned areas at varying forecasting time horizons globally, extending up to six months into the future, and on how different spatial or/and temporal context affects the performance of the models. Our findings demonstrate the great potential of deep learning models in seasonal fire forecasting; longer input time-series leads to more robust predictions across varying forecasting horizons, while integrating spatial information to capture wildfire spatio-temporal dynamics boosts performance. Finally, our results hint that in order to enhance performance at longer forecasting horizons, a larger receptive field spatially needs to be considered.
翻訳日:2024-04-10 14:01:33 公開日:2024-04-09
# 非線形フィードフォワードによる非ガウス状態テレポーテーション

Non-Gaussian state teleportation with a nonlinear feedforward ( http://arxiv.org/abs/2404.06438v1 )

ライセンス: Link先を確認
Vojtěch Kala, Mattia Walschaers, Radim Filip, Petr Marek, (参考訳) 連続変数クラスタ状態による測定誘起量子計算は、非ガウス測度とフィードフォワード制御を伴うクラスタを通して状態を伝播するテレポーテーションを利用する。 量子非ガウス状態のそのような伝播を、小さなクラスター状態を通して非線形にスクイーズすることで解析し、非線形フィードフォワードがテレポーテーションプロトコルに関与している場合、高い非線形スキューズが転送可能であることを示す。 確率論的体制では、現在の実験資源でも改善が示される。 非ガウス状態のより良い処理は、量子コンピューティングで必要とされるクラスター状態と非ガウス性の間の必要な相互作用に近づくことができる。

Measurement-induced quantum computation with continuous-variable cluster states utilizes teleportation propagating the states through the cluster accompanied by non-Gaussian measurements and feedforward control. We analyze such propagation of a quantum non-Gaussian state with nonlinear squeezing through a small cluster state and show that when a nonlinear feedforward is involved in the teleportation protocol, higher nonlinear squeezing can be transferred. In a probabilistic regime, the improvement can be manifested even with current experimental resources. Better processing of non-Gaussian states can bring us closer to the necessary interplay between cluster states and non-Gaussianity required by quantum computing.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# QueSTMaps:3Dシーン理解のためのクエリ可能なセマンティックトポロジマップ

QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding ( http://arxiv.org/abs/2404.06442v1 )

ライセンス: Link先を確認
Yash Mehan, Kumaraditya Gupta, Rohit Jayanti, Anirudh Govil, Sourav Garg, Madhava Krishna, (参考訳) 3次元屋内シーンの構造的構造を部屋の観点から理解することは、しばしばフロアプラン抽出によって達成される。 計画やナビゲーションといったロボットのタスクは、シーンのセマンティックな理解も必要である。 これは通常、オブジェクトレベルのセマンティックセグメンテーションによって達成される。 しかし、こうした手法は、現場の「吉兆」のような地形地域を分断するのに苦労している。 本研究では,2段階のパイプラインを導入する。 まず、新しいマルチチャネル占有率表現を用いて、屋内シーンのフロアプランというトポロジカルマップを抽出する。 次に、自己アテンション変換器を用いて、格納されているオブジェクトに基づいて、各ルームインスタンスに対してCLIP対応の機能とセマンティックラベルを生成します。 私たちの言語トポロジアライメントは自然言語クエリをサポートします。 部屋のセグメンテーションにおける現状を20%、部屋の分類を12%上回っている。 詳細な定性的分析とアブレーション研究は,共同構造と意味的な3Dシーン理解の問題に関する洞察を提供する。

Understanding the structural organisation of 3D indoor scenes in terms of rooms is often accomplished via floorplan extraction. Robotic tasks such as planning and navigation require a semantic understanding of the scene as well. This is typically achieved via object-level semantic segmentation. However, such methods struggle to segment out topological regions like "kitchen" in the scene. In this work, we introduce a two-step pipeline. First, we extract a topological map, i.e., floorplan of the indoor scene using a novel multi-channel occupancy representation. Then, we generate CLIP-aligned features and semantic labels for every room instance based on the objects it contains using a self-attention transformer. Our language-topology alignment supports natural language querying, e.g., a "place to cook" locates the "kitchen". We outperform the current state-of-the-art on room segmentation by ~20% and room classification by ~12%. Our detailed qualitative analysis and ablation studies provide insights into the problem of joint structural and semantic 3D scene understanding.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# 顔行動単位認識のためのマルチスケール動的・階層的関係モデリング

Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition ( http://arxiv.org/abs/2404.06443v1 )

ライセンス: Link先を確認
Zihan Wang, Siyang Song, Cheng Luo, Songhe Deng, Weicheng Xie, Linlin Shen, (参考訳) ヒトの顔行動単位(AUs)は、空間的・時間的両方の領域において互いに関連付けられているだけでなく、同一/クローズな顔領域に位置するAUsは、異なる顔領域のそれよりも強い関係を示すため、階層的に相互に関連している。 本稿では,AU間の階層的相互依存性を網羅的にモデル化する手法は存在しないが,AU間の動的・階層的時空間的関係を包括的にモデル化して認識する手法を提案する。 具体的には、まず、異なる空間スケールでフレーム間の顔のダイナミクスを明示的にキャプチャする適応重み付けブロックを備えた、新しいマルチスケール時間差分ネットワークを提案し、特に異なるAUのアクティベーションにおける範囲と大きさの不均一性について検討する。 次に、空間分布(地域間および地域間AU関係モデリング)に基づいて、AU間の関係を階層的にモデル化する2段階戦略を導入する。 BP4D と DISFA を用いた実験結果から,AU 発生認識の分野における新たな最先端技術であることがわかった。 私たちのコードはhttps://github.com/CVI-SZU/MDHR.comで公開されています。

Human facial action units (AUs) are mutually related in a hierarchical manner, as not only they are associated with each other in both spatial and temporal domains but also AUs located in the same/close facial regions show stronger relationships than those of different facial regions. While none of existing approach thoroughly model such hierarchical inter-dependencies among AUs, this paper proposes to comprehensively model multi-scale AU-related dynamic and hierarchical spatio-temporal relationship among AUs for their occurrences recognition. Specifically, we first propose a novel multi-scale temporal differencing network with an adaptive weighting block to explicitly capture facial dynamics across frames at different spatial scales, which specifically considers the heterogeneity of range and magnitude in different AUs' activation. Then, a two-stage strategy is introduced to hierarchically model the relationship among AUs based on their spatial distribution (i.e., local and cross-region AU relationship modelling). Experimental results achieved on BP4D and DISFA show that our approach is the new state-of-the-art in the field of AU occurrence recognition. Our code is publicly available at https://github.com/CVI-SZU/MDHR.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# 中央スパンニングツリー問題

The Central Spanning Tree Problem ( http://arxiv.org/abs/2404.06447v1 )

ライセンス: Link先を確認
Enrique Fita Sanmartín, Christoph Schnörr, Fred A. Hamprecht, (参考訳) スパンニングツリーは多くのデータ解析タスクにおいて重要なプリミティブであり、データセットをその「骨格」という観点で要約する必要がある場合や、下流処理にはすべての観測値に木型のグラフが必要である場合である。 スパンニングツリーの一般的な定義は、最小のスパンニングツリーと最適距離スパンニングツリー、すなわち最小のルーティングコストツリーである。 最も短い枝木を探索するが、分岐点が加わった場合、さらに短い枝木も実現できる。 残念なことに、最小スパンニング木とスタイナー木は観測のノイズに対して頑丈ではない;すなわち、元のデータセットの小さな摂動は、しばしば関連するスパンニング木に劇的な変化をもたらす。 これに対し、ユークリッド空間にデータが存在する場合、2つのコントリビューションを行う: 理論的には、「(分岐した)中央スパンニングツリー」という新しい最適化問題を導入し、前述のすべての定義を特別な場合として仮定する。 実用面では、(枝分かれした)中央スパンニングツリーは、データのノイズに対してより頑丈であり、スケルトンの観点からデータセットを要約するのに適していることを示す。 また,NP-hard 最適化問題に対処するためのヒューリスティックな手法を提案し,生物学および植物の3次元点群からの単一細胞RNA発現データにその使用法を解説した。

Spanning trees are an important primitive in many data analysis tasks, when a data set needs to be summarized in terms of its "skeleton", or when a tree-shaped graph over all observations is required for downstream processing. Popular definitions of spanning trees include the minimum spanning tree and the optimum distance spanning tree, a.k.a. the minimum routing cost tree. When searching for the shortest spanning tree but admitting additional branching points, even shorter spanning trees can be realized: Steiner trees. Unfortunately, both minimum spanning and Steiner trees are not robust with respect to noise in the observations; that is, small perturbations of the original data set often lead to drastic changes in the associated spanning trees. In response, we make two contributions when the data lies in a Euclidean space: on the theoretical side, we introduce a new optimization problem, the "(branched) central spanning tree", which subsumes all previously mentioned definitions as special cases. On the practical side, we show empirically that the (branched) central spanning tree is more robust to noise in the data, and as such is better suited to summarize a data set in terms of its skeleton. We also propose a heuristic to address the NP-hard optimization problem, and illustrate its use on single cell RNA expression data from biology and 3D point clouds of plants.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# 大規模言語モデルのパラメータ効率の良い微調整のための自動フェデレーションパイプライン

Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2404.06448v1 )

ライセンス: Link先を確認
Zihan Fang, Zheng Lin, Zhe Chen, Xianhao Chen, Yue Gao, Yuguang Fang, (参考訳) 近年,高度知的生成コンテンツ(AIGC),特に大規模言語モデル(LLM)の開発が急増している。 しかし、多くの下流タスクでは、プライベートデータを使ってLLMを微調整する必要がある。 連合学習はLLMの微調整に有望なプライバシー保護ソリューションを提供するが、LLMのかなりのサイズと高い計算と通信の要求が組み合わさって、下流のタスクに適用することは困難である。 さらに重要なことは、プライベートエッジサーバは、現実のシナリオにおいて様々なコンピューティングとネットワークリソースを持ち、LLMの微調整にさらなる複雑さを導入していることだ。 これらの問題に対処するため、我々はFedPipeという自動フェデレーションパイプラインを設計、実装し、最小のトレーニングコストでLLMを微調整するが、推論遅延を追加しない。 FedPipeはまず、LLMトレーニングへのコントリビューションに基づいて、微調整するウェイトを特定します。 次に、選択したウェイトごとにローランクアダプタを設定して、エッジサーバ上のローカルローランクアダプタをトレーニングし、すべてのエッジサーバのローカルアダプタを集約してLLM全体を微調整する。 最後に、エッジサーバの要求に応じて、LLMのパラメータを適切に定量化し、メモリ空間を削減する。 大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。

Recently, there has been a surge in the development of advanced intelligent generative content (AIGC), especially large language models (LLMs). However, for many downstream tasks, it is necessary to fine-tune LLMs using private data. While federated learning offers a promising privacy-preserving solution to LLM fine-tuning, the substantial size of an LLM, combined with high computational and communication demands, makes it hard to apply to downstream tasks. More importantly, private edge servers often possess varying computing and network resources in real-world scenarios, introducing additional complexities to LLM fine-tuning. To tackle these problems, we design and implement an automated federated pipeline, named FedPipe, to fine-tune LLMs with minimal training cost but without adding any inference latency. FedPipe firstly identifies the weights to be fine-tuned based on their contributions to the LLM training. It then configures a low-rank adapter for each selected weight to train local low-rank adapters on an edge server, and aggregate local adapters of all edge servers to fine-tune the whole LLM. Finally, it appropriately quantizes the parameters of LLM to reduce memory space according to the requirements of edge servers. Extensive experiments demonstrate that FedPipe expedites the model training and achieves higher accuracy than state-of-the-art benchmarks.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# SmartControl: 粗い視覚条件を扱うためのコントロールネットの強化

SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions ( http://arxiv.org/abs/2404.06451v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Yuxiang Wei, Ming Liu, Xianhui Lin, Peiran Ren, Xuansong Xie, Wangmeng Zuo, (参考訳) 人間の視覚的想像力は、通常、類推や粗いスケッチから始まる。 例えば、建物の前でギターを弾く少女の写真を見ると、エジプトのピラミッドの前でアイアンマンがギターを弾くような姿を想像できるかもしれない。 それでも、視覚状態はテキストプロンプトによって示される想像結果と正確に一致しない可能性があり、既存のレイアウト制御可能なテキスト・ツー・イメージ(T2I)生成モデルは、明らかにアーティファクトを持つ劣化した結果を生成する傾向にある。 そこで本研究では,テキストプロンプトに適応するための粗い視覚条件の修正を目的とした,SmartControlと呼ばれる新しいT2I生成手法を提案する。 SmartControlのキーとなる考え方は、テキストプロンプトと矛盾する領域の視覚状態を緩和することです。 具体的には、制御スケール予測器(CSP)は、競合領域を特定し、局所的な制御スケールを予測するように設計されており、テキストプロンプトと粗い視覚条件を備えたデータセットは、CSPをトレーニングするために構築されている。 限られた数のトレーニングサンプル(例:1,000~2000)であっても、SmartControlは目に見えないオブジェクトにうまく一般化することができます。 一般的な4種類の視覚条件に対する広範囲な実験は、我々のSmartControlが最先端技術に対して有効であることを明確に示している。 ソースコード、事前トレーニングされたモデル、データセットはhttps://github.com/liuxiaoyu1104/SmartControl.comで入手できる。

Human visual imagination usually begins with analogies or rough sketches. For example, given an image with a girl playing guitar before a building, one may analogously imagine how it seems like if Iron Man playing guitar before Pyramid in Egypt. Nonetheless, visual condition may not be precisely aligned with the imaginary result indicated by text prompt, and existing layout-controllable text-to-image (T2I) generation models is prone to producing degraded generated results with obvious artifacts. To address this issue, we present a novel T2I generation method dubbed SmartControl, which is designed to modify the rough visual conditions for adapting to text prompt. The key idea of our SmartControl is to relax the visual condition on the areas that are conflicted with text prompts. In specific, a Control Scale Predictor (CSP) is designed to identify the conflict regions and predict the local control scales, while a dataset with text prompts and rough visual conditions is constructed for training CSP. It is worth noting that, even with a limited number (e.g., 1,000~2,000) of training samples, our SmartControl can generalize well to unseen objects. Extensive experiments on four typical visual condition types clearly show the efficacy of our SmartControl against state-of-the-arts. Source code, pre-trained models, and datasets are available at https://github.com/liuxiaoyu1104/SmartControl.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# PURE: 関連回路の同定によるポリセマンティックニューロンの純粋特徴化

PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits ( http://arxiv.org/abs/2404.06453v1 )

ライセンス: Link先を確認
Maximilian Dreyer, Erblina Purelku, Johanna Vielhaben, Wojciech Samek, Sebastian Lapuschkin, (参考訳) 機械論的解釈の分野は、ディープニューラルネットワークにおける個々のニューロンの役割を研究することを目的としている。 しかし、単一ニューロンはポリセマンティックに作用し、複数の(非関連)特徴をエンコードする能力を持つため、解釈は困難である。 本稿では、複数の単意味「仮想」ニューロンにポリセマンティックニューロンを分解することで、あらゆるディープニューラルネットワークのポリセマンティック性を遠ざける方法を提案する。 これは、各「純粋な」特徴について関連するサブグラフ(「回路」)を識別することで達成される。 私たちは、ImageNetでトレーニングされたResNetモデルの多意味ユニットを、どのように見つけ、切り離すことができるかを示します。 CLIPを用いた特徴可視化の評価において,提案手法は表現を効果的に切り離し,ニューロンの活性化に基づく手法の改良を行う。 私たちのコードはhttps://github.com/maxdreyer/PUREで公開されています。

The field of mechanistic interpretability aims to study the role of individual neurons in Deep Neural Networks. Single neurons, however, have the capability to act polysemantically and encode for multiple (unrelated) features, which renders their interpretation difficult. We present a method for disentangling polysemanticity of any Deep Neural Network by decomposing a polysemantic neuron into multiple monosemantic "virtual" neurons. This is achieved by identifying the relevant sub-graph ("circuit") for each "pure" feature. We demonstrate how our approach allows us to find and disentangle various polysemantic units of ResNet models trained on ImageNet. While evaluating feature visualizations using CLIP, our method effectively disentangles representations, improving upon methods based on neuron activations. Our code is available at https://github.com/maxdreyer/PURE.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# Ising-Coupled Entanglementを用いた超高密度符号化と安定化器符号

Superdense Coding and Stabiliser Codes with Ising-coupled Entanglement ( http://arxiv.org/abs/2404.06454v1 )

ライセンス: Link先を確認
Abel Jansma, (参考訳) 計算測度統計学は高次の強結合イジングモデルのボルツマン分布に近づくように要求することで、新しい量子状態のクラスが導入された。 状態は$n$結合状態と呼ばれ、偶数または奇数のパリティ$n$量子状態の重ね合わせであり、ベル状態を一般化し、$n$量子ヒルベルト空間の正規直交基底を形成する。 任意の$n$に対して、状態は極大連結であり、局所的に極大絡み合っている。 n$-qubit W と GHZ の多部絡み合いクラスは、それぞれ $n\geq 3$ と $n\geq 4$ に対して超行列式が消滅し、$n$-結合状態が後者に落ちることが証明されている。 それでも、複数パーティでセキュアな高密度符号化と安定化器符号構築のための新しいプロトコルが提示され、これは$n$結合状態の構造と対称性を破る位相摂動に依存している。

A new class of quantum states is introduced by demanding that the computational measurement statistics approach the Boltzmann distribution of higher-order strongly coupled Ising models. The states, referred to as $n$-coupled states, are superpositions of even or odd parity $n$-qubit states, generalize Bell states, and form an orthonormal basis for the $n$-qubit Hilbert space. For any $n$, the states are maximally connected and locally maximally entangled. It is proven that the $n$-qubit W and GHZ multipartite entanglement classes have vanishing hyperdeterminant for all $n\geq 3$ and $n\geq 4$, respectively, and that the $n$-coupled states fall in the latter. Still, multiple novel protocols for multi-party secure dense coding and stabiliser code construction are presented, which rely on the structure of $n$-coupled states as well as symmetry-breaking phase perturbations.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# X線画像を用いた肺分画深層学習モデルの比較解析

A comparative analysis of deep learning models for lung segmentation on X-ray images ( http://arxiv.org/abs/2404.06455v1 )

ライセンス: Link先を確認
Weronika Hryniewska-Guzik, Jakub Bilski, Bartosz Chrostowski, Jakub Drak Sbahi, Przemysław Biecek, (参考訳) X線におけるロバストで高精度な肺分画は、医用画像撮影において重要である。 本研究は,この課題に対する深層学習ソリューションの評価,既存手法のランク付け,多彩な画像修正による性能評価を行う。 61の論文のうち、Lung VAE、TransResUNet、CE-Netの3つの重要な手法を評価することができるのは、実装または事前訓練された9つのモデルのみである。 解析の結果,CE-Net が最も優れており,ダイス類似度係数と結合距離の交叉が最も高い値を示した。

Robust and highly accurate lung segmentation in X-rays is crucial in medical imaging. This study evaluates deep learning solutions for this task, ranking existing methods and analyzing their performance under diverse image modifications. Out of 61 analyzed papers, only nine offered implementation or pre-trained models, enabling assessment of three prominent methods: Lung VAE, TransResUNet, and CE-Net. The analysis revealed that CE-Net performs best, demonstrating the highest values in dice similarity coefficient and intersection over union metric.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# 離散力学系の局所的相互作用を学習する:データ効率・拡張性予測に向けて

Learning Locally Interacting Discrete Dynamical Systems: Towards Data-Efficient and Scalable Prediction ( http://arxiv.org/abs/2404.06460v1 )

ライセンス: Link先を確認
Beomseok Kang, Harshit Kumar, Minah Lee, Biswadeep Chakraborty, Saibal Mukhopadhyay, (参考訳) 局所的に相互作用するダイナミックなシステム、例えば流行の広がり、群衆による噂の伝播、森林火災などは、局所的、比較的単純で、しばしば動的要素間の確率的な相互作用に由来する複雑なグローバルなダイナミクスを示す。 彼らの時間的進化は、しばしば有限個の離散状態間の遷移によって引き起こされる。 深層学習による予測モデリングの進歩にもかかわらず、多くの要素間の相互作用は予測モデリングの特定の領域として研究されることはめったにない。 本稿では,周辺細胞間の時間的情報を置換不変な方法で関連付けることにより,未知の局所状態遷移規則を効果的に発見するために,注意的反復神経セルオートマタ(AR-NCA)を提案する。 AR-NCAは、様々なシステム構成(例えば状態の空間分布)において優れた一般化性を示し、確率的相互作用が存在する場合であっても、極端にデータ制限されたシナリオにおいてデータ効率とロバスト性を示し、空間次元に依存しない予測によるスケーラビリティを示す。

Locally interacting dynamical systems, such as epidemic spread, rumor propagation through crowd, and forest fire, exhibit complex global dynamics originated from local, relatively simple, and often stochastic interactions between dynamic elements. Their temporal evolution is often driven by transitions between a finite number of discrete states. Despite significant advancements in predictive modeling through deep learning, such interactions among many elements have rarely explored as a specific domain for predictive modeling. We present Attentive Recurrent Neural Cellular Automata (AR-NCA), to effectively discover unknown local state transition rules by associating the temporal information between neighboring cells in a permutation-invariant manner. AR-NCA exhibits the superior generalizability across various system configurations (i.e., spatial distribution of states), data efficiency and robustness in extremely data-limited scenarios even in the presence of stochastic interactions, and scalability through spatial dimension-independent prediction.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# 連続学習におけるハイパーパラメータの選択

Hyperparameter Selection in Continual Learning ( http://arxiv.org/abs/2404.06466v1 )

ライセンス: Link先を確認
Thomas L. Lee, Sigrid Passano Hellan, Linus Ericsson, Elliot J. Crowley, Amos Storkey, (参考訳) 学習者がデータストリームでトレーニングする連続学習(CL)では、学習者が同時にすべてのデータにアクセスできないため、標準のハイパーパラメータ最適化(HPO)を適用することはできない。 これによりCL固有のHPOフレームワークの開発が進められた。 CLでハイパーパラメータをチューニングする最も一般的な方法は、異なるハイパーパラメータ設定でデータストリーム全体を繰り返しトレーニングすることです。 しかし、この学習終了HPOは非現実的であり、実際には学習者はストリームを一度しか見ることができない。 したがって、オープンな疑問がある。実践者が実際にCL問題に使用するHPOフレームワークは何か? 本稿では,複数の現実的なHPOフレームワークを評価することで,この問題に対処する。 トレーニング終了を含むすべてのHPOフレームワークも同様に機能することがわかった。 したがって、我々は、現実的で最も効率的な方法、すなわち、最初のタスクにハイパーパラメータを適合させ、トレーニングを通してそれらを修正することを提唱する。

In continual learning (CL) -- where a learner trains on a stream of data -- standard hyperparameter optimisation (HPO) cannot be applied, as a learner does not have access to all of the data at the same time. This has prompted the development of CL-specific HPO frameworks. The most popular way to tune hyperparameters in CL is to repeatedly train over the whole data stream with different hyperparameter settings. However, this end-of-training HPO is unrealistic as in practice a learner can only see the stream once. Hence, there is an open question: what HPO framework should a practitioner use for a CL problem in reality? This paper answers this question by evaluating several realistic HPO frameworks. We find that all the HPO frameworks considered, including end-of-training HPO, perform similarly. We therefore advocate using the realistic and most computationally efficient method: fitting the hyperparameters on the first task and then fixing them throughout training.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# 状態, 姿勢, 視点変化を考慮した画像からの物体の状態不変表現の学習

Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes ( http://arxiv.org/abs/2404.06470v1 )

ライセンス: Link先を確認
Rohan Sarkar, Avinash Kak, (参考訳) 認識と検索のためのオブジェクト表現を学習するために、より一般的に使用される他の不変性に、もう1つの不変性(状態不変性)を追加します。 状態不変性によって、傘が折りたたまれたときや衣服が床に投げられたときなど、オブジェクトの構造形態の変化に対して堅牢であることを意味する。 このような状態変化にもかかわらず、一般に人間は物体を認識するのが困難ではないため、我々は同様の能力を持つ神経アーキテクチャを考案できるかどうかという疑問に直面している。 その目的のために,任意の視点から記録されたオブジェクト画像の状態をキャプチャし,変動を示す新しいデータセット,ObjectsWithStateChangeを提案する。 このデータセットは、状態変化が可能なオブジェクトのきめ細かいオブジェクト認識と検索を容易にすると我々は信じている。 このような研究の目的は、状態変化に不変でありながら、視点の変化やポーズ、照明などによって引き起こされる変換に不変であるオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。 また,ObjectsWithStateChangeデータセットの有用性を示すために,学習後の埋め込み空間における類似性を利用して学習過程をガイドするカリキュラム学習戦略を提案する。 このモデルは、視覚的に類似した物体を異なるカテゴリーで比較することで識別的特徴を学習し、状態の変化によって区別が難しい物体を区別することを奨励する。 この戦略は、状態変化を伴うオブジェクトを含むきめ細かいタスクに対する差別的特徴をキャプチャする能力を強化し、新しいデータセットだけでなく、ModelNet40やObjectPIといった他の2つの挑戦的なマルチビューデータセット上で、オブジェクトレベルのタスクのパフォーマンス改善につながります。

We add one more invariance - state invariance - to the more commonly used other invariances for learning object representations for recognition and retrieval. By state invariance, we mean robust with respect to changes in the structural form of the object, such as when an umbrella is folded, or when an item of clothing is tossed on the floor. Since humans generally have no difficulty in recognizing objects despite such state changes, we are naturally faced with the question of whether it is possible to devise a neural architecture with similar abilities. To that end, we present a novel dataset, ObjectsWithStateChange, that captures state and pose variations in the object images recorded from arbitrary viewpoints. We believe that this dataset will facilitate research in fine-grained object recognition and retrieval of objects that are capable of state changes. The goal of such research would be to train models capable of generating object embeddings that remain invariant to state changes while also staying invariant to transformations induced by changes in viewpoint, pose, illumination, etc. To demonstrate the usefulness of the ObjectsWithStateChange dataset, we also propose a curriculum learning strategy that uses the similarity relationships in the learned embedding space after each epoch to guide the training process. The model learns discriminative features by comparing visually similar objects within and across different categories, encouraging it to differentiate between objects that may be challenging to distinguish due to changes in their state. We believe that this strategy enhances the model's ability to capture discriminative features for fine-grained tasks that may involve objects with state changes, leading to performance improvements on object-level tasks not only on our new dataset, but also on two other challenging multi-view datasets such as ModelNet40 and ObjectPI.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# デジタルエージェントの自律的評価とリファインメント

Autonomous Evaluation and Refinement of Digital Agents ( http://arxiv.org/abs/2404.06474v1 )

ライセンス: Link先を確認
Jiayi Pan, Yichi Zhang, Nicholas Tomlin, Yifei Zhou, Sergey Levine, Alane Suhr, (参考訳) ドメイン汎用自動評価器は,Webナビゲーションやデバイス制御のためのエージェントの性能を大幅に向上させることができることを示す。 推論コスト、設計のモジュラリティ、精度をトレードオフする複数の評価モデルを試行する。 我々は、これらのモデルの性能をいくつかの一般的なデジタルエージェントのベンチマークで検証し、オラクル評価指標との74.4から92.9%の一致を見出した。 最後に、これらの評価器を用いて、微調整および推論時ガイダンスにより既存のエージェントの性能を向上させる。 さらなる監視がなければ、一般的なベンチマークであるWebArenaでは、最先端のパフォーマンスを29%向上させ、挑戦的なドメイン転送シナリオにおいて75%の相対的な改善を実現します。

We show that domain-general automatic evaluators can significantly improve the performance of agents for web navigation and device control. We experiment with multiple evaluation models that trade off between inference cost, modularity of design, and accuracy. We validate the performance of these models in several popular benchmarks for digital agents, finding between 74.4 and 92.9% agreement with oracle evaluation metrics. Finally, we use these evaluators to improve the performance of existing agents via fine-tuning and inference-time guidance. Without any additional supervision, we improve state-of-the-art performance by 29% on the popular benchmark WebArena, and achieve a 75% relative improvement in a challenging domain transfer scenario.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# テキストによるベクトルグラフィクスの推論

Text-Based Reasoning About Vector Graphics ( http://arxiv.org/abs/2404.06479v1 )

ライセンス: Link先を確認
Zhenhailong Wang, Joy Hsu, Xingyao Wang, Kuan-Hao Huang, Manling Li, Jiajun Wu, Heng Ji, (参考訳) 大規模なマルチモーダルモデルは広いビジョン言語ベンチマークで優れているが、線長の比較や単純な迷路の解法など、低レベルの視覚的詳細を正確に認識するタスクに苦慮することが多い。 特に、この障害モードは、ベクトルグラフィックスに関する質問応答タスクで持続する。 この課題に対処するために,ベクトルグラフィックスに関するテキストベースの推論を行うVisually Descriptive Language Model (VDLM)を提案する。 VDLMは、より正確なビジュアル記述のために、スケーラブルベクトルグラフィックス(SVG)を活用し、最初にエンコーディングのために、既製のラスター・ツー・SVGアルゴリズムを使用する。 既存の言語モデルはゼロショット設定では生のSVGを理解できないため、VDLMは新しく導入された中間記号表現であるPrimal Visual Description (PVD)を通じて、SVGを事前訓練された言語モデルでブリッジする。 PVDはタスクに依存しず、全てのベクトルグラフィックスで普遍的な視覚的プリミティブを表す。 手続き的に生成された (SVG, PVD) ペアで学習でき、複雑な推論タスクへの一般化に LLM を直接使用することができる。 画像をテキストベース表現にキャストすることで、言語モデルのパワーを活用して、SVGからビジュアルプリミティブへのアライメントを学び、目に見えない質問応答タスクに一般化することができる。 実験結果から,VDLMはGPT-4Vのような最先端のLMMと比較して,低レベルのマルチモーダル認識やベクトルグラフィックスの推論タスクにおいて,より強力なゼロショット性能を実現することが示された。 また,VDLMの性能に関する広範囲な分析を行い,このフレームワークは,その不整合認識と推論プロセスにより,より優れた解釈性を提供することを示した。 プロジェクトページ: https://mikewangwzhl.github.io/VDLM/

While large multimodal models excel in broad vision-language benchmarks, they often struggle with tasks requiring precise perception of low-level visual details, such as comparing line lengths or solving simple mazes. In particular, this failure mode persists in question-answering tasks about vector graphics -- images composed purely of 2D objects and shapes. To address this challenge, we propose the Visually Descriptive Language Model (VDLM), which performs text-based reasoning about vector graphics. VDLM leverages Scalable Vector Graphics (SVG) for a more precise visual description and first uses an off-the-shelf raster-to-SVG algorithm for encoding. Since existing language models cannot understand raw SVGs in a zero-shot setting, VDLM then bridges SVG with pretrained language models through a newly introduced intermediate symbolic representation, Primal Visual Description (PVD), comprising primitive attributes (e.g., shape, position, measurement) with their corresponding predicted values. PVD is task-agnostic and represents visual primitives that are universal across all vector graphics. It can be learned with procedurally generated (SVG, PVD) pairs and also enables the direct use of LLMs for generalization to complex reasoning tasks. By casting an image to a text-based representation, we can leverage the power of language models to learn alignment from SVG to visual primitives and generalize to unseen question-answering tasks. Empirical results show that VDLM achieves stronger zero-shot performance compared to state-of-the-art LMMs, such as GPT-4V, in various low-level multimodal perception and reasoning tasks on vector graphics. We additionally present extensive analyses on VDLM's performance, demonstrating that our framework offers better interpretability due to its disentangled perception and reasoning processes. Project page: https://mikewangwzhl.github.io/VDLM/
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# Ada-LEval: 長さ適応型ベンチマークによるLLMの評価

Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks ( http://arxiv.org/abs/2404.06480v1 )

ライセンス: Link先を確認
Chonghua Wang, Haodong Duan, Songyang Zhang, Dahua Lin, Kai Chen, (参考訳) 近年,大規模言語モデル(LLM)コミュニティは,極めて長い文書を扱うLLMの能力向上への関心が高まっている。 様々な長文技術やモデルアーキテクチャが出現するにつれて、モデルの長文能力の正確かつ詳細な評価がますます重要になっている。 L-EvalやLongBenchといった既存の長文評価ベンチマークでは、QAや要約タスクを中心に、オープンソースのデータセットに基づいた長文テストセットを構築している。 これらのデータセットには、さまざまな長さ(2kから32k+)が絡み合ったテストサンプルが含まれており、異なる長さ範囲にわたるモデル機能の評価が困難である。 さらに、最新のLCMが達成しようとする超長い設定(100k+トークン)をカバーしていない。 本稿では,LLMの長文理解を評価するための長さ適応型ベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 これらのベンチマークは、テストケースの長さの複雑な操作をサポートし、128万トークンまでのテキストサンプルを簡単に生成できる。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。 評価結果は、特にウルトラ・ロング・コンテクスト・セッティングにおいて、現在のLLMの限界を示す。 私たちのコードはhttps://github.com/open-compass/Ada-LEval.comで利用可能です。

Recently, the large language model (LLM) community has shown increasing interest in enhancing LLMs' capability to handle extremely long documents. As various long-text techniques and model architectures emerge, the precise and detailed evaluation of models' long-text capabilities has become increasingly important. Existing long-text evaluation benchmarks, such as L-Eval and LongBench, construct long-text test sets based on open-source datasets, focusing mainly on QA and summarization tasks. These datasets include test samples of varying lengths (from 2k to 32k+) entangled together, making it challenging to assess model capabilities across different length ranges. Moreover, they do not cover the ultralong settings (100k+ tokens) that the latest LLMs claim to achieve. In this paper, we introduce Ada-LEval, a length-adaptable benchmark for evaluating the long-context understanding of LLMs. Ada-LEval includes two challenging subsets, TSort and BestAnswer, which enable a more reliable evaluation of LLMs' long context capabilities. These benchmarks support intricate manipulation of the length of test cases, and can easily produce text samples up to 128k tokens. We evaluate 4 state-of-the-art closed-source API models and 6 open-source models with Ada-LEval. The evaluation results demonstrate the limitations of current LLMs, especially in ultra-long-context settings. Our code is available at https://github.com/open-compass/Ada-LEval.
翻訳日:2024-04-10 13:51:47 公開日:2024-04-09
# GeoDirDock: 測地道に沿ってドッキングを誘導する

GeoDirDock: Guiding Docking Along Geodesic Paths ( http://arxiv.org/abs/2404.06481v1 )

ライセンス: Link先を確認
Raúl Miñán, Javier Gallardo, Álvaro Ciudad, Alexis Molina, (参考訳) この研究は、分子ドッキングの新しいアプローチであるGeoDirDock(GDD)を導入し、リガンドドッキング予測の精度と物理的妥当性を高める。 GDDは、変換、回転、およびねじれ自由度を表す複数の空間内の測地線経路に沿った拡散モデルの認知過程を導く。 本手法は,タンパク質-リガンド相互作用領域を対象とする生成モデリングプロセスの指導に専門家の知識を活用する。 GDDは、RMSDの精度と物理化学的ポーズリアリズムの観点から、既存のブラインドドッキング法を著しく上回っていることを実証した。 以上の結果から,ドメインの専門知識を拡散プロセスに組み込むことで,より生物学的なドッキング予測がもたらされることが示唆された。 さらに,最大共通部分構造ドッキング(MCSドッキング)の角度移動による薬物発見におけるGDDのリード最適化の可能性について検討し,化学的に類似した化合物の配位を正確に予測する能力を示した。

This work introduces GeoDirDock (GDD), a novel approach to molecular docking that enhances the accuracy and physical plausibility of ligand docking predictions. GDD guides the denoising process of a diffusion model along geodesic paths within multiple spaces representing translational, rotational, and torsional degrees of freedom. Our method leverages expert knowledge to direct the generative modeling process, specifically targeting desired protein-ligand interaction regions. We demonstrate that GDD significantly outperforms existing blind docking methods in terms of RMSD accuracy and physicochemical pose realism. Our results indicate that incorporating domain expertise into the diffusion process leads to more biologically relevant docking predictions. Additionally, we explore the potential of GDD for lead optimization in drug discovery through angle transfer in maximal common substructure (MCS) docking, showcasing its capability to predict ligand orientations for chemically similar compounds accurately.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# RhythmMamba: 任意長ビデオによる高速リモート生理計測

RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos ( http://arxiv.org/abs/2404.06483v1 )

ライセンス: Link先を確認
Bochao Zou, Zizheng Guo, Xiaocheng Hu, Huimin Ma, (参考訳) リモート光胸腺造影法(Remote Photoplethysmography, RPPG)は、顔画像から生理的信号を検出する非接触法であり、医療、感情コンピューティング、アンチ・スプーフィングなどの様々な応用において大きな可能性を秘めている。 既存のディープラーニング手法では,rPPGの時間的冗長度が大きいビデオセグメントから弱いrPPG信号を抽出し,長いコンテキストにおけるrPPGの周期的パターンを理解するという,rPPGの2つの問題に同時に対処することが困難である。 これは、計算複雑性と長距離依存関係をキャプチャする能力のトレードオフであり、モバイルデバイスへのデプロイに適したrPPGにとっての課題である。 本稿では,空間的・時間的情報に関するマンバの深い理解に基づいて,RhythmMambaを紹介する。RhythmMambaは,複数の時間的マンバを用いた,周期的パターンと短期的傾向の両方を制約する手法で,周波数領域のフィードフォワードと組み合わせることで,マンバがRPPGの準周期的パターンをしっかりと理解できるようにする。 大規模な実験により、RhythmMambaはパラメータの削減と計算複雑性の低減により最先端のパフォーマンスを達成することが示された。 提案したRhythmMambaは、性能劣化のない任意の長さのビデオセグメントに適用できる。 コードはhttps://github.com/zizheng-guo/RhythmMamba.comで公開されている。

Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals from facial videos, holding great potential in various applications such as healthcare, affective computing, and anti-spoofing. Existing deep learning methods struggle to address two core issues of rPPG simultaneously: extracting weak rPPG signals from video segments with large spatiotemporal redundancy and understanding the periodic patterns of rPPG among long contexts. This represents a trade-off between computational complexity and the ability to capture long-range dependencies, posing a challenge for rPPG that is suitable for deployment on mobile devices. Based on the in-depth exploration of Mamba's comprehension of spatial and temporal information, this paper introduces RhythmMamba, an end-to-end Mamba-based method that employs multi-temporal Mamba to constrain both periodic patterns and short-term trends, coupled with frequency domain feed-forward to enable Mamba to robustly understand the quasi-periodic patterns of rPPG. Extensive experiments show that RhythmMamba achieves state-of-the-art performance with reduced parameters and lower computational complexity. The proposed RhythmMamba can be applied to video segments of any length without performance degradation. The codes are available at https://github.com/zizheng-guo/RhythmMamba.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# オープンソースソフトウェア開発における民間資金モデル--Scikit-Lernを事例として

Public-private funding models in open source software development: A case study on scikit-learn ( http://arxiv.org/abs/2404.06484v1 )

ライセンス: Link先を確認
Cailean Osborne, (参考訳) 政府は、ソフトウェアセキュリティ、デジタル主権、国内ソフトウェア市場の競争性に関する懸念に対処するため、オープンソースソフトウェア(OSS)開発のための資金をますます配分している。 このような資金調達は一般的にOSSの実践者によって歓迎されているが、OSS開発者が政府資金の相対的なメリットと欠点をどう認識するかは、未解決の問題である。 本稿では,機械学習のためのPythonライブラリであるScikit-learnのケーススタディを通じて,研究助成金,商業スポンサーシップ,コミュニティ寄付,およびフランス政府の人工知能戦略から2200万ユーロのEUR助成金を組み合わせた資金モデルについて検討する。 本研究は、シキト・ラーン・メンテナーと資金提供者との25回のインタビューを通じて、研究と実践に影響を及ぼす2つの重要な貢献を行った。 まず、成功しているコミュニティ主導のOSSプロジェクトにおける公的資金モデルの役割と、メンテナによる資金モデルの評価方法について、新たな洞察を提供する。 さらに、プロジェクトのコミュニティの倫理を守るためにメンテナが採用するガバナンスメカニズムを強調します。 第2に、OSS開発者コミュニティ、企業、政府に実践的な意味を提供する。 OSSコミュニティでは、さまざまな資金源のメリットと欠点のバランスをとる上で、さまざまな資金モデルのメリットが示されている。 企業にとって、OSSプロジェクトのスポンサーや直接資金提供がOSSメンテナを著しく支援できる、というリマインダーとして機能する。 政府にとってこの発見は、既存のOSSプロジェクトのメンテナンスに資金を投入することの重要性を強調し、また、新しいイノベーションにのみ資金を投入することの重要性を強調している。 この論文はOSSの資金調達モデルに関する今後の研究を示唆して締めくくっている。

Governments are increasingly allocating funding for open source software (OSS) development in order to address concerns related to software security, digital sovereignty, and the competitiveness of domestic software markets, amongst others. While such funding is generally welcomed by OSS practitioners, how OSS developers perceive the relative benefits and drawbacks of governmental funding remains an open question. This paper explores this question through a case study on scikit-learn, a Python library for machine learning, whose funding model combines research grants, commercial sponsorship, community donations, and a 32 million EUR grant from the French government's artificial intelligence strategy. Through 25 interviews with scikit-learn maintainers and funders, this study makes two key contributions with implications for research and practice. First, it provides novel insights into the role of a public-private funding model in a successful, community-led OSS project and how maintainers evaluate their funding model. Furthermore, it highlights the governance mechanisms employed by maintainers to safeguard the community ethos of the project. Second, it offers practical implications for OSS developer communities, companies, and governments. For OSS communities, the study illustrates the benefits of a diversified funding model in balancing the merits and drawbacks of different funding sources. For companies, it serves as a reminder that sponsoring developers or directly funding OSS projects can significantly support OSS maintainers, who often struggle with limited resources and towering workloads. For governments, the findings emphasise the importance of funding the maintenance of existing OSS projects in addition to or exclusively funding new innovations. The paper concludes with suggestions for future research on OSS funding models.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# GO4Align:マルチタスクアライメントのためのグループ最適化

GO4Align: Group Optimization for Multi-Task Alignment ( http://arxiv.org/abs/2404.06486v1 )

ライセンス: Link先を確認
Jiayi Shen, Cheems Wang, Zehao Xiao, Nanne Van Noord, Marcel Worring, (参考訳) 本稿では,タスク間の最適化を明示的に整合させることにより,タスクの不均衡に対処するマルチタスク最適化手法である「textit{GO4Align}」を提案する。 これを実現するために,適応型グループリスク最小化戦略を設計し,実装において2つの重要なテクニックを妥協する。 i) タスクの相互作用に基づいて類似したタスクをクラスタ化する動的グループ割り当て。 (II)リスク誘導型グループインジケータは、前回のイテレーションのリスク情報と一貫したタスク相関を利用する。 様々な典型的なベンチマークにおける総合的な実験結果から,計算コストの低減とともに,本手法の性能上の優位性を示す。

This paper proposes \textit{GO4Align}, a multi-task optimization approach that tackles task imbalance by explicitly aligning the optimization across tasks. To achieve this, we design an adaptive group risk minimization strategy, compromising two crucial techniques in implementation: (i) dynamical group assignment, which clusters similar tasks based on task interactions; (ii) risk-guided group indicators, which exploit consistent task correlations with risk information from previous iterations. Comprehensive experimental results on diverse typical benchmarks demonstrate our method's performance superiority with even lower computational costs.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# ニュースデバイアスにおける会話型LLMの落とし穴

Pitfalls of Conversational LLMs on News Debiasing ( http://arxiv.org/abs/2404.06488v1 )

ライセンス: Link先を確認
Ipek Baris Schlicht, Defne Altiok, Maryanne Taouk, Lucie Flek, (参考訳) 本稿では,ニュース編集における嫌悪感に対処し,この課題における対話型大規模言語モデルの有効性を評価する。 我々は,ニュース編集者の視点に合わせた評価チェックリストを設計し,メディアバイアスにおける公開データセットのサブセットを用いて,人気のある3つの会話モデルから生成されたテキストを取得し,設計されたチェックリストに基づいてテキストを評価する。 さらに,デバイアスモデル出力の品質を評価するための評価器としてモデルを検討した。 以上の結果から, LLMはいずれも脱ベンゾウには適していないことが示唆された。 特に、ChatGPTを含むいくつかのモデルは、著者のスタイルに影響を及ぼし、誤った情報を生み出す可能性のある不要な変更を導入した。 最後に、これらのモデルがデバイアスアウトプットの品質を評価する際に、ドメインの専門家ほど十分に機能しないことを示す。

This paper addresses debiasing in news editing and evaluates the effectiveness of conversational Large Language Models in this task. We designed an evaluation checklist tailored to news editors' perspectives, obtained generated texts from three popular conversational models using a subset of a publicly available dataset in media bias, and evaluated the texts according to the designed checklist. Furthermore, we examined the models as evaluator for checking the quality of debiased model outputs. Our findings indicate that none of the LLMs are perfect in debiasing. Notably, some models, including ChatGPT, introduced unnecessary changes that may impact the author's style and create misinformation. Lastly, we show that the models do not perform as proficiently as domain experts in evaluating the quality of debiased outputs.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# 組合せ最適化のためのグラフ強化学習 : 調査と統一的視点

Graph Reinforcement Learning for Combinatorial Optimization: A Survey and Unifying Perspective ( http://arxiv.org/abs/2404.06492v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi, (参考訳) グラフは、接続されたエンティティ間の関係に基づくシステムの自然な表現である。 離散構造に対する関心の過程に関連する客観的関数を考える際に生じる組合せ最適化問題は、解空間の急速な成長によってしばしば困難である。 強化学習の試行錯誤パラダイムは、化学、計算機科学、統計学など、さまざまな分野におけるより良い意思決定戦略を発見するための、正確なアルゴリズムや(メタ)ヒューリスティックスといった従来の手法に代わる有望な代替手段として最近登場した。 それらが著しく異なる分野で生じたという事実にもかかわらず、これらの技術は重要な共通点を共有している。 そこで我々は,この研究をグラフ強化学習(Graph Reinforcement Learning)と呼ぶ統一的な視点で合成し,グラフ問題の構築的意思決定手法として解釈した。 関連する技術的背景を網羅した後、関心のあるグラフ構造を最適化するか、あるいは固定されたグラフ構造の下でプロセス自体の結果を最適化するかを、目的の分割線に沿って検討する。 最後に、この分野に直面する共通課題と研究課題について論じる。 他の調査とは対照的に、本研究では、パフォーマンスアルゴリズムが一般的に知られていない非標準グラフ問題に焦点を当て、強化学習は効率的かつ効果的なソリューションを提供することができる。

Graphs are a natural representation for systems based on relations between connected entities. Combinatorial optimization problems, which arise when considering an objective function related to a process of interest on discrete structures, are often challenging due to the rapid growth of the solution space. The trial-and-error paradigm of Reinforcement Learning has recently emerged as a promising alternative to traditional methods, such as exact algorithms and (meta)heuristics, for discovering better decision-making strategies in a variety of disciplines including chemistry, computer science, and statistics. Despite the fact that they arose in markedly different fields, these techniques share significant commonalities. Therefore, we set out to synthesize this work in a unifying perspective that we term Graph Reinforcement Learning, interpreting it as a constructive decision-making method for graph problems. After covering the relevant technical background, we review works along the dividing line of whether the goal is to optimize graph structure given a process of interest, or to optimize the outcome of the process itself under fixed graph structure. Finally, we discuss the common challenges facing the field and open research questions. In contrast with other surveys, the present work focuses on non-canonical graph problems for which performant algorithms are typically not known and Reinforcement Learning is able to provide efficient and effective solutions.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# 光子で空を飛ぶ:光のプロパゲーティング

Flying With Photons: Rendering Novel Views of Propagating Light ( http://arxiv.org/abs/2404.06493v1 )

ライセンス: Link先を確認
Anagh Malik, Noah Juravsky, Ryan Po, Gordon Wetzstein, Kiriakos N. Kutulakos, David B. Lindell, (参考訳) 本稿では,新しい移動カメラの視点から,シーンを通して伝播する光の映像を合成する画像・ニューラルレンダリング技術を提案する。 我々のアプローチは、ピコ秒レベルの時間分解能を持つファースト・オブ・イットタイプの多視点ビデオデータセットをキャプチャするための、新しい超高速撮像装置に依存している。 このデータセットと組み合わせて、過渡場に基づく効率的なニューラルネットワークボリュームレンダリングフレームワークを導入する。 このフィールドは、3次元点と2次元方向から超高速な時間スケールでの時間変化ラディアンスを表す高次元離散時間信号へのマッピングとして定義される。 過渡場によるレンダリングは、カメラへの光の伝搬遅延に起因する視点依存的な外観変化を含む、光の有限速による効果を自然に説明する。 我々は散乱、スペクトル反射、屈折、回折を含む様々な複雑な効果を描画する。 また,光伝送の直接的および大域的成分の映像合成と相対論的効果のレンダリングにより,視点依存性の伝搬遅延の除去を実演する。

We present an imaging and neural rendering technique that seeks to synthesize videos of light propagating through a scene from novel, moving camera viewpoints. Our approach relies on a new ultrafast imaging setup to capture a first-of-its kind, multi-viewpoint video dataset with picosecond-level temporal resolution. Combined with this dataset, we introduce an efficient neural volume rendering framework based on the transient field. This field is defined as a mapping from a 3D point and 2D direction to a high-dimensional, discrete-time signal that represents time-varying radiance at ultrafast timescales. Rendering with transient fields naturally accounts for effects due to the finite speed of light, including viewpoint-dependent appearance changes caused by light propagation delays to the camera. We render a range of complex effects, including scattering, specular reflection, refraction, and diffraction. Additionally, we demonstrate removing viewpoint-dependent propagation delays using a time warping procedure, rendering of relativistic effects, and video synthesis of direct and global components of light transport.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# ニューラルネットワーク変調の同時線形接続

Simultaneous linear connectivity of neural networks modulo permutation ( http://arxiv.org/abs/2404.06498v1 )

ライセンス: Link先を確認
Ekansh Sharma, Devin Kwok, Tom Denton, Daniel M. Roy, David Rolnick, Gintare Karolina Dziugaite, (参考訳) ニューラルネットワークは通常、ネットワークの損失ランドスケープの非凸性に寄与する置換対称性を示す。 最近の研究は、置換対称性が非凸性の唯一の源であると主張している。 本研究では,これらの主張を,強みを増すという3つの異なる主張に洗練する。 既存のエビデンスは「弱線形接続」のみをサポートし、SGDソリューションに属する各ネットワークに対して、他のネットワークと線形に接続する(複数の)置換が存在することを示す。 対照的に、「強い線形接続」という主張は、各ネットワークに対して、他のネットワークと同時に接続する1つの置換が存在し、直感的にも実際的にも望ましいものである。 この強い主張は、損失ランドスケープは置換の後に凸であり、損失を増やすことなく3つ以上の独立に訓練されたモデル間の線形補間を可能にすることを意味する。 本研究では、あるネットワーク列に対して、これらのシーケンスから一致するネットワーク対を同時に整列する1つの置換が存在するという中間的クレームを導入する。 具体的には、1つの置換が反復的に訓練されたネットワークのシーケンスと反復的に切断されたネットワークの配列とを一致させることに気づき、それぞれの最適化とスペーサー化の軌跡の各ステップで2つのネットワークが低損失障壁を示す。 最後に、3つのネットワーク間の補間において、ネットワーク幅の増大に伴って障壁が減少することを示すことにより、ある条件下で強い線形接続が可能であることを示す。

Neural networks typically exhibit permutation symmetries which contribute to the non-convexity of the networks' loss landscapes, since linearly interpolating between two permuted versions of a trained network tends to encounter a high loss barrier. Recent work has argued that permutation symmetries are the only sources of non-convexity, meaning there are essentially no such barriers between trained networks if they are permuted appropriately. In this work, we refine these arguments into three distinct claims of increasing strength. We show that existing evidence only supports "weak linear connectivity"-that for each pair of networks belonging to a set of SGD solutions, there exist (multiple) permutations that linearly connect it with the other networks. In contrast, the claim "strong linear connectivity"-that for each network, there exists one permutation that simultaneously connects it with the other networks-is both intuitively and practically more desirable. This stronger claim would imply that the loss landscape is convex after accounting for permutation, and enable linear interpolation between three or more independently trained models without increased loss. In this work, we introduce an intermediate claim-that for certain sequences of networks, there exists one permutation that simultaneously aligns matching pairs of networks from these sequences. Specifically, we discover that a single permutation aligns sequences of iteratively trained as well as iteratively pruned networks, meaning that two networks exhibit low loss barriers at each step of their optimization and sparsification trajectories respectively. Finally, we provide the first evidence that strong linear connectivity may be possible under certain conditions, by showing that barriers decrease with increasing network width when interpolating among three networks.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# 臨床ノート作成のための2つのモデル設計の比較 : LLMは一貫性の評価に有用か?

Comparing Two Model Designs for Clinical Note Generation; Is an LLM a Useful Evaluator of Consistency? ( http://arxiv.org/abs/2404.06503v1 )

ライセンス: Link先を確認
Nathan Brake, Thomas Schaaf, (参考訳) 患者とのやりとりの後、医師は、しばしばSOAPノートとして組織される臨床文書の提出に責任を負う。 臨床ノートは単に会話の要約ではなく、適切な医療用語の使用が必要である。 その後、関連する情報を抽出し、SOAPノートの構造に従って組織化することができる。 本稿では、会話の音声記録に基づいて、SOAPノートの異なるセクションを生成するための2つの異なるアプローチを分析し、特に音符一貫性の観点からそれらを検証する。 第1の手法はセクションを独立に生成し、第2の手法はセクションを全て生成する。 本研究では, PEGASUS-X Transformerモデルを用いて, 両手法が類似のROUGE値(1%以下)を導出し, ファクチュアリティの指標に差がないことを観察する。 Llama2 のような LLM が人間のアノテータとほぼ同じ一致で同じタスクを実行できることを示す。 Llama2分析とヒトレビュアーの間では, 年齢, 性別, 身体部分損傷の整合性について, それぞれ0.79, 1.00, 0.32のCohen Kappa相互信頼度を観察した。 これにより、LLMを利用して人間によって識別されるが、現在は自動メトリクスによってキャプチャされていない品質指標を測定することの有用性を示す。 これにより、より大きなデータセットに対するスケーリング評価が可能となり、前述した全てのセクションの出力に条件付けされた各新しいセクションを生成することにより、臨床ノートの整合性が向上することがわかった。

Following an interaction with a patient, physicians are responsible for the submission of clinical documentation, often organized as a SOAP note. A clinical note is not simply a summary of the conversation but requires the use of appropriate medical terminology. The relevant information can then be extracted and organized according to the structure of the SOAP note. In this paper we analyze two different approaches to generate the different sections of a SOAP note based on the audio recording of the conversation, and specifically examine them in terms of note consistency. The first approach generates the sections independently, while the second method generates them all together. In this work we make use of PEGASUS-X Transformer models and observe that both methods lead to similar ROUGE values (less than 1% difference) and have no difference in terms of the Factuality metric. We perform a human evaluation to measure aspects of consistency and demonstrate that LLMs like Llama2 can be used to perform the same tasks with roughly the same agreement as the human annotators. Between the Llama2 analysis and the human reviewers we observe a Cohen Kappa inter-rater reliability of 0.79, 1.00, and 0.32 for consistency of age, gender, and body part injury, respectively. With this we demonstrate the usefulness of leveraging an LLM to measure quality indicators that can be identified by humans but are not currently captured by automatic metrics. This allows scaling evaluation to larger data sets, and we find that clinical note consistency improves by generating each new section conditioned on the output of all previously generated sections.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# ハンドヘルド物体の3次元再構成

Reconstructing Hand-Held Objects in 3D ( http://arxiv.org/abs/2404.06507v1 )

ライセンス: Link先を確認
Jane Wu, Georgios Pavlakos, Georgia Gkioxari, Jitendra Malik, (参考訳) 手によって操作される物体(つまりマニプラダ)は、特に、未使用のRGB画像やビデオから再構成することが困難である。 手が物体の多くを遮蔽するだけでなく、少数の画像ピクセルでしか見えないことが多い。 同時に、この2つの強力なアンカーが出現する:(1) 推定3次元手は物体の位置と規模を曖昧にし、(2) マニピュランダのセットは全ての可能な物体に対して小さい。 これらの知見を念頭に置いて,大規模言語/ビジョンモデルと3次元オブジェクトデータセットの最近のブレークスルーを基盤として,ハンドヘルドオブジェクト再構築のためのスケーラブルなパラダイムを提案する。 我々のモデルであるMCC-Hand-Object (MCC-HO) は、単一のRGB画像が与えられた手と物体の形状を共同で再構成し、入力として3Dハンドを推定する。 次に、GPT-4(V)を用いて、画像内のオブジェクトにマッチする3次元オブジェクトモデルを検索し、そのモデルをネットワーク推論幾何に厳密に整列させ、このアライメントをRetrieval-Augmented Reconstruction (RAR)と呼ぶ。 実験により,MCC-HOが実験室およびインターネットデータセット上での最先端性能を実証し,RARを用いて手動物体間相互作用の画像の3Dラベルを自動的に取得できることが示されている。

Objects manipulated by the hand (i.e., manipulanda) are particularly challenging to reconstruct from in-the-wild RGB images or videos. Not only does the hand occlude much of the object, but also the object is often only visible in a small number of image pixels. At the same time, two strong anchors emerge in this setting: (1) estimated 3D hands help disambiguate the location and scale of the object, and (2) the set of manipulanda is small relative to all possible objects. With these insights in mind, we present a scalable paradigm for handheld object reconstruction that builds on recent breakthroughs in large language/vision models and 3D object datasets. Our model, MCC-Hand-Object (MCC-HO), jointly reconstructs hand and object geometry given a single RGB image and inferred 3D hand as inputs. Subsequently, we use GPT-4(V) to retrieve a 3D object model that matches the object in the image and rigidly align the model to the network-inferred geometry; we call this alignment Retrieval-Augmented Reconstruction (RAR). Experiments demonstrate that MCC-HO achieves state-of-the-art performance on lab and Internet datasets, and we show how RAR can be used to automatically obtain 3D labels for in-the-wild images of hand-object interactions.
翻訳日:2024-04-10 13:42:03 公開日:2024-04-09
# 言語モデルにおける(Near)duplicateサブワードの効果について

On the Effect of (Near) Duplicate Subwords in Language Modelling ( http://arxiv.org/abs/2404.06508v1 )

ライセンス: Link先を確認
Anton Schäfer, Thomas Hofmann, Imanol Schlag, Tiago Pimentel, (参考訳) トークン化は言語モデル(LM)の中核部分である。 文字列をサブワードに分割し、任意のインデックスが割り当てられてLMに渡される。 文字レベルの情報を除去するので、LMが Now や Now のような類似のサブワードをまたいで一般化することが難しくなる可能性がある。 我々はそのような副語をほぼ重複として言及する。 本稿では,ほぼ重複したサブワードがLMトレーニング効率に与える影響について検討する。 まず、ほぼ重複するモデルを完全に一般化できれば、モデルがどの程度改善されるか、という上限を与える実験を設計する。 私たちは、LMの語彙で各サブワードを複製し、完全に等価なサブワードのクラスを作成します。 実験により、完全に複製された環境でのトレーニングでは、LMには約17%以上のデータが必要であることがわかった。 第2に,複製近傍の自然発生がLMに与える影響について検討した。 ここでは、それらのマージがLMのパフォーマンスを著しく損なうことが分かります。 したがって、サブワード重複はLMトレーニング効率に悪影響を及ぼすが、自然に重複の近くで起こることは予想されるほどに似ていないため、性能改善の可能性を制限することができる。

Tokenisation is a core part of language models (LMs). It involves splitting a character sequence into subwords which are assigned arbitrary indices before being served to the LM. While typically lossless, however, this process may lead to less sample efficient LM training: as it removes character-level information, it could make it harder for LMs to generalise across similar subwords, such as now and Now. We refer to such subwords as near duplicates. In this paper, we study the impact of near duplicate subwords on LM training efficiency. First, we design an experiment that gives us an upper bound to how much we should expect a model to improve if we could perfectly generalise across near duplicates. We do this by duplicating each subword in our LM's vocabulary, creating perfectly equivalent classes of subwords. Experimentally, we find that LMs need roughly 17% more data when trained in a fully duplicated setting. Second, we investigate the impact of naturally occurring near duplicates on LMs. Here, we see that merging them considerably hurts LM performance. Therefore, although subword duplication negatively impacts LM training efficiency, naturally occurring near duplicates may not be as similar as anticipated, limiting the potential for performance improvements.
翻訳日:2024-04-10 13:42:02 公開日:2024-04-09
# 大規模視覚言語モデルにおけるセマンティックグラウンドのフィードバックは可能か?

Can Feedback Enhance Semantic Grounding in Large Vision-Language Models? ( http://arxiv.org/abs/2404.06510v1 )

ライセンス: Link先を確認
Yuan-Hong Liao, Rafid Mahmood, Sanja Fidler, David Acuna, (参考訳) VLM(Vision-Language Models)におけるセマンティックグラウンドディング能力の強化には、ドメイン固有のトレーニングデータ収集、ネットワークアーキテクチャの修正、トレーニングレシピの変更などが含まれる。 本研究では,VLMがドメイン内データや微調整,ネットワークアーキテクチャの変更を必要とせず,フィードバックを"受信"することで,そのセマンティックグラウンド化を改善することができるかどうかを探究する。 我々はこの仮説をバイナリ信号からなるフィードバック機構を用いて体系的に解析する。 インターネット規模のVLMの基盤化を改善するための代替手法として,フィードバックの可能性を示すため,ひとつのステップと反復の両方でフィードバックを適切に活用できることが判明した。 さらに、LLMのようなVLMは、最初からエラーを自己修正するのに苦労する。 しかし、この問題はバイナリ検証機構によって緩和できることがわかった。 最後に,これらの知見を集約し,VLMの接地性能を向上するために反復的に適用する可能性や限界について検討し,すべての設定において,全モデルにまたがる自動フィードバックを用いることで,接地精度が一貫的に向上することを示した。 我々の反復的フレームワークは、ノイズのないフィードバックの下では15以上の精度でVLMのセマンティックグラウンドを改善し、単純な自動二項検証機構の下では最大5つの精度で精度を向上する。 プロジェクトのWebサイトはhttps://andrewliao11.github.io/vlms_feedbackにホストされている。

Enhancing semantic grounding abilities in Vision-Language Models (VLMs) often involves collecting domain-specific training data, refining the network architectures, or modifying the training recipes. In this work, we venture into an orthogonal direction and explore whether VLMs can improve their semantic grounding by "receiving" feedback, without requiring in-domain data, fine-tuning, or modifications to the network architectures. We systematically analyze this hypothesis using a feedback mechanism composed of a binary signal. We find that if prompted appropriately, VLMs can utilize feedback both in a single step and iteratively, showcasing the potential of feedback as an alternative technique to improve grounding in internet-scale VLMs. Furthermore, VLMs, like LLMs, struggle to self-correct errors out-of-the-box. However, we find that this issue can be mitigated via a binary verification mechanism. Finally, we explore the potential and limitations of amalgamating these findings and applying them iteratively to automatically enhance VLMs' grounding performance, showing grounding accuracy consistently improves using automated feedback across all models in all settings investigated. Overall, our iterative framework improves semantic grounding in VLMs by more than 15 accuracy points under noise-free feedback and up to 5 accuracy points under a simple automated binary verification mechanism. The project website is hosted at https://andrewliao11.github.io/vlms_feedback
翻訳日:2024-04-10 13:42:02 公開日:2024-04-09
# MoReVQA:ビデオ質問回答のためのモジュール推論モデルの検討

MoReVQA: Exploring Modular Reasoning Models for Video Question Answering ( http://arxiv.org/abs/2404.06511v1 )

ライセンス: Link先を確認
Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid, (参考訳) 本稿では,ビデオ質問応答(videoQA)の課題を,分解した多段階モジュラー推論フレームワークを用いて解決する。 以前のモジュラー手法では、視覚的コンテンツに埋もれていない単一の計画段階が約束されている。 しかし, 単純かつ効果的なベースラインによって, ビデオQA設定に挑戦するためには, 動作が不安定になる可能性があることがわかった。 したがって、従来の単一ステージ計画法とは異なり、イベントパーサ、グラウンドステージ、最終的な推論ステージと外部メモリを組み合わせたマルチステージシステムを提案する。 すべてのステージはトレーニング不要で、大きなモデルのほとんどショットプロンプトを使用して実行され、各ステージで解釈可能な中間出力を生成する。 提案手法であるMoReVQAは,従来のビデオQAベンチマーク (NExT-QA, iVQA, EgoSchema, ActivityNet-QA) を最新技術による結果と関連するタスクの拡張(ビデオQA, 段落)で改善する。

This paper addresses the task of video question answering (videoQA) via a decomposed multi-stage, modular reasoning framework. Previous modular methods have shown promise with a single planning stage ungrounded in visual content. However, through a simple and effective baseline, we find that such systems can lead to brittle behavior in practice for challenging videoQA settings. Thus, unlike traditional single-stage planning methods, we propose a multi-stage system consisting of an event parser, a grounding stage, and a final reasoning stage in conjunction with an external memory. All stages are training-free, and performed using few-shot prompting of large models, creating interpretable intermediate outputs at each stage. By decomposing the underlying planning and task complexity, our method, MoReVQA, improves over prior work on standard videoQA benchmarks (NExT-QA, iVQA, EgoSchema, ActivityNet-QA) with state-of-the-art results, and extensions to related tasks (grounded videoQA, paragraph captioning).
翻訳日:2024-04-10 13:42:02 公開日:2024-04-09
# インターンLM-XComposer2-4KHD:336画素から4KHDへの解像度対応

InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD ( http://arxiv.org/abs/2404.06512v1 )

ライセンス: Link先を確認
Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang, (参考訳) LVLM(Large Vision-Language Model)分野は大きな進歩を遂げているが、その進歩は解像度の制限による細かな視覚内容の理解の難しさによって妨げられている。 近年の取り組みは、LVLMの高分解能理解能力を向上することを目的としているが、約1500 x 1500ピクセルに抑えられ、比較的狭い解像度範囲に制限されている。 InternLM-XComposer2-4KHDは、4K HD (3840 x 1600) 以上のLVLMの高解像度化を実現するための画期的な探索である。 同時に、超高解像度はすべてのシナリオで必要ではないため、336ピクセルから4K標準まで幅広い解像度をサポートし、適用範囲を大きく広げている。 具体的には、自動パッチ設定による動的解決という、新しい拡張を導入することで、パッチ分割パラダイムを進化させる。 トレーニングイメージのアスペクト比を維持しつつ、パッチ数を自動的に変更し、事前トレーニングされたビジョントランスフォーマー(ViT)(336 x 336)に基づいてレイアウトを設定することで、336ピクセルから4K標準までのダイナミックなトレーニング解像度を実現している。 我々の研究は、トレーニングの解像度を4K HDまで拡張することで、潜在的な改善の天井にぶつかることなく、一貫したパフォーマンス向上につながることを実証している。 InternLM-XComposer2-4KHDは16ベンチマークのうち10ベンチマークでGPT-4VやGemini Proに匹敵する超能力を示している。 7Bパラメータを持つInternLM-XComposer2-4KHDモデルシリーズはhttps://github.com/InternLM/InternLM-XComposerで公開されている。

The Large Vision-Language Model (LVLM) field has seen significant advancements, yet its progression has been hindered by challenges in comprehending fine-grained visual content due to limited resolution. Recent efforts have aimed to enhance the high-resolution understanding capabilities of LVLMs, yet they remain capped at approximately 1500 x 1500 pixels and constrained to a relatively narrow resolution range. This paper represents InternLM-XComposer2-4KHD, a groundbreaking exploration into elevating LVLM resolution capabilities up to 4K HD (3840 x 1600) and beyond. Concurrently, considering the ultra-high resolution may not be necessary in all scenarios, it supports a wide range of diverse resolutions from 336 pixels to 4K standard, significantly broadening its scope of applicability. Specifically, this research advances the patch division paradigm by introducing a novel extension: dynamic resolution with automatic patch configuration. It maintains the training image aspect ratios while automatically varying patch counts and configuring layouts based on a pre-trained Vision Transformer (ViT) (336 x 336), leading to dynamic training resolution from 336 pixels to 4K standard. Our research demonstrates that scaling training resolution up to 4K HD leads to consistent performance enhancements without hitting the ceiling of potential improvements. InternLM-XComposer2-4KHD shows superb capability that matches or even surpasses GPT-4V and Gemini Pro in 10 of the 16 benchmarks. The InternLM-XComposer2-4KHD model series with 7B parameters are publicly available at https://github.com/InternLM/InternLM-XComposer.
翻訳日:2024-04-10 13:42:02 公開日:2024-04-09
# 境界デコヒーレンスによるトポロジカル秩序の解離遷移

Disentangling transitions in topological order induced by boundary decoherence ( http://arxiv.org/abs/2404.06514v1 )

ライセンス: Link先を確認
Tsung-Cheng Lu, (参考訳) 本稿では,二分割境界上でのデコヒーレンスを考慮したトポロジカル秩序の絡み合い構造について検討する。 空間次元$d$$$$$d=2,3,4$のトーリック符号に着目し、この境界デコヒーレンスが、位相的エンタングルメントネガティビティによって測定された二分法における混合状態長距離エンタングルメントの破壊を特徴とする、不整合遷移を誘発できるかどうかを考察する。 我々のアプローチの鍵となる洞察は、二分割境界上に局在した対称性保存摂動の下で、デコヒート混合状態の負性スペクトルと創発対称性保護トポロジカル秩序との接続である。 この知見は、レプリカのトリックを使わずに、絡み合いの正確な結果を解析的に導出することができる。

We study the entanglement structure of topological orders subject to decoherence on the bipartition boundary. Focusing on the toric codes in $d$ space dimensions for $d=2,3,4$, we explore whether the boundary decoherence may be able to induce a disentangling transition, characterized by the destruction of mixed-state long-range entanglement across the bipartition, measured by topological entanglement negativity. A key insight of our approach is the connection between the negativity spectrum of the decohered mixed states and emergent symmetry-protected topological orders under certain symmetry-preserving perturbation localized on the bipartition boundary. This insight allows us to analytically derive the exact results of entanglement negativity without using a replica trick.
翻訳日:2024-04-10 13:42:02 公開日:2024-04-09
# 量子コンピュータ上の分割関数推定の複雑さに対する単純な下界

A simple lower bound for the complexity of estimating partition functions on a quantum computer ( http://arxiv.org/abs/2404.02414v2 )

ライセンス: Link先を確認
Zherui Chen, Giacomo Nannicini, (参考訳) 分割関数 $\mathsf{Z}(\beta)=\sum_{x\in\chi} e^{-\beta H(x)}$ をハミルトニアン$H(x)$ で特徴づけられるギブス分布に対して推定する複雑性について検討する。 我々は、ギブス状態のコヒーレントな符号化を通して反射に依存することにより、この問題を解く量子アルゴリズムの単純で自然な下界を提供する。 我々の主な貢献は、量子アルゴリズムで分割関数を推定するために必要な反射数に対する$\varOmega(1/\epsilon)$下界である。 この証明は未知の二進弦のハミング重みを推定する問題の削減に基づいている。

We study the complexity of estimating the partition function $\mathsf{Z}(\beta)=\sum_{x\in\chi} e^{-\beta H(x)}$ for a Gibbs distribution characterized by the Hamiltonian $H(x)$. We provide a simple and natural lower bound for quantum algorithms that solve this task by relying on reflections through the coherent encoding of Gibbs states. Our primary contribution is a $\varOmega(1/\epsilon)$ lower bound for the number of reflections needed to estimate the partition function with a quantum algorithm. The proof is based on a reduction from the problem of estimating the Hamming weight of an unknown binary string.
翻訳日:2024-04-10 13:32:18 公開日:2024-04-09
# 空間時間精度トレードオフをもつ非単元及び単元対角演算子の効率的な量子回路

Efficient Quantum Circuits for Non-Unitary and Unitary Diagonal Operators with Space-Time-Accuracy trade-offs ( http://arxiv.org/abs/2404.02819v2 )

ライセンス: Link先を確認
Julien Zylberman, Ugo Nzongani, Andrea Simonetto, Fabrice Debbasch, (参考訳) ユニタリおよび非ユニタリ対角作用素は、偏微分方程式の解法、ハミルトニアンシミュレーション、量子コンピュータへの古典的データのロード(量子状態の準備)など、量子アルゴリズムの基本的な構成要素である。 本稿では,一元対角演算子と非単元対角演算子を効率よく調整可能な量子回路で実装する一般手法を提案する。 深さ、すなわち量子回路の量子ゲートの層数は、幅、すなわちアンシラ量子ビットの数、あるいは実装された演算子と対象の演算子の間の精度に関して再現可能である。 厳密な手法は、大きさ、すなわち原始量子ゲートの総数、幅のいずれにおいても最適な指数関数スケーリングを持つが、近似的手法は、滑らかで少なくとも微分可能な関数に依存する対角作用素のクラスに対して効率的であることが証明される。 我々のアプローチは一般に、対角作用素が調整可能な深度あるいは近似値になるようにし、その幅や近似レベルを増大させることで回路の深さを減少させるのに十分である。 この機能は柔軟性を提供し、コヒーレンス時間や累積ゲートエラーのハードウェア制限にマッチする。 拡散方程式の初期ガウス関数は、拡散過程の非単項進化作用素によって進化する前に、量子状態の準備と拡散方程式の非単項実空間シミュレーションによって、これらの方法を説明する。

Unitary and non-unitary diagonal operators are fundamental building blocks in quantum algorithms with applications in the resolution of partial differential equations, Hamiltonian simulations, the loading of classical data on quantum computers (quantum state preparation) and many others. In this paper, we introduce a general approach to implement unitary and non-unitary diagonal operators with efficient-adjustable-depth quantum circuits. The depth, i.e. the number of layers of quantum gates of the quantum circuit, is reducible with respect either to the width, i.e. the number of ancilla qubits, or to the accuracy between the implemented operator and the target one. While exact methods have an optimal exponential scaling either in terms of size, i.e. the total number of primitive quantum gates, or width, approximate methods prove to be efficient for the class of diagonal operators depending on smooth, at least differentiable, functions. Our approach is general enough to allow any method for diagonal operators to become adjustable-depth or approximate, decreasing the depth of the circuit by increasing its width or its approximation level. This feature offers flexibility and can match with the hardware limitations in coherence time or cumulative gate error. We illustrate these methods by performing quantum state preparation and non-unitary-real-space simulation of the diffusion equation: an initial Gaussian function is prepared on a set of qubits before being evolved through the non-unitary evolution operator of the diffusion process.
翻訳日:2024-04-10 13:32:18 公開日:2024-04-09
# EPRステアリング不等式による量子力学と古典モデルの境界の解明

Revealing the Boundary between Quantum Mechanics and Classical Model by EPR-Steering Inequality ( http://arxiv.org/abs/2404.04048v2 )

ライセンス: Link先を確認
Ruo-Chen Wang, Zhuo-Chen Li, Xing-Yan Fan, Xiang-Ru Xie, Hong-Hao Wei, Choo Hiap Oh, Jing-Ling Chen, (参考訳) ワーナー状態(英: Werner state)は、量子力学と古典モデルの境界をテストするためのベンチマークである。 V_{\rm c}^{\rm E}=1/3$はエンタングルメントと分離可能なモデルの境界を特徴づける$V_{\rm c}^{\rm B}=1/K_G(3)$はベルの非局所性と局所隠れ可能なモデルの境界を特徴づける$V_{\rm c}^{\rm S}=1/2$はアインシュタイン=ポドルスキー=ローゼン(EPR)ステアリングと局所隠れ状態モデルの境界を特徴づける$V_{\rm c}^{\rm S}=1/2$である。 これまでのところ、$V_{\rm c}^{\rm E}=1/3$の問題は、正部分変換基準を含む不等式によって完全に解決されている。 本研究では、エンタングルメントとベルの非局所性の間にある量子非局所性の形式であるEPRステアリングに焦点を当てる。 最適$N$設定線形EPRステアリングの不等式を提案することによって、2ビットワーナー状態に対して所望の値 $V_{\rm c}^{\rm S}=1/2$ を得ることができ、長年の問題を解くことができる。

In quantum information, the Werner state is a benchmark to test the boundary between quantum mechanics and classical models. There have been three well-known critical values for the two-qubit Werner state, i.e., $V_{\rm c}^{\rm E}=1/3$ characterizing the boundary between entanglement and separable model, $V_{\rm c}^{\rm B}=1/K_G(3)$ characterizing the boundary between Bell's nonlocality and the local-hidden-variable model, while $V_{\rm c}^{\rm S}=1/2$ characterizing the boundary between Einstein-Podolsky-Rosen (EPR) steering and the local-hidden-state model. So far, the problem of $V_{\rm c}^{\rm E}=1/3$ has been completely solved by an inequality involving in the positive-partial-transpose criterion, while how to reveal the other two critical values by the inequality approach are still open. In this work, we focus on EPR steering, which is a form of quantum nonlocality intermediate between entanglement and Bell's nonlocality. By proposing the optimal $N$-setting linear EPR-steering inequalities, we have successfully obtained the desired value $V_{\rm c}^{\rm S}=1/2$ for the two-qubit Werner state, thus resolving the long-standing problem.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# 中国語Tiny LLM:中国語中心の大規模言語モデルの事前学習

Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model ( http://arxiv.org/abs/2404.04167v3 )

ライセンス: Link先を確認
Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang, (参考訳) 本研究では,LLM開発における中国語の優先化に向けた重要なシフトを示す2B大規模言語モデル(LLM)であるCT-LLMを紹介する。 CT-LLMは、スクラッチからはじめて、800億の中国トークン、300億の英語トークン、1000億のコードトークンを含む1200億のトークンの広範なコーパスを利用して、主に中国語のテキストデータを組み込むことによって、従来の手法から分離した。 この戦略構成は、アライメント技術によってさらに強化された、中国語の理解と処理において、モデルが卓越した能力を促進する。 CHC-Benchでの顕著な性能を示すために、CT-LLMは中国語のタスクに優れており、SFTによる英語での適応性を示している。 本研究は,LLMを英語コーパスに基づいて学習し,それを他の言語に適応させることによって,LLM学習方法論の地平を広げるという,一般的なパラダイムに挑戦する。 得られた大量事前学習型中国語コーパス(MAP-CC)、高度多分野の中国語ハードケースベンチマーク(CHC-Bench)、および2Bサイズの中国語Tiny LLM(CT-LLM)を含む詳細なデータ処理手順をオープンソース化することにより、学術と産業の両方におけるさらなる探索と革新を促進し、より包括的で多目的な言語モデルの実現を目指す。

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# インフォームドファジィ推論システムとしての近似ベイズ計算

Approximate Bayesian Computation As An Informed Fuzzing-Inference System ( http://arxiv.org/abs/2404.04303v2 )

ライセンス: Link先を確認
Chris Vaisnor, (参考訳) ファズテストのパワーは、ソフトウェアアプリケーションの予期せぬ振る舞いや脆弱性を引き起こすインプットの生成と実行である。 しかし、無限に可能な入力シーケンスの現実を考えると、全てのテストの組み合わせを追求することは、計算に高価であるだけでなく、事実上不可能である。 ベイズシミュレーションの形式である近似ベイズ計算(ABC)は、この問題に対処するための新しい確率論的アプローチである。 この種の問題を扱うためのパラメータ空間は事実上無限であり、これらの手法の適用は関連する文献では証明されていない。 我々は2つのABC手法の緩やかな手動実装、シークエンシャルモンテカルロ(SMC)シミュレーション、マルコフチェインモンテカルロ(MCMC)シミュレーションを使用する。 SMC後部とMCMC後部分布の混合が有望な結果であった。

The power of fuzz testing lies in its random, often brute-force, generation and execution of inputs to trigger unexpected behaviors and vulnerabilities in software applications. However, given the reality of infinite possible input sequences, pursuing all test combinations would not only be computationally expensive, but practically impossible. Approximate Bayesian Computation (ABC), a form of Bayesian simulation, represents a novel, probabilistic approach to addressing this problem. The parameter space for working with these types of problems is effectively infinite, and the application of these techniques is untested in relevant literature. We use a relaxed, manual implementation of two ABC methods, a Sequential Monte Carlo (SMC) simulation, and a Markov Chain Monte Carlo (MCMC) simulation. We found promising results with the SMC posterior and mixed results with MCMC posterior distributions on our white-box fuzz-test function.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# Co-Occ:マルチモーダル3次元セマンティック動作予測のためのボリュームレンダリング規則化による明示的特徴融合の結合

Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2404.04561v2 )

ライセンス: Link先を確認
Jingyi Pan, Zipeng Wang, Lin Wang, (参考訳) 3Dセマンティック占有予測は、自動運転分野における重要な課題である。 近年のアプローチは、単一モードでの3Dセマンティック占有率予測に大きな進歩をもたらした。 しかし、マルチモーダルなセマンティック占有予測手法は、異なるモダリティデータの融合時に生じるモダリティの不均一性、モダリティの不整合、および不十分なモダリティ相互作用に対処する上で困難に直面しており、重要な幾何学的およびセマンティックな情報が失われる可能性がある。 この手紙は、新しいマルチモーダル、すなわちCo-Occと呼ばれるLiDAR-camera 3Dセマンティック占有予測フレームワークを提示し、これは暗黙のボリュームレンダリング規則化と明示的なLiDAR-camera特徴融合を結合している。 キーとなる洞察は、機能空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像のギャップを十分に埋めると同時に、LiDARカメラで融合したボリューム表現を強化する物理的な正規化として機能するということである。 具体的には、K-nearest neighbors (KNN)サーチにより、隣接するカメラ機能を組み込むことで、LiDAR機能を明示的に拡張するGeometric- and Semantic-aware Fusion (GSFusion)モジュールを提案する。 次に,画像面に融合した特徴を投影するためにボリュームレンダリングを用い,色と深度マップを再構成する。 これらのマップは、カメラからの入力画像と、LiDARから導出される深さ推定によって監視される。 一般的なnuScenesとSemanticKITTIベンチマークの大規模な実験により、我々のCo-Occの3Dセマンティック占有予測の有効性が検証された。 プロジェクトのページはhttps://rorisis.github.io/Co-Occ_project-page/.comで公開されている。

3D semantic occupancy prediction is a pivotal task in the field of autonomous driving. Recent approaches have made great advances in 3D semantic occupancy predictions on a single modality. However, multi-modal semantic occupancy prediction approaches have encountered difficulties in dealing with the modality heterogeneity, modality misalignment, and insufficient modality interactions that arise during the fusion of different modalities data, which may result in the loss of important geometric and semantic information. This letter presents a novel multi-modal, i.e., LiDAR-camera 3D semantic occupancy prediction framework, dubbed Co-Occ, which couples explicit LiDAR-camera feature fusion with implicit volume rendering regularization. The key insight is that volume rendering in the feature space can proficiently bridge the gap between 3D LiDAR sweeps and 2D images while serving as a physical regularization to enhance LiDAR-camera fused volumetric representation. Specifically, we first propose a Geometric- and Semantic-aware Fusion (GSFusion) module to explicitly enhance LiDAR features by incorporating neighboring camera features through a K-nearest neighbors (KNN) search. Then, we employ volume rendering to project the fused feature back to the image planes for reconstructing color and depth maps. These maps are then supervised by input images from the camera and depth estimations derived from LiDAR, respectively. Extensive experiments on the popular nuScenes and SemanticKITTI benchmarks verify the effectiveness of our Co-Occ for 3D semantic occupancy prediction. The project page is available at https://rorisis.github.io/Co-Occ_project-page/.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# AI研究、政策、実践の10の優先事項

Now, Later, and Lasting: Ten Priorities for AI Research, Policy, and Practice ( http://arxiv.org/abs/2404.04750v2 )

ライセンス: Link先を確認
Eric Horvitz, Vincent Conitzer, Sheila McIlraith, Peter Stone, (参考訳) 人工知能(AI)の進歩は、私たちの生活や社会の多くの側面を変革し、大きな機会をもたらすと同時に、重大なリスクや課題を生じさせます。 今後数十年は、産業革命に匹敵する人類の転換点になるかもしれない。 AIに関する百年研究の創始者やリーダーの視点から、前進するための一連の推奨事項を共有します。 10年前に立ち上げられたこのプロジェクトは、複数の専門分野の専門家による永続的な一連の研究にコミットし、人間や社会に対するAIの即時的、長期的、そして遠方的な影響を評価し、AIの研究、政策、実践についてレコメンデーションを行う。 ニューラルモデルから新たな能力が生まれるのを目の当たりにしているので、これらのモデルとその振る舞いに関する科学的理解を深める努力をすることが重要です。 技術的、社会的、社会技術的レンズを通じて、AIが人や社会に与える影響に対処し、エンジニアリング、社会的、行動的、経済的な分野からの声を含む、さまざまな専門家の洞察を取り入れなければならない。 さまざまな利害関係者間の対話、コラボレーション、行動を促進することで、私たちは、AIの開発と展開を、人間の繁栄に貢献する可能性を最大化する方法で戦略的に導くことができます。 短期的な意味と長期的な意味に焦点をあてる分野が多様化しているにもかかわらず、どちらも重要な意味を持つと考えている。 1950年、AIのパイオニアの一人であるアラン・チューリングは「我々は少し先までしか見ることができないが、やるべきことはたくさんある」と記した。 AI技術の短期的および長期的影響の両方に対処する、アクションのための10のレコメンデーションを提供します。

Advances in artificial intelligence (AI) will transform many aspects of our lives and society, bringing immense opportunities but also posing significant risks and challenges. The next several decades may well be a turning point for humanity, comparable to the industrial revolution. We write to share a set of recommendations for moving forward from the perspective of the founder and leaders of the One Hundred Year Study on AI. Launched a decade ago, the project is committed to a perpetual series of studies by multidisciplinary experts to evaluate the immediate, longer-term, and far-reaching effects of AI on people and society, and to make recommendations about AI research, policy, and practice. As we witness new capabilities emerging from neural models, it is crucial that we engage in efforts to advance our scientific understanding of these models and their behaviors. We must address the impact of AI on people and society through technical, social, and sociotechnical lenses, incorporating insights from a diverse range of experts including voices from engineering, social, behavioral, and economic disciplines. By fostering dialogue, collaboration, and action among various stakeholders, we can strategically guide the development and deployment of AI in ways that maximize its potential for contributing to human flourishing. Despite the growing divide in the field between focusing on short-term versus long-term implications, we think both are of critical importance. As Alan Turing, one of the pioneers of AI, wrote in 1950, "We can only see a short distance ahead, but we can see plenty there that needs to be done." We offer ten recommendations for action that collectively address both the short- and long-term potential impacts of AI technologies.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# スパース量子状態生成のための最適回路サイズを目指して

Towards Optimal Circuit Size for Sparse Quantum State Preparation ( http://arxiv.org/abs/2404.05147v2 )

ライセンス: Link先を確認
Rui Mao, Guojing Tian, Xiaoming Sun, (参考訳) 一般的な量子状態と比較して、スパース状態は量子計算の分野でより頻繁に発生する。 本研究では,非零振幅$s$の量子状態に対する準備について検討し,2つのアルゴリズムを提案する。 最初のアルゴリズムは$O(ns/\log n + n)$ gatesを使用し、以前のメソッドを$O(\log n)$で改善する。 さらに、振幅を意識しない任意のアルゴリズムに対して一致する下界を確立し、少なくとも$\operatorname{poly}(n)$ acillary qubits を用いる。 2番目のアルゴリズムは、短いハミルトニアンパスを示す二進弦向けに調整されている。 応用は、$U(1)$-invariant state with $k$ down-spins in a chain of length $n$, which our algorithm constructs a circuit of size $O\left(\binom{n}{k}\log n\right)$である。 これは以前の結果を$O(n/\log n)$で上回り、下界の$O\left(\binom{n}{k}\right)$に近い。 2つのアルゴリズムは、既存のギャップを理論的に縮小し、数値的に利点を増大させる。

Compared to general quantum states, the sparse states arise more frequently in the field of quantum computation. In this work, we consider the preparation for $n$-qubit sparse quantum states with $s$ non-zero amplitudes and propose two algorithms. The first algorithm uses $O(ns/\log n + n)$ gates, improving upon previous methods by $O(\log n)$. We further establish a matching lower bound for any algorithm which is not amplitude-aware and employs at most $\operatorname{poly}(n)$ ancillary qubits. The second algorithm is tailored for binary strings that exhibit a short Hamiltonian path. An application is the preparation of $U(1)$-invariant state with $k$ down-spins in a chain of length $n$, including Bethe states, for which our algorithm constructs a circuit of size $O\left(\binom{n}{k}\log n\right)$. This surpasses previous results by $O(n/\log n)$ and is close to the lower bound $O\left(\binom{n}{k}\right)$. Both the two algorithms shrink the existing gap theoretically and provide increasing advantages numerically.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# PortULAN ExtraGLUEデータセットとモデル:ポルトガルのニューラル処理のためのベンチマークを開始する

PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese ( http://arxiv.org/abs/2404.05333v2 )

ライセンス: Link先を確認
Tomás Osório, Bernardo Leite, Henrique Lopes Cardoso, Luís Gomes, João Rodrigues, Rodrigo Santos, António Branco, (参考訳) ポルトガル語のニューラルモデリングの研究を活用して、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラル言語モデルのコレクションをコントリビュートする。 もともと英語で開発された文献の主流ベンチマークと一致し、ポルトガル語版を起動するために、データセットは英語から最先端の翻訳エンジンで機械翻訳された。 その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。 同様に、低ランク適応アプローチで開発されたそれぞれの微調整されたニューラルネットワークモデルは、ポルトガル語のニューラル処理に関する将来の研究を刺激するベースラインとして利用できる。 すべてのデータセットとモデルが開発され、ポルトガルの2つの変種(ヨーロッパとブラジル)で利用可能である。

Leveraging research on the neural modelling of Portuguese, we contribute a collection of datasets for an array of language processing tasks and a corresponding collection of fine-tuned neural language models on these downstream tasks. To align with mainstream benchmarks in the literature, originally developed in English, and to kick start their Portuguese counterparts, the datasets were machine-translated from English with a state-of-the-art translation engine. The resulting PORTULAN ExtraGLUE benchmark is a basis for research on Portuguese whose improvement can be pursued in future work. Similarly, the respective fine-tuned neural language models, developed with a low-rank adaptation approach, are made available as baselines that can stimulate future work on the neural processing of Portuguese. All datasets and models have been developed and are made available for two variants of Portuguese: European and Brazilian.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# PAT:ロングテールセグメンテーションのための画素ワイド適応トレーニング

PAT: Pixel-wise Adaptive Training for Long-tailed Segmentation ( http://arxiv.org/abs/2404.05393v2 )

ライセンス: Link先を確認
Khoi Do, Duong Nguyen, Nguyen H. Tran, Viet Dung Nguyen, (参考訳) クラス頻度を超えて,様々なクラス固有予測におけるクラスワイド関係とラベルマスクの不均衡が長いセグメンテーション学習に与える影響を認識した。 これらの課題に対処するために、長い尾のセグメンテーションに適した革新的なPixel-wise Adaptive Training (PAT)技術を提案する。 PATには2つの重要な特徴がある。 1) 等級勾配等級均質化, 等級勾配等級化 2) pixel-wise class-specific loss adaptation (PCLA)。 第一に、クラスワイドグレードの等質化は、モデル更新に対するクラスワイドの影響を等しく考慮することで、ラベルマスク間の不均衡を軽減するのに役立つ。 第2に、PCLAは、予測信頼度が低い学習クラスを奨励し、信頼度の高い授業を忘れないようにすることにより、長い尾の分布におけるレアクラスと、以前のトレーニング段階からの不正確な予測の両方の有害な影響に取り組む。 この組み合わせアプローチは、モデルが以前に学んだ知識を忘れないようにしながら、堅牢な学習を促進する。 PATは、NyUデータセットで現在の最先端を2.2%上回る、大幅なパフォーマンス向上を示している。 さらに、OxfordPetIII、CityScape、NYUの3つの一般的なデータセットで示されるように、全体のピクセル単位の精度を2.85%向上し、ユニオン値の交叉を2.07%向上させる。

Beyond class frequency, we recognize the impact of class-wise relationships among various class-specific predictions and the imbalance in label masks on long-tailed segmentation learning. To address these challenges, we propose an innovative Pixel-wise Adaptive Training (PAT) technique tailored for long-tailed segmentation. PAT has two key features: 1) class-wise gradient magnitude homogenization, and 2) pixel-wise class-specific loss adaptation (PCLA). First, the class-wise gradient magnitude homogenization helps alleviate the imbalance among label masks by ensuring equal consideration of the class-wise impact on model updates. Second, PCLA tackles the detrimental impact of both rare classes within the long-tailed distribution and inaccurate predictions from previous training stages by encouraging learning classes with low prediction confidence and guarding against forgetting classes with high confidence. This combined approach fosters robust learning while preventing the model from forgetting previously learned knowledge. PAT exhibits significant performance improvements, surpassing the current state-of-the-art by 2.2% in the NyU dataset. Moreover, it enhances overall pixel-wise accuracy by 2.85% and intersection over union value by 2.07%, with a particularly notable declination of 0.39% in detecting rare classes compared to Balance Logits Variation, as demonstrated on the three popular datasets, i.e., OxfordPetIII, CityScape, and NYU.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# 大規模言語モデルによるコンピュータ可読コンテンツの生成

Guiding Large Language Models to Generate Computer-Parsable Content ( http://arxiv.org/abs/2404.05499v2 )

ライセンス: Link先を確認
Jiaye Wang, (参考訳) 本研究では,特定の規則に忠実な構造化コンテンツを生成する際に,微調整なしでLLM(Large Language Models)をガイドする方法を提案する。 文脈自由文法(CFG)を用いてコルーチンに基づくコンテンツ生成制約を利用することにより、LLMはデコード中に指示され、形式言語に準拠する出力を生成する。 これにより、ターゲットデータ構造、型、命令を生成する際の安定性と一貫性が向上し、アプリケーション開発の複雑さが軽減される。 GPT-2 と Gemma の誤差率は、それぞれ 36 と 282 のトークンよりも長い DSL に対して 95% 以上である。 本稿では、コルーチンベースのDSL生成フレームワークであるYieldLangを紹介し、JSONやMermaidフローチャート生成など、さまざまなタスクでLLMで評価する。 LLMはJSONを効果的に生成するために、サンプルの16.5%しか必要としない。 これにより、コンピュータプログラムにおけるLLM生成コンテンツのユーザビリティが向上する。

We propose a method to guide Large Language Models (LLMs) in generating structured content adhering to specific conventions without fine-tuning. By utilizing coroutine-based content generation constraints through a pre-agreed context-free grammar (CFG), LLMs are directed during decoding to produce formal language compliant outputs. This enhances stability and consistency in generating target data structures, types, or instructions, reducing application development complexities. Experimentally, error rates of GPT-2 and Gemma exceed 95% for DSLs longer than 36 and 282 tokens, respectively. We introduce YieldLang, a coroutine-based DSL generation framework, and evaluate it with LLMs on various tasks including JSON and Mermaid flowchart generation. Compared to benchmarks, our approach improves accuracy by 1.09 to 11.6 times, with LLMs requiring only about 16.5% of the samples to generate JSON effectively. This enhances usability of LLM-generated content for computer programs.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# LLMプログラム修復におけるFact Selection問題

The Fact Selection Problem in LLM-Based Program Repair ( http://arxiv.org/abs/2404.05520v2 )

ライセンス: Link先を確認
Nikhil Parasaram, Huijie Yan, Boyu Yang, Zineb Flahy, Abriele Qudsi, Damian Ziaber, Earl Barr, Sergey Mechtaev, (参考訳) 最近の研究によると、スタックトレースやGitHubの問題といったバグ関連の事実をインクルードすることで、大規模言語モデル(LLM)のバグ修正機能を強化している。 バグを正しく修正する可能性を最大化するためのプロンプトに、何つの事実を含めるべきなのか? この質問に答えるために、我々は大規模な調査を行い、BugsInPyベンチマーク内のオープンソースのPythonプロジェクトから314のバグを修正するために、7つのさまざまな事実の組み合わせを含む19K以上のプロンプトを使用しました。 以上の結果から,コードコンテキストのような単純な構文情報から,エンジェル値などのLLMの文脈で探索されていない意味情報まで,それぞれの事実が有用であることが判明した。 具体的には、各事実は未解決のまま、あるいは未解決で低い成功率でしか修正されないバグを修正するのに役立ちます。 重要なことに、プログラム修復プロンプトの有効性は、使用済み事実の数よりも非単調であることが判明した。 これらの知見は、与えられたタスクインスタンス上でのLCMのパフォーマンスを最大化するプロンプトに含めるための事象の最適セットを決定するという、事実選択の問題を定義した。 バグ修正には,すべての事実に適合するものが存在しないことが分かりました。 そこで我々は,特定のバグに特異的な事実を抽出し,プロンプトに含める基本統計モデルManipleを開発した。 このモデルは、最も一般的な事実セットのパフォーマンスを大幅に上回る。 事実選択問題の重要性を明らかにするために,我々は,現在最先端のゼロショット,非会話型LPMによるバグ修復手法に対して,Manipleをベンチマークした。 157のバグからなるテストデータセットで、Manipleは88のバグを修復します。

Recent research has shown that incorporating bug-related facts, such as stack traces and GitHub issues, into prompts enhances the bug-fixing capabilities of large language models (LLMs). Considering the ever-increasing context window of these models, a critical question arises: what and how many facts should be included in prompts to maximise the chance of correctly fixing bugs? To answer this question, we conducted a large-scale study, employing over 19K prompts featuring various combinations of seven diverse facts to rectify 314 bugs from open-source Python projects within the BugsInPy benchmark. Our findings revealed that each fact, ranging from simple syntactic details like code context to semantic information previously unexplored in the context of LLMs such as angelic values, is beneficial. Specifically, each fact aids in fixing some bugs that would remain unresolved or only be fixed with a low success rate without it. Importantly, we discovered that the effectiveness of program repair prompts is non-monotonic over the number of used facts; using too many facts leads to subpar outcomes. These insights led us to define the fact selection problem: determining the optimal set of facts for inclusion in a prompt to maximise LLM's performance on a given task instance. We found that there is no one-size-fits-all set of facts for bug repair. Therefore, we developed a basic statistical model, named Maniple, which selects facts specific to a given bug to include in the prompt. This model significantly surpasses the performance of the best generic fact set. To underscore the significance of the fact selection problem, we benchmarked Maniple against the state-of-the-art zero-shot, non-conversational LLM-based bug repair methods. On our testing dataset of 157 bugs, Maniple repairs 88 bugs, 17% above the best configuration.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# GFlowNetsにおける動的バックトラッキング:逆依存性調整機構による決定ステップの強化

Dynamic Backtracking in GFlowNets: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms ( http://arxiv.org/abs/2404.05576v2 )

ライセンス: Link先を確認
Shuai Guo, Jielei Chu, Lei Zhu, Tianrui Li, (参考訳) 生成フローネットワーク (Generative Flow Networks, GFlowNets) はマルコフフローを前提とした確率論的モデルであり, 生体分子, 化学材料などの構成物質を生成する確率論的ポリシーを学ぶために, 特定のアモーティゼーションアルゴリズムを用いている。 高性能な生化学分子の生成において、GFlowNetsは強大な進歩を実証し、科学物質の発見を加速し、従来の物質発見に固有の時間的、労働集約的でコストのかかる欠点を効果的に回避する。 しかし、以前の研究は探索的な経験の蓄積に苦しむことが多く、拡張的なサンプリング空間内では向かない傾向にある。 LS-GFNのようなこの問題に対処しようとする試みは、局所的な欲求検索に限定され、より広範なグローバルな調整が欠如している。 本稿では,報酬に基づく動的バックトラッキング機構を通じて意思決定ステップの適応性を向上する新しいGFlowNetの動的バックトラッキングGFN(DB-GFN)を提案する。 DB-GFNは、現在の状態の報酬値に従ってネットワーク構築プロセス中にバックトラックを許可し、不利な決定を訂正し、探索プロセス中に代替経路を探索する。 DB-GFNは、生化学分子および遺伝物質配列の生成タスクに応用され、サンプルの品質、探索サンプル量、トレーニング収束速度の観点から、既存のGFlowNetsモデルや従来の強化学習手法を超越している。 さらに、DB-GFNの直交的な性質は、GFlowNetsの将来的な改善のための強力なツールとしての可能性を示し、より効率的な検索性能を達成するために他の戦略と統合することを約束している。

Generative Flow Networks (GFlowNets) are probabilistic models predicated on Markov flows, employing specific amortization algorithms to learn stochastic policies that generate compositional substances including biomolecules, chemical materials, and more. Demonstrating formidable prowess in generating high-performance biochemical molecules, GFlowNets accelerate the discovery of scientific substances, effectively circumventing the time-consuming, labor-intensive, and costly shortcomings intrinsic to conventional material discovery. However, previous work often struggles to accumulate exploratory experience and is prone to becoming disoriented within expansive sampling spaces. Attempts to address this issue, such as LS-GFN, are limited to local greedy searches and lack broader global adjustments. This paper introduces a novel GFlowNets variant, the Dynamic Backtracking GFN (DB-GFN), which enhances the adaptability of decision-making steps through a reward-based dynamic backtracking mechanism. DB-GFN permits backtracking during the network construction process according to the current state's reward value, thus correcting disadvantageous decisions and exploring alternative pathways during the exploration process. Applied to generative tasks of biochemical molecules and genetic material sequences, DB-GFN surpasses existing GFlowNets models and traditional reinforcement learning methods in terms of sample quality, exploration sample quantity, and training convergence speed. Furthermore, the orthogonal nature of DB-GFN suggests its potential as a powerful tool for future improvements in GFlowNets, with the promise of integrating with other strategies to achieve more efficient search performance.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# トランスフォーマーによる犯罪対策 : 支払データにおけるアドレス解析手法の実証分析

Fighting crime with Transformers: Empirical analysis of address parsing methods in payment data ( http://arxiv.org/abs/2404.05632v2 )

ライセンス: Link先を確認
Haitham Hammami, Louis Baligand, Bojan Petrovski, (参考訳) 金融業界では、様々な規制要件の文脈において、支払いに関わる当事者の位置を特定することが大きな課題である。 この目的のために、アドレス解析は、無料のテキストメッセージ属性から道路、郵便コード、国などのフィールドを抽出する。 支払い処理プラットフォームは、SWIFTやISO 20022のようなより構造化されたフォーマットで標準を更新しているが、大量のメッセージにはアドレス解析が不可欠である。 変換器と生成大言語モデル(LLM)の出現に伴い、大量の日次データを処理するという制約を考えると、最先端のソリューションの性能について検討する。 また,実世界の騒々しいトランザクションデータを扱うことのできるロバストモデルのトレーニングの必要性を示す。 以上の結果から,早期ストラップを用いた微調整トランスフォーマーモデルの方が,他の手法よりも優れていたことが示唆された。 それでも、生成LDMは強力なゼロショット性能を示し、さらなる調査を保証している。

In the financial industry, identifying the location of parties involved in payments is a major challenge in the context of various regulatory requirements. For this purpose address parsing entails extracting fields such as street, postal code, or country from free text message attributes. While payment processing platforms are updating their standards with more structured formats such as SWIFT with ISO 20022, address parsing remains essential for a considerable volume of messages. With the emergence of Transformers and Generative Large Language Models (LLM), we explore the performance of state-of-the-art solutions given the constraint of processing a vast amount of daily data. This paper also aims to show the need for training robust models capable of dealing with real-world noisy transactional data. Our results suggest that a well fine-tuned Transformer model using early-stopping significantly outperforms other approaches. Nevertheless, generative LLMs demonstrate strong zero-shot performance and warrant further investigations.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# 逆条件順応によるフレキシブルフェアネス学習

Flexible Fairness Learning via Inverse Conditional Permutation ( http://arxiv.org/abs/2404.05678v2 )

ライセンス: Link先を確認
Yuheng Lai, Leying Guan, (参考訳) 等化確率は、アルゴリズムの公正性の一般的な概念として、人種や性別などの敏感な変数が真の結果に条件付けした場合にアルゴリズムの予測に不公平に影響を与えないようにすることを目的としている。 急速な進歩にもかかわらず、現在の研究の大部分は、1つの機密属性による等化確率の違反に焦点を合わせており、同時に複数の属性を過小評価することの難しさを残している。 このギャップに対処するため, 対人学習と新しい逆条件置換を融合したフェアネス学習手法を提案する。 このアプローチは、複数の機密属性(おそらく混合データ型)を効果的かつ柔軟に処理する。 本手法の有効性と柔軟性は実世界のデータセットのシミュレーション研究と実証分析の両方を通して実証された。

Equalized odds, as a popular notion of algorithmic fairness, aims to ensure that sensitive variables, such as race and gender, do not unfairly influence the algorithm prediction when conditioning on the true outcome. Despite rapid advancements, most of the current research focuses on the violation of equalized odds caused by one sensitive attribute, leaving the challenge of simultaneously accounting for multiple attributes under-addressed. We address this gap by introducing a fairness learning approach that integrates adversarial learning with a novel inverse conditional permutation. This approach effectively and flexibly handles multiple sensitive attributes, potentially of mixed data types. The efficacy and flexibility of our method are demonstrated through both simulation studies and empirical analysis of real-world datasets.
翻訳日:2024-04-10 13:32:17 公開日:2024-04-09
# Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル

Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series ( http://arxiv.org/abs/2401.03955v5 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam H. Nguyen, Pankaj Dayama, Chandra Reddy, Wesley M. Gifford, Jayant Kalagnanam, (参考訳) ゼロ/フェーショット学習のための大規模な事前学習モデルは、言語や視覚領域において優れているが、多変量時系列(TS)において、公開されている事前学習データの多様性と不足により、課題に直面している。 その結果、TS予測のためのトークン適応による事前訓練済みの大規模言語モデル(LLM)の利用が近年急増している。 これらのアプローチはクロスドメイン転送学習を採用しており、驚くべき結果をもたらす。 しかしながら、これらのモデルは典型的には非常に遅く、大きい(−ビリオンパラメータ)ため、チャネル間の相関を考慮しない。 これを解決するために,軽量なTSMixerアーキテクチャに基づく,はるかに小さなモデルであるTiny Time Mixers (TTM)を提案する。 TTMは、パブリックTSデータセットにのみトレーニングされた高速で小さな一般トレーニング済みモデル(<1Mパラメータ)を開発し、予測に効果的な転送学習機能を備えた最初の成功である。 時間分解能の異なる複数のデータセットに対する事前トレーニングの複雑さに対処するために、適応パッチ、ダウンサンプリングによるデータセット拡張、解像度プレフィックスチューニングなど、いくつかの新しい拡張を導入する。 さらに,チャネル相関を効果的にモデル化し,既存のベンチマークに欠落する重要な機能である微調整時に外因性シグナルを注入するためのマルチレベルモデリング手法を用いる。 TTMは、少数/ゼロショットの予測において、人気のあるベンチマークよりも大幅に精度が向上している(12-38\%)。 また、LLM-TS法と比較して、学習可能なパラメータが14倍、総パラメータが106倍、微調整(65倍)と推論時間(54倍)が大幅に削減された。 実際、TTMのゼロショットは、多くの人気のあるベンチマークにおいて、数ショットの結果を上回ることが多く、我々のアプローチの有効性を強調している。 モデルとソースコードはhttps://huggingface.co/ibm/TTMで入手できる。

Large pre-trained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pre-training data. Consequently, there has been a recent surge in utilizing pre-trained large language models (LLMs) with token adaptations for TS forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large (~billion parameters) and do not consider cross-channel correlations. To address this, we present Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing fast and tiny general pre-trained models (<1M parameters), exclusively trained on public TS datasets, with effective transfer learning capabilities for forecasting. To tackle the complexity of pre-training on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and infuse exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM shows significant accuracy gains (12-38\%) over popular benchmarks in few/zero-shot forecasting. It also drastically reduces the compute needs as compared to LLM-TS methods, with a 14X cut in learnable parameters, 106X less total parameters, and substantial reductions in fine-tuning (65X) and inference time (54X). In fact, TTM's zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Models and source code are available at https://huggingface.co/ibm/TTM
翻訳日:2024-04-10 11:34:21 公開日:2024-04-09
# Feature Re-Embedding:計算病理学における基礎モデルレベルパフォーマンスを目指して

Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology ( http://arxiv.org/abs/2402.17228v3 )

ライセンス: Link先を確認
Wenhao Tang, Fengtao Zhou, Sheng Huang, Xiang Zhu, Yi Zhang, Bo Liu, (参考訳) マルチプル・インスタンス・ラーニング(MIL)は、サブタイピング、診断、予後などを含む、計算病理学において最も広く使われているフレームワークである。 しかし、既存のMILパラダイムは、通常、トレーニング済みのResNetやファンデーションモデルのようなオフラインのインスタンス機能抽出器を必要とする。 このアプローチには、特定の下流タスク内で機能を微調整する機能がなく、適応性とパフォーマンスが制限されている。 この問題に対処するため,インスタンス機能をオンラインで再埋め込みするためのRe-embedded Regional Transformer (R$^2$T)を提案する。 強力な機能抽出器を事前訓練したり、洗練されたインスタンスアグリゲータを設計する既存の作業とは異なり、R$^2$Tはオンラインでインスタンス機能を再組み込むように調整されている。 メインストリームのMILモデルにシームレスに統合できるポータブルモジュールとして機能する。 一般的な計算病理タスクに関する大規模な実験結果は、以下の通りである。 1) 機能再埋め込みにより,ResNet-50機能に基づくMILモデルの性能が基礎モデル機能レベルに向上し,基礎モデル機能の性能がさらに向上する。 2) R$^2$T は様々な MIL モデルにさらなる性能改善をもたらすことができる。 3) R$^2$T-MIL は R$^2$T-enhanced AB-MIL である。

Multiple instance learning (MIL) is the most widely used framework in computational pathology, encompassing sub-typing, diagnosis, prognosis, and more. However, the existing MIL paradigm typically requires an offline instance feature extractor, such as a pre-trained ResNet or a foundation model. This approach lacks the capability for feature fine-tuning within the specific downstream tasks, limiting its adaptability and performance. To address this issue, we propose a Re-embedded Regional Transformer (R$^2$T) for re-embedding the instance features online, which captures fine-grained local features and establishes connections across different regions. Unlike existing works that focus on pre-training powerful feature extractor or designing sophisticated instance aggregator, R$^2$T is tailored to re-embed instance features online. It serves as a portable module that can seamlessly integrate into mainstream MIL models. Extensive experimental results on common computational pathology tasks validate that: 1) feature re-embedding improves the performance of MIL models based on ResNet-50 features to the level of foundation model features, and further enhances the performance of foundation model features; 2) the R$^2$T can introduce more significant performance improvements to various MIL models; 3) R$^2$T-MIL, as an R$^2$T-enhanced AB-MIL, outperforms other latest methods by a large margin.The code is available at: https://github.com/DearCaat/RRT-MIL.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# オープン環境におけるオブジェクト検出器:課題、解決策、展望

Object Detectors in the Open Environment: Challenges, Solutions, and Outlook ( http://arxiv.org/abs/2403.16271v4 )

ライセンス: Link先を確認
Siyuan Liang, Wei Wang, Ruoyu Chen, Aishan Liu, Boxi Wu, Ee-Chien Chang, Xiaochun Cao, Dacheng Tao, (参考訳) 基礎モデルの出現に伴い、深層学習に基づくオブジェクト検出器は、クローズドセットのシナリオで実用的なユーザビリティを示してきた。 しかし、現実世界のタスクでは、オブジェクト検出器は、しばしばオープンな環境で動作し、モデル学習に影響を与える重要な要因(例えば、データ分散、目的)が頻繁に変化している。 オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。 残念ながら、現在のオープン環境におけるオブジェクト検出器の研究は、それらの特徴、課題、およびそれに対応するソリューションの包括的な分析を欠いている。 本稿では,オープン環境における物体検出装置の総合的なレビューと解析を行うことにより,このギャップを埋めることを目的とする。 当初我々は、既存の検出パイプラインにおける重要な構造コンポーネントの制限を特定し、データ/ターゲットの変化の次元に基づいて、4つの四分法(領域外、カテゴリ外、堅牢な学習、漸進的な学習)を含むオープン環境オブジェクト検出挑戦フレームワークを提案しました。 提案するフレームワークにおける課題の4つごとに,その概要と課題の体系的な説明と分析を行い,対応するソリューションを体系的にレビューし,複数の広く採用されているデータセットに対してその性能をベンチマークする。 また,オープンな問題と今後の研究への潜在的道筋についても議論する。 本研究の目的は、オープン環境オブジェクト検出器に関連する課題と解決策について、新しく、包括的で体系的な理解を提供することであり、現実のシナリオにおけるより堅牢なアプリケーションの開発を促進することである。 この調査に関連するプロジェクトはhttps://github.com/LiangSiyuan21/OEOD_Survey.comにある。

With the emergence of foundation models, deep learning-based object detectors have shown practical usability in closed set scenarios. However, for real-world tasks, object detectors often operate in open environments, where crucial factors (e.g., data distribution, objective) that influence model learning are often changing. The dynamic and intricate nature of the open environment poses novel and formidable challenges to object detectors. Unfortunately, current research on object detectors in open environments lacks a comprehensive analysis of their distinctive characteristics, challenges, and corresponding solutions, which hinders their secure deployment in critical real-world scenarios. This paper aims to bridge this gap by conducting a comprehensive review and analysis of object detectors in open environments. We initially identified limitations of key structural components within the existing detection pipeline and propose the open environment object detector challenge framework that includes four quadrants (i.e., out-of-domain, out-of-category, robust learning, and incremental learning) based on the dimensions of the data / target changes. For each quadrant of challenges in the proposed framework, we present a detailed description and systematic analysis of the overarching goals and core difficulties, systematically review the corresponding solutions, and benchmark their performance over multiple widely adopted datasets. In addition, we engage in a discussion of open problems and potential avenues for future research. This paper aims to provide a fresh, comprehensive, and systematic understanding of the challenges and solutions associated with open-environment object detectors, thus catalyzing the development of more solid applications in real-world scenarios. A project related to this survey can be found at https://github.com/LiangSiyuan21/OEOD_Survey.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# 弱教師付きセマンティックセグメンテーションにおけるアテンションマップの背景雑音低減

Background Noise Reduction of Attention Map for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2404.03394v2 )

ライセンス: Link先を確認
Izumi Fujimori, Masaki Oono, Masami Shishibori, (参考訳) CNNベースのクラスアクティベーションマップ (Class Activation Maps, CAM) では、画像レベルのラベルのみを用いたWSSS(弱教師付きセマンティックセマンティックセグメンテーション)では、オブジェクトの最も差別的な局所領域を活性化する傾向がある。 一方、トランスフォーマーに基づく手法は、グローバルな特徴を学習するが、背景騒音汚染の問題に悩まされる。 本稿では,TransCAM として知られる Conformer をベースとした既存 WSSS 法における注目重みの背景雑音問題に対処することに焦点を当てた。 提案手法は,背景雑音の低減に成功し,擬似ラベルの精度が向上した。 実験の結果,PASCAL VOC 2012バリデーションデータでは70.5%,テストデータでは71.1%,MS COCO 2014では45.9%,セグメンテーション性能ではTransCAMを上回った。

In weakly-supervised semantic segmentation (WSSS) using only image-level class labels, a problem with CNN-based Class Activation Maps (CAM) is that they tend to activate the most discriminative local regions of objects. On the other hand, methods based on Transformers learn global features but suffer from the issue of background noise contamination. This paper focuses on addressing the issue of background noise in attention weights within the existing WSSS method based on Conformer, known as TransCAM. The proposed method successfully reduces background noise, leading to improved accuracy of pseudo labels. Experimental results demonstrate that our model achieves segmentation performance of 70.5% on the PASCAL VOC 2012 validation data, 71.1% on the test data, and 45.9% on MS COCO 2014 data, outperforming TransCAM in terms of segmentation performance.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# マンモグラフィにおける乳癌診断の強化:畳み込みニューラルネットワークと説明可能なAIの評価と統合

Enhancing Breast Cancer Diagnosis in Mammography: Evaluation and Integration of Convolutional Neural Networks and Explainable AI ( http://arxiv.org/abs/2404.03892v2 )

ライセンス: Link先を確認
Maryam Ahmed, Tooba Bibi, Rizwan Ahmed Khan, Sidra Nasir, (参考訳) 本研究は,CBIS-DDSMデータセットを用いた乳がんの診断に,畳み込みニューラルネットワーク(CNN)と説明可能な人工知能(XAI)を組み合わせた統合フレームワークを提案する。 細調整されたResNet50アーキテクチャを用いて,マンモグラフィ画像の良性・悪性カテゴリへの効果的な分化だけでなく,XAI手法,すなわちGrad-CAM,LIME,SHAPを用いて,医療従事者のCNN決定過程を解釈することで,深層学習モデルの「ブラックボックス」性にも対処する。 VGG-16, DenseNet, ResNetなどの事前学習ネットワークを用いたデータ前処理パイプラインと高度なデータ拡張技術を用いて, データセット制限に対処し, 転送学習を行った。 本研究の焦点は,モデル予測の解釈におけるXAIの有効性を評価することである。 このアプローチは、AI支援診断における信頼性と倫理的公正性を促進する上で、XAIにとって重要な役割を果たす。 本研究は,CNNとXAIが乳がんの診断方法の進歩に効果的に協力し,臨床現場における高度なAI技術のよりシームレスな統合を図ったものである。 この研究は、AI駆動による意思決定の解釈可能性を高めることによって、AIシステムと医療従事者とのコラボレーションを改善するための基礎を築き、最終的には患者のケアを豊かにする。 さらに、本研究の意義は、現在の方法論をはるかに超えて、マルチモーダルデータの統合と、臨床実践のニーズを満たすためのAI説明の洗練に関する今後の調査を提唱している。

The study introduces an integrated framework combining Convolutional Neural Networks (CNNs) and Explainable Artificial Intelligence (XAI) for the enhanced diagnosis of breast cancer using the CBIS-DDSM dataset. Utilizing a fine-tuned ResNet50 architecture, our investigation not only provides effective differentiation of mammographic images into benign and malignant categories but also addresses the opaque "black-box" nature of deep learning models by employing XAI methodologies, namely Grad-CAM, LIME, and SHAP, to interpret CNN decision-making processes for healthcare professionals. Our methodology encompasses an elaborate data preprocessing pipeline and advanced data augmentation techniques to counteract dataset limitations, and transfer learning using pre-trained networks, such as VGG-16, DenseNet and ResNet was employed. A focal point of our study is the evaluation of XAI's effectiveness in interpreting model predictions, highlighted by utilising the Hausdorff measure to assess the alignment between AI-generated explanations and expert annotations quantitatively. This approach plays a critical role for XAI in promoting trustworthiness and ethical fairness in AI-assisted diagnostics. The findings from our research illustrate the effective collaboration between CNNs and XAI in advancing diagnostic methods for breast cancer, thereby facilitating a more seamless integration of advanced AI technologies within clinical settings. By enhancing the interpretability of AI-driven decisions, this work lays the groundwork for improved collaboration between AI systems and medical practitioners, ultimately enriching patient care. Furthermore, the implications of our research extend well beyond the current methodologies, advocating for subsequent inquiries into the integration of multimodal data and the refinement of AI explanations to satisfy the needs of clinical practice.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# 重み補間による連続学習

Continual Learning with Weight Interpolation ( http://arxiv.org/abs/2404.04002v2 )

ライセンス: Link先を確認
Jędrzej Kozal, Jan Wasilewski, Bartosz Krawczyk, Michał Woźniak, (参考訳) 継続的学習は現代の機械学習システムにとって根本的な課題であり、モデルが新しいタスクに適応し、以前のタスクからの知識を保持する必要がある。 この課題に対処するには、データストリームから学習し、時間とともに知識を蓄積できる効率的なアルゴリズムの開発が必要である。 本稿では,重み強化手法を用いた継続学習手法を提案する。 提案手法は,従来のモデルウェイトと新しいモデルウェイトを補間することで,破滅的忘れに対するロバスト性を向上し,新しい概念の到来後に出現する局所ミニマの探索を容易にするために2つのモデルを効果的にマージする。 さらに,本手法は既存のリハーサルベースのリプレイ手法を補完し,その精度を向上し,忘れる現象を軽減できることを示す。 さらに, 本手法は, 安定性・塑性トレードオフを制御するための直感的なメカニズムを提供する。 実験結果から,提案した重み強化手法により,最先端体験再生アルゴリズムの性能向上が図られた。 私たちのアルゴリズムはhttps://github.com/jedrzejkozal/weight-interpolation-clからダウンロードできます。

Continual learning poses a fundamental challenge for modern machine learning systems, requiring models to adapt to new tasks while retaining knowledge from previous ones. Addressing this challenge necessitates the development of efficient algorithms capable of learning from data streams and accumulating knowledge over time. This paper proposes a novel approach to continual learning utilizing the weight consolidation method. Our method, a simple yet powerful technique, enhances robustness against catastrophic forgetting by interpolating between old and new model weights after each novel task, effectively merging two models to facilitate exploration of local minima emerging after arrival of new concepts. Moreover, we demonstrate that our approach can complement existing rehearsal-based replay approaches, improving their accuracy and further mitigating the forgetting phenomenon. Additionally, our method provides an intuitive mechanism for controlling the stability-plasticity trade-off. Experimental results showcase the significant performance enhancement to state-of-the-art experience replay algorithms the proposed weight consolidation approach offers. Our algorithm can be downloaded from https://github.com/jedrzejkozal/weight-interpolation-cl.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# PhysAvatar:視覚観察から3Dアバターの物理を学ぶ

PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations ( http://arxiv.org/abs/2404.04421v2 )

ライセンス: Link先を確認
Yang Zheng, Qingqing Zhao, Guandao Yang, Wang Yifan, Donglai Xiang, Florian Dubost, Dmitry Lagun, Thabo Beeler, Federico Tombari, Leonidas Guibas, Gordon Wetzstein, (参考訳) フォトリアリスティックアバターのモデリングとレンダリングは多くのアプリケーションにおいて重要な役割を担っている。 しかし、視覚的な観察から3Dアバターを作る既存の方法では、服を着た人間の再構築に苦労している。 逆レンダリングと逆物理を組み合わせた新しいフレームワークであるPhysAvatarを導入し、多視点ビデオデータから人間の形状と外観を、衣服の物理パラメータとともに自動的に推定する。 この目的のために,時空間メッシュトラッキングのためのメッシュ整列4Dガウス手法と,物理的にベースとした逆レンダラーを採用し,本質的な材料特性を推定する。 PhysAvatarは物理シミュレータを統合して、勾配に基づく最適化を原理的に用いた衣服の物理パラメータを推定する。 これらの新しい能力により、PhysAvatarは、トレーニングデータに見られない動きや照明条件の下で、ゆるい服を着たアバターの高品質なノベルビューレンダリングを作成することができる。 これは、物理に基づく逆レンダリングをループ内の物理で行うことによって、フォトリアリスティックなデジタル人間をモデル化するための大きな進歩となる。 プロジェクトのWebサイトは以下の通り。

Modeling and rendering photorealistic avatars is of crucial importance in many applications. Existing methods that build a 3D avatar from visual observations, however, struggle to reconstruct clothed humans. We introduce PhysAvatar, a novel framework that combines inverse rendering with inverse physics to automatically estimate the shape and appearance of a human from multi-view video data along with the physical parameters of the fabric of their clothes. For this purpose, we adopt a mesh-aligned 4D Gaussian technique for spatio-temporal mesh tracking as well as a physically based inverse renderer to estimate the intrinsic material properties. PhysAvatar integrates a physics simulator to estimate the physical parameters of the garments using gradient-based optimization in a principled manner. These novel capabilities enable PhysAvatar to create high-quality novel-view renderings of avatars dressed in loose-fitting clothes under motions and lighting conditions not seen in the training data. This marks a significant advancement towards modeling photorealistic digital humans using physically based inverse rendering with physics in the loop. Our project website is at: https://qingqing-zhao.github.io/PhysAvatar
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# SDFR:顔認識コンペティションのための合成データ

SDFR: Synthetic Data for Face Recognition Competition ( http://arxiv.org/abs/2404.04580v2 )

ライセンス: Link先を確認
Hatef Otroshi Shahreza, Christophe Ecabert, Anjith George, Alexander Unnervik, Sébastien Marcel, Nicolò Di Domenico, Guido Borghi, Davide Maltoni, Fadi Boutros, Julia Vogel, Naser Damer, Ángela Sánchez-Pérez, EnriqueMas-Candela, Jorge Calvo-Zaragoza, Bernardo Biesseck, Pedro Vidal, Roger Granada, David Menotti, Ivan DeAndres-Tame, Simone Maurizio La Cava, Sara Concas, Pietro Melzi, Ruben Tolosana, Ruben Vera-Rodriguez, Gianpaolo Perelli, Giulia Orrù, Gian Luca Marcialis, Julian Fierrez, (参考訳) 大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。 近年のジェネレーティブ・モデルの発展に伴い、ウェブクローリングされた顔認識データセットの懸念を軽減するために、合成顔認識データセットの生成が提案されている。 本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されるSDFR(Synthetic Data for Face Recognition)コンペティションの概要を述べる。 SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットや既存のデータセットを使って顔認識システムを訓練することができる。 第1のタスクでは、顔認識バックボーンが固定され、データセットサイズが制限され、第2のタスクは、モデルバックボーン、データセット、トレーニングパイプラインにほぼ完全な自由を提供する。 提案されたモデルは、既存の新しい合成データセットに基づいてトレーニングされ、巧妙な方法で合成データによるトレーニングを改善した。 提案は評価され、7つのベンチマークデータセットの多様なセットにランク付けされた。 本報告では,提案した顔認識モデルの概要と,実データおよび合成データセットに基づいてトレーニングしたベースラインモデルと比較して,達成された性能を報告する。 さらに、提案書の評価は、異なるデモグラフィーグループ間でバイアスアセスメントに拡張される。 最後に, 合成データを用いた顔認識モデルの訓練の現状を概観し, 既存の課題と今後の方向性についても考察した。

Large-scale face recognition datasets are collected by crawling the Internet and without individuals' consent, raising legal, ethical, and privacy concerns. With the recent advances in generative models, recently several works proposed generating synthetic face recognition datasets to mitigate concerns in web-crawled face recognition datasets. This paper presents the summary of the Synthetic Data for Face Recognition (SDFR) Competition held in conjunction with the 18th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024) and established to investigate the use of synthetic data for training face recognition models. The SDFR competition was split into two tasks, allowing participants to train face recognition systems using new synthetic datasets and/or existing ones. In the first task, the face recognition backbone was fixed and the dataset size was limited, while the second task provided almost complete freedom on the model backbone, the dataset, and the training pipeline. The submitted models were trained on existing and also new synthetic datasets and used clever methods to improve training with synthetic data. The submissions were evaluated and ranked on a diverse set of seven benchmarking datasets. The paper gives an overview of the submitted face recognition models and reports achieved performance compared to baseline models trained on real and synthetic datasets. Furthermore, the evaluation of submissions is extended to bias assessment across different demography groups. Lastly, an outlook on the current state of the research in training face recognition models using synthetic data is presented, and existing problems as well as potential future directions are also discussed.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# 画像回復の強化_マルチアテンションアプローチ

Empowering Image Recovery_ A Multi-Attention Approach ( http://arxiv.org/abs/2404.04617v2 )

ライセンス: Link先を確認
Juan Wen, Yawei Li, Chao Zhang, Weiyan Hou, Radu Timofte, Luc Van Gool, (参考訳) DART(Diverse Restormer)は,様々なソース(長周期,局所領域,大域領域,特徴次元,位置次元)からの情報を効果的に統合し,復元課題に対処する新しい画像復元手法である。 Transformerモデルは、自己保持機構による画像復元において優れた性能を示してきたが、複雑なシナリオでは制限に直面している。 近年のトランスフォーマーの進歩と各種アテンション機構を活用することで,アテンション機構をカスタマイズし,全体的な性能を向上させる。 我々の新しいネットワークアーキテクチャであるDARTは、人間の目の選択的な焦点決め機構を模倣するために、窓張りの注意を払っています。 受容場を動的に調整することにより、画像の解像度復元に不可欠な基本的特徴を最適に捉える。 長周期画像復元のためのLongIRアテンション機構により効率と性能のバランスを実現する。 特徴次元と位置次元をまたいだ注意機構の統合により、詳細の回復がさらに促進される。 5つの修復作業における評価は、常にDARTを最前線に配置する。 受け入れると、再現性を確保し、さらなる研究を促進するために、パブリックアクセス可能なコードとモデルを提供することを約束します。

We propose Diverse Restormer (DART), a novel image restoration method that effectively integrates information from various sources (long sequences, local and global regions, feature dimensions, and positional dimensions) to address restoration challenges. While Transformer models have demonstrated excellent performance in image restoration due to their self-attention mechanism, they face limitations in complex scenarios. Leveraging recent advancements in Transformers and various attention mechanisms, our method utilizes customized attention mechanisms to enhance overall performance. DART, our novel network architecture, employs windowed attention to mimic the selective focusing mechanism of human eyes. By dynamically adjusting receptive fields, it optimally captures the fundamental features crucial for image resolution reconstruction. Efficiency and performance balance are achieved through the LongIR attention mechanism for long sequence image restoration. Integration of attention mechanisms across feature and positional dimensions further enhances the recovery of fine details. Evaluation across five restoration tasks consistently positions DART at the forefront. Upon acceptance, we commit to providing publicly accessible code and models to ensure reproducibility and facilitate further research.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# 非線型カップリングによるスピン格子緩和:フェルミの黄金律と拡張ディシパトン運動方程式の比較

Spin-lattice relaxation with non-linear couplings: Comparison between Fermi's golden rule and extended dissipaton equation of motion ( http://arxiv.org/abs/2404.04803v2 )

ライセンス: Link先を確認
Rui-Hao Bi, Yu Su, Yao Wang, Lei Sun, Wenjie Dou, (参考訳) フェルミの黄金律(FGR)は、磁気分子におけるスピン格子緩和のダイナミクスを理解するための実証的な枠組みを提供し、直接(1フォノン)やラマン(2フォノン)プロセスのような機構を含んでいる。 これらの原理は、T_1^{-1}$と表される実験的な縦緩和率を効果的にモデル化する。 しかし、結合強度の増加と非線形スピン格子相互作用のシナリオでは、FGRの適用性が低下する可能性がある。 本稿では、拡張ディシパトン運動方程式(DEOM)を用いて、正確なスピン格子緩和速度カーネルを数値的に評価する。 計算の結果, 2次スピン格子結合を考えると, 速度核は自由誘導減衰様の特徴を持ち, 減衰速度は相互作用強度に依存することがわかった。 FGRはスピン格子緩和の非マルコフ的性質を無視するので、FGRによって予測される温度依存性は正確な結果から著しく逸脱する。 本手法は, 非線形スピン格子相互作用を持つ他の系にも容易に適用でき, 分子量子ビットにおけるT_1$の温度依存性に関する貴重な知見を得ることができる。

Fermi's golden rule (FGR) offers an empirical framework for understanding the dynamics of spin-lattice relaxation in magnetic molecules, encompassing mechanisms like direct (one-phonon) and Raman (two-phonon) processes. These principles effectively model experimental longitudinal relaxation rates, denoted as $T_1^{-1}$. However, under scenarios of increased coupling strength and nonlinear spin-lattice interactions, FGR's applicability may diminish. This paper numerically evaluates the exact spin-lattice relaxation rate kernels, employing the extended dissipaton equation of motion (DEOM) formalism. Our calculations reveal that when quadratic spin-lattice coupling is considered, the rate kernels exhibit a free induction decay-like feature, and the damping rates depend on the interaction strength. We observe that the temperature dependence predicted by FGR significantly deviates from the exact results since FGR ignores the non-Markovian nature of spin-lattice relaxation. Our methods can be readily applied to other systems with nonlinear spin-lattice interactions and provide valuable insights into the temperature dependence of $T_1$ in molecular qubits.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# SLPL SHROOM at SemEval2024 Task 06: 幻覚検出能力に関する総合的研究

SLPL SHROOM at SemEval2024 Task 06: A comprehensive study on models ability to detect hallucination ( http://arxiv.org/abs/2404.04845v2 )

ライセンス: Link先を確認
Pouya Fallah, Soroush Gooran, Mohammad Jafarinasab, Pouya Sadeghi, Reza Farnia, Amirreza Tarabkhah, Zainab Sadat Taghavi, Hossein Sameti, (参考訳) 言語モデル、特に生成モデルは幻覚に影響を受けやすく、事実的知識や原文と矛盾する出力を生成する。 本研究では,SemEval-2024タスク6の3つのタスク(機械翻訳,定義モデリング,パラフレーズ生成)における幻覚検出手法について検討する。 生成したテキストと事実参照のセマンティックな類似性、および相互の出力を判断する言語モデルのアンサンブルの2つの方法を評価する。 以上の結果から,意味的類似性は試行データにおいて適度な精度と相関スコアを達成し,アンサンブル法は幻覚検出の複雑さに関する洞察を提供するが,期待には届かなかった。 この研究は幻覚検出の課題を強調し、この重要な領域におけるさらなる研究の必要性を浮き彫りにしている。

Language models, particularly generative models, are susceptible to hallucinations, generating outputs that contradict factual knowledge or the source text. This study explores methods for detecting hallucinations in three SemEval-2024 Task 6 tasks: Machine Translation, Definition Modeling, and Paraphrase Generation. We evaluate two methods: semantic similarity between the generated text and factual references, and an ensemble of language models that judge each other's outputs. Our results show that semantic similarity achieves moderate accuracy and correlation scores in trial data, while the ensemble method offers insights into the complexities of hallucination detection but falls short of expectations. This work highlights the challenges of hallucination detection and underscores the need for further research in this critical area.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# 3Dカラーコードのマジック境界

Magic Boundaries of 3D Color Codes ( http://arxiv.org/abs/2404.05033v2 )

ライセンス: Link先を確認
Zijian Song, Guanyu Zhu, (参考訳) 我々は,3次元カラーコードの境界について検討し,体系的な分類を101の異なる境界タイプに分類する。 基本的な境界は、電粒子(Z$-type)または磁束(X$-type)の3Dカラーコードでの励起を凝縮するコメンジョン-1(2D)境界、電粒子のみを凝縮する$Z$-boundary Condensing、磁束のみを凝縮する$X$-boundary Condensing、電気と磁気の励起を凝縮する他の境界である。 特定の基本タイプに基づいて、2つの新しいタイプの境界を生成することができる。 最初の型は、$X$-boundaryの存在下でコード全体にtransversal-$T$ gateを適用することで生成され、システム全体にわたってcodimension-1 (2D) $T$- domain Wallを事実上掃除し、$X$-boundaryにアタッチする。 $T$ドメインの壁は$X$バウンダリで凝縮できないため、境界安定化器は従来のパウリ安定化器の定式化を超えて$XS$スタビライザを含み、したがって 'magic' を含む新しいマジック境界が生成される。 電気的・磁気的な励起はそのようなマジック境界に凝縮せず、磁束と余次元2(1D)$S$-ドメイン壁の合成だけが凝縮し、魔法の境界はラグランジアン部分群の分類を超えたものとなる。 第2のタイプは、ある余次元-1(2D)境界が存在する場合、余次元-1(2D)部分多様体にtransversal-S$ gateを適用することで生成される。 これにより、交点における余次元2 (1D) のネスト境界が生成される。 また、これらの新しい境界線は3次元トーリック符号の3つのコピーに相当する$\mathbb{Z}_2^3$ゲージ理論で、$S$と$T$ドメインの壁はゲージ付き対称性保護位相(SPT)欠陥に対応する。

We investigate boundaries of 3D color codes and provide a systematic classification into 101 distinct boundary types. The elementary types of boundaries are codimension-1 (2D) boundaries that condense electric particle ($Z$-type) or magnetic flux ($X$-type) excitations in the 3D color code, including the $Z$-boundary condensing only electric particles, the $X$-boundary condensing only the magnetic flux, and other boundaries condensing both electric and magnetic excitations. Two novel types of boundaries can be generated based on certain elementary types. The first type is generated by applying transversal-$T$ gate on the entire code in the presence of the $X$-boundary, which effectively sweeps the codimension-1 (2D) $T$-domain wall across the system and attaches it to the $X$-boundary. Since the $T$-domain wall cannot condense on the $X$-boundary, a new magic boundary is produced, where the boundary stabilizers contain $XS$-stabilizers going beyond the conventional Pauli stabilizer formalism and hence contains `magic'. Neither electric nor magnetic excitations can condense on such a magic boundary, and only the composite of the magnetic flux and codimension-2 (1D) $S$-domain wall can condense on it, which makes the magic boundary going beyond the classification of the Lagrangian subgroup. The second type is generated by applying transversal-$S$ gate on a codimension-1 (2D) submanifold in the presence of certain codimension-1 (2D) boundaries, which effectively sweeps the $S$-domain wall across this submanifold and attaches it onto the boundary. This generates a codimension-2 (1D) nested boundary at the intersection. We also connect these novel boundaries to their previously discovered counterpart in the $\mathbb{Z}_2^3$ gauge theory equivalent to three copies of 3D toric codes, where the $S$ and $T$ domain walls correspond to gauged symmetry-protected topological (SPT) defects.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# フォワードフォワードアルゴリズムの軽量推論

Lightweight Inference for Forward-Forward Algorithm ( http://arxiv.org/abs/2404.05241v2 )

ライセンス: Link先を確認
Amin Aminifar, Baichuan Huang, Azra Abtahi, Amir Aminifar, (参考訳) 人間の脳は優れたエネルギー効率、すなわち約20ワットのワットでタスクを実行する。 一方、最先端のArtificial/Deep Neural Networks(ANN/DNN)は、最近大量のエネルギーを消費していることが示されている。 これらのANN/DNNのトレーニングは、ほとんど生物学的に不可能であることが知られているバックプロパゲーションアルゴリズムに基づいて行われる。 これにより、Forward-Forwardアルゴリズムを含む、新しい世代のフォワード専用技術が生まれた。 本稿では,Forward-Forwardアルゴリズムを用いてトレーニングしたDNNを対象とした,軽量な推論手法を提案する。 我々は,MNIST と CIFAR データセットを用いた軽量推論手法と,その関連性を示す2つの実世界の応用,すなわちてんかん性発作検出と,ウェアラブル技術を用いた心臓不整脈分類について検討した。

The human brain performs tasks with an outstanding energy-efficiency, i.e., with approximately 20 Watts. The state-of-the-art Artificial/Deep Neural Networks (ANN/DNN), on the other hand, have recently been shown to consume massive amounts of energy. The training of these ANNs/DNNs is done almost exclusively based on the back-propagation algorithm, which is known to be biologically implausible. This has led to a new generation of forward-only techniques, including the Forward-Forward algorithm. In this paper, we propose a lightweight inference scheme specifically designed for DNNs trained using the Forward-Forward algorithm. We have evaluated our proposed lightweight inference scheme in the case of the MNIST and CIFAR datasets, as well as two real-world applications, namely, epileptic seizure detection and cardiac arrhythmia classification using wearable technologies, where complexity overheads/energy consumption is a major constraint, and demonstrate its relevance.
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09
# TIM:オーディオ・ビジュアル・アクション認識のためのタイムインターバルマシン

TIM: A Time Interval Machine for Audio-Visual Action Recognition ( http://arxiv.org/abs/2404.05559v2 )

ライセンス: Link先を確認
Jacob Chalk, Jaesung Huh, Evangelos Kazakos, Andrew Zisserman, Dima Damen, (参考訳) 様々なアクションは、長いビデオでリッチなオーディオ視覚信号を生み出す。 近年の研究では、音声とビデオの2つのモードが、事象の時間的範囲と異なるラベルを示すことが示されている。 音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。 本稿では,TIM(Time Interval Machine)を提案する。このTIM(Time Interval Machine)は,ビデオ入力を長時間入力するトランスフォーマーエンコーダに対して,モダリティ固有の時間間隔をクエリとして処理する。 エンコーダは、進行中の動作を認識するために、指定された間隔と、両方のモードにおける周囲のコンテキストに出席する。 我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセット上でTIMをテストし、認識のための最先端(SOTA)を報告した。 EPIC-KITCHENSでは,従来のSOTAを2.9%のTop-1動作認識精度で,LLMとかなり大きな事前訓練を施した。 さらに,TIMは,高密度なマルチスケール間隔クエリを用いて動作検出に適応し,EPIC-KITCHENS-100上でのSOTAよりも高い性能を示し,知覚テストでは高い性能を示した。 この2つのモダリティを統合し、そのパフォーマンスを達成するための時間間隔をモデル化する上で重要な役割を担っている。 コードとモデル:https://github.com/JacobChalk/TIM

Diverse actions give rise to rich audio-visual signals in long videos. Recent works showcase that the two modalities of audio and video exhibit different temporal extents of events and distinct labels. We address the interplay between the two modalities in long videos by explicitly modelling the temporal extents of audio and visual events. We propose the Time Interval Machine (TIM) where a modality-specific time interval poses as a query to a transformer encoder that ingests a long video input. The encoder then attends to the specified interval, as well as the surrounding context in both modalities, in order to recognise the ongoing action. We test TIM on three long audio-visual video datasets: EPIC-KITCHENS, Perception Test, and AVE, reporting state-of-the-art (SOTA) for recognition. On EPIC-KITCHENS, we beat previous SOTA that utilises LLMs and significantly larger pre-training by 2.9% top-1 action recognition accuracy. Additionally, we show that TIM can be adapted for action detection, using dense multi-scale interval queries, outperforming SOTA on EPIC-KITCHENS-100 for most metrics, and showing strong performance on the Perception Test. Our ablations show the critical role of integrating the two modalities and modelling their time intervals in achieving this performance. Code and models at: https://github.com/JacobChalk/TIM
翻訳日:2024-04-10 11:30:54 公開日:2024-04-09