このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230323となっている論文です。

PDF登録状況(公開日: 20230323)

TitleAuthorsAbstract論文公表日・翻訳日
# Web 3.0:インターネットの未来

Web 3.0: The Future of Internet ( http://arxiv.org/abs/2304.06032v1 )

ライセンス: Link先を確認
Wensheng Gan, Zhenqiang Ye, Shicheng Wan, Philip S. Yu(参考訳) インターネットの急速な成長に伴い、人間の日常生活はインターネットに深く結びついている。 インターネット上の大量のデータと情報を活用するために、Webアーキテクチャは継続的に再発明され、アップグレードされています。 Web 1.0の静的な情報的特性からWeb 2.0の動的インタラクティブな特徴に至るまで、学者やエンジニアはインターネット世界をよりオープンで包括的で平等なものにしようと懸命に努力してきた。 実際、次世代のweb進化(すなわちweb 3.0)はすでに私たちの生活を形作っています。 web 3.0は分散webアーキテクチャであり、以前よりも賢く、安全である。 モノポリストや犯罪者が引き起こすリスクと破壊は、インターネットとITインフラの完全な再構築によって大幅に減少する。 言い換えれば、Web 3.0は分散技術に従ってWebデータの所有権に対処することができる。 経済、文化、テクノロジーの観点から、インターネットの世界を最適化する。 そして、新しいコンテンツ制作方法、組織構造、経済形態を促進する。 しかし、Web 3.0は成熟せず、現在議論されている。 本稿では,現在の技術,課題,機会,展望に注目し,web 3.0 の包括的調査を行う。 この記事ではまず、World Wide Webの歴史の概要と、Web 1.0、Web 2.0、Web 3.0、Web3のいくつかの違いを紹介する。 次に、Web 3.0の技術的な実装について詳しく説明します。 Web 3.0がもたらす革命とメリットについて論じます。 最後に、この有望な領域におけるいくつかの課題と課題について検討する。

With the rapid growth of the Internet, human daily life has become deeply bound to the Internet. To take advantage of massive amounts of data and information on the internet, the Web architecture is continuously being reinvented and upgraded. From the static informative characteristics of Web 1.0 to the dynamic interactive features of Web 2.0, scholars and engineers have worked hard to make the internet world more open, inclusive, and equal. Indeed, the next generation of Web evolution (i.e., Web 3.0) is already coming and shaping our lives. Web 3.0 is a decentralized Web architecture that is more intelligent and safer than before. The risks and ruin posed by monopolists or criminals will be greatly reduced by a complete reconstruction of the Internet and IT infrastructure. In a word, Web 3.0 is capable of addressing web data ownership according to distributed technology. It will optimize the internet world from the perspectives of economy, culture, and technology. Then it promotes novel content production methods, organizational structures, and economic forms. However, Web 3.0 is not mature and is now being disputed. Herein, this paper presents a comprehensive survey of Web 3.0, with a focus on current technologies, challenges, opportunities, and outlook. This article first introduces a brief overview of the history of World Wide Web as well as several differences among Web 1.0, Web 2.0, Web 3.0, and Web3. Then, some technical implementations of Web 3.0 are illustrated in detail. We discuss the revolution and benefits that Web 3.0 brings. Finally, we explore several challenges and issues in this promising area.
翻訳日:2023-04-16 22:05:04 公開日:2023-03-23
# IoT信頼と評価:調査と分類

IoT trust and reputation: a survey and taxonomy ( http://arxiv.org/abs/2304.06119v1 )

ライセンス: Link先を確認
Muhammad Aaqib, Aftab Ali, Liming Chen and Omar Nibouche(参考訳) IoTは急速に成長している技術の1つで、2030年末までに10億以上のデバイスが世界中で利用できるようになると推定されている。 これらの接続エンティティの能力を最大化するためには、IoTエンティティ間の信頼と評価が不可欠である。 iot環境ではいくつかの信頼管理モデルが提案されているが、これらのスキームはデバイスロール、デバイスタイプ、スマート環境における動的動作といったiotデバイス機能を完全には対応していない。 その結果、従来の信頼と評価モデルは、ノードをネットワークに接続しながらこれらの特性や不確実性に対処するには不十分である。 継続的な研究が行われ、様々な記事が制約のある環境における有望な解決策を示唆しているが、信頼と評価に関する研究はまだ初期段階にある。 本稿では、IoTデバイスやシステムの信頼性と評価に関する最先端の研究に関する総合的な文献レビューを行う。 具体的には,まず,信頼の管理方法に基づいた信頼と評価モデルを構築するための新しい分類体系,すなわち新しい分類法を提案する。 提案された分類は、従来の信頼管理ベースのシステムと人工知能ベースのシステムで構成され、既存のスキームがこれらの新興概念に適応することを奨励するクラスを組み合わせる。 従来の数学的モデルと高度なMLモデルとの協調は、より堅牢で効率的な設計スキームをもたらす。 次に、スケーラビリティ、遅延、協調性、効率など、コミュニティが受け入れるパフォーマンス指標に基づいて、これらのシステムの手法と応用を比較し、分析する。 最後に、分析の結果に基づいて、オープンな研究課題と課題を特定し、議論し、さらに今後の研究方向性を推測し指摘する。

IoT is one of the fastest-growing technologies and it is estimated that more than a billion devices would be utilized across the globe by the end of 2030. To maximize the capability of these connected entities, trust and reputation among IoT entities is essential. Several trust management models have been proposed in the IoT environment; however, these schemes have not fully addressed the IoT devices features, such as devices role, device type and its dynamic behavior in a smart environment. As a result, traditional trust and reputation models are insufficient to tackle these characteristics and uncertainty risks while connecting nodes to the network. Whilst continuous study has been carried out and various articles suggest promising solutions in constrained environments, research on trust and reputation is still at its infancy. In this paper, we carry out a comprehensive literature review on state-of-the-art research on the trust and reputation of IoT devices and systems. Specifically, we first propose a new structure, namely a new taxonomy, to organize the trust and reputation models based on the ways trust is managed. The proposed taxonomy comprises of traditional trust management-based systems and artificial intelligence-based systems, and combine both the classes which encourage the existing schemes to adapt these emerging concepts. This collaboration between the conventional mathematical and the advanced ML models result in design schemes that are more robust and efficient. Then we drill down to compare and analyse the methods and applications of these systems based on community-accepted performance metrics, e.g. scalability, delay, cooperativeness and efficiency. Finally, built upon the findings of the analysis, we identify and discuss open research issues and challenges, and further speculate and point out future research directions.
翻訳日:2023-04-16 21:56:11 公開日:2023-03-23
# 三重項損失を用いた脳波信号の埋め込み

An embedding for EEG signals learned using a triplet loss ( http://arxiv.org/abs/2304.06495v1 )

ライセンス: Link先を確認
Pierre Guetschel and Th\'eodore Papadopoulo and Michael Tangermann(参考訳) 脳波(EEG)や局所野電位などの神経生理学的時系列記録は複数のセンサーから得られる。 それらは、患者または健康なユーザの進行中の脳状態を推定するために、機械学習モデルによってデコードされる。 脳-コンピューターインタフェース(bci)において、このデコードされた脳状態情報は、アプリケーション(例えば、通信や脳卒中後のリハビリ)を制御するために、または、要求される作業環境で、被験者の進行中の脳状態を受動的に監視するために、最小限の時間遅延で使用できる。 このようなデコーディングタスクにおける特定の課題は、コンピュータビジョンや自然言語処理といった機械学習の他の領域と比較して、bciの小さなデータセットサイズによって引き起こされる。 小さなトレーニングデータセットにもかかわらず、BCIの分類や回帰問題に取り組む可能性は、他のセッション、主題、さらにはデータセットからのデータを使ってモデルをトレーニングするトランスファーラーニングを通じてである。 本研究では,神経生理学的データに対する新しいドメイン特異的埋め込みを提案する。 我々のアプローチはメトリック学習に基づいており、最近提案されたはしご損失に基づいている。 埋め込みを使用することで、高度な一般化能力とディープラーニングの堅牢性、および主観的な校正のための古典的な機械学習モデルの高速トレーニングの両方から利益を得ることができた。 14名の被験者の脳波データを用いたオフライン解析において,組込みの実現可能性をテストし,その効率を最先端のディープラーニングモデルと従来の機械学習パイプラインと比較した。 要約して,脳波-BCIデータの事前学習による埋め込みを,最小限の校正条件を持つ新規科目において,ドメイン知識を取り入れて競争力を得る手段として,計量学習の利用を提案する。

Neurophysiological time series recordings like the electroencephalogram (EEG) or local field potentials are obtained from multiple sensors. They can be decoded by machine learning models in order to estimate the ongoing brain state of a patient or healthy user. In a brain-computer interface (BCI), this decoded brain state information can be used with minimal time delay to either control an application, e.g., for communication or for rehabilitation after stroke, or to passively monitor the ongoing brain state of the subject, e.g., in a demanding work environment. A specific challenge in such decoding tasks is posed by the small dataset sizes in BCI compared to other domains of machine learning like computer vision or natural language processing. A possibility to tackle classification or regression problems in BCI despite small training data sets is through transfer learning, which utilizes data from other sessions, subjects or even datasets to train a model. In this exploratory study, we propose novel domain-specific embeddings for neurophysiological data. Our approach is based on metric learning and builds upon the recently proposed ladder loss. Using embeddings allowed us to benefit, both from the good generalisation abilities and robustness of deep learning and from the fast training of classical machine learning models for subject-specific calibration. In offline analyses using EEG data of 14 subjects, we tested the embeddings' feasibility and compared their efficiency with state-of-the-art deep learning models and conventional machine learning pipelines. In summary, we propose the use of metric learning to obtain pre-trained embeddings of EEG-BCI data as a means to incorporate domain knowledge and to reach competitive performance on novel subjects with minimal calibration requirements.
翻訳日:2023-04-16 21:48:56 公開日:2023-03-23
# 認知無線センシングのための安全なフェデレーション学習

Secure Federated Learning for Cognitive Radio Sensing ( http://arxiv.org/abs/2304.06519v1 )

ライセンス: Link先を確認
Malgorzata Wasilewska, Hanna Bogucka, H. Vincent Poor(参考訳) 本稿では,認知無線(CR)環境におけるフェデレート学習(FL)に基づくスペクトルセンシング(SS)の信頼性と安全性について考察する。 SSにおけるFLのモチベーション、アーキテクチャ、アルゴリズムについて論じる。 これらのアルゴリズムに対するセキュリティとプライバシの脅威を概観するとともに、このような攻撃に対する対策も考えられる。 flベースのssの設計を将来のcrsで推奨する例もいくつか提供されている。

This paper considers reliable and secure Spectrum Sensing (SS) based on Federated Learning (FL) in the Cognitive Radio (CR) environment. Motivation, architectures, and algorithms of FL in SS are discussed. Security and privacy threats on these algorithms are overviewed, along with possible countermeasures to such attacks. Some illustrative examples are also provided, with design recommendations for FL-based SS in future CRs.
翻訳日:2023-04-16 21:39:36 公開日:2023-03-23
# メタバースのための連合学習:調査

Federated Learning for Metaverse: A Survey ( http://arxiv.org/abs/2303.17987v1 )

ライセンス: Link先を確認
Yao Chen, Shan Huang, Wensheng Gan, Gengsen Huang, Yongdong Wu(参考訳) イノベーションと探索の段階にあるメタバースは、データ収集のジレンマと、開発プロセスにおけるプライベートデータ漏洩の問題に直面している。 これはメタバースの広範な展開を妨げる可能性がある。 幸いなことに、連合学習(FL)は上記の問題の解決策である。 FLは、多数のエッジデバイス用に設計されたプライバシー保護機能を備えた分散機械学習パラダイムである。 メタバースのためのフェデレーション学習(FL4M)は強力なツールになるだろう。 FLはエッジデバイスが自身のデータ、計算能力、モデル構築能力を使ってローカルにトレーニングタスクに参加することを可能にする。 metaverseにflを適用することで、参加者のデータプライバシ保護だけでなく、高いコンピューティング能力とサーバ上の高メモリの必要性も軽減される。 これまで、FLとメタバースについて多くの研究がなされてきた。 本稿では,開発可能性の無制限な研究方向であるfl4mの初期の進歩を概観する。 まず,メタバースの概念とFLの概念を紹介する。 さらに,ビッグデータ,通信技術,モノのインターネット,エッジコンピューティング,ブロックチェーン,拡張現実など,主要なメタバース技術とflの収束を詳細に論じる。 最後に,FL4Mの重要な課題と今後の方向性について述べる。 まとめると、最新の簡単な調査がFL4Mをよりよく理解し、公平でオープンでセキュアなメタバースを構築するのに役立つことを願っています。

The metaverse, which is at the stage of innovation and exploration, faces the dilemma of data collection and the problem of private data leakage in the process of development. This can seriously hinder the widespread deployment of the metaverse. Fortunately, federated learning (FL) is a solution to the above problems. FL is a distributed machine learning paradigm with privacy-preserving features designed for a large number of edge devices. Federated learning for metaverse (FL4M) will be a powerful tool. Because FL allows edge devices to participate in training tasks locally using their own data, computational power, and model-building capabilities. Applying FL to the metaverse not only protects the data privacy of participants but also reduces the need for high computing power and high memory on servers. Until now, there have been many studies about FL and the metaverse, respectively. In this paper, we review some of the early advances of FL4M, which will be a research direction with unlimited development potential. We first introduce the concepts of metaverse and FL, respectively. Besides, we discuss the convergence of key metaverse technologies and FL in detail, such as big data, communication technology, the Internet of Things, edge computing, blockchain, and extended reality. Finally, we discuss some key challenges and promising directions of FL4M in detail. In summary, we hope that our up-to-date brief survey can help people better understand FL4M and build a fair, open, and secure metaverse.
翻訳日:2023-04-09 05:53:41 公開日:2023-03-23
# 汎用ソースコードのニューラル解釈

Neural Interpretation of Generic Source Code ( http://arxiv.org/abs/2304.00989v1 )

ライセンス: Link先を確認
Yaojie Hu, Jin Tian(参考訳) ソースコードに従って構成されたニューラルネットワークによって、ジェネリック(Python)プログラムをステートメントバイステートメントで実行できるか? 汎用ソースコードを抽象的に実行する最初のニューラルモデルであるニューラル解釈を導入し,各変数がベクトル符号化を持ち,各関数がニューラルネットワークを実行する。 ニューラル解釈(Neural Interpretation)は、コンパイラーアーキテクチャを持つコンピュータのモデルであり、部分的なソースコードによって「プログラムされた」ニューラルネットワーク層を組み立てることができる。 神経解釈は柔軟な学習目標で訓練することができる。 誤用と補修のための具体的入力を使わずにホワイトボックスの実行を実証する。

Can a generic (Python) program be executed statement-by-statement by neural networks composed according to the source code? We formulate the Abstract Neural Execution Problem and introduce Neural Interpretation, the first neural model that abstractly executes generic source code, where every variable has a vector encoding, and every function executes a neural network. Neural Interpretation is a model of computers with a compiler architecture, which can assemble neural layers ''programmed'' by partial source code. Neural Interpretation can be trained with flexible learning objectives. We demonstrate white-box execution without concrete inputs for variable misuse localization and repair.
翻訳日:2023-04-09 05:44:47 公開日:2023-03-23
# 歯科医療の未来形成のためのチャットgpt : マルチモーダル大言語モデルの可能性

ChatGPT for Shaping the Future of Dentistry: The Potential of Multi-Modal Large Language Model ( http://arxiv.org/abs/2304.03086v1 )

ライセンス: Link先を確認
Hanyao Huang, Ou Zheng, Dongdong Wang, Jiayi Yin, Zijin Wang, Shengxuan Ding, Heng Yin, Chuan Xu, Renjie Yang, Qian Zheng, Bing Shi(参考訳) ChatGPTはOpenAIが開発したGPT-4(Generative Pretrained Transformer 4)のエレガントかつ対話的な変種であり、数十億のパラメータを持つLarge Language Models(LLM)の1つである。 LLMは、自然言語処理タスクにおける優れたスキルによって、研究者や実践者の間で多くの関心を集めています。 本稿では, 歯科医療におけるLCMの将来的応用について論じる。 歯科医療における2つの主要なLCM展開法について紹介し, 自動歯科診断とクロスモーダル歯科診断を含め, その可能性について検討した。 特に、クロスモーダルエンコーダを備えた単一のLCMは、マルチソースデータを管理し、複雑な臨床手術を行うための高度な自然言語推論を行うことができる。 歯科臨床応用のための完全自動マルチモーダルllm aiシステムの可能性を示すために, 応用事例を提示した。 LLMは大きな潜在的なメリットを提供するが、データプライバシやデータ品質、モデルバイアスといった課題は、さらなる研究が必要である。 総じて、LSMは歯科診断と治療に革命をもたらす可能性があり、歯科医療における臨床応用と研究の道のりを示す。

The ChatGPT, as a lite and conversational variant of Generative Pretrained Transformer 4 (GPT-4) developed by OpenAI, is one of the milestone Large Language Models (LLMs) with billions of parameters. LLMs, in fact, have stirred up a lot of interest among researchers and practitioners by their impressive skills in natural language processing tasks, which have a profound impact on a wide range of fields. This paper mainly discusses the future applications of LLMs in dentistry. We introduce two primary LLM deployment methods in dentistry, including automated dental diagnosis and cross-modal dental diagnosis, and examine their potential applications. Especially, equipped with a cross-modal encoder, a single LLM can manage multi-source data and conduct advanced natural language reasoning to perform complex clinical operations. A use case is presented to demonstrate the potential of a fully automatic Multi-Modal LLM AI system for dentistry clinical application. While LLMs offer significant potential benefits, the challenges, such as data privacy, data quality, and model bias, need further study. Overall, LLMs have the potential to revolutionize dental diagnosis and treatment, which indicates a promising avenue for clinical application and research in dentistry.
翻訳日:2023-04-09 05:26:19 公開日:2023-03-23
# 2次元畳み込みニューラルネットワークと肺CTによる地上ガラス不透明度の重症度分類:3日間の探索

Severity classification of ground-glass opacity via 2-D convolutional neural network and lung CT scans: a 3-day exploration ( http://arxiv.org/abs/2303.16904v1 )

ライセンス: Link先を確認
Lisa Y.W. Tang(参考訳) グラウンドグラスの不透明度は、COVID-19や肺炎など多くの肺疾患の指標である。 本稿では,2023年IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023)のAI-Enabled Medical Image Analysis Workshopで開催される第3の課題である“COVID-19 Competition”によって,3日間にわたって実施およびテストされた概念実証フレームワークの実験結果を紹介する。 新たに構築された仮想環境(2023年3月17日作成)を用いて,Dense Neural Network, Residual Neural Networks (ResNet), Vision Transformerなどの事前学習された2次元畳み込みニューラルネットワーク(CNN)および微調整の程度を調査した。 実証実験に基づき,すべてのCNNアーキテクチャに対して標準学習率0.001でADAMの最適化アルゴリズムを微調整し,検証損失が高原に達すると早期停止を適用した。 トレーニングされたcnn毎に、トレーニング中に達成した最高の検証精度を持つモデル状態が格納され、その後、チャレンジオーガナイザが提供する検証セットから得られた未検出サンプルの新しい分類のために再ロードされる。 オーガナイザによると、これらの2D CNNのうち、ResNetとRecurrent Neural Network(Gated Recurrent Units)を組み合わせたアーキテクチャに匹敵するパフォーマンスを得るものはほとんどなかった。 課題要件の一部として、この演習の過程で生成されたソースコードはhttps://github.com/lisatwyw/cov19.comに投稿される。 また、他の研究者がPyTorch 1.13.1とTorchVision 0.14.1のアプローチ可能なPythonファイルの少ないこの軽量プロトタイプを見つけることを期待している。

Ground-glass opacity is a hallmark of numerous lung diseases, including patients with COVID19 and pneumonia. This brief note presents experimental results of a proof-of-concept framework that got implemented and tested over three days as driven by the third challenge entitled "COVID-19 Competition", hosted at the AI-Enabled Medical Image Analysis Workshop of the 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023). Using a newly built virtual environment (created on March 17, 2023), we investigated various pre-trained two-dimensional convolutional neural networks (CNN) such as Dense Neural Network, Residual Neural Networks (ResNet), and Vision Transformers, as well as the extent of fine-tuning. Based on empirical experiments, we opted to fine-tune them using ADAM's optimization algorithm with a standard learning rate of 0.001 for all CNN architectures and apply early-stopping whenever the validation loss reached a plateau. For each trained CNN, the model state with the best validation accuracy achieved during training was stored and later reloaded for new classifications of unseen samples drawn from the validation set provided by the challenge organizers. According to the organizers, few of these 2D CNNs yielded performance comparable to an architecture that combined ResNet and Recurrent Neural Network (Gated Recurrent Units). As part of the challenge requirement, the source code produced during the course of this exercise is posted at https://github.com/lisatwyw/cov19. We also hope that other researchers may find this light prototype consisting of few Python files based on PyTorch 1.13.1 and TorchVision 0.14.1 approachable.
翻訳日:2023-04-02 18:16:06 公開日:2023-03-23
# 解釈機械学習を用いたマクロ経済学基礎を用いた為替レート予測の解説

Explaining Exchange Rate Forecasts with Macroeconomic Fundamentals Using Interpretive Machine Learning ( http://arxiv.org/abs/2303.16149v1 )

ライセンス: Link先を確認
Davood Pirayesh Neghab, Mucahit Cevik, M. I. M. Wahab(参考訳) 金融と経済システムの複雑さと曖昧さは、経済環境の頻繁な変化とともに、理論に一貫性のある説明によって支持される正確な予測を困難にしている。 重要なマクロ経済指標の予測に使用される予測モデルを解釈することは、異なる要因間の関係を理解し、予測モデルに対する信頼を高め、予測をより実用的なものにするために非常に有用である。 本研究では,解釈枠組みの中でカナダ・アメリカドル為替レートの基本モデルを構築した。 本稿では,機械学習を用いて為替レートを予測し,マクロ経済変数間の関係を正確に解析するための解釈可能性手法を提案する。 さらに,モデルの予測精度を向上させるために,解釈の出力に基づくアブレーション研究を実施している。 実験の結果、カナダの主要輸出品目である原油は、時間的変動の影響で為替レートの動態を決定する主要な要因であることが示された。 原油の為替レートへの寄与の大きさや記号の変化は、商品市場やエネルギー市場における重要な出来事や、カナダにおける原油のトレンドの進化と一致している。 金とTSX株価指数は、為替レートに影響を与える第2および第3の最も重要な変数である。 したがって、この分析は政策立案者や経済学者に信頼できる実践的な洞察を与え、理論的な考察によって支持される予測モデルの決定に関する正確な知識を提供する。

The complexity and ambiguity of financial and economic systems, along with frequent changes in the economic environment, have made it difficult to make precise predictions that are supported by theory-consistent explanations. Interpreting the prediction models used for forecasting important macroeconomic indicators is highly valuable for understanding relations among different factors, increasing trust towards the prediction models, and making predictions more actionable. In this study, we develop a fundamental-based model for the Canadian-U.S. dollar exchange rate within an interpretative framework. We propose a comprehensive approach using machine learning to predict the exchange rate and employ interpretability methods to accurately analyze the relationships among macroeconomic variables. Moreover, we implement an ablation study based on the output of the interpretations to improve the predictive accuracy of the models. Our empirical results show that crude oil, as Canada's main commodity export, is the leading factor that determines the exchange rate dynamics with time-varying effects. The changes in the sign and magnitude of the contributions of crude oil to the exchange rate are consistent with significant events in the commodity and energy markets and the evolution of the crude oil trend in Canada. Gold and the TSX stock index are found to be the second and third most important variables that influence the exchange rate. Accordingly, this analysis provides trustworthy and practical insights for policymakers and economists and accurate knowledge about the predictive model's decisions, which are supported by theoretical considerations.
翻訳日:2023-03-31 15:59:03 公開日:2023-03-23
# 対話対ビデオ検索

Dialogue-to-Video Retrieval ( http://arxiv.org/abs/2303.16761v1 )

ライセンス: Link先を確認
Chenyang Lyu, Manh-Duy Nguyen, Van-Tu Ninh, Liting Zhou, Cathal Gurrin, Jennifer Foster(参考訳) 近年、特にソーシャルメディアでは、ウェブ上での対話や会話が増えている。 これは対話に基づく検索の発展を刺激し、対話に基づくビデオの検索はレコメンデーションシステムへの関心を高めている。 他のビデオ検索タスクとは異なり、対話対ビデオ検索は、ユーザ生成ダイアログの形式で構造化されたクエリを検索記述子として使用する。 構造化された会話情報を組み込んだ対話音声検索システムを提案する。 AVSDデータセットを用いて行った実験から,提案手法は従来のモデルよりも15.8%改善し,R@1。 さらに,問合せとして対話を用い,r@1,r@5,r@10における検索性能を4.2%,6.2%,8.6%向上させ,r@1,r@5,r@10では0.7%,3.6%,6.0%向上させた。

Recent years have witnessed an increasing amount of dialogue/conversation on the web especially on social media. That inspires the development of dialogue-based retrieval, in which retrieving videos based on dialogue is of increasing interest for recommendation systems. Different from other video retrieval tasks, dialogue-to-video retrieval uses structured queries in the form of user-generated dialogue as the search descriptor. We present a novel dialogue-to-video retrieval system, incorporating structured conversational information. Experiments conducted on the AVSD dataset show that our proposed approach using plain-text queries improves over the previous counterpart model by 15.8% on R@1. Furthermore, our approach using dialogue as a query, improves retrieval performance by 4.2%, 6.2%, 8.6% on R@1, R@5 and R@10 and outperforms the state-of-the-art model by 0.7%, 3.6% and 6.0% on R@1, R@5 and R@10 respectively.
翻訳日:2023-03-31 15:51:02 公開日:2023-03-23
# 司法インテリジェントアシスタントシステム:離婚事件から事件を抽出し、裁判官の争点を検出する

Judicial Intelligent Assistant System: Extracting Events from Divorce Cases to Detect Disputes for the Judge ( http://arxiv.org/abs/2303.16751v1 )

ライセンス: Link先を確認
Yuan Zhang, Chuanyi Li, Yu Sheng, Jidong Ge, Bin Luo(参考訳) 民事訴訟の形式的手続において、異なる当事者によって提供される文書資料は、事件の開発過程を記述している。 これらの資料から事件の重要情報を抽出し、関連当事者の紛争焦点を明らかにすることは困難だが必要な課題である。 現在、役員は手作業で資料を読み、キーワード検索や正規マッチングなどの手法を用いて目標情報を取得する。 これらのアプローチは時間を要するものであり、事前の知識と士官の慎重さに大きく依存する。 作業効率と正確性を向上させるために,本稿では,2ラウンドのイベント抽出技術を用いて,離婚事例から紛争を検出する手法を提案する。 提案手法に従って, 司法知能アシスタント(JIA)システムを実装した。 1)離婚事件資料から焦点イベントを自動的に抽出する。 2)共同参照を識別してイベントを調整し、 3)原告及び被告が起こした事件間の紛争を検知する。 JIAシステムでは、裁判官が問題を決定するのが便利である。 実験の結果,提案手法とシステムは,既存の手法と比較して,より効果的かつ効率的にコンフリクトを検出できることがわかった。

In formal procedure of civil cases, the textual materials provided by different parties describe the development process of the cases. It is a difficult but necessary task to extract the key information for the cases from these textual materials and to clarify the dispute focus of related parties. Currently, officers read the materials manually and use methods, such as keyword searching and regular matching, to get the target information. These approaches are time-consuming and heavily depending on prior knowledge and carefulness of the officers. To assist the officers to enhance working efficiency and accuracy, we propose an approach to detect disputes from divorce cases based on a two-round-labeling event extracting technique in this paper. We implement the Judicial Intelligent Assistant (JIA) system according to the proposed approach to 1) automatically extract focus events from divorce case materials, 2) align events by identifying co-reference among them, and 3) detect conflicts among events brought by the plaintiff and the defendant. With the JIA system, it is convenient for judges to determine the disputed issues. Experimental results demonstrate that the proposed approach and system can obtain the focus of cases and detect conflicts more effectively and efficiently comparing with existing method.
翻訳日:2023-03-31 15:50:02 公開日:2023-03-23
# レビュアー割り当て問題のためのゴールド標準データセット

A Gold Standard Dataset for the Reviewer Assignment Problem ( http://arxiv.org/abs/2303.16750v1 )

ライセンス: Link先を確認
Ivan Stelmakh, John Wieting, Graham Neubig, Nihar B. Shah(参考訳) 多くのピアレビュー会場では、アルゴリズムを使ってレビュアーに投稿を割り当てようとしている。 このような自動化アプローチのcruxは「類似度スコア」の概念であり、論文をレビューするレビュアーの専門知識を数値的に見積もることであり、これらのスコアを計算するために多くのアルゴリズムが提案されている。 しかし、これらのアルゴリズムは原則的に比較されていないため、利害関係者が証拠に基づく方法でアルゴリズムを選択することは困難である。 既存のアルゴリズムを比較し、より良いアルゴリズムを開発する上での鍵となる課題は、再現可能な研究を行うために必要な公開の金標準データがないことである。 我々は、研究コミュニティにリリースする類似度スコアの新たなデータセットを収集することで、この課題に対処します。 我々のデータセットは、これまでに読んだ論文をレビューする際の専門知識を評価した58人の研究者による477の専門知識スコアで構成されています。 このデータを使って、コンピュータサイエンスのカンファレンスで採用されているいくつかの一般的なアルゴリズムを比較し、ステークホルダーに推奨する。 主な発見は以下の通りである。 まず、すべてのアルゴリズムが非自明な誤りを犯す。 2つの論文をレビュー者と関連づけて注文するタスクでは、エラー率は簡単なケースでは12%-30%から難しいケースでは36%-43%まで様々であり、類似性計算問題に関するさらなる研究の必要性が強調されている。 第二に、既存のアルゴリズムは論文のタイトルや要約を扱うように設計されており、この方式ではSpecter+MFRアルゴリズムが最適である。 第3に、パフォーマンスを向上させるために、論文の全文を活用可能な、最新のディープラーニングベースのアルゴリズムを開発することが重要であるかもしれない。 論文の全文で拡張された古典的なtd-idfアルゴリズムは、この情報を使用することができないディープラーニングベースのspecter+mfrと同等です。

Many peer-review venues are either using or looking to use algorithms to assign submissions to reviewers. The crux of such automated approaches is the notion of the "similarity score"--a numerical estimate of the expertise of a reviewer in reviewing a paper--and many algorithms have been proposed to compute these scores. However, these algorithms have not been subjected to a principled comparison, making it difficult for stakeholders to choose the algorithm in an evidence-based manner. The key challenge in comparing existing algorithms and developing better algorithms is the lack of the publicly available gold-standard data that would be needed to perform reproducible research. We address this challenge by collecting a novel dataset of similarity scores that we release to the research community. Our dataset consists of 477 self-reported expertise scores provided by 58 researchers who evaluated their expertise in reviewing papers they have read previously. We use this data to compare several popular algorithms employed in computer science conferences and come up with recommendations for stakeholders. Our main findings are as follows. First, all algorithms make a non-trivial amount of error. For the task of ordering two papers in terms of their relevance for a reviewer, the error rates range from 12%-30% in easy cases to 36%-43% in hard cases, highlighting the vital need for more research on the similarity-computation problem. Second, most existing algorithms are designed to work with titles and abstracts of papers, and in this regime the Specter+MFR algorithm performs best. Third, to improve performance, it may be important to develop modern deep-learning based algorithms that can make use of the full texts of papers: the classical TD-IDF algorithm enhanced with full texts of papers is on par with the deep-learning based Specter+MFR that cannot make use of this information.
翻訳日:2023-03-31 15:49:45 公開日:2023-03-23
# 新しい特許類似度測定手法:意味的距離と技術的距離

A Novel Patent Similarity Measurement Methodology: Semantic Distance and Technological Distance ( http://arxiv.org/abs/2303.16767v1 )

ライセンス: Link先を確認
Yongmin Yoo, Cheonkam Jeong, Sanguk Gim, Junwon Lee, Zachary Schimke, Deaho Seo(参考訳) 特許間の類似性を測定することは、イノベーションの新規性を保証するための重要なステップである。 しかし、多くの特許間の類似性を測定する方法は、専門家による手作業による特許の分類に依存している。 別の研究機関が自動化手法を提案しているが、そのほとんどが特許の意味的類似性だけに焦点を当てている。 これらの制約に対処するために,特許間の類似性を自動的に測定するハイブリッド手法を提案する。 BERTを用いて特許文書に基づいて意味的類似度を測定し,Jaccardの類似度を用いてIPCコードとの技術的類似度を計算し,2つの類似度に重みを割り当ててハイブリダイゼーションを行う。 評価結果は,提案手法が意味的類似性のみを考慮したベースラインよりも優れていることを示す。

Measuring similarity between patents is an essential step to ensure novelty of innovation. However, a large number of methods of measuring the similarity between patents still rely on manual classification of patents by experts. Another body of research has proposed automated methods; nevertheless, most of it solely focuses on the semantic similarity of patents. In order to tackle these limitations, we propose a hybrid method for automatically measuring the similarity between patents, considering both semantic and technological similarities. We measure the semantic similarity based on patent texts using BERT, calculate the technological similarity with IPC codes using Jaccard similarity, and perform hybridization by assigning weights to the two similarity methods. Our evaluation result demonstrates that the proposed method outperforms the baseline that considers the semantic similarity only.
翻訳日:2023-03-31 15:38:35 公開日:2023-03-23
# テキストから画像への移動拡散

Shifted Diffusion for Text-to-image Generation ( http://arxiv.org/abs/2211.15388v2 )

ライセンス: Link先を確認
Yufan Zhou, Bingchen Liu, Yizhe Zhu, Xiao Yang, Changyou Chen, Jinhui Xu(参考訳) テキスト・画像生成の新しい手法であるCorgiを提案する。 Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。 dall-e 2 で用いられるベースライン拡散モデルとは異なり、新しい初期化分布と新しい拡散遷移ステップを設計することにより、その拡散過程における事前訓練クリップモデルの事前知識をシームレスにエンコードする。 強力なDALL-E 2ベースラインと比較して,本手法は効率と効率の両面から画像埋め込みを生成するのに優れ,テキスト・画像生成の精度が向上する。 定量的評価と人為的評価の両面から大規模な実験を行い, 従来の手法に比べて高い生成能力を示した。 さらに,本モデルでは,トレーニングデータセット内の画像の一部あるいは全くが関連キャプションを持たないテキスト・ツー・イメージ生成のための,半教師あり言語なしのトレーニングを可能にする。 画像のたった1.7%をキャプションで訓練し,MS-COCOを用いたゼロショットテキスト画像生成において,DALL-E 2に匹敵するFID結果を得た。 Corgiはまた、ダウンストリーム言語なしのテキスト・ツー・イメージ生成タスク上で、さまざまなデータセットにまたがる新たな最先端の結果も達成している。

We present Corgi, a novel method for text-to-image generation. Corgi is based on our proposed shifted diffusion model, which achieves better image embedding generation from input text. Unlike the baseline diffusion model used in DALL-E 2, our method seamlessly encodes prior knowledge of the pre-trained CLIP model in its diffusion process by designing a new initialization distribution and a new transition step of the diffusion. Compared to the strong DALL-E 2 baseline, our method performs better in generating image embedding from the text in terms of both efficiency and effectiveness, resulting in better text-to-image generation. Extensive large-scale experiments are conducted and evaluated in terms of both quantitative measures and human evaluation, indicating a stronger generation ability of our method compared to existing ones. Furthermore, our model enables semi-supervised and language-free training for text-to-image generation, where only part or none of the images in the training dataset have an associated caption. Trained with only 1.7% of the images being captioned, our semi-supervised model obtains FID results comparable to DALL-E 2 on zero-shot text-to-image generation evaluated on MS-COCO. Corgi also achieves new state-of-the-art results across different datasets on downstream language-free text-to-image generation tasks, outperforming the previous method, Lafite, by a large margin.
翻訳日:2023-03-29 01:31:31 公開日:2023-03-23
# 事前訓練エンコーダのバックドア検出

Detecting Backdoors in Pre-trained Encoders ( http://arxiv.org/abs/2303.15180v1 )

ライセンス: Link先を確認
Shiwei Feng, Guanhong Tao, Siyuan Cheng, Guangyu Shen, Xiangzhe Xu, Yingqi Liu, Kaiyuan Zhang, Shiqing Ma, Xiangyu Zhang(参考訳) コンピュータビジョンにおける自己教師あり学習は、画像や(画像、テキスト)ペアなどのラベルのないデータを学習し、入力データの高品質な埋め込みを学ぶ画像エンコーダを得る。 エンコーダに対するバックドア攻撃は、下流の分類器(さらにクリーンデータで訓練された)がエンコーダからバックドアの振る舞いを継承する可能性があるため、自己教師付き学習の重要な脆弱性を露呈する。 既存のバックドア検出手法は主に教師付き学習設定に重点を置いており、特に入力ラベルが利用できない場合、事前訓練されたエンコーダを扱えない。 本稿では,プリトレーニングエンコーダに対する最初のバックドア検出手法であるorderを提案する。 3つのパラダイムの下で400以上のエンコーダ上でDECREEを評価する。 我々は,ImageNetとOpenAIのCLIP 4億画像テキストペアで事前学習した画像エンコーダに対する提案手法の有効性を示す。 本手法は,事前学習データセットへのアクセスに制限や制限がない場合でも,常に高い検出精度を有する。

Self-supervised learning in computer vision trains on unlabeled data, such as images or (image, text) pairs, to obtain an image encoder that learns high-quality embeddings for input data. Emerging backdoor attacks towards encoders expose crucial vulnerabilities of self-supervised learning, since downstream classifiers (even further trained on clean data) may inherit backdoor behaviors from encoders. Existing backdoor detection methods mainly focus on supervised learning settings and cannot handle pre-trained encoders especially when input labels are not available. In this paper, we propose DECREE, the first backdoor detection approach for pre-trained encoders, requiring neither classifier headers nor input labels. We evaluate DECREE on over 400 encoders trojaned under 3 paradigms. We show the effectiveness of our method on image encoders pre-trained on ImageNet and OpenAI's CLIP 400 million image-text pairs. Our method consistently has a high detection accuracy even if we have only limited or no access to the pre-training dataset.
翻訳日:2023-03-28 15:23:20 公開日:2023-03-23
# 検討に基づく共同音響・テキストデコーダ

A Deliberation-based Joint Acoustic and Text Decoder ( http://arxiv.org/abs/2303.15293v1 )

ライセンス: Link先を確認
Sepand Mavandadi, Tara N. Sainath, Ke Hu, Zelin Wu(参考訳) ペア化データと未ペア化テキストデータの組み合わせを訓練することにより、ASRの性能を向上させる2パスE2E音声認識モデルを提案する。 従来,JATD(Joint Acoustic and Text Decoder)は,モデルトレーニング中にテキストデータを使用することで,有望な結果を示した。 提案手法は,Dreliberation-JATDとJATDの非ペアテキストデータを用いたスペル訂正機能を組み合わせて,さらなる性能向上を図る。 提案手法は, 単語誤り率 (WER) を12%から22.5%の相対値で低減し, 複数のテストセット, 特にまれな単語に焦点をあてた場合において, かなりの利得が得られる。 これはモデルのサイズを拡大したり、マルチステージのトレーニングを必要とすることなく実現される。

We propose a new two-pass E2E speech recognition model that improves ASR performance by training on a combination of paired data and unpaired text data. Previously, the joint acoustic and text decoder (JATD) has shown promising results through the use of text data during model training and the recently introduced deliberation architecture has reduced recognition errors by leveraging first-pass decoding results. Our method, dubbed Deliberation-JATD, combines the spelling correcting abilities of deliberation with JATD's use of unpaired text data to further improve performance. The proposed model produces substantial gains across multiple test sets, especially those focused on rare words, where it reduces word error rate (WER) by between 12% and 22.5% relative. This is done without increasing model size or requiring multi-stage training, making Deliberation-JATD an efficient candidate for on-device applications.
翻訳日:2023-03-28 14:47:43 公開日:2023-03-23
# CMS検出器の将来予測:LHCにおける結晶放射線損傷と機械学習

Predicting the Future of the CMS Detector: Crystal Radiation Damage and Machine Learning at the LHC ( http://arxiv.org/abs/2303.15291v1 )

ライセンス: Link先を確認
Bhargav Joshi and Taihui Li and Buyun Liang and Roger Rusack and Ju Sun(参考訳) CERN大ハドロン衝突型加速器におけるCMS実験における75,848個の鉛タングステート結晶は、陽子-陽子衝突で生じる電子と光子のエネルギーを測定するために用いられる。 結晶の光学透過度はビームビーム衝突による放射線照射によりゆっくりと劣化する。 各結晶の透明性は、衝突生成物からの放射による結晶の光学特性の変化を追跡するレーザー監視システムによって監視される。 結晶の光学的透明性を短期的にも長期的にも予測することは、CMS実験にとって重要な課題である。 2016年から2018年にかけてのCMSコラボレーションによって収集された結晶モニタリングデータの、FAIR原則に従う公開データのリリースについて説明する。 データセットとそのアクセスを説明することに加えて、それで対処できる問題と、結晶の将来的な挙動を予測するために開発されたLong Short-Term Memory Neural Networkに基づくサンプルソリューションについて説明する。

The 75,848 lead tungstate crystals in CMS experiment at the CERN Large Hadron Collider are used to measure the energy of electrons and photons produced in the proton-proton collisions. The optical transparency of the crystals degrades slowly with radiation dose due to the beam-beam collisions. The transparency of each crystal is monitored with a laser monitoring system that tracks changes in the optical properties of the crystals due to radiation from the collision products. Predicting the optical transparency of the crystals, both in the short-term and in the long-term, is a critical task for the CMS experiment. We describe here the public data release, following FAIR principles, of the crystal monitoring data collected by the CMS Collaboration between 2016 and 2018. Besides describing the dataset and its access, the problems that can be addressed with it are described, as well as an example solution based on a Long Short-Term Memory neural network developed to predict future behavior of the crystals.
翻訳日:2023-03-28 14:47:23 公開日:2023-03-23
# 言葉で絵を描く

Paint by Word ( http://arxiv.org/abs/2103.10951v3 )

ライセンス: Link先を確認
Alex Andonian, Sabrina Osmany, Audrey Cui, YeonHwan Park, Ali Jahanian, Antonio Torralba, David Bau(参考訳) ゼロショットイメージペインティングの問題点について検討する。 具体的色や有限のセマンティックな概念のみを用いて画像に修正を描く代わりに、オープンなフルテキスト記述に基づいてセマンティックなペンキを作る方法を尋ねる: 私たちのゴールは、合成された画像の場所を指して、"ラスティック"や"オプレント"、"ハッピードッグ"といった任意の新しい概念を適用することである。 そこで本手法では,現実的な画像の最先端生成モデルと最先端のテキスト画像意味的類似性ネットワークを組み合わせる。 大きな変更を行うには、潜在空間を探索するために非勾配法を用いることが重要であり、ganの計算を緩和して特定の領域への変更を目標とすることが重要である。 提案手法を複数のベースラインと比較するために,ユーザスタディを実施している。

We investigate the problem of zero-shot semantic image painting. Instead of painting modifications into an image using only concrete colors or a finite set of semantic concepts, we ask how to create semantic paint based on open full-text descriptions: our goal is to be able to point to a location in a synthesized image and apply an arbitrary new concept such as "rustic" or "opulent" or "happy dog." To do this, our method combines a state-of-the art generative model of realistic images with a state-of-the-art text-image semantic similarity network. We find that, to make large changes, it is important to use non-gradient methods to explore latent space, and it is important to relax the computations of the GAN to target changes to a specific region. We conduct user studies to compare our methods to several baselines.
翻訳日:2023-03-27 19:17:10 公開日:2023-03-23
# 非対称二部待ち行列システムにおける効率的な分散マルチエージェント学習

Efficient decentralized multi-agent learning in asymmetric bipartite queueing systems ( http://arxiv.org/abs/2206.03324v2 )

ライセンス: Link先を確認
Daniel Freund and Thodoris Lykouris and Wentao Weng(参考訳) サービスシステムの標準モデルである2部待ち行列システムにおける分散マルチエージェント学習について検討した。 特に、nエージェントは、通信なしで同じアルゴリズムを実行することによって、完全に分散化された方法でkサーバからサービスを要求する。 従来の分散アルゴリズムは対称システムに限定され、サーバ数で指数関数的に低下する性能を持ち、共有ランダム性とユニークなエージェントidによる通信を必要とし、計算上要求される。 これとは対照的に,各エージェントによって分散的に実行されると,非対称な2部待ち行列システムにおいて効率良く性能が向上し,さらにロバスト性も向上する,単純な学習アルゴリズムを提供する。 その過程で,問題の集中的なケースに対して,初の証明可能なUPBベースのアルゴリズムを提供する。

We study decentralized multi-agent learning in bipartite queueing systems, a standard model for service systems. In particular, N agents request service from K servers in a fully decentralized way, i.e, by running the same algorithm without communication. Previous decentralized algorithms are restricted to symmetric systems, have performance that is degrading exponentially in the number of servers, require communication through shared randomness and unique agent identities, and are computationally demanding. In contrast, we provide a simple learning algorithm that, when run decentrally by each agent, leads the queueing system to have efficient performance in general asymmetric bipartite queueing systems while also having additional robustness properties. Along the way, we provide the first provably efficient UCB-based algorithm for the centralized case of the problem.
翻訳日:2023-03-27 18:51:08 公開日:2023-03-23
# AutoLink: キーポイントのリンクによる人体骨格とオブジェクトアウトラインの自己教師型学習

AutoLink: Self-supervised Learning of Human Skeletons and Object Outlines by Linking Keypoints ( http://arxiv.org/abs/2205.10636v6 )

ライセンス: Link先を確認
Xingzhe He, Bastian Wandt, Helge Rhodin(参考訳) キーポイントのような構造化表現は、ポーズ転送、条件付き画像生成、アニメーション、および3d再構成において広く使われている。 しかし、それらの教師付き学習は、ターゲットドメインごとに高価なアノテーションを必要とする。 本研究では,2次元キーポイントのグラフを直線のエッジに関連付けることで,オブジェクト構造を外見から切り離す自己教師型手法を提案する。 キーポイントの位置と両辺の重みはどちらも学習され、同じオブジェクトクラスを描いている画像の集合のみを考慮に入れられる。 結果のグラフは解釈可能で、例えばAutoLinkは、人を示す画像に適用すると、人間の骨格のトポロジーを復元する。 私たちの重要な材料は 一 入力画像におけるキーポイントの位置を予測するエンコーダ 二 画像ごとに同じキーポイントのペアをリンクする潜在変数としての共有グラフ 三 潜伏グラフの辺の重みとキーポイントの位置を柔らかく異なる方法で組み合わせた中間エッジマップ iv) ランダムにマスキングされた画像に塗布する目的 シンプルではあるが、autolinkは確立されたキーポイントとポーズ推定ベンチマークで既存の自己教師付きメソッドよりも優れており、より多様なデータセット上の構造条件付き生成モデルへの道を開く。 プロジェクトwebサイト: https://xingzhehe.github.io/autolink/

Structured representations such as keypoints are widely used in pose transfer, conditional image generation, animation, and 3D reconstruction. However, their supervised learning requires expensive annotation for each target domain. We propose a self-supervised method that learns to disentangle object structure from the appearance with a graph of 2D keypoints linked by straight edges. Both the keypoint location and their pairwise edge weights are learned, given only a collection of images depicting the same object class. The resulting graph is interpretable, for example, AutoLink recovers the human skeleton topology when applied to images showing people. Our key ingredients are i) an encoder that predicts keypoint locations in an input image, ii) a shared graph as a latent variable that links the same pairs of keypoints in every image, iii) an intermediate edge map that combines the latent graph edge weights and keypoint locations in a soft, differentiable manner, and iv) an inpainting objective on randomly masked images. Although simpler, AutoLink outperforms existing self-supervised methods on the established keypoint and pose estimation benchmarks and paves the way for structure-conditioned generative models on more diverse datasets. Project website: https://xingzhehe.github.io/autolink/.
翻訳日:2023-03-27 18:50:17 公開日:2023-03-23
# TrojViT:ビジョントランスフォーマーのトロイの木馬導入

TrojViT: Trojan Insertion in Vision Transformers ( http://arxiv.org/abs/2208.13049v3 )

ライセンス: Link先を確認
Mengxin Zheng, Qian Lou, Lei Jiang(参考訳) 視覚変換器(ViT)は様々な視覚関連タスクにおける最先端の性能を実証している。 ViTsの成功は、敵がViTsに対するバックドア攻撃を行う動機となっている。 バックドア攻撃に対する従来のCNNの脆弱性はよく知られているが、ViTに対するバックドア攻撃はほとんど研究されていない。 コンボリューションによってピクセルワイドなローカル特徴をキャプチャするCNNと比較して、ViTはパッチやアテンションを通じてグローバルなコンテキスト情報を抽出する。 確実にCNN固有のバックドア攻撃をViTに移植すると、クリーンなデータの精度が低く、攻撃の成功率が低いだけになる。 本稿では,vit特有のバックドア攻撃である$trojvit$を提案する。 CNN固有のバックドア攻撃で使用されるエリアワイドトリガーではなく、TrojViTはパッチサリエンスランキングとアテンションターゲット損失によってDRAMメモリに格納されたViTのパラメータにいくつかの脆弱なビットからなるトロイの木馬を構築するために設計されたパッチワイドトリガーを生成する。 trojvitはさらに最小調整パラメータ更新を使用して、トロイの木馬のビット数を削減する。 攻撃者が脆弱なビットを反転させてトロイの木馬をViTモデルに挿入すると、ViTモデルはベニグインプットで正常な推論精度が生成される。 しかし、攻撃者がインプットにトリガーを埋め込むと、vitモデルは入力を予め定義されたターゲットクラスに分類せざるを得なくなる。 有名なrowhammerを用いてvitモデル上でtroyvitが識別する脆弱なビットをフリップするだけで、モデルがバックドア付きに変換できることを示す。 様々なViTモデル上で複数のデータセットの広範な実験を行う。 TrojViTは、イメージネット用のViTで345ドルのビットを切り替えることで、99.64\%のテストイメージをターゲットクラスに分類することができる。

Vision Transformers (ViTs) have demonstrated the state-of-the-art performance in various vision-related tasks. The success of ViTs motivates adversaries to perform backdoor attacks on ViTs. Although the vulnerability of traditional CNNs to backdoor attacks is well-known, backdoor attacks on ViTs are seldom-studied. Compared to CNNs capturing pixel-wise local features by convolutions, ViTs extract global context information through patches and attentions. Na\"ively transplanting CNN-specific backdoor attacks to ViTs yields only a low clean data accuracy and a low attack success rate. In this paper, we propose a stealth and practical ViT-specific backdoor attack $TrojViT$. Rather than an area-wise trigger used by CNN-specific backdoor attacks, TrojViT generates a patch-wise trigger designed to build a Trojan composed of some vulnerable bits on the parameters of a ViT stored in DRAM memory through patch salience ranking and attention-target loss. TrojViT further uses minimum-tuned parameter update to reduce the bit number of the Trojan. Once the attacker inserts the Trojan into the ViT model by flipping the vulnerable bits, the ViT model still produces normal inference accuracy with benign inputs. But when the attacker embeds a trigger into an input, the ViT model is forced to classify the input to a predefined target class. We show that flipping only few vulnerable bits identified by TrojViT on a ViT model using the well-known RowHammer can transform the model into a backdoored one. We perform extensive experiments of multiple datasets on various ViT models. TrojViT can classify $99.64\%$ of test images to a target class by flipping $345$ bits on a ViT for ImageNet.
翻訳日:2023-03-27 18:42:22 公開日:2023-03-23
# Goldilocks から Twin Peaks へ:乱れたネットワークにおける量子輸送の最適条件

From Goldilocks to Twin Peaks: multiple optimal regimes for quantum transport in disordered networks ( http://arxiv.org/abs/2210.11875v2 )

ライセンス: Link先を確認
Alexandre R. Coates, Brendon W. Lovett and Erik M Gauger(参考訳) 量子系におけるエネルギー移動の理解は、自然界における光ハーベスティングの理解と新しい量子テクノロジーの創造に不可欠である。 オープン量子システム理論は、環境ノイズ支援量子輸送(ENAQT)の存在を生物学的および人工システムで発生する広範な現象として予測するために成功している。 この研究は、主に様々な次元の単純な鎖、環、結晶から、よく研究された光調和錯体まで、いくつかの「カノニカル」構造に焦点が当てられている。 これらの特定のシステムを研究することは、エネルギー輸送を改善する単一の理想的な環境結合率の概念を含む、ENAQTに関する特定の仮定を生み出している。 本稿では、物理的にモデル化された輸送ネットワークの一貫したサブセットが、その定常輸送効率において少なくとも2つのENAQTピークを持つことを示す。

Understanding energy transport in quantum systems is crucial for an understanding of light-harvesting in nature, and for the creation of new quantum technologies. Open quantum systems theory has been successfully applied to predict the existence of environmental noise-assisted quantum transport (ENAQT) as a widespread phenomenon occurring in biological and artificial systems. That work has been primarily focused on several `canonical' structures, from simple chains, rings and crystals of varying dimensions, to well-studied light-harvesting complexes. Studying those particular systems has produced specific assumptions about ENAQT, including the notion of a single, ideal, range of environmental coupling rates that improve energy transport. In this paper we show that a consistent subset of physically modelled transport networks can have at least two ENAQT peaks in their steady state transport efficiency.
翻訳日:2023-03-27 18:33:16 公開日:2023-03-23
# 散逸性ペアリング相互作用:量子不安定性、トポロジカル光、ボリュームロー絡み

Dissipative Pairing Interactions: Quantum Instabilities, Topological Light, and Volume-Law Entanglement ( http://arxiv.org/abs/2210.09252v2 )

ライセンス: Link先を確認
Andrew Pocklington, Yu-Xin Wang, Aashish A. Clerk(参考訳) 散逸的(または非エルミート的)なペアリング相互作用から生じるボソニックな動的不安定性の種類を分析した。 驚くべきことに、完全に安定な散逸性ペアリング相互作用は、単純なホッピングやビームスプリッター相互作用(安定)と組み合わせて不安定性を生成することができる。 さらに、そのような状況下での散逸定常状態は、不安定なしきい値(標準パラメトリック不安定性と明確な区別)まで完全に純粋なままである。 これらのペアリングによる不安定性はまた、波動関数の局在に対する非常に顕著な感度を示す。 これは、位相的バンド構造を有するフォトニック(またはより一般的なボソニック)格子のエッジモードを選択的に配置し、絡み合うための単純かつ強力な方法を提供する。 基礎となる散逸的なペアリング相互作用は実験的にリソースフレンドリであり、既存の格子に単一の局所的な相互作用を追加する必要があり、超伝導回路を含む多くの既存プラットフォームと互換性がある。

We analyze an unusual class of bosonic dynamical instabilities that arise from dissipative (or non-Hermitian) pairing interactions. We show that, surprisingly, a completely stable dissipative pairing interaction can be combined with simple hopping or beam-splitter interactions (also stable) to generate instabilities. Further, we find that the dissipative steady state in such a situation remains completely pure up until the instability threshold (in clear distinction from standard parametric instabilities). These pairing-induced instabilities also exhibit an extremely pronounced sensitivity to wavefunction localization. This provides a simple yet powerful method for selectively populating and entangling edge modes of photonic (or more general bosonic) lattices having a topological bandstructure. The underlying dissipative pairing interaction is experimentally resource-friendly, requiring the addition of a single additional localized interaction to an existing lattice, and is compatible with a number of existing platforms, including superconducting circuits.
翻訳日:2023-03-27 18:33:03 公開日:2023-03-23
# 視覚言語モデルはいつ、なぜ言葉の袋のように振る舞うのか。

When and why vision-language models behave like bags-of-words, and what to do about it? ( http://arxiv.org/abs/2210.01936v3 )

ライセンス: Link先を確認
Mert Yuksekgonul, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, James Zou(参考訳) 多くの下流アプリケーションで大きなビジョンと言語モデル(VLM)が成功しているが、どのように構成情報をエンコードするかは不明である。 ここでは、VLMが様々な種類の関係、属性、順序を理解する能力について、体系的に評価するための属性、関係、順序(ARO)ベンチマークを作成する。 AROは、オブジェクトのプロパティの理解をテストするためのVisual Genome Attribution、リレーショナル理解をテストするVisual Genome Relation、注文感度をテストするCOCO & Flickr30k-Orderで構成されている。 AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。 我々は最先端のvlmがリレーショナル理解に乏しいところを示し、オブジェクトと属性をリンクするときに鈍くなり、注文の感度が著しく欠如していることを示す。 VLMは画像とキャプションにリッチな構成構造を持つ大規模なデータセットで主に訓練され評価される。 しかし、これらのデータセットのトレーニングは、構成的理解の欠如に対処するには不十分であり、これらのデータセットの評価はこの不足を表面化できていない。 これらの制限が標準テストに現れて表現されない理由を理解するために、評価手順とトレーニング手順を拡大する。 構成情報や順序情報を使わずに既存のデータセットの検索をうまく行うことができることを示す。 対照的な事前学習が類似したショートカットを持つデータセットの検索に最適化されることを考えると、なぜモデルが構成情報を表現するために学習する必要がないのかを説明することができる。 この発見は、組成に敏感な負の鉱業という自然な解決策を示唆している。 コントラスト学習をシンプルに実装することで、順序と構成性の理解を必要とするタスクのパフォーマンスが大幅に向上することを示す。

Despite the success of large vision and language models (VLMs) in many downstream applications, it is unclear how well they encode compositional information. Here, we create the Attribution, Relation, and Order (ARO) benchmark to systematically evaluate the ability of VLMs to understand different types of relationships, attributes, and order. ARO consists of Visual Genome Attribution, to test the understanding of objects' properties; Visual Genome Relation, to test for relational understanding; and COCO & Flickr30k-Order, to test for order sensitivity. ARO is orders of magnitude larger than previous benchmarks of compositionality, with more than 50,000 test cases. We show where state-of-the-art VLMs have poor relational understanding, can blunder when linking objects to their attributes, and demonstrate a severe lack of order sensitivity. VLMs are predominantly trained and evaluated on large datasets with rich compositional structure in the images and captions. Yet, training on these datasets has not been enough to address the lack of compositional understanding, and evaluating on these datasets has failed to surface this deficiency. To understand why these limitations emerge and are not represented in the standard tests, we zoom into the evaluation and training procedures. We demonstrate that it is possible to perform well on retrieval over existing datasets without using the composition and order information. Given that contrastive pretraining optimizes for retrieval on datasets with similar shortcuts, we hypothesize that this can explain why the models do not need to learn to represent compositional information. This finding suggests a natural solution: composition-aware hard negative mining. We show that a simple-to-implement modification of contrastive learning significantly improves the performance on tasks requiring understanding of order and compositionality.
翻訳日:2023-03-27 18:32:02 公開日:2023-03-23
# 大深度ネットワークの暗黙のバイアス:非線形関数に対するランクの概念

Implicit Bias of Large Depth Networks: a Notion of Rank for Nonlinear Functions ( http://arxiv.org/abs/2209.15055v4 )

ライセンス: Link先を確認
Arthur Jacot(参考訳) ネットワークの深さが非線形関数よりもランクの概念に収束するにつれて、L_2$-regularizationやクロスエントロピーなどの損失を伴うネットワークの関数空間における暗黙のバイアスを記述する、均一な非線形性を持つ完全連結ニューラルネットワークの表現コストが収束することを示す。 次に、損失のグローバルミニマはデータの'true'ランクを回復するかどうかを問う:大きすぎる深さでは、大域的最小値がおよそランク1になる(ランクを推定する)ことを示し、真のランクを回復するデータポイントの数で成長する深さの範囲が存在することを議論する。 最後に, クラス境界のトポロジーに対する分類器のランクの影響を考察し, 最適な非線形ランクを持つオートエンコーダが自然に分断されていることを示す。

We show that the representation cost of fully connected neural networks with homogeneous nonlinearities - which describes the implicit bias in function space of networks with $L_2$-regularization or with losses such as the cross-entropy - converges as the depth of the network goes to infinity to a notion of rank over nonlinear functions. We then inquire under which conditions the global minima of the loss recover the `true' rank of the data: we show that for too large depths the global minimum will be approximately rank 1 (underestimating the rank); we then argue that there is a range of depths which grows with the number of datapoints where the true rank is recovered. Finally, we discuss the effect of the rank of a classifier on the topology of the resulting class boundaries and show that autoencoders with optimal nonlinear rank are naturally denoising.
翻訳日:2023-03-27 18:31:13 公開日:2023-03-23
# QMAとQCMAの分配試験オラクル分離

A distribution testing oracle separation between QMA and QCMA ( http://arxiv.org/abs/2210.15380v2 )

ライセンス: Link先を確認
Anand Natarajan and Chinmay Nirkhe(参考訳) 量子複雑性理論では、$\textit{non-deterministic}$の量子計算の定義が量子証人$(\textsf{QMA})$、または古典的目撃者がsuffice$(\textsf{QCMA})$を必要としているかどうかという長い問題である。 各計算複雑性クラスを分離したランダム化された古典オラクルを構築することにより、この問題を進展させる。 以前の分離 (Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)) は量子ユニタリオラクルを必要とした。 分離問題は、正規の非方向グラフでサポートされている分布が複数の連結成分(yesインスタンス)で構成されているか、または1つの拡張連結成分(noインスタンス)で構成されているかを決定することである。 したがって oracle は $n$-bit boolean 関数上のディストリビューションである。

It is a long-standing open question in quantum complexity theory whether the definition of $\textit{non-deterministic}$ quantum computation requires quantum witnesses $(\textsf{QMA})$ or if classical witnesses suffice $(\textsf{QCMA})$. We make progress on this question by constructing a randomized classical oracle separating the respective computational complexity classes. Previous separations [Aaronson-Kuperberg (CCC'07), Fefferman-Kimmel (MFCS'18)] required a quantum unitary oracle. The separating problem is deciding whether a distribution supported on regular un-directed graphs either consists of multiple connected components (yes instances) or consists of one expanding connected component (no instances) where the graph is given in an adjacency-list format by the oracle. Therefore, the oracle is a distribution over $n$-bit boolean functions.
翻訳日:2023-03-27 18:21:55 公開日:2023-03-23
# potato: ポータブルなテキストアノテーションツール

POTATO: The Portable Text Annotation Tool ( http://arxiv.org/abs/2212.08620v2 )

ライセンス: Link先を確認
Jiaxin Pei, Aparna Ananthasubramaniam, Xingyao Wang, Naitian Zhou, Jackson Sargent, Apostolos Dedeloudis and David Jurgens(参考訳) 本稿では,Portable テキストアノテーションツール POTATO について紹介する。 1) 多くの種類のテキストとマルチモーダルデータのラベリングをサポートする。 2) デプロイとアノテーションの両方(一般的なml/nlpタスク、アクティブラーニング、キープレスショートカット、キーワードハイライト、ツールチップのためのコンベンジェントテンプレート)の生産性を最大化するための設定が容易な機能を提供する。 3)高度なカスタマイズ(編集可能なui、プレスクリーン質問、注意、資格テストの挿入)をサポートする。 2つのアノテーションタスクに対する実験は、特に長いドキュメントや複雑なタスクにおいて、POTATOが特別に設計された生産性機能によってラベル付け速度を改善することを示唆している。 POTATOはhttps://github.com/davidjurgens/potatoで入手できる。

We present POTATO, the Portable text annotation tool, a free, fully open-sourced annotation system that 1) supports labeling many types of text and multimodal data; 2) offers easy-to-configure features to maximize the productivity of both deployers and annotators (convenient templates for common ML/NLP tasks, active learning, keypress shortcuts, keyword highlights, tooltips); and 3) supports a high degree of customization (editable UI, inserting pre-screening questions, attention and qualification tests). Experiments over two annotation tasks suggest that POTATO improves labeling speed through its specially-designed productivity features, especially for long documents and complex tasks. POTATO is available at https://github.com/davidjurgens/potato and will continue to be updated.
翻訳日:2023-03-27 18:05:52 公開日:2023-03-23
# FlexiViT:すべてのパッチサイズのための1つのモデル

FlexiViT: One Model for All Patch Sizes ( http://arxiv.org/abs/2212.08013v2 )

ライセンス: Link先を確認
Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, Filip Pavetic(参考訳) Vision Transformerは、画像をパッチにスライスすることでシーケンスに変換する。 これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチは高い計算コストで高い精度をもたらすが、パッチサイズの変更は通常、モデルの再トレーニングを必要とする。 本稿では、トレーニング時にパッチサイズをランダム化するだけで、広い範囲のパッチサイズでうまく動作する1組の重み付けが実現し、デプロイ時に異なる計算予算にモデルを調整できることを実証する。 我々はFlexiViTと呼ばれる結果のモデルを、分類、画像テキスト検索、オープンワールド検出、パノプティックセグメンテーション、セマンティックセグメンテーションなど幅広いタスクで広範囲に評価し、通常は一致し、時には性能が良く、1つのパッチサイズでトレーニングされた標準のViTモデルと比較した。 したがって、flexivitトレーニングはvitの簡単なドロップイン改善であり、vitバックボーンアーキテクチャに依存するほとんどのモデルに計算適応機能を追加しやすくする。 コードと事前学習されたモデルはhttps://github.com/google-research/big_visionで入手できる。

Vision Transformers convert images to sequences by slicing them into patches. The size of these patches controls a speed/accuracy tradeoff, with smaller patches leading to higher accuracy at greater computational cost, but changing the patch size typically requires retraining the model. In this paper, we demonstrate that simply randomizing the patch size at training time leads to a single set of weights that performs well across a wide range of patch sizes, making it possible to tailor the model to different compute budgets at deployment time. We extensively evaluate the resulting model, which we call FlexiViT, on a wide range of tasks, including classification, image-text retrieval, open-world detection, panoptic segmentation, and semantic segmentation, concluding that it usually matches, and sometimes outperforms, standard ViT models trained at a single patch size in an otherwise identical setup. Hence, FlexiViT training is a simple drop-in improvement for ViT that makes it easy to add compute-adaptive capabilities to most models relying on a ViT backbone architecture. Code and pre-trained models are available at https://github.com/google-research/big_vision
翻訳日:2023-03-27 18:05:38 公開日:2023-03-23
# maskingdepth: 半教師付き単眼深度推定のためのマスク整合正規化

MaskingDepth: Masked Consistency Regularization for Semi-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2212.10806v3 )

ライセンス: Link先を確認
Jongbeom Baek, Gyeongnyeon Kim, Seonghoon Park, Honggyu An, Matteo Poggi, Seungryong Kim(参考訳) 本研究では,単眼深度推定のための新しい半教師付き学習フレームワークである maskingdepth を提案する。 maskingdepthは、強いラベルのないデータと弱いラベルのないデータに由来する擬似ラベルとの一貫性を強制するために設計されている。 この枠組みでは,弱い枝と強い枝の深さのあいまいさの問題と小型インスタンスの欠落のリスクを回避しつつ,ナイーブマスキング戦略の利点を増強として活用する新たなデータ拡張を提案する。 擬似ラベルとして強化された分岐からの高信頼度深度予測のみを保持するため, 頑健な整合性正規化を定義するための不確実性推定手法も提案する。 KITTIとNYU-Depth-v2データセットの実験では、各コンポーネントの有効性、より少ない深度アノテート画像の使用に対する堅牢性、およびモノクロ深度推定のための他の最先端の半教師付き手法と比較して優れた性能を示した。 さらに,本手法をドメイン適応タスクに容易に拡張できることを示す。 私たちのコードはhttps://github.com/KU-CVLAB/MaskingDepth.comで入手可能です。

We propose MaskingDepth, a novel semi-supervised learning framework for monocular depth estimation to mitigate the reliance on large ground-truth depth quantities. MaskingDepth is designed to enforce consistency between the strongly-augmented unlabeled data and the pseudo-labels derived from weakly-augmented unlabeled data, which enables learning depth without supervision. In this framework, a novel data augmentation is proposed to take the advantage of a naive masking strategy as an augmentation, while avoiding its scale ambiguity problem between depths from weakly- and strongly-augmented branches and risk of missing small-scale instances. To only retain high-confident depth predictions from the weakly-augmented branch as pseudo-labels, we also present an uncertainty estimation technique, which is used to define robust consistency regularization. Experiments on KITTI and NYU-Depth-v2 datasets demonstrate the effectiveness of each component, its robustness to the use of fewer depth-annotated images, and superior performance compared to other state-of-the-art semi-supervised methods for monocular depth estimation. Furthermore, we show our method can be easily extended to domain adaptation task. Our code is available at https://github.com/KU-CVLAB/MaskingDepth.
翻訳日:2023-03-27 17:53:56 公開日:2023-03-23
# 認知的意思決定のための量子回路コンポーネント

Quantum Circuit Components for Cognitive Decision-Making ( http://arxiv.org/abs/2302.03012v3 )

ライセンス: Link先を確認
Dominic Widdows, Jyoti Rani, Emmanuel Pothos(参考訳) 本稿では,人間の意思決定の古典的でないモデルが量子コンピュータの回路として動作可能であることを示す。 1960年代以降、多くの認知行動は古典的確率と集合論に基づく規則に違反していることが示されている。 例えば、調査で質問が行われる順序は、参加者が「yes」または「no」に答えるかどうかに影響するため、両方の質問に「yes」に答える人口は2つの固定集合の交点としてモデル化することはできない。 しかし、異なる順序で実行される一連の射影としてモデル化することができる。 この他の例は、部分空間間の体積ではなく部分空間間の角度を比較することに依存する量子確率を用いてうまく説明されている。 2020年代初頭、量子コンピュータは量子ビットレジスタの精神状態と異なるゲートと測定を用いた認知操作と決定を表現し、量子ハードウェア上でこれらの量子認知モデルを実装、研究できる段階に達した。 本稿では,量子認知モデルのための量子回路表現を開発し,特に不確実性下での順序効果や意思決定のモデル化に焦点をあてた。 この主張は、人間の脳が量子ビットと量子回路を明示的に使っているわけではない(ブール集合論の使用は、脳が古典的ビットを使用する必要はない)が、量子認知と量子コンピューティングの間で共有される数学は、認知モデリングのために量子コンピュータの探索を動機付ける。 これらの数学的要素が認知モデル、量子ハードウェア、回路実装の間の共通言語を提供するため、重要な量子特性は重ね合わせ、絡み合い、崩壊である。

This paper demonstrates that some non-classical models of human decision-making can be run successfully as circuits on quantum computers. Since the 1960s, many observed cognitive behaviors have been shown to violate rules based on classical probability and set theory. For example, the order in which questions are posed in a survey affects whether participants answer 'yes' or 'no', so the population that answers 'yes' to both questions cannot be modeled as the intersection of two fixed sets. It can, however, be modeled as a sequence of projections carried out in different orders. This and other examples have been described successfully using quantum probability, which relies on comparing angles between subspaces rather than volumes between subsets. Now in the early 2020s, quantum computers have reached the point where some of these quantum cognitive models can be implemented and investigated on quantum hardware, by representing the mental states in qubit registers, and the cognitive operations and decisions using different gates and measurements. This paper develops such quantum circuit representations for quantum cognitive models, focusing particularly on modeling order effects and decision-making under uncertainty. The claim is not that the human brain uses qubits and quantum circuits explicitly (just like the use of Boolean set theory does not require the brain to be using classical bits), but that the mathematics shared between quantum cognition and quantum computing motivates the exploration of quantum computers for cognition modeling. Key quantum properties include superposition, entanglement, and collapse, as these mathematical elements provide a common language between cognitive models, quantum hardware, and circuit implementations.
翻訳日:2023-03-27 17:46:20 公開日:2023-03-23
# 公平な介入に対するオペレーショナル・パースペクティブ--介入の場所と方法

An Operational Perspective to Fairness Interventions: Where and How to Intervene ( http://arxiv.org/abs/2302.01574v2 )

ライセンス: Link先を確認
Brian Hsu, Xiaotong Chen, Ying Han, Hongseok Namkoong, Kinjal Basu(参考訳) AIベースの意思決定システムが普及するにつれて、その運用の成功には、予測パフォーマンス、グループ間の格差、センシティブなグループ属性(例えばレース)の保護、エンジニアリングコストといった複数のデシダータのバランスが求められる。 本稿では,上記のデシデラタに関して公平な介入を評価し,文脈化するための包括的枠組みを提案する。 実践的考察の2つの重要なポイントは、\emph{where} (pre-, in-, post-process) と \emph{how} (センシティブなグループデータがどのように使われるか) である。 予測パリティに関するケーススタディで、我々のフレームワークを実証する。 そこで本研究では,不連続ロバスト最適化による推定時間におけるグループデータを用いずに,予測パリティフェアネスを実現する新しい手法を提案する。 次に、これらの手法の有効性を、2つの主要なモデルタイプ(XGBoost vs. Neural Net)、10のデータセット、20以上のユニークな方法論にわたる400近いバリエーションのベンチマーク研究で示す。 実証研究から得られた方法論的洞察は、フェアネスを中心としたMLワークフローの実践的設計を示唆する。 グループデータを用いることなく予測パリティを実現することは困難であり、モデルトレーニング中にグループデータを必要とする(ただし推論は行わない)にもかかわらず、分散的に堅牢な手法を開発することにより、Paretoは大幅に改善される。 さらに、普通のXGBoostモデルは、公正な介入を伴うニューラルネットワークをパレートし、モデル誘導バイアスの重要性を強調します。

As AI-based decision systems proliferate, their successful operationalization requires balancing multiple desiderata: predictive performance, disparity across groups, safeguarding sensitive group attributes (e.g., race), and engineering cost. We present a holistic framework for evaluating and contextualizing fairness interventions with respect to the above desiderata. The two key points of practical consideration are \emph{where} (pre-, in-, post-processing) and \emph{how} (in what way the sensitive group data is used) the intervention is introduced. We demonstrate our framework with a case study on predictive parity. In it, we first propose a novel method for achieving predictive parity fairness without using group data at inference time via distibutionally robust optimization. Then, we showcase the effectiveness of these methods in a benchmarking study of close to 400 variations across two major model types (XGBoost vs. Neural Net), ten datasets, and over twenty unique methodologies. Methodological insights derived from our empirical study inform the practical design of ML workflow with fairness as a central concern. We find predictive parity is difficult to achieve without using group data, and despite requiring group data during model training (but not inference), distributionally robust methods we develop provide significant Pareto improvement. Moreover, a plain XGBoost model often Pareto-dominates neural networks with fairness interventions, highlighting the importance of model inductive bias.
翻訳日:2023-03-27 17:45:51 公開日:2023-03-23
# 畳み込み畳み込み分布のためのデータスライニング

Data thinning for convolution-closed distributions ( http://arxiv.org/abs/2301.07276v2 )

ライセンス: Link先を確認
Anna Neufeld, Ameer Dharamshi, Lucy L. Gao, and Daniela Witten(参考訳) 本稿では,観測を元の観測値に等しい2つ以上の独立した部分に分割する手法であるデータスライニングを提案し,パラメータの(既知の)スケーリングまで,元の観測値と同じ分布をたどる。 この非常に一般的な提案は、ガウス分布、ポアソン分布、負二項分布、ガンマ分布、二項分布などを含む任意の畳み込み閉分布に適用できる。 データシンキングには、モデル選択、評価、推論のための多くのアプリケーションがある。 例えば、データスライニングによるクロスバリデーションは、サンプル分割による通常のクロスバリデーションのアプローチ、特に後者が適用できない教師なしの環境では、魅力的な代替手段を提供する。 シミュレーションおよび単一セルRNAシークエンシングデータへの応用において、k平均クラスタリングや主成分分析などの教師なし学習手法の結果を検証するために、データスライニングが利用可能であることを示す。

We propose data thinning, an approach for splitting an observation into two or more independent parts that sum to the original observation, and that follow the same distribution as the original observation, up to a (known) scaling of a parameter. This very general proposal is applicable to any convolution-closed distribution, a class that includes the Gaussian, Poisson, negative binomial, gamma, and binomial distributions, among others. Data thinning has a number of applications to model selection, evaluation, and inference. For instance, cross-validation via data thinning provides an attractive alternative to the usual approach of cross-validation via sample splitting, especially in unsupervised settings in which the latter is not applicable. In simulations and in an application to single-cell RNA-sequencing data, we show that data thinning can be used to validate the results of unsupervised learning approaches, such as k-means clustering and principal components analysis.
翻訳日:2023-03-27 17:44:34 公開日:2023-03-23
# 中性原子量子プロセッサの中間回路計測

Mid-circuit measurements on a neutral atom quantum processor ( http://arxiv.org/abs/2303.10051v2 )

ライセンス: Link先を確認
T. M. Graham, L. Phuttitarn, R. Chinnarasu, Y. Song, C. Poole, K. Jooya, J. Scott, A. Scott, P. Eichler, and M. Saffman(参考訳) 非破壊的にアンシラキュービットを計測しながら、保護された超微細ゼマン準状態におけるデータキュービットを棚上げすることにより、中性原子配列における中間回路の測定を示す。 測定中,腹腔のマイクロ波リポンピングにより測定精度が向上した。 シェルブデータキュービットのコヒーレンスを、動的に分離されたパルスでancilla読み出し中に拡張し、その後、データキュービットをmf = 0 の計算基底状態に戻した。 データ量子ビットの量子状態は、F = 97.0(5)%のプロセス忠実度を補正した状態準備測定(SPAM)により、一定位相シフトまで十分に保存されていることを実証する。 状態準備誤差の補正後のアシラ量子ビット上の測定忠実度は, F = 94.9(8)%, F = 95.3(1.1)% for |0>, |1> qubit%である。 本稿では、この手法を4重極再帰とマイクロ波ベースの量子状態リセットを用いた繰り返し量子誤り訂正に拡張することについて議論する。

We demonstrate mid-circuit measurements in a neutral atom array by shelving data qubits in protected hyperfine-Zeeman sub-states while non-destructively measuring an ancilla qubit. Measurement fidelity was enhanced using microwave repumping of the ancilla during the measurement. The coherence of the shelved data qubits was extended during the ancilla readout with dynamical decoupling pulses, after which the data qubits are returned to mf = 0 computational basis states. We demonstrate that the quantum state of the data qubits is well preserved up to a constant phase shift with a state preparation and measurement (SPAM) corrected process fidelity of F = 97.0(5)%. The measurement fidelity on the ancilla qubit after correction for state preparation errors is F = 94.9(8)% and F = 95.3(1.1)% for |0> and |1> qubit states, respectively. We discuss extending this technique to repetitive quantum error correction using quadrupole recooling and microwave-based quantum state resetting.
翻訳日:2023-03-27 17:27:51 公開日:2023-03-23
# HDR画像強調のためのマルチスケールトーンマッピングとデノイング

Joint Multi-Scale Tone Mapping and Denoising for HDR Image Enhancement ( http://arxiv.org/abs/2303.09071v2 )

ライセンス: Link先を確認
Litao Hu, Huaijin Chen, Jan P. Allebach(参考訳) 高ダイナミックレンジ(HDR)イメージング用の画像処理ユニット(IPU)または画像信号プロセッサ(ISP)は通常、デモサイティング、ホワイトバランス、レンズシェーディング補正、色補正、デノイング、トーンマッピングで構成される。 画像センサからのノイズに加えて、ISPのほぼすべてのステップはノイズを異なる方法で導入または増幅し、演算子を識別することでこれらのノイズを低減できる。 ダイナミックレンジ圧縮のために設計されたispのトーンマッピングオペレータはノイズレベルを著しく増幅することができ、特に低照度で撮影された画像ではノイズが著しく増大する。 そこで本稿では,hdr画像に対して両操作を念頭に置いて設計したマルチスケールデノイジングおよびトーンマッピングフレームワークを提案する。 私たちのジョイントネットワークは、両オペレータを最適化するエンドツーエンドのフォーマットでトレーニングされ、トーンマッピングオペレータがノイズ演算子を圧倒するのを防ぐことができます。 我々のモデルは、ベンチマークデータセットのほとんどにおいて、定量的かつ質的に既存のHDRおよびトーンマッピング演算子よりも優れています。

An image processing unit (IPU), or image signal processor (ISP) for high dynamic range (HDR) imaging usually consists of demosaicing, white balancing, lens shading correction, color correction, denoising, and tone-mapping. Besides noise from the imaging sensors, almost every step in the ISP introduces or amplifies noise in different ways, and denoising operators are designed to reduce the noise from these sources. Designed for dynamic range compressing, tone-mapping operators in an ISP can significantly amplify the noise level, especially for images captured in low-light conditions, making denoising very difficult. Therefore, we propose a joint multi-scale denoising and tone-mapping framework that is designed with both operations in mind for HDR images. Our joint network is trained in an end-to-end format that optimizes both operators together, to prevent the tone-mapping operator from overwhelming the denoising operator. Our model outperforms existing HDR denoising and tone-mapping operators both quantitatively and qualitatively on most of our benchmarking datasets.
翻訳日:2023-03-27 17:26:54 公開日:2023-03-23
# 共鳴励起と光子相関を用いたhBNにおける量子エミッタの高速スペクトル拡散の研究

Investigating the fast spectral diffusion of a quantum emitter in hBN using resonant excitation and photon correlations ( http://arxiv.org/abs/2303.05315v2 )

ライセンス: Link先を確認
Clarisse Fournier, Kenji Watanabe, Takashi Taniguchi, St\'ephanie Buil, Julien Barjon, Jean-Pierre Hermier, Aymeric Delteil(参考訳) 均一で不均質なデファスメント過程を識別し特徴付ける能力は、固体量子光学において不可欠である。 特に、線幅拡大につながるスペクトル拡散は、光子検出率の逆数よりも、関連する時間スケールが短い場合の証明が困難である。 ここでは、共鳴レーザー励起と2次光子相関の組み合わせにより、そのような高速なダイナミクスにアクセスできることを示す。 共振レーザ駆動は、スペクトル拡散を強度変動に変換し、2階コヒーレンス関数 $g^{(2)}(\tau)$ の散乱光の符号を残す。 本研究では,電子線が生成する色中心の高速スペクトル拡散を,六方晶窒化ホウ素の2次元材料で実験的に検討する。 様々なレーザーパワーで10桁以上の遅延時間を測定する量子エミッタの$g^{(2)}(\tau)$関数は、スペクトルジャンプの間にフーリエ制限された単一光子(t_2/2t_1 \sim 1$)を放出しながら、色中心が数十マイクロ秒の特徴的な時間スケールでスペクトル拡散を経験することを示す。

The ability to identify and characterize homogeneous and inhomogeneous dephasing processes is crucial in solid-state quantum optics. In particular, spectral diffusion leading to line broadening is difficult to evidence when the associated timescale is shorter than the inverse of the photon detection rate. Here, we show that a combination of resonant laser excitation and second-order photon correlations allows to access such fast dynamics. The resonant laser drive converts spectral diffusion into intensity fluctuations, leaving a signature in the second-order coherence function $g^{(2)}(\tau)$ of the scattered light that can be characterized using two-photon coincidences -- which simultaneously provides the homogeneous dephasing time. We experimentally implement this method to investigate the fast spectral diffusion of a color center generated by an electron beam in the two-dimensional material hexagonal boron nitride. The $g^{(2)}(\tau)$ function of the quantum emitter measured over more than ten orders of magnitude of delay times, at various laser powers, establishes that the color center experiences spectral diffusion at a characteristic timescale of a few tens of microseconds, while emitting Fourier-limited single photons ($T_2/2T_1 \sim 1$) between spectral jumps.
翻訳日:2023-03-27 17:25:42 公開日:2023-03-23
# 拡散GANを用いた教師なし音声認識の実現

Enhancing Unsupervised Speech Recognition with Diffusion GANs ( http://arxiv.org/abs/2303.13559v1 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) 拡散GANによる教師なし自動音声認識(ASR)のためのバニラ対向訓練法を強化する。 提案モデル(1)は,事前学習した音素言語モデルから抽出した出力およびラベルなし参照テキストに対して,様々な強度のインスタンスノイズを注入し,(2)拡散時間に依存した識別器に分離を依頼し,(3)生成器を更新するための勾配をバックプロパゲートする。 Librispeechによるwav2vec-Uの単語/音素誤り率比較(3.1%はテストクリーン、5.6%はテスト他)、TIMITおよびMLSデータセットは、我々の拡張戦略が効果的に機能することを示している。

We enhance the vanilla adversarial training method for unsupervised Automatic Speech Recognition (ASR) by a diffusion-GAN. Our model (1) injects instance noises of various intensities to the generator's output and unlabeled reference text which are sampled from pretrained phoneme language models with a length constraint, (2) asks diffusion timestep-dependent discriminators to separate them, and (3) back-propagates the gradients to update the generator. Word/phoneme error rate comparisons with wav2vec-U under Librispeech (3.1% for test-clean and 5.6% for test-other), TIMIT and MLS datasets, show that our enhancement strategies work effectively.
翻訳日:2023-03-27 17:18:27 公開日:2023-03-23
# Sketch2 Saliency:人間の描画から有能な物体を検出する学習

Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings ( http://arxiv.org/abs/2303.11502v2 )

ライセンス: Link先を確認
Ayan Kumar Bhunia, Subhadeep Koley, Amandeep Kumar, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe song(参考訳) 人間のスケッチは、様々な視覚理解タスク(検索、セグメンテーション、画像キャプチャなど)ですでにその価値が証明されている。 本稿では,スケッチの新たな特徴を明らかにする。 スケッチは自然な注意深いプロセスであり、これは直感的です。 より具体的には、スケッチを弱いラベルとして使用して、画像に存在する健全な物体を検出することを目的としている。 そこで本研究では,手描きのスケッチで「精細な物体」がいかに説明できるかを強調する新しい手法を提案する。 そこで本研究では、2Dアテンション機構を用いて、与えられた視覚写真に対応する逐次的スケッチ座標を生成することを目的とした写真間スケッチ生成モデルを提案する。 時間ステップを通じて蓄積されたアテンションマップは、プロセス内の健全な領域を生じさせる。 広範囲にわたる定量的・定性的な実験により,本仮説が証明され,スケッチに基づく塩分検出モデルが最先端と比較して競争力を発揮できることを示す。

Human sketch has already proved its worth in various visual understanding tasks (e.g., retrieval, segmentation, image-captioning, etc). In this paper, we reveal a new trait of sketches - that they are also salient. This is intuitive as sketching is a natural attentive process at its core. More specifically, we aim to study how sketches can be used as a weak label to detect salient objects present in an image. To this end, we propose a novel method that emphasises on how "salient object" could be explained by hand-drawn sketches. To accomplish this, we introduce a photo-to-sketch generation model that aims to generate sequential sketch coordinates corresponding to a given visual photo through a 2D attention mechanism. Attention maps accumulated across the time steps give rise to salient regions in the process. Extensive quantitative and qualitative experiments prove our hypothesis and delineate how our sketch-based saliency detection model gives a competitive performance compared to the state-of-the-art.
翻訳日:2023-03-27 17:15:45 公開日:2023-03-23
# TinyML: ツール,アプリケーション,課題,今後の研究方向性

TinyML: Tools, Applications, Challenges, and Future Research Directions ( http://arxiv.org/abs/2303.13569v1 )

ライセンス: Link先を確認
Rakhee Kallimani and Krishna Pai and Prasoon Raghuwanshi and Sridhar Iyer and Onel L. A. L\'opez(参考訳) 近年、人工知能(AI)と機械学習(ML)は、産業とアカデミックの両方から大きな関心を集めている。 特に、従来のML技術は所望の精度を満たすために膨大な電力を必要としており、主にネットワークノードのような高機能デバイスに限られている。 しかし,iot(internet of things, モノのインターネット)やエッジコンピューティングといった技術の進歩に伴い,分散・ユビキタスインテリジェンスのためのリソース制約付き組み込みデバイスにml技術を組み込むことが望ましい。 このことがTinyMLパラダイムの出現を動機付けている。これは、複数の安価でリソースに制約のあるデバイス上でのMLアプリケーションを可能にする組み込みML技術である。 しかし、TinyML技術の適切な実装へ移行する過程で、処理能力の最適化、信頼性の向上、学習モデルの精度の維持といった課題には、タイムリーな解決が必要である。 本稿では、TinyML実装で利用可能な様々な道について概観する。 まず、TinyMLの背景と、TinyMLをサポートするさまざまなツールに関する詳細な議論が提供される。 そして、先進技術を用いたTinyMLの最先端応用について詳述する。 最後に,様々な研究課題と今後の方向性について述べる。

In recent years, Artificial Intelligence (AI) and Machine learning (ML) have gained significant interest from both, industry and academia. Notably, conventional ML techniques require enormous amounts of power to meet the desired accuracy, which has limited their use mainly to high-capability devices such as network nodes. However, with many advancements in technologies such as the Internet of Things (IoT) and edge computing, it is desirable to incorporate ML techniques into resource-constrained embedded devices for distributed and ubiquitous intelligence. This has motivated the emergence of the TinyML paradigm which is an embedded ML technique that enables ML applications on multiple cheap, resource- and power-constrained devices. However, during this transition towards appropriate implementation of the TinyML technology, multiple challenges such as processing capacity optimization, improved reliability, and maintenance of learning models' accuracy require timely solutions. In this article, various avenues available for TinyML implementation are reviewed. Firstly, a background of TinyML is provided, followed by detailed discussions on various tools supporting TinyML. Then, state-of-art applications of TinyML using advanced technologies are detailed. Lastly, various research challenges and future directions are identified.
翻訳日:2023-03-27 17:10:39 公開日:2023-03-23
# グラフ畳み込みネットワークを用いた賃貸住宅床計画の不動産価値の抽出

Extracting real estate values of rental apartment floor plans using graph convolutional networks ( http://arxiv.org/abs/2303.13568v1 )

ライセンス: Link先を確認
Atsushi Takizawa(参考訳) 大阪府内の家族向け集合住宅のフロアプラン画像から、最近提案されているアクセスグラフ抽出法に基づき、部屋の流れ線の観点から隣接関係を示すアクセスグラフを自動的に抽出する。 本稿では,アクセスグラフのためのグラフ畳み込みネットワーク(gcn)を定義し実装し,アクセスグラフの不動産価値をフロア計画値として推定するモデルを提案する。 他の一般的な説明変数を用いたフロアプラン値とヘドニック法を含むモデルを用いて家賃を推定し,その推定精度を比較する。 また、学習した畳み込みネットワークから、家賃を説明するフロアプランの特徴を分析する。 そこで,不動産フロア計画の価値を総合的に推定する新しいモデルを提案し,検証した。 提案手法は,従来のモデルに比べて賃貸推定精度を著しく向上させ,学習したGCNを解析することにより,フロアプランの価値に影響を及ぼす空間構成ルールを理解することができることを示した。

Access graphs that indicate adjacency relationships from the perspective of flow lines of rooms are extracted automatically from a large number of floor plan images of a family-oriented rental apartment complex in Osaka Prefecture, Japan, based on a recently proposed access graph extraction method with slight modifications. We define and implement a graph convolutional network (GCN) for access graphs and propose a model to estimate the real estate value of access graphs as the floor plan value. The model, which includes the floor plan value and hedonic method using other general explanatory variables, is used to estimate rents and their estimation accuracies are compared. In addition, the features of the floor plan that explain the rent are analyzed from the learned convolution network. Therefore, a new model for comprehensively estimating the value of real estate floor plans is proposed and validated. The results show that the proposed method significantly improves the accuracy of rent estimation compared to that of conventional models, and it is possible to understand the specific spatial configuration rules that influence the value of a floor plan by analyzing the learned GCN.
翻訳日:2023-03-27 17:10:21 公開日:2023-03-23
# 胸部CTを用いた異種データのフェデレーション学習

Federated Learning on Heterogenous Data using Chest CT ( http://arxiv.org/abs/2303.13567v1 )

ライセンス: Link先を確認
Edward H. Lee, Brendan Kelly, Emre Altinmakas, Hakan Dogan, Errol Colak, Steve Fu, Olivia Choudhury, Ujjwal Ratan, Felipe Kitamura, Hernan Chaves, Mourad Said, Eduardo Reis, Jaekwang Lim, Patricia Yokoo, Corie Mitchell, Jimmy Zheng, Maryam Mohammadzadeh, Golnaz Houshmand, Wendy Qiu, Joel Hayden, Farnaz Rafiee, C Klochko, Nicholas Bevins, Simon S. Wong, Safwan Halabi, Kristen W. Yeom(参考訳) ビッグデータはaiの進歩を加速している。 遺伝学、セックス、人種、ダイエット、および様々な環境要因からの人口差が病気に大きく寄与していることはよく知られているが、医学におけるAI研究は、多種多様なデータソースの少ないロコリージョンの患者コホートに主に焦点を当てている。 このような制限は、医療における大規模なデータ共有とデータのプライバシーに対する倫理的懸念の障壁に起因している。 フェデレーション・ラーニング(FL)は、データ共有なしに病院間での学習を可能にするAI開発のための潜在的経路の1つである。 本研究は,5大陸にまたがる21の参加病院において,100万枚以上の画像を持つ1万枚以上の患者を対象とするFL戦略について検討した。 我々は,feed averaging (fedavg), incremental institutional learning (iil), cyclical incremental institutional learning (ciil)の3つの手法を提案する。 また,クラス不均衡とデータサイズ格差を克服するために合成データを活用するFL戦略を提案する。 flは,低表示データの少ないサイト間で高いパフォーマンスを維持しつつ,集中型データ共有 (cds) と同等の性能を達成できることを示した。 この不均質なデータセットにおけるすべての技術的アプローチの強みと弱みについて,非独立かつ同一の分散(非iid)データの多様性に対するロバスト性について検討する。 また, flの文脈において, 年齢, 性別, 場所等の不均質なデータ源を記述し, これらのバイアスにより, 適切にラベルづけされた個体群のうち, 格差がいかに生じるかを示す。

Large data have accelerated advances in AI. While it is well known that population differences from genetics, sex, race, diet, and various environmental factors contribute significantly to disease, AI studies in medicine have largely focused on locoregional patient cohorts with less diverse data sources. Such limitation stems from barriers to large-scale data share in medicine and ethical concerns over data privacy. Federated learning (FL) is one potential pathway for AI development that enables learning across hospitals without data share. In this study, we show the results of various FL strategies on one of the largest and most diverse COVID-19 chest CT datasets: 21 participating hospitals across five continents that comprise >10,000 patients with >1 million images. We present three techniques: Fed Averaging (FedAvg), Incremental Institutional Learning (IIL), and Cyclical Incremental Institutional Learning (CIIL). We also propose an FL strategy that leverages synthetically generated data to overcome class imbalances and data size disparities across centers. We show that FL can achieve comparable performance to Centralized Data Sharing (CDS) while maintaining high performance across sites with small, underrepresented data. We investigate the strengths and weaknesses for all technical approaches on this heterogeneous dataset including the robustness to non-Independent and identically distributed (non-IID) diversity of data. We also describe the sources of data heterogeneity such as age, sex, and site locations in the context of FL and show how even among the correctly labeled populations, disparities can arise due to these biases.
翻訳日:2023-03-27 17:10:04 公開日:2023-03-23
# 論理知識を用いた生体データの埋め込み表現の拡張

Enhancing Embedding Representations of Biomedical Data using Logic Knowledge ( http://arxiv.org/abs/2303.13566v1 )

ライセンス: Link先を確認
Michelangelo Diligenti, Francesco Giannini, Stefano Fioravanti, Caterina Graziani, Moreno Falaschi, Giuseppe Marra(参考訳) 知識グラフ埋め込み(KGE)は、潜在空間におけるエンティティと関係の間の統計的依存関係を暗黙的にエンコードできるため、オントロジーやグラフ構造データを扱うために特別に考案されたモデルの非常に一般的なクラスとなっている。 KGE技術は特に生物医学領域において有効であり、生物と化学オブジェクトの間の複雑な相互作用の基礎となる大きな知識グラフを扱うのが一般的である。 最近の文献では、pharmkgデータセットは最も難しい知識グラフの生物医学的ベンチマークの一つとして提案されており、遺伝子、疾患、化学物質の間に数十万の関連事実がある。 KGEは、非常に大きなリレーショナルドメインにスケールできますが、一般的には、複雑な実験的な設定において基本的なロジックルールのような、事実間のより複雑なリレーショナル依存関係を表現することに失敗します。 本稿では,PharmKGデータセット上のKGEの埋め込み表現を強化するために,論理規則を利用する。 この目的のために,最近提案されているニューラルシンボリックアプローチであるrelational reasoning network(r2n)を採用する。 R2Nは利用可能なロジックルールを使用して、KGE潜在表現を前提としたニューラルネットワークを構築する。 実験では,我々のアプローチが,pharmkgデータセットの現在の状態を大幅に改善できることを実証する。 最後に, 異なる選択基準による代替ルールセットの効果を実験的に比較し, 検討したルール数を変化させるアブレーション研究を行った。

Knowledge Graph Embeddings (KGE) have become a quite popular class of models specifically devised to deal with ontologies and graph structure data, as they can implicitly encode statistical dependencies between entities and relations in a latent space. KGE techniques are particularly effective for the biomedical domain, where it is quite common to deal with large knowledge graphs underlying complex interactions between biological and chemical objects. Recently in the literature, the PharmKG dataset has been proposed as one of the most challenging knowledge graph biomedical benchmark, with hundreds of thousands of relational facts between genes, diseases and chemicals. Despite KGEs can scale to very large relational domains, they generally fail at representing more complex relational dependencies between facts, like logic rules, which may be fundamental in complex experimental settings. In this paper, we exploit logic rules to enhance the embedding representations of KGEs on the PharmKG dataset. To this end, we adopt Relational Reasoning Network (R2N), a recently proposed neural-symbolic approach showing promising results on knowledge graph completion tasks. An R2N uses the available logic rules to build a neural architecture that reasons over KGE latent representations. In the experiments, we show that our approach is able to significantly improve the current state-of-the-art on the PharmKG dataset. Finally, we provide an ablation study to experimentally compare the effect of alternative sets of rules according to different selection criteria and varying the number of considered rules.
翻訳日:2023-03-27 17:09:32 公開日:2023-03-23
# グラフテンソルネットワーク:複数領域の大規模ニューラルネットワークシステムを設計するための直感的フレームワーク

Graph Tensor Networks: An Intuitive Framework for Designing Large-Scale Neural Learning Systems on Multiple Domains ( http://arxiv.org/abs/2303.13565v1 )

ライセンス: Link先を確認
Yao Lei Xu, Kriton Konstantinidis, Danilo P. Mandic(参考訳) 現代深層学習におけるテンソルとテンソルの操作の普遍性にもかかわらず、ニューラルネットワークを形式的に設計し記述するためのテンソル数学の使用は、深層学習コミュニティ内ではまだ未調査のままである。 この目的のために,グラフテンソルネットワーク(GTN)フレームワークを導入し,正規領域と不規則領域の両方で大規模ニューラルネットワークシステムを体系的に設計・実装する。 提案されたフレームワークは、多くの一般的なアーキテクチャを特別なケースとして含めるのに十分な一般性があり、あらゆるデータドメイン上のデータを扱うのに十分な柔軟性がある。 提案するフレームワークのパワーと柔軟性は,実データ実験によって実証され,テンソル代数により,複雑性コストが大幅に低減され,性能が向上した。

Despite the omnipresence of tensors and tensor operations in modern deep learning, the use of tensor mathematics to formally design and describe neural networks is still under-explored within the deep learning community. To this end, we introduce the Graph Tensor Network (GTN) framework, an intuitive yet rigorous graphical framework for systematically designing and implementing large-scale neural learning systems on both regular and irregular domains. The proposed framework is shown to be general enough to include many popular architectures as special cases, and flexible enough to handle data on any and many data domains. The power and flexibility of the proposed framework is demonstrated through real-data experiments, resulting in improved performance at a drastically lower complexity costs, by virtue of tensor algebra.
翻訳日:2023-03-27 17:08:52 公開日:2023-03-23
# 1次元エミッタ鎖における分散レスサブラジアント光子貯蔵

Dispersionless subradiant photon storage in one-dimensional emitter chains ( http://arxiv.org/abs/2303.13564v1 )

ライセンス: Link先を確認
Marcel Cech, Igor Lesanovsky, Beatriz Olmos(参考訳) 原子エミッタは集合的に放射場に結合する。 1つのエミッタの励起は短命であるが、それらの集まりは1つのエミッタの寿命よりも数桁長い光子を含むことができる。 2レベルエミッタのサブ波長1次元格子における単一光子の最適吸収、長寿命・無分散保存、放出の正確な条件を提供する。 特に2つのストレージ方式について詳述する。 第一は、単一光子スペクトルにおける近似平坦な断面の露光に基づいており、単一の光子は、効果的にゼロな群速度を持つ波束として保存できる。 第2のスキームでは、エミッター間で誘導される相互作用の角依存性を仮想光子の交換によって利用し、環上では光子の効果的なトラップ電位が生じる。 どちらの場合も、現在の実験で利用できるパラメータの中で、単一のエミッタ寿命の数百倍の時間で高忠実な光子ストレージが得られる。

Atomic emitter ensembles couple collectively to the radiation field. Although an excitation on a single emitter may be short-lived, a collection of them can contain a photon several orders of magnitude longer than the single emitter lifetime. We provide the exact conditions for optimal absorption, long-lived and dispersionless storage, and release, of a single photon in a sub-wavelength one-dimensional lattice of two-level emitters. In particular, we detail two storage schemes. The first is based on the uncovering of approximate flat sections in the single-photon spectrum, such that a single photon can be stored as a wave packet with effective zero group velocity. For the second scheme we exploit the angular dependence of the interactions induced between the emitters and mediated via exchange of virtual photons, which on a ring gives rise to an effective trapping potential for the photon. In both cases, we are able to obtain, within current experimentally accessible parameters, high-fidelity photon storage for times hundreds of times longer than the single emitter lifetime.
翻訳日:2023-03-27 17:08:26 公開日:2023-03-23
# スパイクニューラルネットワークにおけるスキップ接続 : ネットワークトレーニングにおけるその影響の分析

Skip Connections in Spiking Neural Networks: An Analysis of Their Effect on Network Training ( http://arxiv.org/abs/2303.13563v1 )

ライセンス: Link先を確認
Hadjer Benmeziane, Amine Ziad Ounnoughene, Imane Hamzaoui, Younes Bouhadjar(参考訳) スパイクニューラルネットワーク(snn)は、エネルギー効率と生物システムにおけるスパイク行動のモデル化の可能性から、従来のニューラルネットワーク(ann)に代わる有望な選択肢として注目を集めている。 しかしながら、SNNのトレーニングは依然として困難な問題であり、パフォーマンスを改善するために新しい技術が必要である。 本稿では,SNNにおけるスキップ接続の影響について検討し,ANNからSNNへのモデル適応を行うハイパーパラメータ最適化手法を提案する。 本研究では,スリップ接続の位置,タイプ,回数を最適化することで,ネットワーク内の情報の流れを高速化し,SNNの精度と効率を向上できることを実証する。 その結果、cifar-10-dvsとdvs128のジェスチャデータセットでは、複数の最先端モデルの適応度が平均+8%向上した。

Spiking neural networks (SNNs) have gained attention as a promising alternative to traditional artificial neural networks (ANNs) due to their potential for energy efficiency and their ability to model spiking behavior in biological systems. However, the training of SNNs is still a challenging problem, and new techniques are needed to improve their performance. In this paper, we study the impact of skip connections on SNNs and propose a hyperparameter optimization technique that adapts models from ANN to SNN. We demonstrate that optimizing the position, type, and number of skip connections can significantly improve the accuracy and efficiency of SNNs by enabling faster convergence and increasing information flow through the network. Our results show an average +8% accuracy increase on CIFAR-10-DVS and DVS128 Gesture datasets adaptation of multiple state-of-the-art models.
翻訳日:2023-03-27 17:08:03 公開日:2023-03-23
# エコー状態ネットワークを用いた一方向結合学習

Learning unidirectional coupling using echo-state network ( http://arxiv.org/abs/2303.13562v1 )

ライセンス: Link先を確認
Swarnendu Mandal and Manish Dev Shrimali(参考訳) 貯留層コンピューティングは、複雑なダイナミクスの分野で多くの潜在的な応用を見出した。 本稿では,エコー状態ネットワーク(ESN)モデルの異常な機能を利用して,システムの時系列データから一方向結合方式を学習する。 ドライブ-レスポンスシステムのいくつかの例をトレーニングすると、同じ結合を持つ任意のドライバ信号に対して、マシンが応答システムのダイナミクスを予測することができることを示す。 トレーニング中のA-B$型駆動応答システムの時系列データだけで、ESNが結合スキームを学習するのに十分である。 もし私たちがドライブシステム$A$を別のシステム$C$に置き換えたとしても、ESNは新しいドライブシステム$C$のみのダイナミクスを使用してレスポンスシステムの$B$を再現することができる。

Reservoir Computing has found many potential applications in the field of complex dynamics. In this article, we exploit the exceptional capability of the echo-state network (ESN) model to make it learn a unidirectional coupling scheme from only a few time series data of the system. We show that, once trained with a few example dynamics of a drive-response system, the machine is able to predict the response system's dynamics for any driver signal with the same coupling. Only a few time series data of an $A-B$ type drive-response system in training is sufficient for the ESN to learn the coupling scheme. After training even if we replace drive system $A$ with a different system $C$, the ESN can reproduce the dynamics of response system $B$ using the dynamics of new drive system $C$ only.
翻訳日:2023-03-27 17:07:45 公開日:2023-03-23
# MoGDE:地深推定による移動単眼3次元物体検出の高速化

MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth Estimation ( http://arxiv.org/abs/2303.13561v1 )

ライセンス: Link先を確認
Yunsong Zhou, Quan Liu, Hongzi Zhu, Yunzhe Li, Shan Chang, and Minyi Guo(参考訳) モバイル環境でのモノクロ3Dオブジェクト検出(例えば、車両、ドローン、ロボット)は、重要な課題でありながら難しい課題である。 単眼視と常に変化するカメラのポーズの遠距離差のため、特に遠方の物体では高い検出精度を得ることは困難である。 本論文では,物体の深度を地上の深度に応じて適切に決定できるという知見に触発され,画像の深度を常に推定し,推定した地深情報を用いてMono3Dを案内する,新しいMono3DフレームワークであるMoGDEを提案する。 この目的のために、ポーズ検出ネットワークを用いてカメラのポーズを推定し、3次元から2次元の視点形状に応じて画素レベルの深度を表す特徴マップを構築する。 さらに, 地中深度を推定してMono3Dを改善するために, 長距離自己認識機構を用いて地中接触点を効果的に同定し, 対応する地中深度を画像特徴マップにピン留めする, トランスフォーマ構造に基づくRGB-D機能融合ネットワークを設計する。 実世界のKITTIデータセットについて広範な実験を行った。 その結果,mogdeは近距離オブジェクトと遠距離オブジェクトの両方に対して,mono3dの精度とロバスト性を効果的に向上できることがわかった。 MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。

Monocular 3D object detection (Mono3D) in mobile settings (e.g., on a vehicle, a drone, or a robot) is an important yet challenging task. Due to the near-far disparity phenomenon of monocular vision and the ever-changing camera pose, it is hard to acquire high detection accuracy, especially for far objects. Inspired by the insight that the depth of an object can be well determined according to the depth of the ground where it stands, in this paper, we propose a novel Mono3D framework, called MoGDE, which constantly estimates the corresponding ground depth of an image and then utilizes the estimated ground depth information to guide Mono3D. To this end, we utilize a pose detection network to estimate the pose of the camera and then construct a feature map portraying pixel-level ground depth according to the 3D-to-2D perspective geometry. Moreover, to improve Mono3D with the estimated ground depth, we design an RGB-D feature fusion network based on the transformer structure, where the long-range self-attention mechanism is utilized to effectively identify ground-contacting points and pin the corresponding ground depth to the image feature map. We conduct extensive experiments on the real-world KITTI dataset. The results demonstrate that MoGDE can effectively improve the Mono3D accuracy and robustness for both near and far objects. MoGDE yields the best performance compared with the state-of-the-art methods by a large margin and is ranked number one on the KITTI 3D benchmark.
翻訳日:2023-03-27 17:07:32 公開日:2023-03-23
# カメラによるLiDARの3D検出を支援するコラボレーション

Collaboration Helps Camera Overtake LiDAR in 3D Detection ( http://arxiv.org/abs/2303.13560v1 )

ライセンス: Link先を確認
Yue Hu, Yifan Lu, Runsheng Xu, Weidi Xie, Siheng Chen, Yanfeng Wang(参考訳) カメラのみの3D検出は、LiDARベースの検出システムと比較して、オブジェクトを3D空間にローカライズするための簡単な構成の経済的ソリューションを提供する。 しかし、入力に直接3D計測が欠けているため、正確な深さ推定が大きな課題である。 以前の多くの手法では、変形可能な層やより大きな受容場など、ネットワーク設計による深さ推定の改善を試みていた。 本研究は,マルチエージェントコラボレーションの導入により,カメラのみの3d検出を改善する直交方向を提案する。 提案するコラボレーティブカメラのみの3D検出(CoCa3D)により,エージェントは通信を通じて相互に補完情報を共有できる。 一方、最も情報性の高い手がかりを選択することで、通信効率を最適化する。 複数の視点からの共有メッセージは、シングルエージェント推定深度を曖昧にし、シングルエージェントビューにおけるオクルードおよびロングレンジ領域を補完する。 実世界の1つのデータセットと2つの新しいシミュレーションデータセットでCoCa3Dを評価する。 その結果、CoCa3Dは従来のSOTA性能をDAIR-V2Xで44.21%改善し、OPV2V+で30.60%、AP@70でCoPerception-UAVs+で12.59%向上した。 予備的な結果は、十分なコラボレーションで、カメラがLiDARを克服する可能性を示している。 私たちはデータセットとコードをhttps://siheng-chen.github.io/dataset/CoPerception+とhttps://github.com/MediaBrain-SJTU/CoCa3Dでリリースしました。

Camera-only 3D detection provides an economical solution with a simple configuration for localizing objects in 3D space compared to LiDAR-based detection systems. However, a major challenge lies in precise depth estimation due to the lack of direct 3D measurements in the input. Many previous methods attempt to improve depth estimation through network designs, e.g., deformable layers and larger receptive fields. This work proposes an orthogonal direction, improving the camera-only 3D detection by introducing multi-agent collaborations. Our proposed collaborative camera-only 3D detection (CoCa3D) enables agents to share complementary information with each other through communication. Meanwhile, we optimize communication efficiency by selecting the most informative cues. The shared messages from multiple viewpoints disambiguate the single-agent estimated depth and complement the occluded and long-range regions in the single-agent view. We evaluate CoCa3D in one real-world dataset and two new simulation datasets. Results show that CoCa3D improves previous SOTA performances by 44.21% on DAIR-V2X, 30.60% on OPV2V+, 12.59% on CoPerception-UAVs+ for AP@70. Our preliminary results show a potential that with sufficient collaboration, the camera might overtake LiDAR in some practical scenarios. We released the dataset and code at https://siheng-chen.github.io/dataset/CoPerception+ and https://github.com/MediaBrain-SJTU/CoCa3D.
翻訳日:2023-03-27 17:07:02 公開日:2023-03-23
# 視覚変換器のスケール化量子化

Scaled Quantization for the Vision Transformer ( http://arxiv.org/abs/2303.13601v1 )

ライセンス: Link先を確認
Yangyang Chang and Gerald E. Sobelman(参考訳) 少数のビットによる量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減に役立つ。 しかし、ほとんどの量子化法は指数根や平方根のような複雑な関数を容易に扱うことはできず、以前の手法では浮動小数点値と相互作用しなければならない複雑な訓練プロセスが必要となる。 本稿では,中間浮動小数点演算を必要とせず,視覚トランスフォーマネットワークのフル整数量子化のためのロバストな手法を提案する。 量子化技術は、プロセッサ/メモリアーキテクチャやFPGAなど、様々なハードウェアやソフトウェアの実装に適用できる。

Quantization using a small number of bits shows promise for reducing latency and memory usage in deep neural networks. However, most quantization methods cannot readily handle complicated functions such as exponential and square root, and prior approaches involve complex training processes that must interact with floating-point values. This paper proposes a robust method for the full integer quantization of vision transformer networks without requiring any intermediate floating-point computations. The quantization techniques can be applied in various hardware or software implementations, including processor/memory architectures and FPGAs.
翻訳日:2023-03-27 17:01:31 公開日:2023-03-23
# 大規模言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として

Prompting Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages ( http://arxiv.org/abs/2303.13592v1 )

ライセンス: Link先を確認
Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Samuel Cahyawijaya, Holy Lovenia, Lintang Sutawika, Jan Christian Blaise Cruz, Long Phan, Yin Lin Tan, Alham Fikri Aji(参考訳) コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。 近年のLarge Language Models(LLM)の普及は、次のような質問を補完している。 本稿では,東南アジアの5言語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,クレオール語,シングリッシュ語)のコードミキシングデータを作成するため,ゼロショット方式でLSMを推進することを検討する。 コードミキシング」という言葉が明示的に定義されている時間の68%をコードミキシングで生成できるChatGPTが最も可能性を示す。 さらに、chatgptとinstructgpt(davinci-003)のsinglishテキスト生成のパフォーマンスはいずれも注目すべきものであり、さまざまなプロンプトで平均96%の成功率を示している。 しかし、ChatGPTとInstructGPTの符号混合能力は、意味的不正確性につながる単語選択誤差によって低下する。 bloomzやflan-t5-xxlのような他の多言語モデルは、コード混合テキストを全く生成できない。 低リソースデータ生成の特定の形式でのLLMの限られた約束を強調することにより、同様の手法を他のデータ共有NLPコンテキストに適用する際の計測アプローチを求める。

While code-mixing is a common linguistic practice in many parts of the world, collecting high-quality and low-cost code-mixed data remains a challenge for natural language processing (NLP) research. The proliferation of Large Language Models (LLMs) in recent times compels one to ask: can these systems be used for data generation? In this article, we explore prompting LLMs in a zero-shot manner to create code-mixed data for five languages in South East Asia (SEA) -- Indonesian, Malay, Chinese, Tagalog, Vietnamese, as well as the creole language Singlish. We find that ChatGPT shows the most potential, capable of producing code-mixed text 68% of the time when the term "code-mixing" is explicitly defined. Moreover, both ChatGPT and InstructGPT's (davinci-003) performances in generating Singlish texts are noteworthy, averaging a 96% success rate across a variety of prompts. The code-mixing proficiency of ChatGPT and InstructGPT, however, is dampened by word choice errors that lead to semantic inaccuracies. Other multilingual models such as BLOOMZ and Flan-T5-XXL are unable to produce code-mixed texts altogether. By highlighting the limited promises of LLMs in a specific form of low-resource data generation, we call for a measured approach when applying similar techniques to other data-scarce NLP contexts.
翻訳日:2023-03-27 17:01:22 公開日:2023-03-23
# アルゴリズムの応用に関する一考察

Une comparaison des algorithmes d'apprentissage pour la survie avec donn\'ees manquantes ( http://arxiv.org/abs/2303.13590v1 )

ライセンス: Link先を確認
Paul Dufoss\'e, S\'ebastien Benzekry(参考訳) 生存率分析は、健康データの研究に欠かせないツールである。 このようなデータの固有の構成要素は、欠落した値の存在である。 近年、ニューラルネットワークに基づく生存タスクのための新しい学習アルゴリズムが提案されている。 本研究では,そのようなアルゴリズムの予測性能と,非観測クラスタに属する現実的状況を反映したシミュレーションデータにおける欠落値の処理方法について検討した。 我々は欠落したデータの異なるパターンを調査した。 以上の結果から, さらなる機能工学がなければ, いずれの場合も, 単一計算法が他の手法よりも優れていることが示唆された。 提案手法は、他の欠落データパターンや生存モデルを比較するのに利用できる。 Pythonコードはパッケージサバイバルシムを通じてアクセス可能である。 -日仏関係を分析。 ヴァリュー・マンクァンテス(valeurs manquantes)という人物。 ces derni\``eres ann\'ees, de nouveaux algorithmes d'apprentissage pour la survie, bas\'es sur les r\'eseaux de neurones, ont \'et\'e con\c{c}us l'objectif de ce travail est d'\'etudier la performance en pr\'ediction de ces algorithmes coupl\'es \`a diff\'erentes pour g\'erer les valeurs manquantes, sur des donn\'ees simul\'ees qui refl\`etent une situation rencontr\'ee en pratique, c'est-\`a dire lorsque les individus peuvent \^etre group\'es selon leurs covariables ドン・マンクエンテス・ソント(donn\'ees manquantes sont \'etudi\'es)の略。 変数 suppl''ementaires, aucune m''ethode d'imputation n'est meilleure que les autres dans tous les cas。 訳語 比較する;比較する;比較する;比較する;比較する;比較する;比較する le code en python est は le package survivalsim 経由でアクセス可能である。

Survival analysis is an essential tool for the study of health data. An inherent component of such data is the presence of missing values. In recent years, researchers proposed new learning algorithms for survival tasks based on neural networks. Here, we studied the predictive performance of such algorithms coupled with different methods for handling missing values on simulated data that reflect a realistic situation, i.e., when individuals belong to unobserved clusters. We investigated different patterns of missing data. The results show that, without further feature engineering, no single imputation method is better than the others in all cases. The proposed methodology can be used to compare other missing data patterns and/or survival models. The Python code is accessible via the package survivalsim. -- L'analyse de survie est un outil essentiel pour l'\'etude des donn\'ees de sant\'e. Une composante inh\'erente \`a ces donn\'ees est la pr\'esence de valeurs manquantes. Ces derni\`eres ann\'ees, de nouveaux algorithmes d'apprentissage pour la survie, bas\'es sur les r\'eseaux de neurones, ont \'et\'e con\c{c}us. L'objectif de ce travail est d'\'etudier la performance en pr\'ediction de ces algorithmes coupl\'es \`a diff\'erentes m\'ethodes pour g\'erer les valeurs manquantes, sur des donn\'ees simul\'ees qui refl\`etent une situation rencontr\'ee en pratique, c'est-\`a dire lorsque les individus peuvent \^etre group\'es selon leurs covariables. Diff\'erents sch\'emas de donn\'ees manquantes sont \'etudi\'es. Les r\'esultats montrent que, sans l'ajout de variables suppl\'ementaires, aucune m\'ethode d'imputation n'est meilleure que les autres dans tous les cas. La m\'ethodologie propos\'ee peut \^etre utilis\'ee pour comparer d'autres mod\`eles de survie. Le code en Python est accessible via le package survivalsim.
翻訳日:2023-03-27 17:00:55 公開日:2023-03-23
# スコアリング関数と一般化予測について

A Closer Look at Scoring Functions and Generalization Prediction ( http://arxiv.org/abs/2303.13589v1 )

ライセンス: Link先を確認
Puja Trivedi, Danai Koutra, Jayaraman J. Thiagarajan(参考訳) 一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的とする。 しかしながら、GEPは異なるメカニズム(例えば、回帰器、しきい値関数、キャリブレーションデータセットなど)を使用して、そのような誤差推定を導出し、特定のスコアリング関数の利点を難読化することができる。 そこで本研究では,人気のあるスコアリング機能(信頼度,局所多様体滑らか性,モデル合意)のメカニズム選択によらず,厳密に検討する。 複雑なメカニズムが欠如している場合、分散シフトや腐敗の下で誤差を推定する場合、最先端の信頼度と滑らかさに基づくスコアは単純なモデル・アグリーメントスコアを上回らないことが分かる。 さらに,トレーニングデータの漏洩(ラベルノイズ,測定ノイズ,アンダーサンプリングなど)が現実的環境では,モデル・アグリーメントスコアが引き続き良好に機能し,アンサンブルの多様性が性能向上に重要であることが分かった。 最後に,スコアリング関数の限界をよりよく理解するために,単純さのバイアスや,単純だが不安定な特徴に依存するディープニューラルネットワークがgep性能に悪影響を及ぼすことを実証する。 全体として,一般的なスコアリング機能の有効性を現実的な設定で慎重に検討し,その限界をより理解する上で役立ちます。

Generalization error predictors (GEPs) aim to predict model performance on unseen distributions by deriving dataset-level error estimates from sample-level scores. However, GEPs often utilize disparate mechanisms (e.g., regressors, thresholding functions, calibration datasets, etc), to derive such error estimates, which can obfuscate the benefits of a particular scoring function. Therefore, in this work, we rigorously study the effectiveness of popular scoring functions (confidence, local manifold smoothness, model agreement), independent of mechanism choice. We find, absent complex mechanisms, that state-of-the-art confidence- and smoothness- based scores fail to outperform simple model-agreement scores when estimating error under distribution shifts and corruptions. Furthermore, on realistic settings where the training data has been compromised (e.g., label noise, measurement noise, undersampling), we find that model-agreement scores continue to perform well and that ensemble diversity is important for improving its performance. Finally, to better understand the limitations of scoring functions, we demonstrate that simplicity bias, or the propensity of deep neural networks to rely upon simple but brittle features, can adversely affect GEP performance. Overall, our work carefully studies the effectiveness of popular scoring functions in realistic settings and helps to better understand their limitations.
翻訳日:2023-03-27 16:59:19 公開日:2023-03-23
# ニューラルネットワーク検証のための効率的なシンボリック推論

Efficient Symbolic Reasoning for Neural-Network Verification ( http://arxiv.org/abs/2303.13588v1 )

ライセンス: Link先を確認
Zi Wang, Somesh Jha, Krishnamurthy (Dj) Dvijotham(参考訳) ニューラルネットワークは現代のソフトウェアシステムにおいて不可欠な部分となっている。 しかし、それでも様々な問題、特に敵の攻撃に対する脆弱性に悩まされている。 本研究では,ニューラルネットワーク検証のための新しいプログラム推論フレームワークを提案する。 我々のフレームワークの主要な構成要素は、記号領域と二次関係の利用である。 シンボリック領域は非常に柔軟な意味論を持ち、二次関係は非常に表現豊かである。 これにより、ニューラルネットワークの多くの検証問題を二次プログラムとしてエンコードできる。 そして、2次プログラムを半定値プログラムに緩和し、効率よく解ける。 このフレームワークにより、異なるシナリオ、特に象徴的でないドメインでは困難なように見えるさまざまなニューラルネットワーク特性を検証できます。 さらに、検証タスクのための新しい表現と視点も導入する。 我々のフレームワークは、ニューラルネットワークの検証問題に新しい理論的洞察と実用的なツールをもたらすことができると信じています。

The neural network has become an integral part of modern software systems. However, they still suffer from various problems, in particular, vulnerability to adversarial attacks. In this work, we present a novel program reasoning framework for neural-network verification, which we refer to as symbolic reasoning. The key components of our framework are the use of the symbolic domain and the quadratic relation. The symbolic domain has very flexible semantics, and the quadratic relation is quite expressive. They allow us to encode many verification problems for neural networks as quadratic programs. Our scheme then relaxes the quadratic programs to semidefinite programs, which can be efficiently solved. This framework allows us to verify various neural-network properties under different scenarios, especially those that appear challenging for non-symbolic domains. Moreover, it introduces new representations and perspectives for the verification tasks. We believe that our framework can bring new theoretical insights and practical tools to verification problems for neural networks.
翻訳日:2023-03-27 16:58:52 公開日:2023-03-23
# 絡み合い軌道とその境界

Entanglement Trajectory and its Boundary ( http://arxiv.org/abs/2303.13587v1 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 本稿では,量子コンピューティングから生じる絡み合いを調べるための新しいアプローチを提案する。 量子アルゴリズムの実行中に様々な点における還元密度行列を解析し、グラフ上の支配的固有値とフォン・ノイマンエントロピーを表現して「絡み合い軌道」を形成する。 軌道の限界を確立するために、ランダム行列理論を用いる。 量子断熱計算(quantum adiabatic computation)、グローバーアルゴリズム(grover algorithm)、ショアアルゴリズム(shor algorithm)といった例を通じて、エンタングルメント軌道が確立した境界内でどのように残っているかを実証し、それぞれの例にユニークな特徴を与える。 さらに、これらの境界と特徴を、他の絡み合い測度によって定義される軌跡にまで拡張できることを実証する。 数値シミュレーションはオープンアクセスで利用できる。

In this article, we offer a novel approach to examining the entanglement that arises from quantum computing. We analyze the reduced density matrices at various points during the execution of a quantum algorithm, and represent the dominant eigenvalue and von Neumann entropy on a graph to form an "entanglement trajectory." To establish the trajectory's limits, we employ random matrix theory. Through examples such as quantum adiabatic computation, the Grover algorithm, and the Shor algorithm, we demonstrate how the entanglement trajectory remains within the boundaries that we have established, generating a unique feature for each example. Furthermore, we demonstrate that these boundaries and features can be extended to trajectories defined by other measures of entanglement. Numerical simulations are available through open access.
翻訳日:2023-03-27 16:58:43 公開日:2023-03-23
# SCADE: あいまいさを考慮した宇宙彫刻からのNeRF

SCADE: NeRFs from Space Carving with Ambiguity-Aware Depth Estimates ( http://arxiv.org/abs/2303.13582v1 )

ライセンス: Link先を確認
Mikaela Angelina Uy, Ricardo Martin-Brualla, Leonidas Guibas, Ke Li(参考訳) ニューラルレイディアンス場(NeRF)は複数の2次元入力ビューから高忠実度3次元再構成を可能にする。 しかし、NeRFの欠点としてよく知られたのは、ボリュームレンダリングによって強制される制約が不十分なため、少数のビューにおいて、理想的でないパフォーマンスである。 この問題に対処するため,本研究では,室内シーンの非拘束な入力ビューにおいて,NeRF再構成品質を向上させる新しい技術であるSCADEを紹介する。 現状のモノクル深度推定モデルで生成したビューごとの深度推定を,シーン全体にわたって一般化可能な幾何的事前推定に利用した。 重要な課題は、単眼深度推定は、本質的に曖昧さを持つ不適切な問題である。 この問題に対処するために,条件付きインプリシット最大類似度推定(cIMLE)を用いて,各視点に対して,奥行き推定の連続的マルチモーダル分布を予測できる新しい手法を提案する。 マルチビューの利用を曖昧にするために,各ビューから複数の仮説の奥行きマップを融合させ,すべてのビューと整合する共通の幾何学を蒸留するために,nrf表現を導いたオリジナルの空間彫刻ロスを導入する。 実験により,本手法は疎明な視点からの高忠実度新規ビュー合成を可能にすることを示した。 私たちのプロジェクトページはhttps://scade-spacecarving-nerfs.github.io にある。

Neural radiance fields (NeRFs) have enabled high fidelity 3D reconstruction from multiple 2D input views. However, a well-known drawback of NeRFs is the less-than-ideal performance under a small number of views, due to insufficient constraints enforced by volumetric rendering. To address this issue, we introduce SCADE, a novel technique that improves NeRF reconstruction quality on sparse, unconstrained input views for in-the-wild indoor scenes. To constrain NeRF reconstruction, we leverage geometric priors in the form of per-view depth estimates produced with state-of-the-art monocular depth estimation models, which can generalize across scenes. A key challenge is that monocular depth estimation is an ill-posed problem, with inherent ambiguities. To handle this issue, we propose a new method that learns to predict, for each view, a continuous, multimodal distribution of depth estimates using conditional Implicit Maximum Likelihood Estimation (cIMLE). In order to disambiguate exploiting multiple views, we introduce an original space carving loss that guides the NeRF representation to fuse multiple hypothesized depth maps from each view and distill from them a common geometry that is consistent with all views. Experiments show that our approach enables higher fidelity novel view synthesis from sparse views. Our project page can be found at https://scade-spacecarving-nerfs.github.io .
翻訳日:2023-03-27 16:58:27 公開日:2023-03-23
# 量子カオス相互作用ハミルトンの中間スペクトル固有状態の平均絡み合いエントロピー

Average entanglement entropy of midspectrum eigenstates of quantum-chaotic interacting Hamiltonians ( http://arxiv.org/abs/2303.13577v1 )

ライセンス: Link先を確認
M. Kliczkowski, R. \'Swi\k{e}tek, L. Vidmar, M. Rigol(参考訳) 量子カオス相互作用ハミルトニアンのミッドスペクトル固有状態の平均の絡み合いエントロピーがランダムな純粋な状態のそれと一致する程度は、近年注目されている問題である。 先行する(量的法則)用語が同一であることを示す実質的な証拠はあるが、それらと下位の項がどのように異なるかは明確ではない。 ここでは、クリーンスピン1/2XYZ鎖とXXZ鎖の完全対角化計算を行い、それぞれ$U(1)$対称性の欠如と存在下でこの問題に対処する。 まず,完全完全対角化計算に適応可能なチェーンサイズについて,レベル間隔比,固有係数分布,エンタングルメントエントロピーがランダム行列理論の予測に最も近いハミルトンパラメータのレジームとして,最大カオスレジームの概念を導入する。 この方法では,midspectrum固有状態の平均絡み合いエントロピーのサブリード項の有限サイズのスケーリング解析を行う。 スペクトルの中央では、負の$O(1)$項の大きさがランダムな純粋状態の予測値よりもわずかに大きいことを示す。

To which degree the average entanglement entropy of midspectrum eigenstates of quantum-chaotic interacting Hamiltonians agrees with that of random pure states is a question that has attracted considerable attention in the recent years. While there is substantial evidence that the leading (volume-law) terms are identical, which and how subleading terms differ between them is less clear. Here we carry out state of the art full exact diagonalization calculations of clean spin-1/2 XYZ and XXZ chains with integrability breaking terms to address this question in the absence and presence of $U(1)$ symmetry, respectively. We first introduce the notion of maximally chaotic regime, for the chain sizes amenable to full exact diagonalization calculations, as the regime in Hamiltonian parameters in which the level spacing ratio, the distribution of eigenstate coefficients, and the entanglement entropy are closest to the random matrix theory predictions. In this regime, we carry out a finite-size scaling analysis of the subleading terms of the average entanglement entropy of midspectrum eigenstates. We find indications that, in the middle of the spectrum, the magnitude of the negative $O(1)$ terms is only slightly greater than the one predicted for random pure states.
翻訳日:2023-03-27 16:58:02 公開日:2023-03-23
# quad bayerイメージセンサのためのbayerのレガシージョイントリモーザリングとデノイジングの継承

Inheriting Bayer's Legacy-Joint Remosaicing and Denoising for Quad Bayer Image Sensor ( http://arxiv.org/abs/2303.13571v1 )

ライセンス: Link先を確認
Haijin Zeng, Kai Feng, Jiezhang Cao, Shaoguang Huang, Yongqiang Zhao, Hiep Luong, Jan Aelterman, and Wilfried Philips(参考訳) ピクセルビンニングをベースとしたQuadセンサーは、低照度撮像におけるコンパクトカメラのハードウェア制限を克服する、有望なソリューションとして登場した。 しかし、結合により空間分解能が低下し、非バイヤーCFAアーティファクトが生じる。 これらの課題に対処するために、ノイズのないQuad Bayerパターンと標準ノイズのないBayerパターンの変換を可能にするDJRD(Dual-head Joint Remosaicing and Denoising Network)を提案する。 DJRDは、新しく設計されたQuad Bayer Remosaicing (QB-Re)ブロック、Swin-transformerとマルチスケールウェーブレット変換に基づく統合デノナイジングモジュールを含む。 QB-Reブロックは、CFAパターンに基づいて畳み込みカーネルを構築し、知覚領域における周期的な色分布を達成する。 Swin-Transformerとマルチスケールウェーブレット変換は、非局所的な依存関係、周波数、位置情報を捕捉し、実用的なノイズを効果的に低減する。 moire と zipper 検出メトリクスを利用した挑戦的パッチを識別することにより,トレーニング後に難しいパッチを集中させることで,ハードケースでのモデルの性能を向上させることができる。 提案モデルは,ハードウェアやソフトウェアの複雑さを増すことなく,約3dbの競合モデルを上回る。

Pixel binning based Quad sensors have emerged as a promising solution to overcome the hardware limitations of compact cameras in low-light imaging. However, binning results in lower spatial resolution and non-Bayer CFA artifacts. To address these challenges, we propose a dual-head joint remosaicing and denoising network (DJRD), which enables the conversion of noisy Quad Bayer and standard noise-free Bayer pattern without any resolution loss. DJRD includes a newly designed Quad Bayer remosaicing (QB-Re) block, integrated denoising modules based on Swin-transformer and multi-scale wavelet transform. The QB-Re block constructs the convolution kernel based on the CFA pattern to achieve a periodic color distribution in the perceptual field, which is used to extract exact spectral information and reduce color misalignment. The integrated Swin-Transformer and multi-scale wavelet transform capture non-local dependencies, frequency and location information to effectively reduce practical noise. By identifying challenging patches utilizing Moire and zipper detection metrics, we enable our model to concentrate on difficult patches during the post-training phase, which enhances the model's performance in hard cases. Our proposed model outperforms competing models by approximately 3dB, without additional complexity in hardware or software.
翻訳日:2023-03-27 16:57:41 公開日:2023-03-23
# RNNの復帰: 可逆文埋め込みのための残差リカレントネットワーク

Return of the RNN: Residual Recurrent Networks for Invertible Sentence Embeddings ( http://arxiv.org/abs/2303.13570v1 )

ライセンス: Link先を確認
Jeremy Wilkerson(参考訳) 本研究では,教師なし符号化タスクで訓練された残差再帰ネットワークを用いた逆行文埋め込みの新しいモデルを提案する。 ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。 このモデルはADAMオプティマイザによる高精度かつ高速なトレーニングを実現しており、LSTMや2階最適化などのメモリユニットを必要とすることが大きな発見である。 残差接続を導入し,不正確な単語に対してのみ勾配を計算する「マッチドロップ」手法を導入する。 提案手法は,高品質な文埋め込みを必要とするニューラルネットワークシステムにおいて,自然言語処理への応用の可能性を示す。

This study presents a novel model for invertible sentence embeddings using a residual recurrent network trained on an unsupervised encoding task. Rather than the probabilistic outputs common to neural machine translation models, our approach employs a regression-based output layer to reconstruct the input sequence's word vectors. The model achieves high accuracy and fast training with the ADAM optimizer, a significant finding given that RNNs typically require memory units, such as LSTMs, or second-order optimization methods. We incorporate residual connections and introduce a "match drop" technique, where gradients are calculated only for incorrect words. Our approach demonstrates potential for various natural language processing applications, particularly in neural network-based systems that require high-quality sentence embeddings.
翻訳日:2023-03-27 16:57:16 公開日:2023-03-23
# ボットネット攻撃におけるノードの集団分類のための関連ランダムニューラルネットワーク

Associated Random Neural Networks for Collective Classification of Nodes in Botnet Attacks ( http://arxiv.org/abs/2303.13627v1 )

ライセンス: Link先を確認
Erol Gelenbe and Mert Nak{\i}p(参考訳) ボットネット攻撃はネットワークシステムにとって大きな脅威であり、ネットワークノードを他の攻撃者に変える能力があるため、長期にわたって大量の攻撃が広まることになる。 このようなボットネットの検出は、複数のネットワークIPアドレスが同時に漏洩するという事実によって複雑であり、個々のノードにフォーカスする従来の方法に加えて、妥協されたノードの集合的分類が有用である。 そこで本研究では,NノードIPネットワークからのトラフィックに対して,不正なノードを識別する新しいAssociated Random Neural Network (ARNN) を用いたボットネット攻撃分類手法を提案する。 ARNNは、相互に関連付けられ、相互接続され、アーキテクチャ的に同一の2つのn-ニューロンランダムニューラルネットワークを組み込んだ、反復アーキテクチャである。 新たな勾配学習降下アルゴリズムがARNNに提案され,従来のオフライントレーニングとオンラインインクリメンタルトレーニングの両方で,事前オフライン学習なしで効果的に動作することが示されている。 107ノードのパケットネットワークからの実際のデータは70,000以上のパケットでARNNを評価し、正確な予測を提供する。 同じ学習データセットとテストデータセットを使用した他の有名な技術手法と比較すると、ARNNははるかに優れたパフォーマンスを提供することを示している。

Botnet attacks are a major threat to networked systems because of their ability to turn the network nodes that they compromise into additional attackers, leading to the spread of high volume attacks over long periods. The detection of such Botnets is complicated by the fact that multiple network IP addresses will be simultaneously compromised, so that Collective Classification of compromised nodes, in addition to the already available traditional methods that focus on individual nodes, can be useful. Thus this work introduces a collective Botnet attack classification technique that operates on traffic from an n-node IP network with a novel Associated Random Neural Network (ARNN) that identifies the nodes which are compromised. The ARNN is a recurrent architecture that incorporates two mutually associated, interconnected and architecturally identical n-neuron random neural networks, that act simultneously as mutual critics to reach the decision regarding which of n nodes have been compromised. A novel gradient learning descent algorithm is presented for the ARNN, and is shown to operate effectively both with conventional off-line training from prior data, and with on-line incremental training without prior off-line learning. Real data from a 107 node packet network is used with over 700,000 packets to evaluate the ARNN, showing that it provides accurate predictions. Comparisons with other well-known state of the art methods using the same learning and testing datasets, show that the ARNN offers significantly better performance.
翻訳日:2023-03-27 16:50:38 公開日:2023-03-23
# 連続した量子原因

Consistent Quantum Causes ( http://arxiv.org/abs/2303.13617v1 )

ライセンス: Link先を確認
Robert B. Griffiths(参考訳) 量子ヒルベルト空間上の射影体が一般に可換ではないという事実は、通常の古典的原因を研究するために、よく発達し強力なアイデア(有向非巡回グラフを考える)を量子領域に拡張することが困難になった。 単純なゲダンケン実験の場合、直感的に妥当な微視的量子原因を特定するために、一貫したヒストリー量子論の単一のフレームワークルールと、ベルの不等式に反する相関を含む特定の拡張を用いるアプローチが提案されている。 このアプローチは形式的にも直感的にも「量子因果モデル」の先頭で開発されたものよりもシンプルであり、因果関係の重要な古典的概念のより満足できる量子実現へと拡張される可能性がある。

The fact that projectors on a quantum Hilbert space do not in general commute has made it difficult to extend into the quantum domain certain well-developed and powerful ideas (think of directed acyclic graphs) for studying ordinary classical causes. An approach is proposed which uses the single framework rule of consistent histories quantum theory to identify intuitively plausible microscopic quantum causes in the case of a simple gedanken experiment, and certain extensions thereof, including the correlations that violate Bell inequalities. The approach is simpler, both formally and intuitively, than that developed under the heading of ``Quantum Causal Models,'' and might be extended into a much more satisfactory quantum realization of important classical ideas of causation.
翻訳日:2023-03-27 16:50:14 公開日:2023-03-23
# nope: 単一の画像からの新しいオブジェクトポーズ推定

NOPE: Novel Object Pose Estimation from a Single Image ( http://arxiv.org/abs/2303.13612v1 )

ライセンス: Link先を確認
Van Nguyen Nguyen, Thibault Groueix, Yinlin Hu, Mathieu Salzmann, Vincent Lepetit(参考訳) 3Dオブジェクトのポーズ推定の実用性は、3Dモデルの事前知識と新しいオブジェクトのトレーニング期間を必要とするため、多くのアプリケーションで制限されている。 この制限に対処するために,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルの事前知識を必要とせず,新たなオブジェクトやカテゴリのトレーニング時間も必要とせず,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。 対象物を取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することでこれを実現できる。 この予測は単純なU-Netアーキテクチャを用いて行われ、必要なポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。 我々の手法を最先端の手法と比較し、精度と堅牢性の両方で優れた性能を示す。 ソースコードはhttps://github.com/nv-nguyen/nopeで公開されています。

The practicality of 3D object pose estimation remains limited for many applications due to the need for prior knowledge of a 3D model and a training period for new objects. To address this limitation, we propose an approach that takes a single image of a new object as input and predicts the relative pose of this object in new images without prior knowledge of the object's 3D model and without requiring training time for new objects and categories. We achieve this by training a model to directly predict discriminative embeddings for viewpoints surrounding the object. This prediction is done using a simple U-Net architecture with attention and conditioned on the desired pose, which yields extremely fast inference. We compare our approach to state-of-the-art methods and show it outperforms them both in terms of accuracy and robustness. Our source code is publicly available at https://github.com/nv-nguyen/nope
翻訳日:2023-03-27 16:49:59 公開日:2023-03-23
# 迅速・無ラベル光イメージングを用いたびまん性グリオーマの人工知能に基づく分子分類

Artificial-intelligence-based molecular classification of diffuse gliomas using rapid, label-free optical imaging ( http://arxiv.org/abs/2303.13610v1 )

ライセンス: Link先を確認
Todd C. Hollon, Cheng Jiang, Asadur Chowdury, Mustafa Nasir-Moin, Akhil Kondepudi, Alexander Aabedi, Arjun Adapa, Wajd Al-Holou, Jason Heth, Oren Sagher, Pedro Lowenstein, Maria Castro, Lisa Irina Wadiura, Georg Widhalm, Volker Neuschmelting, David Reinecke, Niklas von Spreckelsen, Mitchel S. Berger, Shawn L. Hervey-Jumper, John G. Golfinos, Matija Snuderl, Sandra Camelo-Piragua, Christian Freudiger, Honglak Lee, Daniel A. Orringer(参考訳) 分子分類は、より正確な予後とパーソナライズされた治療を可能にし、脳腫瘍の管理を変革した。 しかし、脳腫瘍患者の時間的分子診断検査は限定的であり、外科的および補助的治療を複雑にし、臨床試験を妨害する。 本研究では, 拡散性グリオーマの分子診断を効率化する, 迅速(90ドル秒)の人工知能診断スクリーニングシステムであるDeepGliomaを開発した。 DeepGliomaは、刺激されたラマン組織学(SRH)、迅速でラベルのない非接触型光学イメージング法、大規模でパブリックなゲノムデータを含むマルチモーダルデータセットを使用して訓練されている。 リアルタイムsrhイメージングを行ったびまん性グリオーマ (n=153$) の多施設的国際検査コホートにおいて, 深層グリオーマは成人型びまん性グリオーマ分類法 (idh変異, 1p19q共欠およびatrx変異) を定義するために世界保健機関 (who) が使用する分子変化を予測でき, 平均分子分類精度は93.3\pm 1.6\%である。 本研究は, びまん性グリオーマの分子スクリーニングのための迅速かつスケーラブルなウェットラボ法を提供するために, 人工知能と光学組織学をどのように利用するかを示す。

Molecular classification has transformed the management of brain tumors by enabling more accurate prognostication and personalized treatment. However, timely molecular diagnostic testing for patients with brain tumors is limited, complicating surgical and adjuvant treatment and obstructing clinical trial enrollment. In this study, we developed DeepGlioma, a rapid ($< 90$ seconds), artificial-intelligence-based diagnostic screening system to streamline the molecular diagnosis of diffuse gliomas. DeepGlioma is trained using a multimodal dataset that includes stimulated Raman histology (SRH); a rapid, label-free, non-consumptive, optical imaging method; and large-scale, public genomic data. In a prospective, multicenter, international testing cohort of patients with diffuse glioma ($n=153$) who underwent real-time SRH imaging, we demonstrate that DeepGlioma can predict the molecular alterations used by the World Health Organization to define the adult-type diffuse glioma taxonomy (IDH mutation, 1p19q co-deletion and ATRX mutation), achieving a mean molecular classification accuracy of $93.3\pm 1.6\%$. Our results represent how artificial intelligence and optical histology can be used to provide a rapid and scalable adjunct to wet lab methods for the molecular screening of patients with diffuse glioma.
翻訳日:2023-03-27 16:49:43 公開日:2023-03-23
# ソマン最小化による共同レーダ通信用マルチアンテナデュアルブリンドデコンボリューション

Multi-Antenna Dual-Blind Deconvolution for Joint Radar-Communications via SoMAN Minimization ( http://arxiv.org/abs/2303.13609v1 )

ライセンス: Link先を確認
Roman Jacome, Edwin Vargas, Kumar Vijay Mishra, Brian M. Sadler, Henry Arguello(参考訳) jrc(joint radar-communications)は、限られた電磁スペクトルを効率的に利用するための有望な技術である。 セキュアな軍事受信機などのJRCアプリケーションでは、受信信号にレーダーや通信信号がオーバーレイされることが多い。 これらの受動的聴取基地では、レーダと通信の両方の信号とチャネルが受信機に未知である。 オーバーレイド信号から全ての信号およびチャネルパラメータを回復する不適切な問題は、デュアルブリンドデコンボリューション(dbd)と呼ばれる。 本研究では,マルチアンテナ受信機を用いたDBDのより困難なバージョンについて検討する。 我々は,遅延時間,ドップラー速度,移動方向(doas)など,いくつかの(少ない)連続値パラメータを用いてレーダと通信チャネルをモデル化する。 この高度に不規則なDBDを解決するために,未知のパラメータに依存する多変量原子ノルム(SoMAN)の和を最小化することを提案する。 この目的のために、正の超オクタント三角多項式(phtp)の理論を用いて、完全半定義プログラムを考案する。 理論解析により,完全回収に必要なサンプルとアンテナの最小数は,その合計よりもレーダターゲット数と通信経路の数の最大値に依存することがわかった。 提案手法は,ゲイン/位相誤差や付加雑音などの実用的問題を含むように容易に一般化できることを示す。 異なるJRCの正確なパラメータ復元に関する数値実験

Joint radar-communications (JRC) has emerged as a promising technology for efficiently using the limited electromagnetic spectrum. In JRC applications such as secure military receivers, often the radar and communications signals are overlaid in the received signal. In these passive listening outposts, the signals and channels of both radar and communications are unknown to the receiver. The ill-posed problem of recovering all signal and channel parameters from the overlaid signal is terms as dual-blind deconvolution (DBD). In this work, we investigate a more challenging version of DBD with a multi-antenna receiver. We model the radar and communications channels with a few (sparse) continuous-valued parameters such as time delays, Doppler velocities, and directions-of-arrival (DoAs). To solve this highly ill-posed DBD, we propose to minimize the sum of multivariate atomic norms (SoMAN) that depends on the unknown parameters. To this end, we devise an exact semidefinite program using theories of positive hyperoctant trigonometric polynomials (PhTP). Our theoretical analyses show that the minimum number of samples and antennas required for perfect recovery is logarithmically dependent on the maximum of the number of radar targets and communications paths rather than their sum. We show that our approach is easily generalized to include several practical issues such as gain/phase errors and additive noise. Numerical experiments show the exact parameter recovery for different JRC
翻訳日:2023-03-27 16:49:16 公開日:2023-03-23
# 量子コンピュータを用いた生物シーケンス比較アルゴリズム

A biological sequence comparison algorithm using quantum computers ( http://arxiv.org/abs/2303.13608v1 )

ライセンス: Link先を確認
B\"usra K\"osoglu-Kind, Robert Loredo, Michele Grossi, Christian Bernecker, Jody M Burks, Rudiger Buchkremer(参考訳) 遺伝情報は、数千から数十億の文字で表されるヌクレオチドの線形配列に符号化される。 変異はDNAまたはRNAヌクレオチド配列の変化を指す。 したがって、突然変異検出は生物学や医学のあらゆる分野において不可欠である。 病原性増強変異の注意深いモニタリングが不可欠である。 しかし、このサイズの遺伝的配列を分析するには、膨大な量の古典計算能力が必要である。 量子コンピュータ上での視覚の人間の知覚と画像のピクセル表現に着想を得て,これらの手法をペアワイズシーケンス解析に活用した。 この手法は古典的アプローチよりも潜在的に有利であり、遺伝子配列の変異やその他の修正を特定するためにさらに応用することができる。 本稿では,ヌクレオチド間の類似度を決定するために,類似度スコアを算出した量子コンピュータ上で2つのゲノム配列間の類似度を表示・解析する手法を提案する。

Genetic information is encoded in a linear sequence of nucleotides, represented by letters ranging from thousands to billions. Mutations refer to changes in the DNA or RNA nucleotide sequence. Thus, mutation detection is vital in all areas of biology and medicine. Careful monitoring of virulence-enhancing mutations is essential. However, an enormous amount of classical computing power is required to analyze genetic sequences of this size. Inspired by human perception of vision and pixel representation of images on quantum computers, we leverage these techniques to implement a pairwise sequence analysis. The methodology has a potential advantage over classical approaches and can be further applied to identify mutations and other modifications in genetic sequences. We present a method to display and analyze the similarity between two genome sequences on a quantum computer where a similarity score is calculated to determine the similarity between nucleotides.
翻訳日:2023-03-27 16:48:57 公開日:2023-03-23
# 自己蒸留のための適応的類似ブートストラップ

Adaptive Similarity Bootstrapping for Self-Distillation ( http://arxiv.org/abs/2303.13606v1 )

ライセンス: Link先を確認
Tim Lebailly, Thomas Stegm\"uller, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars(参考訳) 表現学習のためのほとんどの自己教師付き手法は、クロスビュー一貫性の目的、すなわち、ある画像の拡張ビューの表現類似性を最大化する。 最近のNNCLRは、クロスビューパラダイムを超えて、コントラスト的な設定で隣人のブートストラップを通じて得られたさまざまな画像から正のペアを使用する。 負のサンプルに依存する対照的な学習環境とは対照的に, 自己蒸留方式に近接する近傍のブートストラップを組み込むことで, 性能低下や崩壊につながる可能性が示唆された。 この予期せぬ行動の理由を精査し、解決策を提供する。 本稿では,潜在空間の品質の推定値に基づいて,近隣住民を適応的にブートストラップする手法を提案する。 単純ブートストラップ法とオリジナルベースラインと比較して一貫した改善を報告した。 提案手法は, 各種自己蒸留法/バックボーンの組み合わせと標準下流タスクの性能改善につながる。 私たちのコードは受け入れ次第解放されます。

Most self-supervised methods for representation learning leverage a cross-view consistency objective i.e. they maximize the representation similarity of a given image's augmented views. Recent work NNCLR goes beyond the cross-view paradigm and uses positive pairs from different images obtained via nearest neighbor bootstrapping in a contrastive setting. We empirically show that as opposed to the contrastive learning setting which relies on negative samples, incorporating nearest neighbor bootstrapping in a self-distillation scheme can lead to a performance drop or even collapse. We scrutinize the reason for this unexpected behavior and provide a solution. We propose to adaptively bootstrap neighbors based on the estimated quality of the latent space. We report consistent improvements compared to the naive bootstrapping approach and the original baselines. Our approach leads to performance improvements for various self-distillation method/backbone combinations and standard downstream tasks. Our code will be released upon acceptance.
翻訳日:2023-03-27 16:48:45 公開日:2023-03-23
# 複合匿名帯域フィードバックが遅れた確率的部分モジュラバンド

Stochastic Submodular Bandits with Delayed Composite Anonymous Bandit Feedback ( http://arxiv.org/abs/2303.13604v1 )

ライセンス: Link先を確認
Mohammad Pedramfar, Vaneet Aggarwal(参考訳) 本稿では,遅延フィードバックを合成・匿名と仮定した,確率的サブモジュラー(期待)報酬と全帯域遅延フィードバックを用いた複合型多腕バンディットの問題点について検討する。 言い換えれば、遅延したフィードバックは過去の行動からの報酬の構成要素で構成されており、サブコンポーネント間で未知の分割がある。 遅延フィードバックの3つのモデル:有界逆数、確率独立性、確率独立性、および確率独立性について検討し、各遅延モデルに対して後悔境界を導出する。 問題依存パラメータを無視すると、全ての遅延モデルに対する後悔は$\tilde{O}(T^{2/3} + T^{1/3} \nu)$ for time horizon $T$, where $\nu$ is a delay parameters different in the three case, so demonstrated an additive term in regret in delay in all three delay model。 検討したアルゴリズムは、複合匿名フィードバックを遅らせた他の完全帯域アプローチよりも優れる。

This paper investigates the problem of combinatorial multiarmed bandits with stochastic submodular (in expectation) rewards and full-bandit delayed feedback, where the delayed feedback is assumed to be composite and anonymous. In other words, the delayed feedback is composed of components of rewards from past actions, with unknown division among the sub-components. Three models of delayed feedback: bounded adversarial, stochastic independent, and stochastic conditionally independent are studied, and regret bounds are derived for each of the delay models. Ignoring the problem dependent parameters, we show that regret bound for all the delay models is $\tilde{O}(T^{2/3} + T^{1/3} \nu)$ for time horizon $T$, where $\nu$ is a delay parameter defined differently in the three cases, thus demonstrating an additive term in regret with delay in all the three delay models. The considered algorithm is demonstrated to outperform other full-bandit approaches with delayed composite anonymous feedback.
翻訳日:2023-03-27 16:48:31 公開日:2023-03-23
# チームスポーツ分析におけるマルチエージェントチャレンジの紹介

Presenting Multiagent Challenges in Team Sports Analytics ( http://arxiv.org/abs/2303.13660v1 )

ライセンス: Link先を確認
David Radke and Alexi Orchard(参考訳) 本稿では,チームスポーツ分析分野における課題と機会と,マルチエージェントシステム(MAS)における重要な研究領域との相関関係について述べる。 特に、プレイヤーが相手チームの領域に侵入し、アイスホッケー、サッカー、バスケットボールなどの競技面上のどこにでも相互作用できるスポーツとして定義される侵略ゲームについて検討する。 masは侵略ゲームの研究に適しており、masとスポーツ分析の両方の分野に利益をもたらすとわれわれは主張している。 短期ゲーム戦略(coaching)と長期チーム計画(management)の2つの軸に沿って、mas実装とさらなる開発のための領域について論じた。

This paper draws correlations between several challenges and opportunities within the area of team sports analytics and key research areas within multiagent systems (MAS). We specifically consider invasion games, defined as sports where players invade the opposing team's territory and can interact anywhere on a playing surface such as ice hockey, soccer, and basketball. We argue that MAS is well-equipped to study invasion games and will benefit both MAS and sports analytics fields. Our discussion highlights areas for MAS implementation and further development along two axes: short-term in-game strategy (coaching) and long-term team planning (management).
翻訳日:2023-03-27 16:42:14 公開日:2023-03-23
# 分散LQRにおける政策評価

Policy Evaluation in Distributional LQR ( http://arxiv.org/abs/2303.13657v1 )

ライセンス: Link先を確認
Zifan Wang, Yulong Gao, Siyi Wang, Michael M. Zavlanos, Alessandro Abate and Karl H. Johansson(参考訳) 分散強化学習(DRL)は、標準RLのような期待値ではなく、ランダムリターンの分布をエージェントに学習させることにより、環境におけるランダム性の影響の理解を高める。 同時に、DRLの主な課題は、DRLにおけるポリシー評価が一般的に、慎重に設計する必要があるリターン分布の表現に依存することである。 本稿では,制御に線形二次規制(LQR)を頼り,LQRに対する新たな分布的アプローチを提唱するDRL問題に対して,この課題を提起する。 具体的には、ランダムリターンの分布の閉形式表現を提供し、独立かつ同一に分布している限り、ダイナミクス上の全ての外因性障害に適用できる(即ち、d.)。 提案した厳密な回帰分布は無限に多くの確率変数から構成されるが、この分布は有限個の確率変数で近似でき、関連する近似誤差は軽度の仮定の下で解析的に有界であることを示す。 そこで本研究では,リスクの指標としてcvar(conditional value at risk)を用いたリスク回避lqrに対するゼロ次ポリシー勾配アルゴリズムを提案する。 理論的結果を説明するため, 数値実験を行った。

Distributional reinforcement learning (DRL) enhances the understanding of the effects of the randomness in the environment by letting agents learn the distribution of a random return, rather than its expected value as in standard RL. At the same time, a main challenge in DRL is that policy evaluation in DRL typically relies on the representation of the return distribution, which needs to be carefully designed. In this paper, we address this challenge for a special class of DRL problems that rely on linear quadratic regulator (LQR) for control, advocating for a new distributional approach to LQR, which we call \emph{distributional LQR}. Specifically, we provide a closed-form expression of the distribution of the random return which, remarkably, is applicable to all exogenous disturbances on the dynamics, as long as they are independent and identically distributed (i.i.d.). While the proposed exact return distribution consists of infinitely many random variables, we show that this distribution can be approximated by a finite number of random variables, and the associated approximation error can be analytically bounded under mild assumptions. Using the approximate return distribution, we propose a zeroth-order policy gradient algorithm for risk-averse LQR using the Conditional Value at Risk (CVaR) as a measure of risk. Numerical experiments are provided to illustrate our theoretical results.
翻訳日:2023-03-27 16:42:02 公開日:2023-03-23
# NEWTON:オンザフライ大規模SLAMのためのニューラルビュー中心マッピング

NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM ( http://arxiv.org/abs/2303.13654v1 )

ライセンス: Link先を確認
Hidenobu Matsuki, Keisuke Tateno, Michael Niemeyer, Federic Tombari(参考訳) ニューラルフィールドに基づく3d表現は最近、slamシステムを含む多くの領域で採用されている。 現在のニューラルSLAMやオンラインマッピングシステムは、単純なキャプチャの存在によって印象的な結果をもたらすが、単一のニューラルネットワークモデルのみを使用するため、世界中心のマップ表現に依存している。 このような世界中心の表現を定義するには、境界や初期カメラポーズといったシーンに関する正確で静的な事前情報が必要である。 しかし、リアルタイムおよびオンザフライのシーンキャプチャアプリケーションでは、動的に変化し、実行時の観察に基づいて重要な更新を受けるため、この事前知識を固定あるいは静的と仮定することはできない。 特に大規模マッピングの文脈では、重要なカメラポーズドリフトは避けられず、ループクロージャによる補正が必要となる。 この制限を克服するために,ランタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心マッピング手法NEWTONを提案する。 先行研究とは対照的に,選択したキーフレームの局所座標系において,シーンを複数のニューラルネットワークで表現することにより,ループクロージャとシーン境界更新を用いてカメラのポーズ更新を可能にする。 実験結果は,既存の世界中心のニューラルネットワークを用いたスラムシステム,特にカメラのポーズ更新を受ける大規模シーンにおいて優れた性能を示す。

Neural field-based 3D representations have recently been adopted in many areas including SLAM systems. Current neural SLAM or online mapping systems lead to impressive results in the presence of simple captures, but they rely on a world-centric map representation as only a single neural field model is used. To define such a world-centric representation, accurate and static prior information about the scene, such as its boundaries and initial camera poses, are required. However, in real-time and on-the-fly scene capture applications, this prior knowledge cannot be assumed as fixed or static, since it dynamically changes and it is subject to significant updates based on run-time observations. Particularly in the context of large-scale mapping, significant camera pose drift is inevitable, necessitating the correction via loop closure. To overcome this limitation, we propose NEWTON, a view-centric mapping method that dynamically constructs neural fields based on run-time observation. In contrast to prior works, our method enables camera pose updates using loop closures and scene boundary updates by representing the scene with multiple neural fields, where each is defined in a local coordinate system of a selected keyframe. The experimental results demonstrate the superior performance of our method over existing world-centric neural field-based SLAM systems, in particular for large-scale scenes subject to camera pose updates.
翻訳日:2023-03-27 16:41:41 公開日:2023-03-23
# 感情認識のための効率的なニューラルアーキテクチャ探索

Efficient Neural Architecture Search for Emotion Recognition ( http://arxiv.org/abs/2303.13653v1 )

ライセンス: Link先を確認
Monu Verma, Murari Mandal, Satish Kumar Reddy, Yashwanth Reddy Meedimale, Santosh Kumar Vipparthi(参考訳) 表情からの感情の自動認識はよく研究されている問題であり、依然として非常に難しい課題である。 いくつかの効率的で正確なディープラーニングモデルが文献に提示されている。 しかし、効率的なモデルと正確性の両方を同時に設計することは極めて困難である。 さらに、マクロおよびマイクロ表現の両方の顔領域における微小な特徴変化を特定するには、ネットワーク設計の専門知識が必要である。 本稿では,マクロおよびマイクロレベルの表情認識のための高効率でロバストなニューラルネットワークの探索を提案する。 我々の知る限りでは、これはNASベースのソリューションをマクロおよびマイクロ表現認識の両方に設計する最初の試みである。 勾配に基づくアーキテクチャ探索アルゴリズムを用いて軽量モデルを作成する。 マクロとマイクロ表現の整合性を維持するため,動的画像を利用して,顔領域の時空間的特徴を保存し,マイクロ圧縮シーケンスを単一のフレームに変換する。 EmoNASは13以上のデータセット(CK+、DisFA、MUG、ISED、OULU-VIS CASIA、FER2013、RAF-DB、および6つのマイクロ圧縮データセット(CASME-I、CASME-II、CAS(ME)2、SAMM、SMIC、MEGC2019チャレンジ)を評価した。 提案するモデルは,既存の最先端手法を上回り,速度と空間の複雑さの観点から非常によく機能する。

Automated human emotion recognition from facial expressions is a well-studied problem and still remains a very challenging task. Some efficient or accurate deep learning models have been presented in the literature. However, it is quite difficult to design a model that is both efficient and accurate at the same time. Moreover, identifying the minute feature variations in facial regions for both macro and micro-expressions requires expertise in network design. In this paper, we proposed to search for a highly efficient and robust neural architecture for both macro and micro-level facial expression recognition. To the best of our knowledge, this is the first attempt to design a NAS-based solution for both macro and micro-expression recognition. We produce lightweight models with a gradient-based architecture search algorithm. To maintain consistency between macro and micro-expressions, we utilize dynamic imaging and convert microexpression sequences into a single frame, preserving the spatiotemporal features in the facial regions. The EmoNAS has evaluated over 13 datasets (7 macro expression datasets: CK+, DISFA, MUG, ISED, OULU-VIS CASIA, FER2013, RAF-DB, and 6 micro-expression datasets: CASME-I, CASME-II, CAS(ME)2, SAMM, SMIC, MEGC2019 challenge). The proposed models outperform the existing state-of-the-art methods and perform very well in terms of speed and space complexity.
翻訳日:2023-03-27 16:41:19 公開日:2023-03-23
# 野生の3dインタラクションハンドリカバリのための共有ドメインへの入力

Bringing Inputs to Shared Domains for 3D Interacting Hands Recovery in the Wild ( http://arxiv.org/abs/2303.13652v1 )

ライセンス: Link先を確認
Gyeongsik Moon(参考訳) 近年の成果にもかかわらず、既存の3Dインタラクションハンドリカバリ手法は、主にモーションキャプチャ(MoCap)環境、すなわちインザミルド(ITW)環境での結果を示している。 これは、2dデータであっても、3dインタラクションによるハンドデータの収集が極めて難しいためです。 本稿では,itw 2d/3dインタラクションハンドデータの限られた量で,ロバストな3dインタラクションハンドリカバリのための共有ドメインにmocapとitwサンプルをもたらすinterwildを提案する。 3次元インタラクションハンドリカバリは2つのサブプロブレムから構成される。 1) 各手の3次元回復 2) 両手間の3次元相対的翻訳回復。 最初のサブプロブレムでは、MoCapとITWサンプルを共有2Dスケールスペースに持ち込みます。 ITWデータセットは、限られた量の2D/3Dインタラクションハンドを提供するが、大規模な2Dシングルハンドデータを含んでいる。 これにより,手動の操作の有無に関わらず,手動画像を第1サブプロブレムの入力として使用する。 したがって、MoCapデータセットのインタラクションハンドは、ITWデータセットの単一ハンドの2Dスケールスペースに持ち込まれる。 第2のサブプロブレムでは、MoCapとITWサンプルを共有外見不変空間に持ち込みます。 第1サブプロブレムとは異なり、ITWデータセットの2Dラベルは、3D翻訳の曖昧さのために第2サブプロブレムでは役に立たない。 したがって、ITWサンプルに頼る代わりに、第2サブプロブレムの入力として画像のない幾何学的特徴のみを取り込むことで、MoCapサンプルの一般化性を増幅する。 幾何学的特徴は外観に不変であるため、MoCapとITWサンプルは2つのデータセット間の大きな外観ギャップに悩まされない。 コードはhttps://github.com/facebookresearch/interwildで公開されている。

Despite recent achievements, existing 3D interacting hands recovery methods have shown results mainly on motion capture (MoCap) environments, not on in-the-wild (ITW) ones. This is because collecting 3D interacting hands data in the wild is extremely challenging, even for the 2D data. We present InterWild, which brings MoCap and ITW samples to shared domains for robust 3D interacting hands recovery in the wild with a limited amount of ITW 2D/3D interacting hands data. 3D interacting hands recovery consists of two sub-problems: 1) 3D recovery of each hand and 2) 3D relative translation recovery between two hands. For the first sub-problem, we bring MoCap and ITW samples to a shared 2D scale space. Although ITW datasets provide a limited amount of 2D/3D interacting hands, they contain large-scale 2D single hand data. Motivated by this, we use a single hand image as an input for the first sub-problem regardless of whether two hands are interacting. Hence, interacting hands of MoCap datasets are brought to the 2D scale space of single hands of ITW datasets. For the second sub-problem, we bring MoCap and ITW samples to a shared appearance-invariant space. Unlike the first sub-problem, 2D labels of ITW datasets are not helpful for the second sub-problem due to the 3D translation's ambiguity. Hence, instead of relying on ITW samples, we amplify the generalizability of MoCap samples by taking only a geometric feature without an image as an input for the second sub-problem. As the geometric feature is invariant to appearances, MoCap and ITW samples do not suffer from a huge appearance gap between the two datasets. The code is publicly available at https://github.com/facebookresearch/InterWild.
翻訳日:2023-03-27 16:40:54 公開日:2023-03-23
# ドライバの眠気検出のための対向ロバスト性と特徴的影響解析

Adversarial Robustness and Feature Impact Analysis for Driver Drowsiness Detection ( http://arxiv.org/abs/2303.13649v1 )

ライセンス: Link先を確認
Jo\~ao Vitorino, Louren\c{c}o Rodrigues, Eva Maia, Isabel Pra\c{c}a, Andr\'e Louren\c{c}o(参考訳) 眠気運転は道路事故の主要な原因であるが、ドライバーは疲労が反応時間に与える影響を否定している。 障害が発生する前に眠気を検出するには、機械学習(ML)を使用して心拍変動(HRV)信号をモニタリングする。 本研究は,種々のHRV時間ウィンドウとMLモデルを用いた複数実験,Shapley Additive Explanations (SHAP) を用いた特徴影響解析,および,故障入力データや摂動HRV信号を処理する際の信頼性を評価するための対向ロバスト性解析を行う。 最も信頼性の高いモデルはxgb(extreme gradient boosting)で、最適なタイムウィンドウは120秒から150秒であった。 さらに、SHAPは18の最も影響力のある特徴の選定と、初期モデルと同等の性能を達成した新しい小型モデルの訓練を可能にした。 敵の攻撃に対する全てのモデルへの感受性にもかかわらず、敵の訓練により、特にXGBよりもはるかに高い結果を維持することができた。 したがって、MLモデルは、より堅牢なドライバの眠気検出を提供するために、現実的な敵のトレーニングの恩恵を受けることができる。

Drowsy driving is a major cause of road accidents, but drivers are dismissive of the impact that fatigue can have on their reaction times. To detect drowsiness before any impairment occurs, a promising strategy is using Machine Learning (ML) to monitor Heart Rate Variability (HRV) signals. This work presents multiple experiments with different HRV time windows and ML models, a feature impact analysis using Shapley Additive Explanations (SHAP), and an adversarial robustness analysis to assess their reliability when processing faulty input data and perturbed HRV signals. The most reliable model was Extreme Gradient Boosting (XGB) and the optimal time window had between 120 and 150 seconds. Furthermore, SHAP enabled the selection of the 18 most impactful features and the training of new smaller models that achieved a performance as good as the initial ones. Despite the susceptibility of all models to adversarial attacks, adversarial training enabled them to preserve significantly higher results, especially XGB. Therefore, ML models can significantly benefit from realistic adversarial training to provide a more robust driver drowsiness detection.
翻訳日:2023-03-27 16:40:29 公開日:2023-03-23
# 絡み合いのさらなる支援、古典的コミュニケーションのラウンドの削減

More assistance of entanglement, less rounds of classical communication ( http://arxiv.org/abs/2303.13645v1 )

ライセンス: Link先を確認
Atanu Bhunia, Indranil Biswas, Indrani Chattopadhyay and Debasis Sarkar(参考訳) 古典的コミュニケーションは、局所的な量子状態のクラスを区別する上で重要な役割を果たす。 かなりの進歩にもかかわらず、局所的な量子演算と古典的通信(略してLOCC)による識別タスクを実装するのに必要な計測および通信ラウンドの数についてはほとんど知識がない。 このレターでは、円数と純二分法直交量子状態の集合の局所的識別の関係を示すことができる。 円数への強い依存を示すために、d\otimes d$の直交積状態のクラスを考える。 事実、ラウンド数はリソースとして1ビットの絡み合いの助けを借りて$d$に減らし、より絡み合いの助けを借りてさらに減らすことができる。 また、識別タスクに必要なLOCCラウンドの数は、絡み合い支援の量に依存する可能性があることを示すことができる。

Classical communication plays a crucial role to distinguish locally a class of quantum states. Despite considerable advances, we have very little knowledge about the number of measurement and communication rounds needed to implement a discrimination task by local quantum operations and classical communications (in short, LOCC). In this letter, we are able to show the relation between round numbers with the local discrimination of a set of pure bipartite orthogonal quantum states. To demonstrate the possible strong dependence on the round numbers, we consider a class of orthogonal product states in $d\otimes d$, which require at least $2d-2$ round of classical communications. Curiously the round number can be reduced to $d$ by the assistance of one-ebit of entanglement as resource and can be reduced further by assistance of more entanglement. We are also able to show that the number of LOCC rounds needed for a discrimination task may depend on the amount of entanglement assistances.
翻訳日:2023-03-27 16:40:07 公開日:2023-03-23
# ヒューリスティックスによる定理証明としての計画

Planning as Theorem Proving with Heuristics ( http://arxiv.org/abs/2303.13638v1 )

ライセンス: Link先を確認
Mikhail Soutchanski and Ryan Young(参考訳) 状況計算における定理証明としての計画は、50年前に不可能プロジェクトとして放棄された。 しかし、我々は、A*探索アルゴリズムを用いて、状況のツリー内のプランを探索するTheorem Proving Lifted Heuristic(TPLH)プランナーを開発した。 削除緩和に基づくドメイン独立ヒューリスティックによって制御される。 我々は,TPLHとFast Downward (FD)とBest First Width Search (BFWS)を,いくつかの標準ベンチマークで比較した。 ヒューリスティック関数の実装は最適化されていないため、TPLHはFDやBFWSよりも遅い。 しかし、短い計画を計算し、少ない州を探索する。 我々は、KR\&R内の計画に関する以前の研究について論じ、関連する方向を特定する。 以上より,状況計算において帰納的揚水ヒューリスティック計画が実際に可能であることを示す。

Planning as theorem proving in situation calculus was abandoned 50 years ago as an impossible project. But we have developed a Theorem Proving Lifted Heuristic (TPLH) planner that searches for a plan in a tree of situations using the A* search algorithm. It is controlled by a delete relaxation-based domain independent heuristic. We compare TPLH with Fast Downward (FD) and Best First Width Search (BFWS) planners over several standard benchmarks. Since our implementation of the heuristic function is not optimized, TPLH is slower than FD and BFWS. But it computes shorter plans, and it explores fewer states. We discuss previous research on planning within KR\&R and identify related directions. Thus, we show that deductive lifted heuristic planning in situation calculus is actually doable.
翻訳日:2023-03-27 16:39:53 公開日:2023-03-23
# 信号処理と機械学習の両方を用いた心拍変動の効率的・直接推定

Efficient and Direct Inference of Heart Rate Variability using Both Signal Processing and Machine Learning ( http://arxiv.org/abs/2303.13637v1 )

ライセンス: Link先を確認
Yuntong Zhang, Jingye Xu, Mimi Xie, Dakai Zhu, Houbing Song, Wei Wang(参考訳) 心拍変動(Heart Rate Variability、HRV)は、連続する心拍間の時間の変化を測定し、身体的および精神的な健康の指標である。 最近の研究では、ppg(photoplethysmography)センサーを使ってhrvを推定できることが示されている。 しかしながら、多くの先行研究は、信号処理や機械学習(ml)のみを採用したり、間接的にhrvを推論したり、大規模なトレーニングデータセットが不足しているため、エラーが多かった。 多くの先行研究は大きなMLモデルも必要である。 低い精度と大きなモデルサイズは、アプリケーションを小さな組み込みデバイスに制限し、将来医療で使われる可能性がある。 上記の問題に対処するため,まずPSG信号とHRV地上真実の大規模なデータセットを収集した。 このデータセットを用いて,HRVを直接推論する信号処理とMLを組み合わせたHRVモデルを開発した。 評価の結果,本手法は3.5%から25.7%の誤差があり,信号処理のみおよびmlのみの手法よりも優れていた。 決定木とマルチレベルパーセプトロンは平均で13.0%と9.1%の誤差があり、100KB以上のモデルと1ms未満の推論時間を持つことを示した。 したがって、小型の組み込みデバイスにより適しており、医療におけるppgベースのhrvモニタリングの将来の使用を可能にする可能性がある。

Heart Rate Variability (HRV) measures the variation of the time between consecutive heartbeats and is a major indicator of physical and mental health. Recent research has demonstrated that photoplethysmography (PPG) sensors can be used to infer HRV. However, many prior studies had high errors because they only employed signal processing or machine learning (ML), or because they indirectly inferred HRV, or because there lacks large training datasets. Many prior studies may also require large ML models. The low accuracy and large model sizes limit their applications to small embedded devices and potential future use in healthcare. To address the above issues, we first collected a large dataset of PPG signals and HRV ground truth. With this dataset, we developed HRV models that combine signal processing and ML to directly infer HRV. Evaluation results show that our method had errors between 3.5% to 25.7% and outperformed signal-processing-only and ML-only methods. We also explored different ML models, which showed that Decision Trees and Multi-level Perceptrons have 13.0% and 9.1% errors on average with models at most hundreds of KB and inference time less than 1ms. Hence, they are more suitable for small embedded devices and potentially enable the future use of PPG-based HRV monitoring in healthcare.
翻訳日:2023-03-27 16:39:41 公開日:2023-03-23
# 効率的なセンササンプリングと学習モデルを用いたPGGによる心拍数推定

PPG-based Heart Rate Estimation with Efficient Sensor Sampling and Learning Models ( http://arxiv.org/abs/2303.13636v1 )

ライセンス: Link先を確認
Yuntong Zhang, Jingye Xu, Mimi Xie, Wei Wang, Keying Ye, Jing Wang, Dakai Zhu(参考訳) 最近の研究では、ウェアラブルデバイスに埋め込まれた光胸腺撮影(PPG)センサーが、心拍数(HR)を高精度に推定できることが示されている。 しかし, 従来の研究成果にもかかわらず, PPGセンサを用いたHR推定を組込みデバイスに適用することは, エネルギー集約型高周波PSGサンプリングと資源集約型機械学習モデルによる課題に直面している。 本研究では,低消費電力・資源制約の組込みデバイスに適したHR推定手法を提案する。 具体的には,低周波PSGサンプリング,小型モデルサイズ,高速推論時間を用いて高精度なHR推定を実現する手法を提案する。 まず,信号処理とMLを組み合わせることで,PPGサンプリング周波数を125Hzから25Hzに低減し,高いHR推定精度が得られることを示す。 この組み合わせはMLモデルの特徴サイズの削減にも役立ち、より小さなモデルに繋がる。 さらに,様々なmlモデルと特徴サイズの包括的分析を行い,その精度,モデルサイズ,推論時間を比較した。 探索されたモデルには、決定木(DT)、ランダムフォレスト(RF)、K-アネレスト隣人(KNN)、サポートベクトルマシン(SVM)、マルチ層パーセプトロン(MLP)などがある。 広範に活用されたデータセットと自己収集したデータセットの両方を用いて実験を行った。 実験の結果,低周波PSGデータを用いたHR推定において,信号処理とMLの組み合わせによる誤差は5%に過ぎなかった。 さらに,10~20の入力特性を持つdtモデルでは,モデルサイズが数桁小さく,推論時間が速いのに対し,精度が良好であることを示した。

Recent studies showed that Photoplethysmography (PPG) sensors embedded in wearable devices can estimate heart rate (HR) with high accuracy. However, despite of prior research efforts, applying PPG sensor based HR estimation to embedded devices still faces challenges due to the energy-intensive high-frequency PPG sampling and the resource-intensive machine-learning models. In this work, we aim to explore HR estimation techniques that are more suitable for lower-power and resource-constrained embedded devices. More specifically, we seek to design techniques that could provide high-accuracy HR estimation with low-frequency PPG sampling, small model size, and fast inference time. First, we show that by combining signal processing and ML, it is possible to reduce the PPG sampling frequency from 125 Hz to only 25 Hz while providing higher HR estimation accuracy. This combination also helps to reduce the ML model feature size, leading to smaller models. Additionally, we present a comprehensive analysis on different ML models and feature sizes to compare their accuracy, model size, and inference time. The models explored include Decision Tree (DT), Random Forest (RF), K-nearest neighbor (KNN), Support vector machines (SVM), and Multi-layer perceptron (MLP). Experiments were conducted using both a widely-utilized dataset and our self-collected dataset. The experimental results show that our method by combining signal processing and ML had only 5% error for HR estimation using low-frequency PPG data. Moreover, our analysis showed that DT models with 10 to 20 input features usually have good accuracy, while are several magnitude smaller in model sizes and faster in inference time.
翻訳日:2023-03-27 16:39:20 公開日:2023-03-23
# 視覚シーンの構成表現の学習と一般化

Learning and generalization of compositional representations of visual scenes ( http://arxiv.org/abs/2303.13691v1 )

ライセンス: Link先を確認
E. Paxon Frady, Spencer Kent, Quinn Tran, Pentti Kanerva, Bruno A. Olshausen, Friedrich T. Sommer(参考訳) 複数のオブジェクトで構成される複雑な視覚シーンは、それぞれがオブジェクト名、場所、ポーズ、色などの属性を持ち、ニューラルネットワークをトレーニングするために記述するのが難しい。 通常、深層学習ネットワークは分類的なシーン記述によって指導される。 シーンの一般的な分類学的記述には個々のオブジェクトの名前が含まれているが、他の属性に関する情報がない。 本稿では,オブジェクト属性の分散表現とベクトルシンボルアーキテクチャにおけるベクトル演算を用いて,高次元ベクトルにおけるシーンの完全な構成記述を作成する。 シーン構成を制御するために,複数の翻訳された色のmnist桁からなる人工画像を使用する。 学習カテゴリラベルとは対照的に、入力画像の完全な合成ベクトル記述を出力するために、ディープニューラルネットワークを訓練する。 ディープネットワークの出力はVSA共振器ネットワークによって解釈され、オブジェクトの同一性やその他のオブジェクトの特性を抽出する。 ランダムに生成されたシーンにおけるシステムの性能と一般化特性を評価する。 具体的には,ネットワークがタスクを学習し,目に見えない数字の形やシーン構成を一般化できることを示す。 また、訓練モデルの一般化能力は限定される。 例えば、トレーニング中に特定の画像ロケーションに表示されないオブジェクトのように、トレーニングデータのギャップがある場合、学習は自動的にこのギャップを埋めない。

Complex visual scenes that are composed of multiple objects, each with attributes, such as object name, location, pose, color, etc., are challenging to describe in order to train neural networks. Usually,deep learning networks are trained supervised by categorical scene descriptions. The common categorical description of a scene contains the names of individual objects but lacks information about other attributes. Here, we use distributed representations of object attributes and vector operations in a vector symbolic architecture to create a full compositional description of a scene in a high-dimensional vector. To control the scene composition, we use artificial images composed of multiple, translated and colored MNIST digits. In contrast to learning category labels, here we train deep neural networks to output the full compositional vector description of an input image. The output of the deep network can then be interpreted by a VSA resonator network, to extract object identity or other properties of indiviual objects. We evaluate the performance and generalization properties of the system on randomly generated scenes. Specifically, we show that the network is able to learn the task and generalize to unseen seen digit shapes and scene configurations. Further, the generalisation ability of the trained model is limited. For example, with a gap in the training data, like an object not shown in a particular image location during training, the learning does not automatically fill this gap.
翻訳日:2023-03-27 16:33:02 公開日:2023-03-23
# 工学・研究・教育のための低コスト高効率ワイヤレスインテリジェントセンサ(lewis)

Low-cost Efficient Wireless Intelligent Sensor (LEWIS) for Engineering, Research, and Education ( http://arxiv.org/abs/2303.13688v1 )

ライセンス: Link先を確認
Mahsa Sanei, Solomon Atcitty, Fernando Moreu(参考訳) センサーはエンジニアリングデータを収集し、環境の変化、活動、現象を定量化する能力を持つ。 土木技術者はセンサー技術について知識がない。 そのため、センサを搭載したスマートシティのビジョンは、現在まで実現されていない。 データ取得システム、研究所、実験に関連するコストは、より広い聴衆のためのセンサーへのアクセスを制限する。 近年、センサーは教育や教育の新たなツールとなり、科学や工学の新しい概念の信頼性と理解を高めることができるリアルタイム情報を提供している。 しかし、センサーに関連する電気部品とコンピュータ知識は、土木技術者にとって依然として課題である。 テクノロジーのコストと利用が単純化された場合、センサーは土木工学の学生に悪用される可能性がある。 研究チームは、LEWIS1という教育と研究を目的とした、低コストのワイヤレスインテリジェントセンサー(LEWIS)を開発し、製造し、テストした。 このプラットフォームは、コンピュータにケーブルを接続する学習者に向けられているが、ワイヤレス版と同じ概念と能力を持っている。 本稿では,最初のプロトタイプのハードウェアとソフトウェアアーキテクチャとその利用,およびハードウェアとソフトウェアとユーザインターフェースの両方を単純化したLEWIS1(LEWIS1 beta)について述べる。 提案するセンサの能力は,実験を通じて正確な商用PCBセンサと比較される。 本稿の後半では、アウトリーチ活動の応用と実例を示し、LEWIS1 Betaを教育・研究の新しいツールとして採用することを提案する。 著者らは、2015年から行われている活動とセンサー構築ワークショップの数をLEWISセンサーを用いて調査した。

Sensors have the capability of collecting engineering data and quantifying environmental changes, activities, or phenomena. Civil engineers lack of knowledge in sensor technology. Therefore, the vision of smart cities equipped with sensors informing decisions has not been realized to date. The cost associated with data acquisition systems, laboratories, and experiments restricts access to sensors for wider audiences. Recently, sensors are becoming a new tool in education and training, giving learners real-time information that can reinforce their confidence and understanding of scientific or engineering new concepts. However, the electrical components and computer knowledge associated with sensors are still a challenge for civil engineers. If sensing technology costs and use are simplified, sensors could be tamed by civil engineering students. The researcher developed, fabricated, and tested an efficient low-cost wireless intelligent sensor (LEWIS) aimed at education and research, named LEWIS1. This platform is directed at learners connected with a cable to the computer but has the same concepts and capabilities as the wireless version. The content of this paper describes the hardware and software architecture of the first prototype and their use, as well as the proposed new LEWIS1 (LEWIS1 beta) that simplifies both hardware and software, and user interfaces. The capability of the proposed sensor is compared with an accurate commercial PCB sensor through experiments. The later part of this paper demonstrates applications and examples of outreach efforts and suggests the adoption of LEWIS1 beta as a new tool for education and research. The authors also investigated the number of activities and sensor building workshops that has been done since 2015 using the LEWIS sensor which shows an ascending trend of different professionals excitement to involve and learn the sensor fabrication.
翻訳日:2023-03-27 16:32:40 公開日:2023-03-23
# 仮想(現実)教室の文脈的統合性

Contextual Integrity of A Virtual (Reality) Classroom ( http://arxiv.org/abs/2303.13684v1 )

ライセンス: Link先を確認
Karoline Brehm and Yan Shvartzshnaider and David Goedicke(参考訳) 没入型VRのマルチコンテキスト性は,既存のプライバシ設計とポリシー機構を用いて,VR生成情報フローのコンテキスト整合性を確保することを困難にしている。 本稿では,hciコミュニティに対して,長期にわたる開示とパーミッションモデルを廃止し,文脈整合性理論に根ざしたプライバシメカニズムを受け入れることを求める。

The multicontextual nature of immersive VR makes it difficult to ensure contextual integrity of VR-generated information flows using existing privacy design and policy mechanisms. In this position paper, we call on the HCI community to do away with lengthy disclosures and permissions models and move towards embracing privacy mechanisms rooted in Contextual Integrity theory.
翻訳日:2023-03-27 16:32:14 公開日:2023-03-23
# OFA$^2$: 任意のニューラルネットワーク探索のための多目的視点

OFA$^2$: A Multi-Objective Perspective for the Once-for-All Neural Architecture Search ( http://arxiv.org/abs/2303.13683v1 )

ライセンス: Link先を確認
Rafael C. Ito and Fernando J. Von Zuben(参考訳) once-for-All(OFA)は、トレーニングと検索ステージを分離することで、リソース制約の異なるデバイスのための効率的なアーキテクチャを探索する問題に対処する、ニューラルネットワーク検索(NAS)フレームワークである。 OFAニューラルネットワークをトレーニングする計算コストの高いプロセスは一度だけ実行され、各デプロイメントシナリオに応じて、トレーニングされたネットワークから抽出されたサブネットの複数の検索を実行することができる。 本研究の目的は,探索段階を多目的最適化問題として明示的に認識することで,効率の追求をさらに進めることである。 パレートのフロンティアには効率的で、既に訓練されたニューラルネットワークアーキテクチャがあり、対立する目標間で明確なトレードオフを示す。 これは、NSGA-IIやSMS-EMOAのような検索段階で、任意の多目的進化アルゴリズムを使用することで実現できる。 言い換えれば、ニューラルネットワークは一度トレーニングされ、異なるハードウェア制約を考慮したサブネットの探索も1回に1回行われる。 ofaの結合と多目的最適化のための明示的なアルゴリズムは、paretoフロンティアの非常に良い近似である効率的なサブネットワークをサンプリングした後、nasにおける後進的な意思決定の可能性を開きます。 ソースコードと最終検索アルゴリズムはhttps://github.com/ito-rafael/once-for-all-2でリリースされる。

Once-for-All (OFA) is a Neural Architecture Search (NAS) framework designed to address the problem of searching efficient architectures for devices with different resources constraints by decoupling the training and the searching stages. The computationally expensive process of training the OFA neural network is done only once, and then it is possible to perform multiple searches for subnetworks extracted from this trained network according to each deployment scenario. In this work we aim to give one step further in the search for efficiency by explicitly conceiving the search stage as a multi-objective optimization problem. A Pareto frontier is then populated with efficient, and already trained, neural architectures exhibiting distinct trade-offs among the conflicting objectives. This could be achieved by using any multi-objective evolutionary algorithm during the search stage, such as NSGA-II and SMS-EMOA. In other words, the neural network is trained once, the searching for subnetworks considering different hardware constraints is also done one single time, and then the user can choose a suitable neural network according to each deployment scenario. The conjugation of OFA and an explicit algorithm for multi-objective optimization opens the possibility of a posteriori decision-making in NAS, after sampling efficient subnetworks which are a very good approximation of the Pareto frontier, given that those subnetworks are already trained and ready to use. The source code and the final search algorithm will be released at https://github.com/ito-rafael/once-for-all-2
翻訳日:2023-03-27 16:32:07 公開日:2023-03-23
# Mordecai 3: ニューラルジオパーザとイベントジオコーダ

Mordecai 3: A Neural Geoparser and Event Geocoder ( http://arxiv.org/abs/2303.13675v1 )

ライセンス: Link先を確認
Andrew Halterman(参考訳) Mordecai3は、新しいエンドツーエンドのテキストジオパーザとイベントジオロケーションシステムである。 このシステムは、新しいニューラルランキングモデルを用いて地名解決を行い、文書から抽出された場所名をジオネームのガゼッタに入力する。 イベントジオコーディング(英: Event Geocoding)は、テキストで報告されたイベントと、報告される場所名とを、既成の質問回答モデルを用いてリンクする処理である。 toponym resolutionモデルは、何千もの新しい注釈付きの例とともに、既存のさまざまなトレーニングデータに基づいてトレーニングされる。 本稿では,モデルとトレーニングプロセス,および既存のジオパーサとの比較について述べる。 このシステムはオープンソースのpythonライブラリであるmordecai 3として利用可能であり、最も広く使われているテキストジオパーサーの1つである以前のgeoparserであるmordecai v2を置き換える(halterman 2017)。

Mordecai3 is a new end-to-end text geoparser and event geolocation system. The system performs toponym resolution using a new neural ranking model to resolve a place name extracted from a document to its entry in the Geonames gazetteer. It also performs event geocoding, the process of linking events reported in text with the place names where they are reported to occur, using an off-the-shelf question-answering model. The toponym resolution model is trained on a diverse set of existing training data, along with several thousand newly annotated examples. The paper describes the model, its training process, and performance comparisons with existing geoparsers. The system is available as an open source Python library, Mordecai 3, and replaces an earlier geoparser, Mordecai v2, one of the most widely used text geoparsers (Halterman 2017).
翻訳日:2023-03-27 16:31:43 公開日:2023-03-23
# 慣性幾何学的量子論理ゲート

Inertial geometric quantum logic gates ( http://arxiv.org/abs/2303.13674v1 )

ライセンス: Link先を確認
Daniel Turyansky, Oded Ovdat, Roie Dann, Ziv Aqua, Ronnie Kosloff, Barak Dayan, Adi Pick(参考訳) 単一および2量子ビットの量子論理ゲートに対する高速かつ堅牢なプロトコルを提案する。 我々のゲートは、'emph{slowly accelerating} ``inertial'' Hamiltonian の瞬時固有状態によって得られる幾何学的位相に基づいている。 まず、慣性人口移動プロトコルの条件を定義し、それからそれらの条件を満たすパルス形状を見つける。 これらのパルスを使って慣性量子論理ゲートを実行し、量子最適制御を用いてその性能を最適化する。 最適化プロセスに断熱性および慣性条件を含めることで、慣性プロトコルが与えられた性能の利点に対してパルスエネルギーを低減できることを示す。 最後に、偏光や漏洩エラーを含む$^{87}$rb原子によるプロトコルの実装を分析する。 我々のアプローチは幾何学的ゲートを超えて、断熱的量子計算プロトコルの高速化に有用である。

We present rapid and robust protocols for single- and two-qubit quantum logic gates. Our gates are based on geometric phases acquired by instantaneous eigenstates of a \emph{slowly accelerating} ``inertial'' Hamiltonian. We begin by defining conditions for an inertial population transfer protocol and, then, find pulse shapes that meet those conditions. We use those pulses to perform inertial quantum logic gates and optimize their performance using quantum optimal control. By including adiabaticity and inertiality conditions in the optimization process, we show that inertial protocols can have reduced pulse energy for given performance merits. Finally, we analyze an implementation of our protocol with $^{87}$Rb atoms including polarization and leakage errors. Our approach extends beyond geometric gates and is useful for speeding up adiabatic quantum computation protocols.
翻訳日:2023-03-27 16:31:29 公開日:2023-03-23
# スパースガウス過程の混合に基づくクラスタリング

Clustering based on Mixtures of Sparse Gaussian Processes ( http://arxiv.org/abs/2303.13665v1 )

ライセンス: Link先を確認
Zahra Moslehi, Abdolreza Mirzaei, Mehran Safayani(参考訳) 高次元データセットの低次元表現を作成することは、多くの機械学習アプリケーションにおいて重要なコンポーネントである。 低次元の埋め込み空間を使ってデータをクラスタする方法は、マシンラーニングでは依然として難しい問題である。 本稿では,クラスタリングと次元低減のための共同定式化の提案に焦点を当てる。 確率モデルが必要な場合、クラスタインジケータと低次元空間の両方が学習される混合モデルを使用することが考えられる。 提案アルゴリズムは,スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれるスパースガウス過程の混合に基づく。 既存手法に対する我々のアプローチの主な利点は、このモデルの確率的性質は、既存の決定論的手法よりもより有利であり、モデルの非線形一般化を構築することは簡単であり、スパースモデルと効率的な変分EM近似を適用することでアルゴリズムの高速化に役立つことである。

Creating low dimensional representations of a high dimensional data set is an important component in many machine learning applications. How to cluster data using their low dimensional embedded space is still a challenging problem in machine learning. In this article, we focus on proposing a joint formulation for both clustering and dimensionality reduction. When a probabilistic model is desired, one possible solution is to use the mixture models in which both cluster indicator and low dimensional space are learned. Our algorithm is based on a mixture of sparse Gaussian processes, which is called Sparse Gaussian Process Mixture Clustering (SGP-MIC). The main advantages to our approach over existing methods are that the probabilistic nature of this model provides more advantages over existing deterministic methods, it is straightforward to construct non-linear generalizations of the model, and applying a sparse model and an efficient variational EM approximation help to speed up the algorithm.
翻訳日:2023-03-27 16:31:16 公開日:2023-03-23
# ロングテールデータにおける自己教師付きコントラスト法の温度スケジュール

Temperature Schedules for Self-Supervised Contrastive Methods on Long-Tail Data ( http://arxiv.org/abs/2303.13664v1 )

ライセンス: Link先を確認
Anna Kukleva, Moritz B\"ohle, Bernt Schiele, Hilde Kuehne, Christian Rupprecht(参考訳) 自己教師付き学習(SSL)のほとんどのアプローチは、通常、自然データが長い尾の分布を示すという事実にもかかわらず、例えばImageNetのようなキュレートされたバランスの取れたデータセットに最適化されている。 本稿では,SSLの最も普及している変種のひとつ,すなわちロングテールデータに対するコントラスト的手法の振る舞いを分析する。 特に、平均距離最大化のレンズを通して損失を分析することで、対照的な損失における温度パラメータ $\tau$ の役割を調べ、大きな$\tau$ がグループワイド判別に重点を置いているのに対して、小さな$\tau$ はより高いインスタンス識別をもたらす。 これまでのところ、$\tau$は定数ハイパーパラメータとしてのみ扱われてきたが、この研究では、動的$\tau$を採用し、単純なコサインスケジュールが学習した表現に大きな改善をもたらすことを示す。 このようなスケジュールは、インスタンスの識別とグループ単位の識別に重点を置いている間、一定の「タスク切替」をもたらすため、モデルがグループ単位の特徴とインスタンス固有の詳細の両方を学ぶことが保証される。 頻繁なクラスは前者から恩恵を受けるが、後者を必要とするクラスは少ないため、この手法により、余分な計算コストを伴わずにロングテールデータ内のクラス間の分離を一貫して改善できる。

Most approaches for self-supervised learning (SSL) are optimised on curated balanced datasets, e.g. ImageNet, despite the fact that natural data usually exhibits long-tail distributions. In this paper, we analyse the behaviour of one of the most popular variants of SSL, i.e. contrastive methods, on long-tail data. In particular, we investigate the role of the temperature parameter $\tau$ in the contrastive loss, by analysing the loss through the lens of average distance maximisation, and find that a large $\tau$ emphasises group-wise discrimination, whereas a small $\tau$ leads to a higher degree of instance discrimination. While $\tau$ has thus far been treated exclusively as a constant hyperparameter, in this work, we propose to employ a dynamic $\tau$ and show that a simple cosine schedule can yield significant improvements in the learnt representations. Such a schedule results in a constant `task switching' between an emphasis on instance discrimination and group-wise discrimination and thereby ensures that the model learns both group-wise features, as well as instance-specific details. Since frequent classes benefit from the former, while infrequent classes require the latter, we find this method to consistently improve separation between the classes in long-tail data without any additional computational cost.
翻訳日:2023-03-27 16:31:01 公開日:2023-03-23
# 対面防止のためのドメイン一般化の再考:分離性とアライメント

Rethinking Domain Generalization for Face Anti-spoofing: Separability and Alignment ( http://arxiv.org/abs/2303.13662v1 )

ライセンス: Link先を確認
Yiyou Sun, Yaojie Liu, Xiaoming Liu, Yixuan Li, Wen-Sheng Chu(参考訳) 本研究は,画像の解像度,ぼやけ度,センサの変動といった領域ギャップに対する顔アンチスプーフィング(FAS)モデルの一般化問題について検討する。 ほとんどの先行研究では、ドメイン固有のシグナルはネガティブな影響であり、メトリクス学習や逆さまの損失を適用して特徴表現からそれらを取り除く。 トレーニングデータにドメイン不変の特徴空間を学習することは可能であるが、その特徴シフトは未確認のテスト領域にまだ存在し、分類器の一般化可能性に反する。 本研究では、ドメイン不変な特徴空間を構築する代わりに、live-to-spoof遷移(すなわち、liveからspoofへの軌跡)を全てのドメインで同一にしながら、ドメイン分離性を奨励する。 分離性とアライメントのfas戦略(sa-fas)を、不変リスク最小化(irm)問題として定式化し、ドメイン不変特徴表現を学習する。 ドメイン間FASデータセットに対するSA-FASの有効性を示し、最先端の性能を確立する。

This work studies the generalization issue of face anti-spoofing (FAS) models on domain gaps, such as image resolution, blurriness and sensor variations. Most prior works regard domain-specific signals as a negative impact, and apply metric learning or adversarial losses to remove them from feature representation. Though learning a domain-invariant feature space is viable for the training data, we show that the feature shift still exists in an unseen test domain, which backfires on the generalizability of the classifier. In this work, instead of constructing a domain-invariant feature space, we encourage domain separability while aligning the live-to-spoof transition (i.e., the trajectory from live to spoof) to be the same for all domains. We formulate this FAS strategy of separability and alignment (SA-FAS) as a problem of invariant risk minimization (IRM), and learn domain-variant feature representation but domain-invariant classifier. We demonstrate the effectiveness of SA-FAS on challenging cross-domain FAS datasets and establish state-of-the-art performance.
翻訳日:2023-03-27 16:30:34 公開日:2023-03-23
# Si量子ドットの谷分割における界面と電磁効果

Interface and electromagnetic effects in the valley splitting of Si quantum dots ( http://arxiv.org/abs/2303.13661v1 )

ライセンス: Link先を確認
Jonas R. F. Lima and Guido Burkard(参考訳) シリコンスピン量子ビットの性能と拡張性はコンダクテーションバンドのバレー分割の値に直接依存する。 本研究では,Si/SiGeヘテロ構造における量子ドットの谷分割に及ぼす電磁場と界面幅の影響について検討する。 このようなヘテロ構造における谷分割の計算のための有効質量理論における新しい3次元理論モデルを提案し、界面における濃度変動と側方閉じ込めを考慮に入れた。 このモデルを用いて,この電場が谷分割工学の重要なパラメータとなることを予測した。 また, スピン量子ビットに対する最善の選択肢は, 界面を可能な限り広く考えることである。

The performance and scalability of silicon spin qubits depend directly on the value of the conduction band valley splitting. In this work, we investigate the influence of electromagnetic fields and the interface width on the valley splitting of a quantum dot in a Si/SiGe heterostructure. We propose a new three-dimensional theoretical model within the effective mass theory for the calculation of the valley splitting in such heterostructures that takes into account the concentration fluctuation at the interfaces and the lateral confinement. With this model, we predict that the electric field is an important parameter for valley splitting engineering, since it can shift the probability distribution away from small valley splittings for some interface widths. We also obtain a critical softness of the interfaces in the heterostructure, above which the best option for spin qubits is to consider an interface as wide as possible.
翻訳日:2023-03-27 16:30:10 公開日:2023-03-23
# 深部VAEを用いた高忠実な画像合成

High Fidelity Image Synthesis With Deep VAEs In Latent Space ( http://arxiv.org/abs/2303.13714v1 )

ライセンス: Link先を確認
Troy Luhman, Eric Luhman(参考訳) 決定論的オートエンコーダの潜時空間をトレーニングした階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。 この2段階のセットアップでは、オートエンコーダはイメージをそのセマンティックな特徴に圧縮し、深いvaeでモデル化する。 この方法では、vaeは、画像のコード長の大部分を構成する細かな詳細をモデル化することを避け、構造的なコンポーネントの学習に集中できる。 我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。 実装をオンラインで公開しています。

We present fast, realistic image generation on high-resolution, multimodal datasets using hierarchical variational autoencoders (VAEs) trained on a deterministic autoencoder's latent space. In this two-stage setup, the autoencoder compresses the image into its semantic features, which are then modeled with a deep VAE. With this method, the VAE avoids modeling the fine-grained details that constitute the majority of the image's code length, allowing it to focus on learning its structural components. We demonstrate the effectiveness of our two-stage approach, achieving a FID of 9.34 on the ImageNet-256 dataset which is comparable to BigGAN. We make our implementation available online.
翻訳日:2023-03-27 16:22:19 公開日:2023-03-23
# 低周波画像深部ステガノグラフィ:頑健な秘密を隠すために周波数分布を操作する

Low-frequency Image Deep Steganography: Manipulate the Frequency Distribution to Hide Secrets with Tenacious Robustness ( http://arxiv.org/abs/2303.13713v1 )

ライセンス: Link先を確認
Huajie Chen, Tianqing Zhu, Yuan Zhao, Bo Liu, Xin Yu, Wanlei Zhou(参考訳) イメージディープステガノグラフィ(image deep steganography, ids)は、ディープラーニングを利用して、秘密画像をカバーイメージに不可視に埋め込んでコンテナイメージを生成する技術である。 しかし、畳み込みニューラルネットワーク(CNN)によって生成されたコンテナイメージは、その高周波成分を歪ませる攻撃に対して脆弱である。 この問題に対処するために,埋め込みプロセスにおける周波数分布操作を可能にするLIDS (low- frequency Image Deep Steganography) という新しい手法を提案する。 LIDSは秘密画像から特徴マップを抽出し、カバー画像に追加してコンテナ画像を生成する。 コンテナイメージはcnnによって直接出力されないため、高周波のアーティファクトは含まない。 抽出した特徴写像は周波数損失によって制御され、その周波数分布が主に低周波領域に集中することを保証する。 さらに堅牢性を高めるため、容器画像に損傷を与えるために攻撃層を挿入する。 検索ネットワークは、損傷したコンテナ画像から回収された秘密画像を検索する。 実験により,LIDSは高い忠実度と特異性を維持しつつ,ロバスト性の観点から最先端の手法より優れていることが示された。 高周波アーティファクトを回避し、組み込み特徴マップの周波数分布を操作することにより、コンテナイメージの高周波コンポーネントを歪ませる攻撃に対するロバスト性が向上する。

Image deep steganography (IDS) is a technique that utilizes deep learning to embed a secret image invisibly into a cover image to generate a container image. However, the container images generated by convolutional neural networks (CNNs) are vulnerable to attacks that distort their high-frequency components. To address this problem, we propose a novel method called Low-frequency Image Deep Steganography (LIDS) that allows frequency distribution manipulation in the embedding process. LIDS extracts a feature map from the secret image and adds it to the cover image to yield the container image. The container image is not directly output by the CNNs, and thus, it does not contain high-frequency artifacts. The extracted feature map is regulated by a frequency loss to ensure that its frequency distribution mainly concentrates on the low-frequency domain. To further enhance robustness, an attack layer is inserted to damage the container image. The retrieval network then retrieves a recovered secret image from a damaged container image. Our experiments demonstrate that LIDS outperforms state-of-the-art methods in terms of robustness, while maintaining high fidelity and specificity. By avoiding high-frequency artifacts and manipulating the frequency distribution of the embedded feature map, LIDS achieves improved robustness against attacks that distort the high-frequency components of container images.
翻訳日:2023-03-27 16:22:07 公開日:2023-03-23
# 意思決定支援かコントローラか? アルゴリズムで意思決定者を操る

Decision-aid or Controller? Steering Human Decision Makers with Algorithms ( http://arxiv.org/abs/2303.13712v1 )

ライセンス: Link先を確認
Ruqing Xu, Sarah Dean(参考訳) アルゴリズムは、予測を行い、決定を推奨することによって、人間の意思決定者を助けるために使用される。 現在、これらのアルゴリズムは予測精度を最適化するために訓練されている。 もし最終決定をコントロールできるように最適化されたら? 本稿では,人的意思決定者について学習し,決定に影響を及ぼす「個人的推薦」を提供する意思決定支援アルゴリズムについて検討する。 まず、観測可能な特徴とアルゴリズムの推奨事項を最終決定にマッピングする定型的人間決定関数について検討する。 最終決定に対する完全な制御が達成可能な条件を特徴付ける。 比較的一般的な仮定では、アルゴリズムが真に推奨するように制約された場合でも、人間の決定関数のパラメータは、アルゴリズムと人間の意思決定者の間の過去の相互作用から特定することができる。 次に,アルゴリズムの操作を認識し,戦略的に応答する意思決定者を考える。 安価なトークゲーム (Crawford and Sobel, 1982) の変種として設定を装い、全ての平衡が分割平衡であり、粗い情報しか共有されないことを示す:アルゴリズムは理想的な決定を含む区間を推奨する。 このようなアルゴリズムの潜在的な応用とその社会的意味について論じる。

Algorithms are used to aid human decision makers by making predictions and recommending decisions. Currently, these algorithms are trained to optimize prediction accuracy. What if they were optimized to control final decisions? In this paper, we study a decision-aid algorithm that learns about the human decision maker and provides ''personalized recommendations'' to influence final decisions. We first consider fixed human decision functions which map observable features and the algorithm's recommendations to final decisions. We characterize the conditions under which perfect control over final decisions is attainable. Under fairly general assumptions, the parameters of the human decision function can be identified from past interactions between the algorithm and the human decision maker, even when the algorithm was constrained to make truthful recommendations. We then consider a decision maker who is aware of the algorithm's manipulation and responds strategically. By posing the setting as a variation of the cheap talk game [Crawford and Sobel, 1982], we show that all equilibria are partition equilibria where only coarse information is shared: the algorithm recommends an interval containing the ideal decision. We discuss the potential applications of such algorithms and their social implications.
翻訳日:2023-03-27 16:21:44 公開日:2023-03-23
# 古典・量子光学におけるビームスプリッターの基本特性

Fundamental properties of beam-splitters in classical and quantum optics ( http://arxiv.org/abs/2303.13705v1 )

ライセンス: Link先を確認
Masud Mansuripur and Ewan M. Wright(参考訳) ロスレスビームスプリッターは、入射光子を2つの可能な方向のいずれかに送信する(複素値の)確率振幅を有する。 古典光学と量子光学の基本法則を用いて、これらの確率振幅の大きさと位相の一般関係を得る。 スプリッタの入力ポートに同時に到着する数状態 |n1> と |n2> の1対の単一モード波束を調べるために、フェインマンによる不明瞭なボース粒子の散乱解析に着想を得て、出力ポートにおける光子数状態の分布を求める。 その結果、ビームスプリッターの標準的な量子光学的処理の消滅と生成演算子 a と a{\dag} とが一致した。 ファインマン法の単純な応用は、よく知られた式 a|n>=sqrt(n)|n-1> と a{\dag}|n>=sqrt(n+1)|n+1> におけるボース強調の正当化の形式を提供する。

A lossless beam-splitter has certain (complex-valued) probability amplitudes for sending an incoming photon into one of two possible directions. We use elementary laws of classical and quantum optics to obtain general relations among the magnitudes and phases of these probability amplitudes. Proceeding to examine a pair of (nearly) single-mode wavepackets in the number-states |n1> and |n2> that simultaneously arrive at the splitter's input ports, we find the distribution of photon-number states at the output ports using an argument inspired by Feynman's scattering analysis of indistinguishable Bose particles. The result thus obtained coincides with that of the standard quantum-optical treatment of beam-splitters via annihilation and creation operators a and a{\dag}. A simple application of the Feynman method provides a form of justification for the Bose enhancement implicit in the well-known formulas a|n>=sqrt(n)|n-1> and a{\dag}|n>=sqrt(n+1)|n+1>.
翻訳日:2023-03-27 16:21:27 公開日:2023-03-23
# End-to-End Diffusion Latent Optimization による分類指導の改善

End-to-End Diffusion Latent Optimization Improves Classifier Guidance ( http://arxiv.org/abs/2303.13703v1 )

ライセンス: Link先を確認
Bram Wallace, Akash Gokul, Stefano Ermon, Nikhil Naik(参考訳) 画像分類器の勾配を利用して拡散モデルの世代を操縦する分類器ガイダンスは、画像生成と編集に対する創造的なコントロールを劇的に拡大する可能性がある。 しかし、現在分類器指導は、正確な勾配を得るために新しいノイズ認識モデルを訓練するか、最終世代の1ステップの近似を用いて、不整合勾配と準最適制御をもたらす。 我々は,この近似の欠点を強調し,新しいガイダンス手法を提案する。 拡散遅延の直接最適化(DOODL)は,メモリ効率の高いバックプロパゲーションを実現するために,非可逆拡散プロセスを用いて,事前学習された分類器の真の画素への勾配を最適化することにより,プラグアンドプレイのガイダンスを可能にする。 より正確なガイダンスの可能性を示すために、DOODLは、計算と人的評価のメトリクスに関する一段階の分類器ガイダンスを、さまざまな形式のガイダンスで上回り、CLIPガイダンスを使用して、DrawBenchからの複雑なプロンプトの世代を改良し、きめ細かい視覚分類器を使用して、安定拡散の語彙を拡大し、CLIPビジュアルエンコーダで画像条件付き生成を可能にし、美的評価ネットワークを使用して画像美学を改善する。

Classifier guidance -- using the gradients of an image classifier to steer the generations of a diffusion model -- has the potential to dramatically expand the creative control over image generation and editing. However, currently classifier guidance requires either training new noise-aware models to obtain accurate gradients or using a one-step denoising approximation of the final generation, which leads to misaligned gradients and sub-optimal control. We highlight this approximation's shortcomings and propose a novel guidance method: Direct Optimization of Diffusion Latents (DOODL), which enables plug-and-play guidance by optimizing diffusion latents w.r.t. the gradients of a pre-trained classifier on the true generated pixels, using an invertible diffusion process to achieve memory-efficient backpropagation. Showcasing the potential of more precise guidance, DOODL outperforms one-step classifier guidance on computational and human evaluation metrics across different forms of guidance: using CLIP guidance to improve generations of complex prompts from DrawBench, using fine-grained visual classifiers to expand the vocabulary of Stable Diffusion, enabling image-conditioned generation with a CLIP visual encoder, and improving image aesthetics using an aesthetic scoring network.
翻訳日:2023-03-27 16:21:03 公開日:2023-03-23
# ai支援インタラクティブセグメンテーションのための適応型マルチスケールオンラインラバースネットワーク

Adaptive Multi-scale Online Likelihood Network for AI-assisted Interactive Segmentation ( http://arxiv.org/abs/2303.13696v1 )

ライセンス: Link先を確認
Muhammad Asad and Helena Williams and Indrajeet Mandal and Sarim Ather and Jan Deprest and Jan D'hooge and Tom Vercauteren(参考訳) 既存の対話的セグメンテーション手法はラベルリファインメントに自動セグメンテーションとユーザインタラクションを活用し、手動アノテーションと比較してアノテーションの負荷を大幅に削減する。 しかし、これらの方法は曖昧で騒がしいデータに素早く適応できないため、covid-19患者からの肺病変を含むctでは課題となっている。 本研究では,初期自動セグメンテーションと修正を提供するユーザインタラクションの両方から,データ効率の良いオンラインセグメンテーションで適応的に学習する適応型マルチスケールオンラインラバースネットワーク(monet)を提案する。 類似した特徴を持つ隣接領域にユーザが提供するインタラクションの影響を拡張する適応的損失を提案することで、適応学習を実現する。 さらに,オンライン学習と推論を効率的に行えるように,初期セグメンテーションにおける不確かで冗長なラベルを破棄するデータ効率の高い確率誘導型プルーニング手法を提案する。 提案法は,CT における COVID-19 肺病変診断タスクに関する盲検比較研究のエキスパートにより評価された。 我々のアプローチは、Diceのスコアが5.86%高く、NASA-TLXのワークロードスコアが最先端よりも24.67%低かった。 ソースコードはhttps://github.com/masadcv/monet-monailabel

Existing interactive segmentation methods leverage automatic segmentation and user interactions for label refinement, significantly reducing the annotation workload compared to manual annotation. However, these methods lack quick adaptability to ambiguous and noisy data, which is a challenge in CT volumes containing lung lesions from COVID-19 patients. In this work, we propose an adaptive multi-scale online likelihood network (MONet) that adaptively learns in a data-efficient online setting from both an initial automatic segmentation and user interactions providing corrections. We achieve adaptive learning by proposing an adaptive loss that extends the influence of user-provided interaction to neighboring regions with similar features. In addition, we propose a data-efficient probability-guided pruning method that discards uncertain and redundant labels in the initial segmentation to enable efficient online training and inference. Our proposed method was evaluated by an expert in a blinded comparative study on COVID-19 lung lesion annotation task in CT. Our approach achieved 5.86% higher Dice score with 24.67% less perceived NASA-TLX workload score than the state-of-the-art. Source code is available at: https://github.com/masadcv/MONet-MONAILabel
翻訳日:2023-03-27 16:20:35 公開日:2023-03-23
# 非マルコフ環境における量子探索

Quantum search in a non-Markovian environment ( http://arxiv.org/abs/2303.14121v1 )

ライセンス: Link先を確認
Sheikh Parvez Mandal(参考訳) このms論文は、オープン量子システムのダイナミクスにおける「メモリ付きノイズ」の効果と起源を探求するものである。 ここで考慮されたシステムは、Groverの量子探索アルゴリズムを実行するマルチキュービットレジスタである。 マルコフ相関雑音は時間相関のない雑音よりもアルゴリズムの効率を高めることができることを示す。 また,レジスタ内の雑音サイト数に対して,アルゴリズムの成功確率が不変であるために必要な十分条件の集合を解析的に求め,ノイズにおける時間相関の有無によらず,これらの条件が保持されることを示す。 次に,検討した雑音の種類の起源について検討する。 この点において、開放系のノイズ進化を正確に再現する「衝突モデル」が構築されている。 システムの進化における非マルコフ性は、よく知られた2つの尺度を用いて評価され、非結合であることが示されている。 我々のモデルは、初等温浴に適合するようにわずかに修正されている。 そこで, 浴槽温度の上昇は, システムからの情報排水量を増加させることを示す。

This MS thesis explores the effects and origins of a 'noise with memory' in the dynamics of an open quantum system. The system considered here is a multi-qubit register performing the Grover's quantum search algorithm. We show that a Markovian-correlated noise can enhance the efficiency of the algorithm over a time correlation-less noise. We also analytically find the set of necessary and sufficient conditions for the algorithm's success probability to remain invariant with respect to the number of noisy sites in the register and point out that these conditions hold irrespective of the presence of time-correlations in the noise. We then investigate the origins of the type of noise considered. In this regard, a 'collisional model' is constructed that exactly reproduces the noisy evolution of the open system. Non-Markovianity in the system's evolution is then assessed using two well-known measures and they are shown to be non-coincident. Our model is then slightly modified to accommodate an elementary thermal bath. There we show that increasing the bath's temperature increases information drainage from the system.
翻訳日:2023-03-27 13:43:00 公開日:2023-03-23
# NGA-West2データベースを用いた地上運動モデルの物理記号学習

Physics Symbolic Learner for Discovering Ground-Motion Models Via NGA-West2 Database ( http://arxiv.org/abs/2303.14179v1 )

ライセンス: Link先を確認
Su Chen, Xianwei Liu, Lei Fu, Suyang Wang, Bin Zhang, Xiaojun Li(参考訳) 地動モデル(GMM)は多くの地震工学研究の基礎となっている。 本研究では,nest生成減衰-west2データベースに基づく新しい物理情報型記号学習器(pisl)法を提案し,数式演算子を記号として自動的に発見する。 逐次しきい値リッジ回帰アルゴリズムを用いて、地上運動の複雑なシステムの簡潔かつ解釈可能な明示的特徴を抽出する。 従来のGMMから取得した基本変数に加えて、現在のPISLは2つの先行的な物理的条件、すなわち距離と振幅飽和を含む。 PISL, 経験的回帰法 (ERM), 人工ニューラルネットワーク (ANN) を用いて開発したGMMを, ピーク地盤加速度と速度の得られたデータに基づいて, 残差と外挿の点で比較した。 その結果,3つの手法の標準偏差は類似していることが判明した。 PISLの機能形式はERMやANNよりも簡潔である。 PISLの補間能力はANNよりも正確である。 本研究で使用されるPISL-GMMは、物理およびデータ駆動機械学習の両方を考慮した回帰の新たなパラダイムを提供し、異なる領域における地動変数の物理的関係と予測方程式の同定に使用できる。

Ground-motion model (GMM) is the basis of many earthquake engineering studies. In this study, a novel physics-informed symbolic learner (PISL) method based on the Nest Generation Attenuation-West2 database is proposed to automatically discover mathematical equation operators as symbols. The sequential threshold ridge regression algorithm is utilized to distill a concise and interpretable explicit characterization of complex systems of ground motions. In addition to the basic variables retrieved from previous GMMs, the current PISL incorporates two a priori physical conditions, namely, distance and amplitude saturation. GMMs developed using the PISL, an empirical regression method (ERM), and an artificial neural network (ANN) are compared in terms of residuals and extrapolation based on obtained data of peak ground acceleration and velocity. The results show that the inter- and intra-event standard deviations of the three methods are similar. The functional form of the PISL is more concise than that of the ERM and ANN. The extrapolation capability of the PISL is more accurate than that of the ANN. The PISL-GMM used in this study provide a new paradigm of regression that considers both physical and data-driven machine learning and can be used to identify the implied physical relationships and prediction equations of ground motion variables in different regions.
翻訳日:2023-03-27 13:25:25 公開日:2023-03-23
# GPTはGPTである:大規模言語モデルの労働市場影響の早期調査

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models ( http://arxiv.org/abs/2303.10130v4 )

ライセンス: Link先を確認
Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock(参考訳) 米国労働市場におけるジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)のような大規模言語モデル(LLM)の潜在的な影響について検討し,LSMによるソフトウェアによる能力向上に着目した。 新たなルーブリックを用いて,人間の専門知識とGPT-4の分類を統合し,LLM能力との整合性に基づく職業評価を行った。 調査の結果、米国の労働力の約80%が、LSMの導入によって影響を受ける仕事の少なくとも10%を、労働者の約19%が少なくとも50%が影響を受けていることがわかった。 このようなLCMの開発や採用スケジュールについては予測はしていません。 予測された効果は全賃金水準にまたがっており、高い収入の雇用はLLM能力やLLM搭載のソフトウェアにより大きな影響を受ける可能性がある。 これらの影響は、近年生産性が向上した産業に限ったものではない。 我々の分析は、LLMにアクセスすることで、米国の労働者のタスクの約15%が、同じレベルの品質で大幅に高速に完了できることを示唆している。 LLM上に構築されたソフトウェアとツールを統合すると、このシェアは全タスクの47~56%に増加する。 この発見は、LCMを利用したソフトウェアが、基礎となるモデルの経済的影響を拡大する上で大きな影響を与えることを示唆している。 GPTなどのLCMは汎用技術の特徴を示し,経済的,社会的,政策的な意味を持つ可能性が示唆された。

We investigate the potential implications of large language models (LLMs), such as Generative Pre-trained Transformers (GPTs), on the U.S. labor market, focusing on the increased capabilities arising from LLM-powered software compared to LLMs on their own. Using a new rubric, we assess occupations based on their alignment with LLM capabilities, integrating both human expertise and GPT-4 classifications. Our findings reveal that around 80% of the U.S. workforce could have at least 10% of their work tasks affected by the introduction of LLMs, while approximately 19% of workers may see at least 50% of their tasks impacted. We do not make predictions about the development or adoption timeline of such LLMs. The projected effects span all wage levels, with higher-income jobs potentially facing greater exposure to LLM capabilities and LLM-powered software. Significantly, these impacts are not restricted to industries with higher recent productivity growth. Our analysis suggests that, with access to an LLM, about 15% of all worker tasks in the US could be completed significantly faster at the same level of quality. When incorporating software and tooling built on top of LLMs, this share increases to between 47 and 56% of all tasks. This finding implies that LLM-powered software will have a substantial effect on scaling the economic impacts of the underlying models. We conclude that LLMs such as GPTs exhibit traits of general-purpose technologies, indicating that they could have considerable economic, social, and policy implications.
翻訳日:2023-03-27 11:20:26 公開日:2023-03-23
# ディープネットワークにおける低位単純バイアス

The Low-Rank Simplicity Bias in Deep Networks ( http://arxiv.org/abs/2103.10427v4 )

ライセンス: Link先を確認
Minyoung Huh, Hossein Mobahi, Richard Zhang, Brian Cheung, Pulkit Agrawal, Phillip Isola(参考訳) 現代のディープニューラルネットワークは、トレーニングされているデータと比較して非常に過度にパラメータ化されている。 なぜディープネットワークはトレーニングデータに過度に適合しないのか? 本研究では,より深いネットワークが帰納的バイアスを負い,より効果的なランク埋め込みを持つ解を見出すという仮説を検証・拡張する経験的観測を行った。 このバイアスは、低有効ランク埋め込みに写像する関数の体積が深さとともに増加するために存在すると推測する。 実践的学習パラダイムにおいて,有限幅線形および非線形モデルにおいて,我々の主張が真であることを実証的に示し,自然データにおいては,これらがよく一般化する解であることを示す。 次に,初期化とトレーニング後の両方において単純さのバイアスが存在し,ハイパーパラメータや学習方法に弾力性があることを示す。 さらに,深部非線形モデルの線形過パラメータ化を低ランクバイアスの誘発に応用し,モデリング能力を変化させることなくcifarおよびimagenetの一般化性能を向上させることを実証する。

Modern deep neural networks are highly over-parameterized compared to the data on which they are trained, yet they often generalize remarkably well. A flurry of recent work has asked: why do deep networks not overfit to their training data? In this work, we make a series of empirical observations that investigate and extend the hypothesis that deeper networks are inductively biased to find solutions with lower effective rank embeddings. We conjecture that this bias exists because the volume of functions that maps to low effective rank embedding increases with depth. We show empirically that our claim holds true on finite width linear and non-linear models on practical learning paradigms and show that on natural data, these are often the solutions that generalize well. We then show that the simplicity bias exists at both initialization and after training and is resilient to hyper-parameters and learning methods. We further demonstrate how linear over-parameterization of deep non-linear models can be used to induce low-rank bias, improving generalization performance on CIFAR and ImageNet without changing the modeling capacity.
翻訳日:2023-03-24 20:02:50 公開日:2023-03-23
# 拡張のないA*検索:深層Q-Networksによるヒューリスティック関数の学習

A* Search Without Expansions: Learning Heuristic Functions with Deep Q-Networks ( http://arxiv.org/abs/2102.04518v2 )

ライセンス: Link先を確認
Forest Agostinelli, Alexander Shmakov, Stephen McAleer, Roy Fox, Pierre Baldi(参考訳) a*検索を用いた大規模行動空間での効率的な問題解決は、人工知能コミュニティにとって何十年も前から重要だった。 これは、A*探索の計算とメモリ要求がアクション空間のサイズとともに線形に増加するためである。 A*探索が深層ニューラルネットワークのような計算コストの高い関数近似器によって学習されたヒューリスティック関数を使用すると、この重荷はさらに明らかになる。 この問題に対処するために,我々は,ノードの子どもの遷移コストとヒューリスティック値の和を,これらの子を明示的に生成することなく単一のフォワードパスで計算できるという事実を生かして,ディープqネットワークを用いた探索アルゴリズムであるq* searchを導入する。 これにより、計算時間を大幅に削減し、イテレーション毎に1ノードだけを生成することができる。 1872年のメタアクションを含む大きなアクション空間を定式化した場合、q*探索を用いてルービックキューブを解き、この157倍のアクション空間の大きさの増大は計算時間を4倍にし、q*探索を行う際に発生するノード数を3倍に増加させる。 さらに、q*検索はa*検索の最大129倍高速であり、a*検索の最大1288倍のノードを生成する。 最後に、深層ニューラルネットワークから許容的ヒューリスティック関数を取得することは、現在進行中の研究分野であるが、最短経路のコストを過大評価せず、遷移コストを過小評価しないヒューリスティック関数により、Q*探索が最短経路を見つけることが保証されていることを証明している。

Efficiently solving problems with large action spaces using A* search has been of importance to the artificial intelligence community for decades. This is because the computation and memory requirements of A* search grow linearly with the size of the action space. This burden becomes even more apparent when A* search uses a heuristic function learned by computationally expensive function approximators, such as deep neural networks. To address this problem, we introduce Q* search, a search algorithm that uses deep Q-networks to guide search in order to take advantage of the fact that the sum of the transition costs and heuristic values of the children of a node can be computed with a single forward pass through a deep Q-network without explicitly generating those children. This significantly reduces computation time and requires only one node to be generated per iteration. We use Q* search to solve the Rubik's cube when formulated with a large action space that includes 1872 meta-actions and find that this 157-fold increase in the size of the action space incurs less than a 4-fold increase in computation time and less than a 3-fold increase in number of nodes generated when performing Q* search. Furthermore, Q* search is up to 129 times faster and generates up to 1288 times fewer nodes than A* search. Finally, although obtaining admissible heuristic functions from deep neural networks is an ongoing area of research, we prove that Q* search is guaranteed to find a shortest path given a heuristic function that neither overestimates the cost of a shortest path nor underestimates the transition cost.
翻訳日:2023-03-24 20:02:32 公開日:2023-03-23
# 非オブザーブドコンファウンディングのためのカーネル法:負の制御、プロキシ、および機器

Kernel Methods for Unobserved Confounding: Negative Controls, Proxies, and Instruments ( http://arxiv.org/abs/2012.10315v5 )

ライセンス: Link先を確認
Rahul Singh(参考訳) 負の制御は、未測定のコンファウンディングの存在下で、治療と結果の因果関係を学ぶための戦略である。 それにもかかわらず、治療効果は2つの補助変数、すなわち、負の制御の処理(実際の結果に影響を与えない)と負の制御の結果(実際の処理の影響を受けない)が利用可能であれば識別できる。 これらの補助変数は、伝統的な制御変数の集合のプロキシと見なすことができ、楽器変数に類似している。 非パラメトリックな処理効果を負の制御で学習するためのカーネルリッジ回帰に基づくアルゴリズム群を提案する。 例えば、線量反応曲線、分布シフトを伴う線量反応曲線、不均一な治療効果などがある。 データは離散的、連続的、低次元、高次元、無限次元である。 均一な一貫性を証明し、収束の有限サンプル率を提供します。 1989年から1991年の間、ペンシルベニア州におけるシングルトン出生のデータセットを用いて、乳幼児の出生体重調整における喫煙の服用量反応曲線を家計所得による不測の一致から推定した。

Negative control is a strategy for learning the causal relationship between treatment and outcome in the presence of unmeasured confounding. The treatment effect can nonetheless be identified if two auxiliary variables are available: a negative control treatment (which has no effect on the actual outcome), and a negative control outcome (which is not affected by the actual treatment). These auxiliary variables can also be viewed as proxies for a traditional set of control variables, and they bear resemblance to instrumental variables. I propose a family of algorithms based on kernel ridge regression for learning nonparametric treatment effects with negative controls. Examples include dose response curves, dose response curves with distribution shift, and heterogeneous treatment effects. Data may be discrete or continuous, and low, high, or infinite dimensional. I prove uniform consistency and provide finite sample rates of convergence. I estimate the dose response curve of cigarette smoking on infant birth weight adjusting for unobserved confounding due to household income, using a data set of singleton births in the state of Pennsylvania between 1989 and 1991.
翻訳日:2023-03-24 20:02:00 公開日:2023-03-23
# 類似北欧語を区別する

Discriminating Between Similar Nordic Languages ( http://arxiv.org/abs/2012.06431v2 )

ライセンス: Link先を確認
Ren\'e Haas, Leon Derczynski(参考訳) 言語の自動識別は難しい問題である。 近縁な言語間の区別は特に困難である。 本論文では,既存の最先端ツールで誤分類されることが多い北欧語の自動言語識別のための機械学習手法を提案する。 具体的には、デンマーク語、スウェーデン語、ノルウェー語(nynorsk)、ノルウェー語(bokm{\aa}l)、フェロー語、アイスランド語という6つの北欧語の区別に焦点を当てる。

Automatic language identification is a challenging problem. Discriminating between closely related languages is especially difficult. This paper presents a machine learning approach for automatic language identification for the Nordic languages, which often suffer miscategorisation by existing state-of-the-art tools. Concretely we will focus on discrimination between six Nordic languages: Danish, Swedish, Norwegian (Nynorsk), Norwegian (Bokm{\aa}l), Faroese and Icelandic.
翻訳日:2023-03-24 20:01:08 公開日:2023-03-23
# 評価とベイズネットワークを用いたアジアハンドキャップサッカー賭け市場の効率性の検討

Investigating the efficiency of the Asian handicap football betting market with ratings and Bayesian networks ( http://arxiv.org/abs/2003.09384v2 )

ライセンス: Link先を確認
Anthony Constantinou(参考訳) アジア・ハンディキャップ(ah)フットボール(soccer)の賭け市場は大きな人気を博したが、その効率性は関連する文献では十分に研究されていない。 本稿では,ベイジアンネットワークと評価システムを組み合わせて,AH賭け市場の効率を予測・評価するために開発された最初のモデルを提案する。 結果は13のイングランド・プレミアリーグのシーズンに基づいており、勝利、負け、引き分けの賭けが行われる伝統的な市場と比較される。 異なる賭け状況が調べられました a) 平均値と最大値の両方の市場確率 b) 予測された確率と公表された確率の間の決定しきい値 c)再投資と利益の両面での最適化 d) 従来市場及びah市場の両方で同等の利益を目標にする場合において、リターンのばらつきがどのように変化するかを調査するための簡単なステークス調整。 ah市場は従来の市場の非効率性を共有することが判明しているが、興味深い違いと両者の類似性の両方が明らかになった。

Despite the massive popularity of the Asian Handicap (AH) football (soccer) betting market, its efficiency has not been adequately studied by the relevant literature. This paper combines rating systems with Bayesian networks and presents the first published model specifically developed for prediction and assessment of the efficiency of the AH betting market. The results are based on 13 English Premier League seasons and are compared to the traditional market, where the bets are for win, lose or draw. Different betting situations have been examined including a) both average and maximum (best available) market odds, b) all possible betting decision thresholds between predicted and published odds, c) optimisations for both return-on-investment and profit, and d) simple stake adjustments to investigate how the variance of returns changes when targeting equivalent profit in both traditional and AH markets. While the AH market is found to share the inefficiencies of the traditional market, the findings reveal both interesting differences as well as similarities between the two.
翻訳日:2023-03-24 20:00:40 公開日:2023-03-23
# ニューラルネットワークにおけるドロップアウトアルゴリズムのほぼ確実に収束

Almost Sure Convergence of Dropout Algorithms for Neural Networks ( http://arxiv.org/abs/2002.02247v2 )

ライセンス: Link先を確認
Albert Senen-Cerda, Jaron Sanders(参考訳) 本研究では,ドロップアウトに触発されたニューラルネットワーク(nns)の確率的学習アルゴリズムの収束と収束率について検討する(hinton et al., 2012)。 NNのトレーニング中に過度な適合を避けるために、ドロップアウトアルゴリズムは、SGD(Stochastic Gradient Descent)の各イテレーションで$\{0, 1 \}$-valuedエントリを持つ独立に描画されたランダム行列によって、NNの重み行列をNN成分的に乗算するプラクティスで構成される。 本稿では、微分可能で多項式有界な活性化関数を持つ完全連結nnに対して、ドロップアウトアルゴリズムを用いて重みをコンパクト集合に投影すると、nnの重みは常微分方程式(odes)の射影系の一意的な定常点に収束する確率論的証明を示す。 この一般的な収束保証の後、私たちはドロップアウトの収束率を調査します。 まず、ドロップアウト確率に明示的に依存するドロップアウトを持つSGDを用いて、滑らかな非凸関数の$\epsilon$-stationary点を求めるための一般的なサンプル複雑性境界を求める。 第2に、任意の深さのアーボラッセンス形状と線形活性化関数を持つNNに対するドロップアウトアルゴリズムの制限ODEに対するグラディエント・ディキセント(GD)の収束率の上限を求める。 後者の境界は、Dropout や Dropconnect (Wan et al., 2013) のようなアルゴリズムでは、収束率はアーボラッセンスの深さによって指数関数的に損なわれることを示している。 対照的に、少数のドロップアウト層を持つ広帯域NNに対するそのような依存を実験的に観察する。 この観察に対するヒューリスティックな議論も提供する。 この結果から,nnの幅の相対的な大きさに依存する収束率におけるドロップアウト確率の影響は,nnの深さと比較して大きく変化することが示唆された。

We investigate the convergence and convergence rate of stochastic training algorithms for Neural Networks (NNs) that have been inspired by Dropout (Hinton et al., 2012). With the goal of avoiding overfitting during training of NNs, dropout algorithms consist in practice of multiplying the weight matrices of a NN componentwise by independently drawn random matrices with $\{0, 1 \}$-valued entries during each iteration of Stochastic Gradient Descent (SGD). This paper presents a probability theoretical proof that for fully-connected NNs with differentiable, polynomially bounded activation functions, if we project the weights onto a compact set when using a dropout algorithm, then the weights of the NN converge to a unique stationary point of a projected system of Ordinary Differential Equations (ODEs). After this general convergence guarantee, we go on to investigate the convergence rate of dropout. Firstly, we obtain generic sample complexity bounds for finding $\epsilon$-stationary points of smooth nonconvex functions using SGD with dropout that explicitly depend on the dropout probability. Secondly, we obtain an upper bound on the rate of convergence of Gradient Descent (GD) on the limiting ODEs of dropout algorithms for NNs with the shape of arborescences of arbitrary depth and with linear activation functions. The latter bound shows that for an algorithm such as Dropout or Dropconnect (Wan et al., 2013), the convergence rate can be impaired exponentially by the depth of the arborescence. In contrast, we experimentally observe no such dependence for wide NNs with just a few dropout layers. We also provide a heuristic argument for this observation. Our results suggest that there is a change of scale of the effect of the dropout probability in the convergence rate that depends on the relative size of the width of the NN compared to its depth.
翻訳日:2023-03-24 20:00:24 公開日:2023-03-23
# 機械学習を用いた感情分析, 視線追跡, 頭部運動を用いた学生エンゲージメント検出

Student Engagement Detection Using Emotion Analysis, Eye Tracking and Head Movement with Machine Learning ( http://arxiv.org/abs/1909.12913v5 )

ライセンス: Link先を確認
Prabin Sharma, Shubham Joshi, Subash Gautam, Sneha Maharjan, Salik Ram Khanal, Manuel Cabral Reis, Jo\~ao Barroso, V\'itor Manuel de Jesus Filipe(参考訳) 特に、遠隔学習やeラーニングの増加に伴い、学生の関与を判断できるシステムを持つことは、教師、研究者、政策立案者の両方にとって、最も大きな課題の1つとなる。 本稿では,学生のエンゲージメントレベルを検出するシステムを提案する。 ノートパソコンに内蔵されている一般的なウェブカメラが提供する情報のみを使用し、リアルタイムで動作するように設計されている。 我々は、目と頭の動きに関する情報と顔の感情を組み合わせて、3種類のエンゲージメント、すなわち「非常にエンゲージメント」("very engaged")、"nominally engaged")、そして「全くエンゲージメントしない」("not in engaged")の3つのクラスを持つ集中指数を生成する。 システムは典型的なeラーニングのシナリオでテストされ、その結果、学生が「非常にエンゲージメント」、「公的なエンゲージメント」、そして「全くエンゲージメントしていない」の各期間を正しく識別した。 さらに, 成績のよい生徒は, 集中度が高いことも示唆した。

With the increase of distance learning, in general, and e-learning, in particular, having a system capable of determining the engagement of students is of primordial importance, and one of the biggest challenges, both for teachers, researchers and policy makers. Here, we present a system to detect the engagement level of the students. It uses only information provided by the typical built-in web-camera present in a laptop computer, and was designed to work in real time. We combine information about the movements of the eyes and head, and facial emotions to produce a concentration index with three classes of engagement: "very engaged", "nominally engaged" and "not engaged at all". The system was tested in a typical e-learning scenario, and the results show that it correctly identifies each period of time where students were "very engaged", "nominally engaged" and "not engaged at all". Additionally, the results also show that the students with best scores also have higher concentration indexes.
翻訳日:2023-03-24 19:59:46 公開日:2023-03-23
# デンマーク語における攻撃言語とヘイトスピーチ検出

Offensive Language and Hate Speech Detection for Danish ( http://arxiv.org/abs/1908.04531v2 )

ライセンス: Link先を確認
Gudbjartur Ingi Sigurbergsson, Leon Derczynski(参考訳) ソーシャルメディアプラットフォームにおける攻撃的言語の存在とその意味は、現代の社会において大きな関心事となっている。 毎日生成されるコンテンツの量を考えると、この種のコンテンツの検出と処理には自動的な方法が必要となる。 これまで、ほとんどの研究は英語の問題に焦点を合わせてきたが、問題は多言語である。 我々は、 \textit{reddit} と \textit{facebook} からのユーザが生成したコメントを含むデンマークのデータセットを構築します。 さまざまなソーシャルメディアプラットフォームからユーザーが生成したコメントが含まれており、私たちの知る限りでは、この種のコメントは最初のものだ。 我々のデータセットは様々な種類の攻撃的言語をキャプチャするために注釈付けされている。 4つの自動分類システムを開発し,それぞれが英語とデンマーク語の両方で動作するように設計した。 英語における攻撃的言語の検出において、ベストパフォーマンスシステムはマクロ平均f1-scoreを0.74$とし、デンマーク最高のパフォーマンスシステムはマクロ平均f1-scoreを0.70$とする。 攻撃的ポストがターゲットであるか否かを検知すると、英語のベストパフォーマンスシステムはマクロ平均f1-scoreを0.62$、デンマークのベストパフォーマンスシステムはマクロ平均f1-scoreを0.73$とする。 最後に、標的とする攻撃姿勢における目標型の検出において、英語の最高のパフォーマンスシステムはマクロ平均F1スコアを0.56ドル、デンマークの最高のパフォーマンスシステムはマクロ平均F1スコアを0.63ドルを達成する。 英語とデンマーク語の両方に対する研究は、攻撃的言語のタイプとターゲットを捉え、ヘイトスピーチやサイバーいじめのようなさまざまな攻撃的言語を検出する自動手法を提案する。

The presence of offensive language on social media platforms and the implications this poses is becoming a major concern in modern society. Given the enormous amount of content created every day, automatic methods are required to detect and deal with this type of content. Until now, most of the research has focused on solving the problem for the English language, while the problem is multilingual. We construct a Danish dataset containing user-generated comments from \textit{Reddit} and \textit{Facebook}. It contains user generated comments from various social media platforms, and to our knowledge, it is the first of its kind. Our dataset is annotated to capture various types and target of offensive language. We develop four automatic classification systems, each designed to work for both the English and the Danish language. In the detection of offensive language in English, the best performing system achieves a macro averaged F1-score of $0.74$, and the best performing system for Danish achieves a macro averaged F1-score of $0.70$. In the detection of whether or not an offensive post is targeted, the best performing system for English achieves a macro averaged F1-score of $0.62$, while the best performing system for Danish achieves a macro averaged F1-score of $0.73$. Finally, in the detection of the target type in a targeted offensive post, the best performing system for English achieves a macro averaged F1-score of $0.56$, and the best performing system for Danish achieves a macro averaged F1-score of $0.63$. Our work for both the English and the Danish language captures the type and targets of offensive language, and present automatic methods for detecting different kinds of offensive language such as hate speech and cyberbullying.
翻訳日:2023-03-24 19:59:27 公開日:2023-03-23
# 非有向グラフに対する擬ユークリッドアトラクション・レペル埋め込み

Pseudo-Euclidean Attract-Repel Embeddings for Undirected Graphs ( http://arxiv.org/abs/2106.09671v2 )

ライセンス: Link先を確認
Alexander Peysakhovich, Anna Klimovskaia Susmel, Leon Bottou(参考訳) ドット積埋め込みはグラフをとり、2つのベクトル間のドット積がエッジの強さを与えるようなノードのベクトルを構成する。 ドット積は強い推移性を仮定するが、実世界でグラフを生成する多くの重要な力は非推移的関係に繋がる。 ノードを擬ユークリッド空間に埋め込むことで推移性仮定を取り除き、各ノードにアトラクションとrepelベクトルを与える。 2つのノード間の内積は、ドット積をベクトルを引き付けるために取り、ドット積をベクトルに減算することによって定義される。 擬似ユークリッド埋め込みはネットワークを効率よく圧縮でき、近隣の複数の概念をそれぞれ独自の解釈で解釈でき、指数関数的なファミリー埋め込みやグラフニューラルネットワークのような既存のモデルに“スロットト”してリンク予測を改善することができる。

Dot product embeddings take a graph and construct vectors for nodes such that dot products between two vectors give the strength of the edge. Dot products make a strong transitivity assumption, however, many important forces generating graphs in the real world lead to non-transitive relationships. We remove the transitivity assumption by embedding nodes into a pseudo-Euclidean space - giving each node an attract and a repel vector. The inner product between two nodes is defined by taking the dot product in attract vectors and subtracting the dot product in repel vectors. Pseudo-Euclidean embeddings can compress networks efficiently, allow for multiple notions of nearest neighbors each with their own interpretation, and can be `slotted' into existing models such as exponential family embeddings or graph neural networks for better link prediction.
翻訳日:2023-03-24 19:50:58 公開日:2023-03-23
# 実践的垂直的フェデレーション学習のための爆発記録類似性の結合設計

A Coupled Design of Exploiting Record Similarity for Practical Vertical Federated Learning ( http://arxiv.org/abs/2106.06312v4 )

ライセンス: Link先を確認
Zhaomin Wu, Qinbin Li, Bingsheng He(参考訳) フェデレートドラーニング(Federated Learning)は、生データを明らかにすることなく、さまざまなパーティ間で協調学習を可能にする学習パラダイムである。 特に、垂直フェデレーション学習(vfl)は、パーティが同じサンプルセットを共有するが、部分的な特徴しか持たないが、幅広い実世界のアプリケーションを持っている。 しかしながら、VFLの既存の研究のほとんどは「記録リンク」プロセスを無視している。 彼らは、異なる当事者のデータを正確にリンクできると仮定するか、それぞれのレコードを最も近い隣のレコードと簡単にリンクできるアルゴリズムを設計する。 これらのアプローチは、他の類似しないレコードから重要な機能をキャプチャできない可能性がある。 さらに、既存のアプローチではトレーニング中にリンクに対するフィードバックがないため、トレーニングによってこのような不適切なリンクを修正することはできない。 本稿では,1対多のリンクをトレーニングプロセスに統合する新しい統合トレーニングパラダイムであるFedSimを設計する。 ファジィ識別子を備えた現実世界の多くのアプリケーションでVFLを有効にするだけでなく、FedSimは従来のVFLタスクのパフォーマンスも向上している。 さらに,類似性を共有することによって生じる追加のプライバシーリスクも理論的に分析する。 様々な類似度メトリクスを持つ8つのデータセットに関する実験では、feedsimは他の最先端のベースラインよりも優れています。 FedSimのコードはhttps://github.com/Xtra-Computing/FedSimで入手できる。

Federated learning is a learning paradigm to enable collaborative learning across different parties without revealing raw data. Notably, vertical federated learning (VFL), where parties share the same set of samples but only hold partial features, has a wide range of real-world applications. However, most existing studies in VFL disregard the "record linkage" process. They design algorithms either assuming the data from different parties can be exactly linked or simply linking each record with its most similar neighboring record. These approaches may fail to capture the key features from other less similar records. Moreover, such improper linkage cannot be corrected by training since existing approaches provide no feedback on linkage during training. In this paper, we design a novel coupled training paradigm, FedSim, that integrates one-to-many linkage into the training process. Besides enabling VFL in many real-world applications with fuzzy identifiers, FedSim also achieves better performance in traditional VFL tasks. Moreover, we theoretically analyze the additional privacy risk incurred by sharing similarities. Our experiments on eight datasets with various similarity metrics show that FedSim outperforms other state-of-the-art baselines. The codes of FedSim are available at https://github.com/Xtra-Computing/FedSim.
翻訳日:2023-03-24 19:50:41 公開日:2023-03-23
# 量子情報の摂動理論

Perturbation Theory for Quantum Information ( http://arxiv.org/abs/2106.05533v3 )

ライセンス: Link先を確認
Michael R Grace and Saikat Guha(参考訳) 線形作用素の関数に対する摂動理論に基づく量子状態の一次行列関数に対する最小次級数展開について報告する。 本理論は、ゼロ次状態の固有スペクトルとゼロトレースエルミート摂動作用素の密度行列要素の知識のみを仮定した摂動量子状態の関数の効率的な計算を可能にし、完全な状態や摂動項の解析を必要としない。 我々は、量子状態摂動の2つのクラス、元の状態のベクトル支持を保持する摂動、および元の状態の支持を超えて支持を拡張する摂動の理論を開発する。 特に、保存された支持を持つ摂動量子状態の関数や測度がfr\'echet微分を用いてエレガントかつ効率的に表現できるという事実を強調する。 量子情報理論において、量子ニューマンエントロピー、量子相対エントロピー、量子チャーノフバウンド、量子フィディリティという密度行列からよく計算される4つの重要な量のうちの4つの単純な式を求めるために、摂動理論を適用した。

We report lowest-order series expansions for primary matrix functions of quantum states based on a perturbation theory for functions of linear operators. Our theory enables efficient computation of functions of perturbed quantum states that assume only knowledge of the eigenspectrum of the zeroth order state and the density matrix elements of a zero-trace, Hermitian perturbation operator, not requiring analysis of the full state or the perturbation term. We develop theories for two classes of quantum state perturbations, perturbations that preserve the vector support of the original state and perturbations that extend the support beyond the support of the original state. We highlight relevant features of the two situations, in particular the fact that functions and measures of perturbed quantum states with preserved support can be elegantly and efficiently represented using Fr\'echet derivatives. We apply our perturbation theories to find simple expressions for four of the most important quantities in quantum information theory that are commonly computed from density matrices: the Von Neumann entropy, the quantum relative entropy, the quantum Chernoff bound, and the quantum fidelity.
翻訳日:2023-03-24 19:50:21 公開日:2023-03-23
# 最も近い隣の過程:弱収束と非漸近境界

Nearest neighbor process: weak convergence and non-asymptotic bound ( http://arxiv.org/abs/2110.15083v2 )

ライセンス: Link先を確認
Fran\c{c}ois Portier(参考訳) 最寄りの近傍から与えられた点\textit{the near neighbor measure} への経験的測度は、中央統計量として導入され、研究されている。 第一に、関連する経験的過程は、基礎となる関数のクラス(近傍アルゴリズムの局所化の性質を反映する)上の(局所)括弧エントロピー条件の下で一様中心極限定理を満たすことが示される。 第二に、一様非漸近境界は、一様エントロピー数上のよく知られた条件の下で成立し、しばしばVapnik-Chervonenkisと呼ばれる。 一様中心極限定理で得られるガウス極限の共分散は条件共分散作用素と等しい(興味のある点が与えられる)。 これは、非局所的(non local)な標準アプローチが、推論方法と同じ方法を用いて、単に標準実証測度を、完全なデータの代わりに最も近い隣人に置き換える可能性を示唆している。

The empirical measure resulting from the nearest neighbors to a given point - \textit{the nearest neighbor measure} - is introduced and studied as a central statistical quantity. First, the associated empirical process is shown to satisfy a uniform central limit theorem under a (local) bracketing entropy condition on the underlying class of functions (reflecting the localizing nature of the nearest neighbor algorithm). Second a uniform non-asymptotic bound is established under a well-known condition, often referred to as Vapnik-Chervonenkis, on the uniform entropy numbers. The covariance of the Gaussian limit obtained in the uniform central limit theorem is equal to the conditional covariance operator (given the point of interest). This suggests the possibility of extending standard approaches - non local - replacing simply the standard empirical measure by the nearest neighbor measure while using the same way of making inference but with the nearest neighbors only instead of the full data.
翻訳日:2023-03-24 19:05:59 公開日:2023-03-23
# AMRA*: マルチリゾリューションマルチヒューリスティックA*

AMRA*: Anytime Multi-Resolution Multi-Heuristic A* ( http://arxiv.org/abs/2110.05328v2 )

ライセンス: Link先を確認
Dhruv Mauria Saxena, Tushar Kusnur, Maxim Likhachev(参考訳) ヒューリスティックな探索に基づく動き計画アルゴリズムは、最も短い経路問題を解決するために探索空間を区別する。 彼らの演技は、この離散化と密接に関連している。 細かい離散化は連続探索空間のより良い近似を可能にするが、解の探索はより計算コストがかかる。 粗い解決法により、アルゴリズムは品質を犠牲にして迅速に解を見つけることができる。 大きな状態空間の場合、離散化を定義することは難しいが、複数の解像度で解を探すことは有益である。 最近提案されたMulti-Resolution A* (MRA*) アルゴリズムは複数の解像度を探索する。 障害物のない空間の広い領域を横切り、粗い解像度で局所的なミニマを逃れる。 いわゆる狭い通路を、より細かい解像度でナビゲートすることもできる。 本研究では,MRA*の任意のバージョンであるAMRA*を開発する。 AMRA* は粗い分解能をできるだけ早く利用して解を見つけようとする。 そして、粗い解像度では利用できなかったより良い経路を見つけるために、細かい解像度に依存することで、ソリューションを洗練します。 いつでも、amra*は複数のヒューリスティック間での情報共有を利用することもできる。 我々は、amra* が最も細かい分解能に関して完全かつ最適である(時間の範囲内)ことを証明する。 2次元グリッドナビゲーションと4次元キノダイナミック計画問題にその性能を示す。

Heuristic search-based motion planning algorithms typically discretise the search space in order to solve the shortest path problem. Their performance is closely related to this discretisation. A fine discretisation allows for better approximations of the continuous search space, but makes the search for a solution more computationally costly. A coarser resolution might allow the algorithms to find solutions quickly at the expense of quality. For large state spaces, it can be beneficial to search for solutions across multiple resolutions even though defining the discretisations is challenging. The recently proposed algorithm Multi-Resolution A* (MRA*) searches over multiple resolutions. It traverses large areas of obstacle-free space and escapes local minima at a coarse resolution. It can also navigate so-called narrow passageways at a finer resolution. In this work, we develop AMRA*, an anytime version of MRA*. AMRA* tries to find a solution quickly using the coarse resolution as much as possible. It then refines the solution by relying on the fine resolution to discover better paths that may not have been available at the coarse resolution. In addition to being anytime, AMRA* can also leverage information sharing between multiple heuristics. We prove that AMRA* is complete and optimal (in-the-limit of time) with respect to the finest resolution. We show its performance on 2D grid navigation and 4D kinodynamic planning problems.
翻訳日:2023-03-24 19:05:27 公開日:2023-03-23
# 幾何学的およびホロノミック量子計算

Geometric and holonomic quantum computation ( http://arxiv.org/abs/2110.03602v3 )

ライセンス: Link先を確認
Jiang Zhang, Thi Ha Kyaw, Stefan Filipp, Leong-Chuan Kwek, Erik Sj\"oqvist, Dianmin Tong(参考訳) 幾何学的およびホロノミック量子計算は、量子力学状態空間の固有の幾何学的性質を利用して量子論理ゲートを実現する。 幾何学的位相と量子ホロノミーの両方が量子系の進化経路にのみ依存する大域的な量であるため、量子ゲートはある種のエラーに対するレジリエンスを内蔵している。 このレビューでは、幾何学的およびホロノミックな量子ゲートの構築に関する理論的および実験的進展の概要と、これらを他のエラー耐性技術と組み合わせる方法について紹介する。

Geometric and holonomic quantum computation utilizes intrinsic geometric properties of quantum-mechanical state spaces to realize quantum logic gates. Since both geometric phases and quantum holonomies are global quantities depending only on the evolution paths of quantum systems, quantum gates based on them possess built-in resilience to certain kinds of errors. This review provides an introduction to the topic as well as gives an overview of the theoretical and experimental progress for constructing geometric and holonomic quantum gates and how to combine them with other error-resistant techniques.
翻訳日:2023-03-24 19:05:09 公開日:2023-03-23
# 補充型確率データ拡張とハードバウンダリボックストレーニングを用いたX線胃癌検診の実際

Practical X-ray Gastric Cancer Screening Using Refined Stochastic Data Augmentation and Hard Boundary Box Training ( http://arxiv.org/abs/2108.08158v2 )

ライセンス: Link先を確認
Hideaki Okamoto, Takakiyo Nomura, Kazuhito Nabeshima, Jun Hashimoto, Hitoshi Iyatomi(参考訳) 胃癌検診では、x線撮影はx線撮影によって行うことができ、内視鏡検査よりもずっと多くの患者を診ることができる。 しかし、その後診断が困難になったため、胃X線の感度は85.5%に過ぎず、胃癌を直接標的とする自動診断支援についてはほとんど研究されていない。 本稿では,現実的な臨床画像撮影条件下でのX線画像の実用的な胃癌検診システムを提案する。 本システムでは、各画像の診断結果を提供するだけでなく、がん候補領域を境界ボックスで表示することにより、結果の解説を行う。 これを行うための訓練対象検出モデルは、監督されたラベルを割り当てるという点で非常に高価であり、訓練に負のデータ(すなわち非がんデータ)を使えないという欠点があった。 提案手法は,(1)改良型確率的胃画像強調(R-sGAIA)と(2)ハードバウンダリボックストレーニング(HBBT)の2つの新しい手法からなる。 R-sGAIAは医療知識に基づいてX線像の胃折りを確率的に強調し,胃癌の検出効率を高める。 HBBTは、陰性サンプルを積極的に使用することにより、偽陽性検出の回数を減らすことができる、新しい、効率的で汎用的な訓練方法である。 その結果、提案されたR-sGAIAとHBBTは、ベースラインのEfficientDet-D7 + RandAugment(F1:57.8%、リコール:90.2%、精度:42.5%)と比較してF1スコアを5.9%改善した。 このスコアは、医師のがん検出率よりも高く、検出された5領域のうち少なくとも2つは癌であり、胃癌スクリーニングの有用性を確認している。

In gastric cancer screening, X-rays can be performed by radiographers, allowing them to see far more patients than endoscopy, which can only be performed by physicians. However, due to subsequent diagnostic difficulties, the sensitivity of gastric X-ray is only 85.5%, and little research has been done on automated diagnostic aids that directly target gastric cancer. This paper proposes a practical gastric cancer screening system for X-ray images taken under realistic clinical imaging conditions. Our system not only provides a diagnostic result for each image, but also provides an explanation for the result by displaying candidate cancer areas with bounding boxes. Training object detection models to do this was very expensive in terms of assigning supervised labels, and had the disadvantage of not being able to use negative (i.e., non-cancer) data for training. Our proposal consists of two novel techniques: (1) refined stochastic gastric image augmentation (R-sGAIA) and (2) hard boundary box training (HBBT). The R-sGAIA probabilistically highlights the gastric folds in the X-ray image based on medical knowledge, thus increasing the detection efficiency of gastric cancer. The HBBT is a new, efficient, and versatile training method that can reduce the number of false positive detections by actively using negative samples. The results showed that the proposed R-sGAIA and HBBT significantly improved the F1 score by 5.9% compared to the baseline EfficientDet-D7 + RandAugment (F1: 57.8%, recall: 90.2%, precision: 42.5%). This score is higher than the physician's cancer detection rate, indicating that at least 2 out of 5 areas detected are cancerous, confirming the utility of gastric cancer screening.
翻訳日:2023-03-24 19:04:59 公開日:2023-03-23
# ビデオフレーム補間の不連続性の検討

Exploring Discontinuity for Video Frame Interpolation ( http://arxiv.org/abs/2202.07291v5 )

ライセンス: Link先を確認
Sangjin Lee, Hyeongmin Lee, Chajin Shin, Hanbin Son, Sangyoun Lee(参考訳) ビデオフレーム補間(VFI)は、2つの連続するフレームが与えられた中間フレームを合成するタスクである。 以前の研究の多くは、乱れたフレームに対する適切なフレームワープ操作と改良モジュールに焦点を当てていた。 これらの研究は、連続運動のみを含む自然映像で行われている。 しかし、多くの実用ビデオには、ロゴ、ユーザーインターフェイス、字幕などの不連続な動きを持つ様々な不自然なオブジェクトが含まれている。 これらの要素に対して,既存のディープラーニングベースのVFIアーキテクチャを堅牢化するための3つの手法を提案する。 1つ目は、フィギュア・テキスト・ミキシング(FTM)と呼ばれる新しいデータ拡張戦略で、モデルがトレーニング段階で余分なデータセットなしで不連続な動きを学習できるようにする。 次に,不連続写像 (D-map) と呼ばれる,連続した動きと不連続な動きの領域を密に区別した地図を予測する,単純だが効果的なモジュールを提案する。 最後に,ftm や d-map とともに適用可能な不連続運動領域の監督を行うための損失関数を提案する。 さらに,モバイルゲームとチャットビデオからなるgdm(graphical discontinuous motion)データセットという,特別なテストベンチマークも収集した。 本手法は,GDMデータセットだけでなく,Vimeo90K,UCF101,DAVISなどの連続動作のみを含む既存のベンチマークから,映像の補間品質を大幅に向上させる。

Video frame interpolation (VFI) is the task that synthesizes the intermediate frame given two consecutive frames. Most of the previous studies have focused on appropriate frame warping operations and refinement modules for the warped frames. These studies have been conducted on natural videos containing only continuous motions. However, many practical videos contain various unnatural objects with discontinuous motions such as logos, user interfaces and subtitles. We propose three techniques to make the existing deep learning-based VFI architectures robust to these elements. First is a novel data augmentation strategy called figure-text mixing (FTM) which can make the models learn discontinuous motions during training stage without any extra dataset. Second, we propose a simple but effective module that predicts a map called discontinuity map (D-map), which densely distinguishes between areas of continuous and discontinuous motions. Lastly, we propose loss functions to give supervisions of the discontinuous motion areas which can be applied along with FTM and D-map. We additionally collect a special test benchmark called Graphical Discontinuous Motion (GDM) dataset consisting of some mobile games and chatting videos. Applied to the various state-of-the-art VFI networks, our method significantly improves the interpolation qualities on the videos from not only GDM dataset, but also the existing benchmarks containing only continuous motions such as Vimeo90K, UCF101, and DAVIS.
翻訳日:2023-03-24 18:57:33 公開日:2023-03-23
# 未知力学系の仮説テストとオートエンコーダによるシステム異常検出

Hypothesis Testing for Unknown Dynamical Systems and System Anomaly Detection via Autoencoders ( http://arxiv.org/abs/2201.12358v2 )

ライセンス: Link先を確認
Haowei He, Jingzhao Zhang, Yanan Wang, Benben Jiang, Shaobo Huang, Chen Wang, Yang Zhang, Xuebing Han, Dongxu Guo, Guannan He, Minggao Ouyang(参考訳) 未知力学系に対する仮説検定問題について検討する。 より具体的には、未知パラメータを持つ動的システムからの逐次入力および出力データを観測し、収集したデータがヌル分布であるかどうかを判定する。 そのような問題には多くの応用がある。 ここでは、代替仮説によって異常が定義される仮説検証として、異常検出を定式化する。 その結果、仮説テストアルゴリズムは、ロボット、天気、エネルギーシステム、株式市場などの現実世界のシステムにおける障害を検出することができる。 近年の深層学習モデルによるこれらのタスクにおける最先端のパフォーマンスは達成されているが、仮説テストとグラフィカルモデルを用いた慎重な分析は、オートエンコーダモデルの有効性を正当化するだけでなく、DyAD(Dynamical system Anomaly Detection)と呼ばれる新しいニューラルネットワーク設計にも繋がることを示す。 そして、dyadが既存のいくつかのデータセットで最先端のパフォーマンスを達成し、電気自動車におけるバッテリー異常検出に関する新しいデータセットを実現していることを示す。

We study the hypothesis testing problem for unknown dynamical systems. More specifically, we observe sequential input and output data from a dynamical system with unknown parameters, and we aim to determine whether the collected data is from a null distribution. Such a problem can have many applications. Here we formulate anomaly detection as hypothesis testing where the anomaly is defined through the alternative hypothesis. Consequently, hypothesis testing algorithms can detect faults in real-world systems such as robots, weather, energy systems, and stock markets. Although recent works achieved state-of-the-art performances in these tasks with deep learning models, we show that a careful analysis using hypothesis testing and graphical models can not only justify the effectiveness of autoencoder models, but also lead to a novel neural network design, termed DyAD (DYnamical system Anomaly Detection), with improved performances. We then show that DyAD achieves state-of-the-art performance on several existing datasets and a new dataset on battery anomaly detection in electric vehicles.
翻訳日:2023-03-24 18:57:10 公開日:2023-03-23
# ネットワーク上の分散ランダムリシャフリング

Distributed Random Reshuffling over Networks ( http://arxiv.org/abs/2112.15287v5 )

ライセンス: Link先を確認
Kun Huang, Xiao Li, Andre Milzarek, Shi Pu, and Junwen Qiu(参考訳) 本稿では,ローカルコスト関数を持つ$n$エージェントが,ネットワーク上のローカルコスト関数の平均を協調的に最小化する分散最適化問題を考察する。 そこで本研究では,分散ランダムリシャフリング (d-rr) アルゴリズムを提案し,各エージェントのランダムリシャフリング (rr) 更新を起動する。 D-RR は滑らかな凸関数と滑らかな非凸関数の両方に対して RR の良好な特性を継承することを示す。 特に、滑らかな凸目的函数に対して、D-RR はイテレートと大域最小化の間の二乗距離の点で$\mathcal{O}(1/T^2)$収束率(ここで$T$はエポック数)を達成する。 目的関数が滑らかな非凸であると仮定すると、D-RR は勾配の平方ノルムを $\mathcal{O}(1/T^{2/3})$ の速度で$0$ に駆動することを示す。 これらの収束結果は、集中型RR(定数因子まで)と一致し、比較的多数のエポックを実行する場合、分散確率勾配降下(DSGD)アルゴリズムより優れている。 最後に,強い凸と非凸の分散最適化問題に対して提案したD-RR法の有効性を示す数値実験を行った。

In this paper, we consider distributed optimization problems where $n$ agents, each possessing a local cost function, collaboratively minimize the average of the local cost functions over a connected network. To solve the problem, we propose a distributed random reshuffling (D-RR) algorithm that invokes the random reshuffling (RR) update in each agent. We show that D-RR inherits favorable characteristics of RR for both smooth strongly convex and smooth nonconvex objective functions. In particular, for smooth strongly convex objective functions, D-RR achieves $\mathcal{O}(1/T^2)$ rate of convergence (where $T$ counts epoch number) in terms of the squared distance between the iterate and the global minimizer. When the objective function is assumed to be smooth nonconvex, we show that D-RR drives the squared norm of gradient to $0$ at a rate of $\mathcal{O}(1/T^{2/3})$. These convergence results match those of centralized RR (up to constant factors) and outperform the distributed stochastic gradient descent (DSGD) algorithm if we run a relatively large number of epochs. Finally, we conduct a set of numerical experiments to illustrate the efficiency of the proposed D-RR method on both strongly convex and nonconvex distributed optimization problems.
翻訳日:2023-03-24 18:56:50 公開日:2023-03-23
# リドバーグ原子シミュレータにおける量子スピン液体の変分法

Variational Approach to Quantum Spin Liquid in a Rydberg Atom Simulator ( http://arxiv.org/abs/2112.13688v3 )

ライセンス: Link先を確認
Yanting Cheng, Chengshu Li and Hui Zhai(参考訳) 近年,カゴメ格子上での量子スピン液体の実現にRydbergブロック効果が用いられている。 量子スピン液体の証拠は、非局所弦秩序を直接測定することによって実験的に得られた。 本稿では,このモデルにおけるスピン液体状態のBCS型変動波動関数の研究について報告する。 この波動関数は、ライドバーグ封鎖モデルを格子ゲージ理論にマッピングすることで動機付けられ、そこでは局所ゲージ保存がライドバーグ封鎖の制約の役割を置き換えている。 我々は,Rydberg原子群の実験的測定から変動パラメータを決定する。 次に,この決定論的波動関数の予測と非局所文字列順序の実験的測定を比較する。 開弦と閉弦の両方の測定を組み合わせることで,閉ループにのみ関連するゆらぎを位相秩序の指標として抽出する。 波動関数からの予測は, 適合パラメータを伴わない実験データと合理的に一致している。 我々の変動波動関数は、この系の量子スピン液体の単純で直感的な図を提供し、現在のモデルの様々な一般化に一般化することができる。

Recently the Rydberg blockade effect has been utilized to realize quantum spin liquid on the kagome lattice. Evidence of quantum spin liquid has been obtained experimentally by directly measuring non-local string order. In this letter, we report a BCS-type variational wave function study of the spin liquid state in this model. This wave function is motivated by mapping the Rydberg blockade model to a lattice gauge theory, where the local gauge conservations replace the role of constraints from the Rydberg blockade. We determine the variational parameter from the experimental measurement of the Rydberg atom population. Then we compare the predictions of this deterministic wave function with the experimental measurements of non-local string order. Combining the measurements on both open and closed strings, we extract the fluctuations only associated with the closed-loop as an indicator of the topological order. The prediction from our wave function agrees reasonably well with the experimental data without any fitting parameter. Our variational wave function provides a simple and intuitive picture of the quantum spin liquid in this system that can be generalized to various generalizations of the current model.
翻訳日:2023-03-24 18:56:25 公開日:2023-03-23
# 多エージェント都市運転環境における自律政策のための深層強化学習のロバスト性評価

Evaluating the Robustness of Deep Reinforcement Learning for Autonomous Policies in a Multi-agent Urban Driving Environment ( http://arxiv.org/abs/2112.11947v3 )

ライセンス: Link先を確認
Aizaz Sharif, Dusica Marijan(参考訳) 深層強化学習は、シミュレーション運転環境で自動運転車のポリシーをトレーニングするために積極的に使用される。 各種強化学習アルゴリズムの高可用性と、異なる運転シナリオ間での体系的な比較の欠如により、単エージェントや複数エージェントの運転環境において、どの車が自律走行ソフトウェアをトレーニングするのにより効果的であるかは明らかでない。 ビジョンベースの自動運転における深層強化学習の比較のためのベンチマークフレームワークは、より良い自動運転車運転ポリシーをトレーニングする可能性を開く。 これらの課題に対処するために,我々は,単一エージェント環境と複数エージェント環境における自律運転のための深層強化学習アルゴリズムの体系的評価と比較分析のためのオープンかつ再利用可能なベンチマークフレームワークを提供する。 このフレームワークを用いて、離散的かつ連続的な行動空間深部強化学習アルゴリズムの比較研究を行う。 また,深部強化学習に基づく自律運転エージェントの評価を目的とした総合多目的報酬関数を提案する。 視覚のみの高忠実度都市運転シミュレーション環境で実験を行った。 その結果,マルチエージェントのみの環境環境での学習では,深層強化学習アルゴリズムのいくつかのみがシングルエージェントシナリオとマルチエージェントシナリオで一貫した性能を発揮することがわかった。 例えば、A3CとTD3ベースの自動運転車は、より堅牢なアクションと、シングルエージェントとマルチエージェントの両方のシナリオでエラーを最小限に抑えるという点で、比較的優れている。 より深い強化学習アルゴリズムは、異なるシナリオで異なる駆動性能とテスト性能を示し、体系的な比較分析の必要性を浮き彫りにする。 本論文で提案するベンチマークフレームワークは,このような比較が容易である。

Deep reinforcement learning is actively used for training autonomous car policies in a simulated driving environment. Due to the large availability of various reinforcement learning algorithms and the lack of their systematic comparison across different driving scenarios, we are unsure of which ones are more effective for training autonomous car software in single-agent as well as multi-agent driving environments. A benchmarking framework for the comparison of deep reinforcement learning in a vision-based autonomous driving will open up the possibilities for training better autonomous car driving policies. To address these challenges, we provide an open and reusable benchmarking framework for systematic evaluation and comparative analysis of deep reinforcement learning algorithms for autonomous driving in a single- and multi-agent environment. Using the framework, we perform a comparative study of discrete and continuous action space deep reinforcement learning algorithms. We also propose a comprehensive multi-objective reward function designed for the evaluation of deep reinforcement learning-based autonomous driving agents. We run the experiments in a vision-only high-fidelity urban driving simulated environments. The results indicate that only some of the deep reinforcement learning algorithms perform consistently better across single and multi-agent scenarios when trained in various multi-agent-only environment settings. For example, A3C- and TD3-based autonomous cars perform comparatively better in terms of more robust actions and minimal driving errors in both single and multi-agent scenarios. We conclude that different deep reinforcement learning algorithms exhibit different driving and testing performance in different scenarios, which underlines the need for their systematic comparative analysis. The benchmarking framework proposed in this paper facilitates such a comparison.
翻訳日:2023-03-24 18:56:08 公開日:2023-03-23
# 非検出光子による多光子非局所量子干渉制御

Multiphoton non-local quantum interference controlled by an undetected photon ( http://arxiv.org/abs/2112.11658v2 )

ライセンス: Link先を確認
Kaiyi Qian, Kai Wang, Leizhen Chen, Zhaohua Hou, Mario Krenn, Shining Zhu, and Xiao-Song Ma(参考訳) 量子の干渉は量子物理学の中心にある。 単一クォータ干渉の多部一般化は、複数の量子が共有する状態のコヒーレント重ね合わせである絡み合いを生み出す。 絡み合いは、多くの量子間の非局所的な相関を可能にするため、量子情報技術の鍵となるリソースである。 絡み合いは通常、マルチパーティイト干渉によって現れる非局所的な相関を作るのに不可欠であると考えられている。 ここでは、これはそうではなく、光子の固有の性質の絡み合いのない多光子非局所量子干渉を示す。 4光子生成状態の物理的起源の重ね合わせを利用して、光子の存在を構成的かつ破壊的に妨害する。 光子生成過程における本質的不明瞭性により、4光子フラストレーション量子干渉を実現する。 さらに、検出されていない光子の位相をチューニングし、他の3つの光子の干渉を観測する多成分量子干渉の非局所制御を確立する。 我々の研究は、量子技術における非局所性と潜在的な応用に関する基礎研究の道を開いた。

The interference of quanta lies at the heart of quantum physics. The multipartite generalization of single-quanta interference creates entanglement, the coherent superposition of states shared by several quanta. Entanglement allows non-local correlations between many quanta and hence is a key resource for quantum information technology. Entanglement is typically considered to be essential for creating non-local correlations, manifested by multipartite interference. Here, we show that this is not the case and demonstrate multiphoton non-local quantum interference without entanglement of any intrinsic properties of the photons. We harness the superposition of the physical origin of a four-photon product state, which leads to constructive and destructive interference of the photons' mere existence. With the intrinsic indistinguishability in the generation process of photons, we realize four-photon frustrated quantum interference. We furthermore establish non-local control of multipartite quantum interference, in which we tune the phase of one undetected photon and observe the interference of the other three photons. Our work paves the way for fundamental studies of non-locality and potential applications in quantum technologies.
翻訳日:2023-03-24 18:55:40 公開日:2023-03-23
# 人物再同定のための教師なしドメイン一般化:ドメイン特化適応フレームワーク

Unsupervised Domain Generalization for Person Re-identification: A Domain-specific Adaptive Framework ( http://arxiv.org/abs/2111.15077v2 )

ライセンス: Link先を確認
Lei Qi, Jiaqi Liu, Lei Wang, Yinghuan Shi, Xin Geng(参考訳) ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。 複数のソースドメインでトレーニングされたモデルを、未認識のターゲットドメインに一般化することを目的としている。 将来性のある進歩を達成するには、既存のメソッドは通常、ソースドメインをラベル付けする必要がある。 本稿では、ReIDの教師なし領域の一般化について、どのソースドメインにもラベルがないと仮定して検討する。 この困難な設定に対処するために、我々は、単純で効率的なドメイン固有適応フレームワークを提案し、バッチおよびインスタンス正規化技術に基づいて設計された適応正規化モジュールでそれを実現する。 そこで我々は,訓練を行う上で信頼性の高い擬似ラベルの獲得に成功し,必要に応じてモデルの領域一般化能力を向上する。 さらに,提案手法は,教師付きドメイン一般化と教師なしドメイン適応という設定の下で,対人レイドを改善するためにも適用可能であり,関連する手法に対する競争力を発揮できることを示した。 ベンチマークデータセットに関する広範な実験研究は、提案フレームワークを検証するために行われる。 私たちの研究の意義は、person reidに対する教師なしのドメイン一般化の可能性を示し、このトピックに関するさらなる研究の基盤を固めることにあります。

Domain generalization (DG) has attracted much attention in person re-identification (ReID) recently. It aims to make a model trained on multiple source domains generalize to an unseen target domain. Although achieving promising progress, existing methods usually need the source domains to be labeled, which could be a significant burden for practical ReID tasks. In this paper, we turn to investigate unsupervised domain generalization for ReID, by assuming that no label is available for any source domains. To address this challenging setting, we propose a simple and efficient domain-specific adaptive framework, and realize it with an adaptive normalization module designed upon the batch and instance normalization techniques. In doing so, we successfully yield reliable pseudo-labels to implement training and also enhance the domain generalization capability of the model as required. In addition, we show that our framework can even be applied to improve person ReID under the settings of supervised domain generalization and unsupervised domain adaptation, demonstrating competitive performance with respect to relevant methods. Extensive experimental study on benchmark datasets is conducted to validate the proposed framework. A significance of our work lies in that it shows the potential of unsupervised domain generalization for person ReID and sets a strong baseline for the further research on this topic.
翻訳日:2023-03-24 18:55:25 公開日:2023-03-23
# 確率勾配に基づくサンプリングにおけるCLT構造の利用 : 解析と高速アルゴリズムの改良

Utilising the CLT Structure in Stochastic Gradient based Sampling : Improved Analysis and Faster Algorithms ( http://arxiv.org/abs/2206.03792v3 )

ライセンス: Link先を確認
Aniket Das, Dheeraj Nagaraj and Anant Raj(参考訳) 本稿では,SGLD(Stochastic Gradient Langevin Dynamics)やIPD(Interacting Particle Dynamcs)のためのRBM(Random Batch Method)などのサンプリングアルゴリズムの確率近似について考察する。 確率近似によって生じる雑音は、中央極限定理(CLT)によりほぼガウス的であり、ブラウン運動はまさにガウス的である。 この構造を利用して拡散過程内の確率近似誤差を吸収し、これらのアルゴリズムに対する収束保証を改善する。 SGLDの場合、ターゲット密度が対数ソボレフ不等式を満たすことを前提として、均一な温暖開始を必要としないKL分散の最初の安定収束速度を証明した。 以上の結果から, 先行研究と比較して, 比較的軽度な仮定の下で, 第一次オラクル複雑性が優れていることが示唆された。 また, H\"{o}lder smoothness や Poincare inequality といった,より弱い条件下でのSGLDの保証も証明し, LMC と SGLD の最先端保証とのギャップを埋める。 本解析は, 拡散強度の再スケーリングにより, 確率近似により生じる付加ノイズを補正する共分散補正と呼ばれる新しいアルゴリズムを動機付ける。 最後に,本手法をrbm分析に適用し,最小限の仮定の下で,先行研究(地平線上の指数依存の除去など)における保証を大幅に改善した。

We consider stochastic approximations of sampling algorithms, such as Stochastic Gradient Langevin Dynamics (SGLD) and the Random Batch Method (RBM) for Interacting Particle Dynamcs (IPD). We observe that the noise introduced by the stochastic approximation is nearly Gaussian due to the Central Limit Theorem (CLT) while the driving Brownian motion is exactly Gaussian. We harness this structure to absorb the stochastic approximation error inside the diffusion process, and obtain improved convergence guarantees for these algorithms. For SGLD, we prove the first stable convergence rate in KL divergence without requiring uniform warm start, assuming the target density satisfies a Log-Sobolev Inequality. Our result implies superior first-order oracle complexity compared to prior works, under significantly milder assumptions. We also prove the first guarantees for SGLD under even weaker conditions such as H\"{o}lder smoothness and Poincare Inequality, thus bridging the gap between the state-of-the-art guarantees for LMC and SGLD. Our analysis motivates a new algorithm called covariance correction, which corrects for the additional noise introduced by the stochastic approximation by rescaling the strength of the diffusion. Finally, we apply our techniques to analyze RBM, and significantly improve upon the guarantees in prior works (such as removing exponential dependence on horizon), under minimal assumptions.
翻訳日:2023-03-24 18:48:55 公開日:2023-03-23
# feater: 特徴地図に基づくトランスフォーマーによるヒト再建のための効率的なネットワーク

FeatER: An Efficient Network for Human Reconstruction via Feature Map-Based TransformER ( http://arxiv.org/abs/2205.15448v3 )

ライセンス: Link先を確認
Ce Zheng, Matias Mendieta, Taojiannan Yang, Guo-Jun Qi, Chen Chen(参考訳) 近年,人間の2次元ポーズ推定(2次元HPE),3次元ポーズ推定(3次元HPE),ヒューマンメッシュ再構成(HMR)タスクなど,人間の再建作業において大きな成功を収めている。 これらのタスクでは、人体構造情報の特徴マップ表現をまずCNN(HRNetなど)で画像から抽出し、さらに変換器で処理してHPEやHMRのヒートマップ(各関節の位置をガウス分布で特徴マップにエンコードする)を予測する。 しかし、既存のトランスフォーマーアーキテクチャでは、これらの特徴マップ入力を直接処理することはできず、位置に敏感な人間の構造情報の不自然なフラット化を強いている。 さらに、最近のHPE法とHMR法の性能上の利点は、計算量とメモリ需要が継続的に増加することにある。 そこで本研究では,メモリと計算コストを削減しつつ,注意をモデリングする際に特徴地図表現の固有構造を保存できる新しいトランスフォーマー設計手法であるfeaterを提案する。 FeatERを利用して,2次元HPE,3次元HPE,HMRを含む,人間の再建作業のための効率的なネットワークを構築する。 特徴マップ再構成モジュールを適用し、推定された人間のポーズとメッシュの性能を向上させる。 大規模な実験は、さまざまな人間のポーズとメッシュデータセットに対するFeatERの有効性を示す。 例えば、FeatERは、Human3.6Mと3DPWデータセット上でのParamsの5%とMACの16%を必要とすることで、SOTA法であるMeshGraphormerより優れている。 プロジェクトのWebページはhttps://zczcwh.github.io/feater_page/。

Recently, vision transformers have shown great success in a set of human reconstruction tasks such as 2D human pose estimation (2D HPE), 3D human pose estimation (3D HPE), and human mesh reconstruction (HMR) tasks. In these tasks, feature map representations of the human structural information are often extracted first from the image by a CNN (such as HRNet), and then further processed by transformer to predict the heatmaps (encodes each joint's location into a feature map with a Gaussian distribution) for HPE or HMR. However, existing transformer architectures are not able to process these feature map inputs directly, forcing an unnatural flattening of the location-sensitive human structural information. Furthermore, much of the performance benefit in recent HPE and HMR methods has come at the cost of ever-increasing computation and memory needs. Therefore, to simultaneously address these problems, we propose FeatER, a novel transformer design that preserves the inherent structure of feature map representations when modeling attention while reducing memory and computational costs. Taking advantage of FeatER, we build an efficient network for a set of human reconstruction tasks including 2D HPE, 3D HPE, and HMR. A feature map reconstruction module is applied to improve the performance of the estimated human pose and mesh. Extensive experiments demonstrate the effectiveness of FeatER on various human pose and mesh datasets. For instance, FeatER outperforms the SOTA method MeshGraphormer by requiring 5% of Params and 16% of MACs on Human3.6M and 3DPW datasets. The project webpage is https://zczcwh.github.io/feater_page/.
翻訳日:2023-03-24 18:48:27 公開日:2023-03-23
# 物理埋め込みニューラルネットワーク:混合境界条件を持つグラフニューラルネットワークPDE

Physics-Embedded Neural Networks: Graph Neural PDE Solvers with Mixed Boundary Conditions ( http://arxiv.org/abs/2205.11912v2 )

ライセンス: Link先を確認
Masanobu Horie and Naoto Mitsume(参考訳) グラフニューラルネットワーク(gnn)は、境界条件を持つ偏微分方程式(pdes)のような境界値問題で記述される物理現象の学習と予測に有望なアプローチである。 しかし、既存のモデルは、そのような問題の信頼性予測に不可欠な境界条件を不十分に扱う。 また,GNNは局所的に連結しているため,バーチカン間の相互作用がグローバルになる傾向にあるため,長い時間後に状態を正確に予測することは困難である。 本稿では,境界条件を考慮し,暗黙的手法を用いて長い時間経過後に状態を予測する物理埋め込みニューラルネットワークを提案する。 E(n)-同変GNNに基づいて構築され、様々な形状で高い一般化性能が得られる。 我々のモデルは複雑な形状のフロー現象を学習し、最適化された古典的解法および高速精度トレードオフにおける最先端の機械学習モデルより優れていることを示す。 したがって,我々のモデルは信頼性,高速,高精度なGNNベースのPDEソルバを実現する上で有用な標準となる。 コードはhttps://github.com/yellowshippo/penn-neurips2022で入手できる。

Graph neural network (GNN) is a promising approach to learning and predicting physical phenomena described in boundary value problems, such as partial differential equations (PDEs) with boundary conditions. However, existing models inadequately treat boundary conditions essential for the reliable prediction of such problems. In addition, because of the locally connected nature of GNNs, it is difficult to accurately predict the state after a long time, where interaction between vertices tends to be global. We present our approach termed physics-embedded neural networks that considers boundary conditions and predicts the state after a long time using an implicit method. It is built based on an E(n)-equivariant GNN, resulting in high generalization performance on various shapes. We demonstrate that our model learns flow phenomena in complex shapes and outperforms a well-optimized classical solver and a state-of-the-art machine learning model in speed-accuracy trade-off. Therefore, our model can be a useful standard for realizing reliable, fast, and accurate GNN-based PDE solvers. The code is available at https://github.com/yellowshippo/penn-neurips2022.
翻訳日:2023-03-24 18:47:56 公開日:2023-03-23
# BBDM:ブラウン橋拡散モデルによる画像から画像への変換

BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models ( http://arxiv.org/abs/2205.07680v2 )

ライセンス: Link先を確認
Bo Li, Kaitao Xue, Bin Liu, Yu-Kun Lai(参考訳) 画像間の変換はコンピュータビジョンと画像処理において重要かつ困難な問題である。 拡散モデル(DM)は高品質な画像合成に大きな可能性を示し、画像から画像への変換のタスクにおいて競争力を発揮している。 しかし、既存の拡散モデルの多くは、画像から画像への変換を条件付き生成プロセスとして扱い、異なる領域間のギャップに苦しむ。 本稿では,Branian Bridge Diffusion Model (BBDM) に基づく新しい画像・画像変換法を提案し,画像・画像変換を確率的Branian Bridgeプロセスとしてモデル化し,条件生成プロセスではなく,双方向拡散プロセスを通じて2つの領域間の変換を直接学習する。 我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。 様々なベンチマークによる実験結果から,提案したBBDMモデルが視覚検査と測定可能な測定値の両面から競合性能を実現することが示された。

Image-to-image translation is an important and challenging problem in computer vision and image processing. Diffusion models (DM) have shown great potentials for high-quality image synthesis, and have gained competitive performance on the task of image-to-image translation. However, most of the existing diffusion models treat image-to-image translation as conditional generation processes, and suffer heavily from the gap between distinct domains. In this paper, a novel image-to-image translation method based on the Brownian Bridge Diffusion Model (BBDM) is proposed, which models image-to-image translation as a stochastic Brownian bridge process, and learns the translation between two domains directly through the bidirectional diffusion process rather than a conditional generation process. To the best of our knowledge, it is the first work that proposes Brownian Bridge diffusion process for image-to-image translation. Experimental results on various benchmarks demonstrate that the proposed BBDM model achieves competitive performance through both visual inspection and measurable metrics.
翻訳日:2023-03-24 18:47:07 公開日:2023-03-23
# 固有検出器ブラインド攻撃に対するソース非依存量子乱数発生器

Source-independent quantum random number generator against tailored detector blinding attacks ( http://arxiv.org/abs/2204.12156v2 )

ライセンス: Link先を確認
Wen-Bo Liu, Yu-Shuo Lu, Yao Fu, Si-Cheng Huang, Ze-Jie Yin, Kun Jiang, Hua-Lei Yin, Zeng-Bing Chen(参考訳) ランダムネスは、主に乱数という形で、多くの暗号処理のセキュリティの基本的な前提条件である。 量子ランダム性(quantum randomness)は、敵がプロトコルを完全に認識していても抽出でき、ランダム性源を制御することもできる。 しかし、敵は、信頼できる検出器を持つプロトコルに苦しめられたハッキング攻撃である、調整された検出器ブラインド攻撃によって、さらにランダム性を操作できる。 ここでは,no-clickイベントを有効なイベントとして扱うことにより,ソース脆弱性と不正に調整された検出器ブラインド攻撃を同時に対処できる量子乱数生成プロトコルを提案する。 この方法は高次元乱数生成に拡張することができる。 本研究では,1パルスあたり0.1ビットの生成速度で2次元計測を行うための乱数生成方式を実験的に実証する。

Randomness, mainly in the form of random numbers, is the fundamental prerequisite for the security of many cryptographic tasks. Quantum randomness can be extracted even if adversaries are fully aware of the protocol and even control the randomness source. However, an adversary can further manipulate the randomness via tailored detector blinding attacks, which are hacking attacks suffered by protocols with trusted detectors. Here, by treating no-click events as valid events, we propose a quantum random number generation protocol that can simultaneously address source vulnerability and ferocious tailored detector blinding attacks. The method can be extended to high-dimensional random number generation. We experimentally demonstrate the ability of our protocol to generate random numbers for two-dimensional measurement with a generation speed of 0.1 bit per pulse.
翻訳日:2023-03-24 18:46:20 公開日:2023-03-23
# CTCNet:顔画像超解像のためのCNN変換器協調ネットワーク

CTCNet: A CNN-Transformer Cooperation Network for Face Image Super-Resolution ( http://arxiv.org/abs/2204.08696v3 )

ライセンス: Link先を確認
Guangwei Gao, Zixiang Xu, Juncheng Li, Jian Yang, Tieyong Zeng and Guo-Jun Qi(参考訳) 近年, 深部畳み込みニューラルネットワーク (CNN) による顔の超解像法は, 顔面前兆との協調訓練により, 顔の劣化を回復する大きな進歩を遂げている。 しかし、これらの方法には明らかな制限がある。 一方、マルチタスク共同学習ではデータセットに付加的なマーキングが必要であり、導入された事前ネットワークはモデルの計算コストを大幅に増加させる。 一方、CNNの受容野の制限により、再構成された顔画像の忠実度や自然性が低下し、最適下再構成画像が得られる。 本研究では,マルチスケール接続型エンコーダデコーダアーキテクチャをバックボーンとして用いた,顔超解像タスクのための効率的なCNN-Transformer Cooperation Network (CTCNet)を提案する。 具体的には,FSAU(Fcial Structure Attention Unit)とTransformer Block(Transformer Block)を組み合わせたLGCM(Local-Global Feature Cooperation Module)を考案し,局所的な顔の細部とグローバルな顔の構造復元を同時に促進する。 次に,高効率な機能改良モジュール (frm) を設計し,符号化機能を強化した。 最後に,詳細な顔詳細の復元をさらに改善するために,マルチスケール特徴融合ユニット(mffu)を提案し,エンコーダ手順の異なる段階から特徴を適応的に融合する。 様々なデータセットに対する大規模な評価では、提案したCTCNetは他の最先端手法を著しく上回ることができると評価されている。 ソースコードはhttps://github.com/IVIPLab/CTCNetで入手できる。

Recently, deep convolution neural networks (CNNs) steered face super-resolution methods have achieved great progress in restoring degraded facial details by jointly training with facial priors. However, these methods have some obvious limitations. On the one hand, multi-task joint learning requires additional marking on the dataset, and the introduced prior network will significantly increase the computational cost of the model. On the other hand, the limited receptive field of CNN will reduce the fidelity and naturalness of the reconstructed facial images, resulting in suboptimal reconstructed images. In this work, we propose an efficient CNN-Transformer Cooperation Network (CTCNet) for face super-resolution tasks, which uses the multi-scale connected encoder-decoder architecture as the backbone. Specifically, we first devise a novel Local-Global Feature Cooperation Module (LGCM), which is composed of a Facial Structure Attention Unit (FSAU) and a Transformer block, to promote the consistency of local facial detail and global facial structure restoration simultaneously. Then, we design an efficient Feature Refinement Module (FRM) to enhance the encoded features. Finally, to further improve the restoration of fine facial details, we present a Multi-scale Feature Fusion Unit (MFFU) to adaptively fuse the features from different stages in the encoder procedure. Extensive evaluations on various datasets have assessed that the proposed CTCNet can outperform other state-of-the-art methods significantly. Source code will be available at https://github.com/IVIPLab/CTCNet.
翻訳日:2023-03-24 18:46:05 公開日:2023-03-23
# 変分量子アルゴリズムのサロゲートに基づく最適化

Surrogate-based optimization for variational quantum algorithms ( http://arxiv.org/abs/2204.05451v2 )

ライセンス: Link先を確認
Ryan Shaffer, Lucas Kocia, Mohan Sarovar(参考訳) 変分量子アルゴリズム(英: Variational quantum algorithm)は、短期量子コンピュータで使用される技術の一種である。 これらのアルゴリズムの目標は、問題を多数の浅い量子回路に分割し、各回路の実行間の古典的な最適化とフィードバックによって補完することにより、大規模な量子計算を行うことである。 これらのアルゴリズムの性能向上の道の1つは、古典的な最適化手法を強化することである。 古典的なコンピューティングリソースの比較的容易さと豊富さを考えると、そうする機会はたくさんあります。 本研究では,変分回路のサロゲートモデルについて,実験的な測定をほとんど行わずに学習し,これらのモデルを用いてパラメータ最適化を行うことを提案する。 このアイデアをカーネル近似に基づく代理モデルを用いて実証し、ノイズの多い量子回路結果のバッチを用いて変動コスト関数の局所パッチを再構成する。 量子近似最適化アルゴリズムの適用と分子の基底状態の生成を通じて、変分アルゴリズムの一般的な最適化手法よりも代用最適化の方が優れていることを示す。

Variational quantum algorithms are a class of techniques intended to be used on near-term quantum computers. The goal of these algorithms is to perform large quantum computations by breaking the problem down into a large number of shallow quantum circuits, complemented by classical optimization and feedback between each circuit execution. One path for improving the performance of these algorithms is to enhance the classical optimization technique. Given the relative ease and abundance of classical computing resources, there is ample opportunity to do so. In this work, we introduce the idea of learning surrogate models for variational circuits using few experimental measurements, and then performing parameter optimization using these models as opposed to the original data. We demonstrate this idea using a surrogate model based on kernel approximations, through which we reconstruct local patches of variational cost functions using batches of noisy quantum circuit results. Through application to the quantum approximate optimization algorithm and preparation of ground states for molecules, we demonstrate the superiority of surrogate-based optimization over commonly-used optimization techniques for variational algorithms.
翻訳日:2023-03-24 18:45:37 公開日:2023-03-23
# 手話翻訳のための簡易マルチモダリティトランスファー学習ベースライン

A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation ( http://arxiv.org/abs/2203.04287v2 )

ライセンス: Link先を確認
Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin(参考訳) 本論文では,手話翻訳のための簡単なトランスファー学習ベースラインを提案する。 既存の手話データセット(例えばphoenix-2014t、csl-daily)は、音声翻訳モデルのトレーニングのために典型的な並列データよりも桁違いに小さい手話ビデオ、注釈、テキストの約10k-20kペアしか含まない。 したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。 この問題を軽減するため、我々は、大量の外部監視を含む汎用ドメインデータセットからドメイン内データセットへのモデルを段階的に事前訓練することを提案する。 具体的には、人間のアクションの一般的なドメインと、sign-to-glossデータセットのinsideドメインについてsign-to-gloss視覚ネットワークを事前学習し、多言語コーパスの一般ドメインとgloss-to-textコーパスのinside-domainに対してgloss-to-text翻訳ネットワークを事前学習する。 ジョイントモデルは、2つのネットワークを接続する視覚言語マッパーと呼ばれる追加モジュールで微調整される。 この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端結果を上回っ、転送学習の有効性を実証する。 その単純さと強力な性能により、このアプローチは将来の研究の確かなベースラインとなる。 コードとモデルは、https://github.com/FangyunWei/SLRT.comで入手できる。

This paper proposes a simple transfer learning baseline for sign language translation. Existing sign language datasets (e.g. PHOENIX-2014T, CSL-Daily) contain only about 10K-20K pairs of sign videos, gloss annotations and texts, which are an order of magnitude smaller than typical parallel data for training spoken language translation models. Data is thus a bottleneck for training effective sign language translation models. To mitigate this problem, we propose to progressively pretrain the model from general-domain datasets that include a large amount of external supervision to within-domain datasets. Concretely, we pretrain the sign-to-gloss visual network on the general domain of human actions and the within-domain of a sign-to-gloss dataset, and pretrain the gloss-to-text translation network on the general domain of a multilingual corpus and the within-domain of a gloss-to-text corpus. The joint model is fine-tuned with an additional module named the visual-language mapper that connects the two networks. This simple baseline surpasses the previous state-of-the-art results on two sign language translation benchmarks, demonstrating the effectiveness of transfer learning. With its simplicity and strong performance, this approach can serve as a solid baseline for future research. Code and models are available at: https://github.com/FangyunWei/SLRT.
翻訳日:2023-03-24 18:45:20 公開日:2023-03-23
# POCSに基づくクラスタリングアルゴリズム

POCS-based Clustering Algorithm ( http://arxiv.org/abs/2208.08888v3 )

ライセンス: Link先を確認
Le-Anh Tran, Henock M. Deberneh, Truong-Dong Do, Thanh-Dat Nguyen, My-Ha Le, Dong-Chul Park(参考訳) 本稿では, pocsに基づくクラスタリングアルゴリズムと呼ばれる, 射影型凸集合(pocs)法に基づく新しいクラスタリング手法を提案する。 提案するクラスタリングアルゴリズムは,POCSの並列プロジェクション手法を利用して,特徴空間に適切なクラスタプロトタイプを求める。 アルゴリズムは、各データポイントを凸集合として考慮し、クラスタプロトタイプをメンバデータポイントに並列に投影する。 投影は、データクラスタリング目的の目的関数を最小化するために凸結合される。 提案するPOCSクラスタリングアルゴリズムの性能は,種々の合成データセットを用いて検証した。 実験の結果,提案手法は,fcm(ファジィc-means)やk-meansクラスタリングアルゴリズムなどの従来のクラスタリング手法と比較して,クラスタリング誤差と実行速度の面で競争力と効率性が示された。

A novel clustering technique based on the projection onto convex set (POCS) method, called POCS-based clustering algorithm, is proposed in this paper. The proposed POCS-based clustering algorithm exploits a parallel projection method of POCS to find appropriate cluster prototypes in the feature space. The algorithm considers each data point as a convex set and projects the cluster prototypes parallelly to the member data points. The projections are convexly combined to minimize the objective function for data clustering purpose. The performance of the proposed POCS-based clustering algorithm is verified through experiments on various synthetic datasets. The experimental results show that the proposed POCS-based clustering algorithm is competitive and efficient in terms of clustering error and execution speed when compared with other conventional clustering methods including Fuzzy C-Means (FCM) and K-means clustering algorithms.
翻訳日:2023-03-24 18:39:06 公開日:2023-03-23
# ランゲヴィン拡散変動推定

Langevin Diffusion Variational Inference ( http://arxiv.org/abs/2208.07743v2 )

ライセンス: Link先を確認
Tomas Geffner and Justin Domke(参考訳) 無調整ランゲヴィン転移に基づく強力な変分分布を構築する多くの方法が存在する。 これらの多くは、幅広い異なるアプローチと技術を用いて開発された。 残念ながら、統一的な分析と導出の欠如は、新しいメソッドの開発と既存のメソッドに対する推論を困難なタスクにする。 我々は、これらの既存のテクニックを統一し、一般化する単一の分析を提供する。 主な考え方は、アンダーダムのランゲヴィン拡散過程とその時間反転を数値シミュレーションすることで目標と変動を増大させることである。 このアプローチの利点は2つある: 既存の多くのメソッドに統一的な定式化を提供し、新しいメソッドの開発を単純化する。 実際、我々の定式化を用いて、既存のアルゴリズムの強みを組み合わせた新しい手法を提案する。 我々の経験的評価は,提案手法が幅広いタスクにおいて,関連するベースラインを一貫して上回ることを示す。

Many methods that build powerful variational distributions based on unadjusted Langevin transitions exist. Most of these were developed using a wide range of different approaches and techniques. Unfortunately, the lack of a unified analysis and derivation makes developing new methods and reasoning about existing ones a challenging task. We address this giving a single analysis that unifies and generalizes these existing techniques. The main idea is to augment the target and variational by numerically simulating the underdamped Langevin diffusion process and its time reversal. The benefits of this approach are twofold: it provides a unified formulation for many existing methods, and it simplifies the development of new ones. In fact, using our formulation we propose a new method that combines the strengths of previously existing algorithms; it uses underdamped Langevin transitions and powerful augmentations parameterized by a score network. Our empirical evaluation shows that our proposed method consistently outperforms relevant baselines in a wide range of tasks.
翻訳日:2023-03-24 18:38:55 公開日:2023-03-23
# 大量の注釈付きデータベースを用いたディープフェイク検出におけるAIバイアスの包括的解析

A Comprehensive Analysis of AI Biases in DeepFake Detection With Massively Annotated Databases ( http://arxiv.org/abs/2208.05845v2 )

ライセンス: Link先を確認
Ying Xu, Philipp Terh\"orst, Kiran Raja, Marius Pedersen(参考訳) 近年、Deepfakeによる画像とビデオの操作は、セキュリティと社会にとって深刻な懸念となっている。 ディープフェイクデータを確実に検出するために、多くの検出モデルとデータセットが提案されている。 しかし、これらのモデルとトレーニングデータベースが偏りがあり、ディープフェイク検出器が故障するのではないかとの懸念が高まっている。 本研究では,公開Deepfakeデータセットによるバイアス問題について検討する。 (a)5つの人気のDeepfakeデータセットに対して47の属性の大規模および非デコグラフィ属性アノテーションを提供する。 b) これらのデータセット上の3つの最先端のDeepfake検出バックボーンモデルのAIバイアスを包括的に分析する。 調査は,年齢,性別,民族,非デポグラフィ情報(髪,肌,アクセサリーなど)を含む,多種多様な特徴(65m以上のラベルを含む)が検出性能に与える影響を分析した。 その結果, データベースには多様性が欠如しており, さらに重要な点として, 利用済みのDeepfake検出バックボーンモデルが多くの属性に対して強く偏りがあることが示唆された。 バイアス付きデータセットでトレーニングされたDeepfake検出バックボーンメソッドは、誤った検出結果を出力し、汎用性、公正性、セキュリティ問題を引き起こす可能性がある。 本研究の成果とアノテーションデータベースが将来のDeepfake検出技術におけるバイアスの評価と緩和に役立つことを期待する。 アノテーションデータセットが公開されている。

In recent years, image and video manipulations with Deepfake have become a severe concern for security and society. Many detection models and datasets have been proposed to detect Deepfake data reliably. However, there is an increased concern that these models and training databases might be biased and, thus, cause Deepfake detectors to fail. In this work, we investigate the bias issue caused by public Deepfake datasets by (a) providing large-scale demographic and non-demographic attribute annotations of 47 different attributes for five popular Deepfake datasets and (b) comprehensively analysing AI-bias of three state-of-the-art Deepfake detection backbone models on these datasets. The investigation analyses the influence of a large variety of distinctive attributes (from over 65M labels) on the detection performance, including demographic (age, gender, ethnicity) and non-demographic (hair, skin, accessories, etc.) information. The results indicate that investigated databases lack diversity and, more importantly, show that the utilised Deepfake detection backbone models are strongly biased towards many investigated attributes. The Deepfake detection backbone methods, which are trained with biased datasets, might output incorrect detection results, thereby leading to generalisability, fairness, and security issues. We hope that the findings of this study and the annotation databases will help to evaluate and mitigate bias in future Deepfake detection techniques. The annotation datasets are publicly available.
翻訳日:2023-03-24 18:38:40 公開日:2023-03-23
# 内部半古典的自由度によるエントロピー領域の法則

Entropy-Area Law from Interior Semi-classical Degrees of Freedom ( http://arxiv.org/abs/2207.14274v5 )

ライセンス: Link先を確認
Yuki Yokokura(参考訳) 我々は、内部に一様に存在する最大重力を持つ多くの半古典的自由度からなる球形静的重力境界状態を考え、半古典的アインシュタイン方程式の自己重力を含むエントロピーを研究する。 我々は、エントロピーが任意の自由度に対して正確にbekenstein-hawking公式に従うように自己一貫性のある内部計量を構築する。 内部は地平線や特異点のない密集した構成であり、局所的な熱状態のように振る舞う。 ここでは、自己重力はエントロピーを体積法から面積法に変更する上で重要な役割を果たす。

We consider a spherical static gravitational bound state consisting of many semi-classical degrees of freedom that exist uniformly inside and have maximum gravity, and study the entropy including the self-gravity in the semi-classical Einstein equation. We construct the self-consistent interior metric such that the entropy follows the Bekenstein-Hawking formula exactly for any degree of freedom. The interior is a dense configuration without horizon or singularity and behaves like a local thermal state. Here, the self-gravity plays an essential role in changing the entropy from the volume law to the area law.
翻訳日:2023-03-24 18:38:19 公開日:2023-03-23
# 変換・蒸留フレームワークを用いたMARLのグローバル最適化に向けて

Towards Global Optimality in Cooperative MARL with the Transformation And Distillation Framework ( http://arxiv.org/abs/2207.11143v3 )

ライセンス: Link先を確認
Jianing Ye, Chenghao Li, Jianhao Wang, Chongjie Zhang(参考訳) 分散実行は、協調マルチエージェント強化学習(MARL)における中核的な要求である。 近年、最も人気のあるMARLアルゴリズムは、分散実行を可能にするために分散ポリシーを採用し、勾配降下を最適化に利用している。 しかし、最適化法を考慮に入れるアルゴリズムの理論的解析はほとんどなく、勾配降下を最適化法として選択した場合、分散ポリシーを持つ様々な人気marlアルゴリズムがおもちゃタスクにおいて最適でないことが判明した。 本稿では,多エージェントポリシー勾配法と値分解法の2つの共通クラスを理論的に解析し,勾配勾配勾配を用いた場合の準最適性を証明する。 さらに,マルチエージェントMDPを特別な単一エージェントMDPとして逐次的な構造で再構成し,得られた「単一エージェント」MDPに対して学習ポリシーを蒸留することにより分散実行を可能にする変換と蒸留(TAD)フレームワークを提案する。 このアプローチは、2段階学習パラダイムを用いて協調MARLの最適化問題に対処し、性能保証を維持する。 PPOをベースとしたTAD-PPOを実装し、理論上は有限個のマルチエージェントMDPで最適ポリシー学習を行い、多数の協調マルチエージェントタスクにおいて顕著なパフォーマンスを示す。

Decentralized execution is one core demand in cooperative multi-agent reinforcement learning (MARL). Recently, most popular MARL algorithms have adopted decentralized policies to enable decentralized execution and use gradient descent as their optimizer. However, there is hardly any theoretical analysis of these algorithms taking the optimization method into consideration, and we find that various popular MARL algorithms with decentralized policies are suboptimal in toy tasks when gradient descent is chosen as their optimization method. In this paper, we theoretically analyze two common classes of algorithms with decentralized policies -- multi-agent policy gradient methods and value-decomposition methods to prove their suboptimality when gradient descent is used. In addition, we propose the Transformation And Distillation (TAD) framework, which reformulates a multi-agent MDP as a special single-agent MDP with a sequential structure and enables decentralized execution by distilling the learned policy on the derived ``single-agent" MDP. This approach uses a two-stage learning paradigm to address the optimization problem in cooperative MARL, maintaining its performance guarantee. Empirically, we implement TAD-PPO based on PPO, which can theoretically perform optimal policy learning in the finite multi-agent MDPs and shows significant outperformance on a large set of cooperative multi-agent tasks.
翻訳日:2023-03-24 18:38:07 公開日:2023-03-23
# 状態独立な文脈性集合に対する最適ベル不等式と強ベル不等式

Optimal and tight Bell inequalities for state-independent contextuality sets ( http://arxiv.org/abs/2207.08850v3 )

ライセンス: Link先を確認
Junior R. Gonzales-Ureta, Ana Predojevi\'c, Ad\'an Cabello(参考訳) 非局所性と文脈性という2つの基本的な量子資源は、状態独立な文脈性(SI-C)集合によって破られるベルの不等式を通して接続することができる。 これらのベルの不等式は、同時に非局所性と文脈性を必要とするアプリケーションを可能にする。 しかし、既存のベルの不等式に対して、SI-C 集合が生成する非局所性はノイズに非常に敏感である。 これは実験的な実装を妨げる。 ここでは、SI-C 集合が生成する非局所性が最適であるベルの不等式、すなわち、最も単純な SI-C (S. Yu and C. H. Oh, Phys. Lett. Rev. Lett. 030402 (2012)) と Kochen-Specker 集合 [A. Cabello et al., Phys. Lett. A 212, 183 (1996)] に対して、雑音や検出非効率に対して最大限に頑健であることを示す。 我々の研究は、非局所性と文脈性を組み合わせた実験を可能にするため、シナジーを利用するアプリケーションへの道を開くことができる。

Two fundamental quantum resources, nonlocality and contextuality, can be connected through Bell inequalities that are violated by state-independent contextuality (SI-C) sets. These Bell inequalities allow for applications that require simultaneous nonlocality and contextuality. However, for existing Bell inequalities, the nonlocality produced by SI-C sets is very sensitive to noise. This precludes experimental implementation. Here we identify the Bell inequalities for which the nonlocality produced by SI-C sets is optimal, i.e., maximally robust to either noise or detection inefficiency, for the simplest SI-C [S. Yu and C. H. Oh, Phys. Rev. Lett. 108, 030402 (2012)] and Kochen-Specker sets [A. Cabello et al., Phys. Lett. A 212, 183 (1996)] and show that, in both cases, nonlocality is sufficiently resistant for experiments. Our work enables experiments that combine nonlocality and contextuality and therefore paves the way for applications that take advantage of their synergy.
翻訳日:2023-03-24 18:37:43 公開日:2023-03-23
# フェデレーション学習における事前学習の重要性と適用性について

On the Importance and Applicability of Pre-Training for Federated Learning ( http://arxiv.org/abs/2206.11488v3 )

ライセンス: Link先を確認
Hong-You Chen, Cheng-Hao Tu, Ziwei Li, Han-Wei Shen, Wei-Lun Chao(参考訳) 学習モデルのパフォーマンスを改善するために、今日のディープラーニングでは事前トレーニングが一般的です。 しかしながら、連合学習(fl)に関する文献では、ニューラルネットワークは主にランダムウェイトで初期化されている。 これらはFLの事前学習を体系的に研究することに関心を惹きつける。 複数の視覚認識ベンチマークにおいて,事前学習はflを改善できるだけでなく,その精度の差を,特に非iidクライアントのデータに問題のある集中型学習に縮めることができることがわかった。 事前学習されたモデルが直接利用できない状況に適用できるように,合成データやクライアントのデータを用いた事前トレーニングを分散的に検討し,flをすでに改善可能であることを発見した。 興味深いことに、私たちが探求する多くのテクニックは、パフォーマンスをさらに高めるために互いに補完しあっています。 本論文は,FLに対する事前学習の効果を解明する試みとしてまとめる。 プレトレーニングによって,異なるクライアントのデータ条件下で学習したグローバルモデルが同じ損失ベースに収束し,flにおけるグローバルアグリゲーションがより安定することを見出した。 それにもかかわらず、事前トレーニングは、非iidデータ下でflの根本的な問題である局所モデルドリフトを緩和しないようである。

Pre-training is prevalent in nowadays deep learning to improve the learned model's performance. However, in the literature on federated learning (FL), neural networks are mostly initialized with random weights. These attract our interest in conducting a systematic study to explore pre-training for FL. Across multiple visual recognition benchmarks, we found that pre-training can not only improve FL, but also close its accuracy gap to the counterpart centralized learning, especially in the challenging cases of non-IID clients' data. To make our findings applicable to situations where pre-trained models are not directly available, we explore pre-training with synthetic data or even with clients' data in a decentralized manner, and found that they can already improve FL notably. Interestingly, many of the techniques we explore are complementary to each other to further boost the performance, and we view this as a critical result toward scaling up deep FL for real-world applications. We conclude our paper with an attempt to understand the effect of pre-training on FL. We found that pre-training enables the learned global models under different clients' data conditions to converge to the same loss basin, and makes global aggregation in FL more stable. Nevertheless, pre-training seems to not alleviate local model drifting, a fundamental problem in FL under non-IID data.
翻訳日:2023-03-24 18:37:15 公開日:2023-03-23
# 自己適合性を持つスイッチ可能な表現学習フレームワーク

Switchable Representation Learning Framework with Self-compatibility ( http://arxiv.org/abs/2206.08289v4 )

ライセンス: Link先を確認
Shengsen Wu, Yan Bai, Yihang Lou, Xiongkun Linghu, Jianzhong He and Ling-Yu Duan(参考訳) 現実世界のビジュアル検索システムは、異なるコンピューティングとストレージリソースを持つ複数のプラットフォームに展開する。 最小制約プラットフォームに適合する統一モデルの導入は、精度の制限につながる。 リソース制約に応じて異なる能力を持つモデルをデプロイすることが期待されており、これらのモデルによって抽出された特徴を計量空間に整列させる必要がある。 機能アライメントを実現する方法は ``compatible learning''' と呼ばれる。 既存の研究は主に、複数のモデル間の互換性の学習に制限のある、1対1の互換性パラダイムに焦点を当てている。 自己相似性(sfsc)を用いた表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 サブモデルの最適化は勾配の衝突に直面しており、この問題を大きさと方向の観点から緩和する。 我々は不確実性推定によってサブモデルの優先順位を動的に調整し、サブモデルを適切に最適化する。 さらに、方向が矛盾する勾配は相互干渉を避けるために投影される。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。

Real-world visual search systems involve deployments on multiple platforms with different computing and storage resources. Deploying a unified model that suits the minimal-constrain platforms leads to limited accuracy. It is expected to deploy models with different capacities adapting to the resource constraints, which requires features extracted by these models to be aligned in the metric space. The method to achieve feature alignments is called ``compatible learning''. Existing research mainly focuses on the one-to-one compatible paradigm, which is limited in learning compatibility among multiple models. We propose a Switchable representation learning Framework with Self-Compatibility (SFSC). SFSC generates a series of compatible sub-models with different capacities through one training process. The optimization of sub-models faces gradients conflict, and we mitigate this problem from the perspective of the magnitude and direction. We adjust the priorities of sub-models dynamically through uncertainty estimation to co-optimize sub-models properly. Besides, the gradients with conflicting directions are projected to avoid mutual interference. SFSC achieves state-of-the-art performance on the evaluated datasets.
翻訳日:2023-03-24 18:36:53 公開日:2023-03-23
# より良い教師: 知識蒸留のための動的事前知識

Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation ( http://arxiv.org/abs/2206.06067v4 )

ライセンス: Link先を確認
Zengyu Qiu, Xinzhu Ma, Kunlin Yang, Chunya Liu, Jun Hou, Shuai Yi, Wanli Ouyang(参考訳) 知識蒸留(kd)は、大きなモデル(教師)から小さなモデル(学生)への学習表現の転送に非常に有望な能力を示している。 しかし,学生と教師の能力格差が大きくなるにつれて,既存のKD手法ではより良い結果が得られない。 私たちの研究は、特に大きな教師を適用する場合、kdにとって「優先知識」が不可欠であることを示している。 特に,機能蒸留の前に教師の特徴の一部を先行知識として統合した動的事前知識(DPK)を提案する。 これは、我々のメソッドが教師の特徴を単に「ターゲット」ではなく「インプット」として捉えることを意味します。 また,学習段階における事前知識の比率を特徴ギャップに応じて動的に調整することにより,学生を適切な難易度で指導する。 提案手法を評価するため,2つの画像分類ベンチマーク(CIFAR100とImageNet)とオブジェクト検出ベンチマーク(MS COCO)について広範な実験を行った。 その結果,異なる条件下での性能において,本手法が優れていることを示す。 また,このdpkにより,教師モデルと学生モデルの正の相関性が得られ,より大きな教師を適用することで,学生の正確性をさらに高めることができる。 さらに重要なことは、DPKは任意のモデルに対する教師モデル選択において高速なソリューションを提供する。

Knowledge distillation (KD) has shown very promising capabilities in transferring learning representations from large models (teachers) to small models (students). However, as the capacity gap between students and teachers becomes larger, existing KD methods fail to achieve better results. Our work shows that the `prior knowledge' is vital to KD, especially when applying large teachers. Particularly, we propose the dynamic prior knowledge (DPK), which integrates part of teacher's features as the prior knowledge before the feature distillation. This means that our method also takes the teacher's feature as `input', not just `target'. Besides, we dynamically adjust the ratio of the prior knowledge during the training phase according to the feature gap, thus guiding the student in an appropriate difficulty. To evaluate the proposed method, we conduct extensive experiments on two image classification benchmarks (i.e. CIFAR100 and ImageNet) and an object detection benchmark (i.e. MS COCO. The results demonstrate the superiority of our method in performance under varying settings. Besides, our DPK makes the performance of the student model positively correlated with that of the teacher model, which means that we can further boost the accuracy of students by applying larger teachers. More importantly, DPK provides a fast solution in teacher model selection for any given model.
翻訳日:2023-03-24 18:36:42 公開日:2023-03-23
# gDDIM:一般化された拡散暗黙的モデル

gDDIM: Generalized denoising diffusion implicit models ( http://arxiv.org/abs/2206.05564v2 )

ライセンス: Link先を確認
Qinsheng Zhang and Molei Tao and Yongxin Chen(参考訳) 我々のゴールは、異方性拡散の他に、一般拡散モデル~(DM)にまで拡大することである。 従来のDDIMのように非マルコフ生成過程を構築する代わりに,数値的な観点からDDIMのメカニズムを検討する。 我々は,対応する確率微分方程式を解く際に,スコアの特定の近似を用いてDDIMが得られることを発見した。 本稿では, DDIMの高速化効果を解釈し, 高速サンプリングのための確率的サンプリング方式に対する決定論的サンプリング方式の利点を説明する。 この知見に基づいてddimを一般化ddim(gddim)として一般dmsに拡張し、スコアネットワークのパラメータ化に小さいが繊細な修正を加えた。 我々は,非等方性DMであるブラリング拡散モデル (BDM) と臨界減衰ランゲヴィン拡散モデル (CLD) でgDDIMを検証する。 BDMでは20倍以上の加速が観察された。 CIFAR10では,拡散過程を速度で増大させ拡散モデルを用いてFIDスコア2.26を達成し,FIDスコアが27NFEで50点,FIDスコアが2.86点であった。 コードはhttps://github.com/qsh-zh/gDDIMで入手できる。

Our goal is to extend the denoising diffusion implicit model (DDIM) to general diffusion models~(DMs) besides isotropic diffusions. Instead of constructing a non-Markov noising process as in the original DDIM, we examine the mechanism of DDIM from a numerical perspective. We discover that the DDIM can be obtained by using some specific approximations of the score when solving the corresponding stochastic differential equation. We present an interpretation of the accelerating effects of DDIM that also explains the advantages of a deterministic sampling scheme over the stochastic one for fast sampling. Building on this insight, we extend DDIM to general DMs, coined generalized DDIM (gDDIM), with a small but delicate modification in parameterizing the score network. We validate gDDIM in two non-isotropic DMs: Blurring diffusion model (BDM) and Critically-damped Langevin diffusion model (CLD). We observe more than 20 times acceleration in BDM. In the CLD, a diffusion model by augmenting the diffusion process with velocity, our algorithm achieves an FID score of 2.26, on CIFAR10, with only 50 number of score function evaluations~(NFEs) and an FID score of 2.86 with only 27 NFEs. Code is available at https://github.com/qsh-zh/gDDIM
翻訳日:2023-03-24 18:36:21 公開日:2023-03-23
# GP-net:フレキシブルな視点グラフの提案

GP-net: Flexible Viewpoint Grasp Proposal ( http://arxiv.org/abs/2209.10404v2 )

ライセンス: Link先を確認
Anna Konrad, John McDonald and Rudi Villing(参考訳) モバイルマニピュレータが経験したような柔軟な視点から6-DOFの把握を生成可能な畳み込みニューラルネットワークモデルであるGrasp Proposal Network(GP-net)を提案する。 gp-netを訓練するために,深度画像と地中把握情報を含むデータセットを合成的に生成する。 実世界の実験では、PAL TIAGoモバイルマニピュレータ上で、GP-netを評価するためにEGAD!グラウンディングベンチマークを使用し、VGN(Volumetric Grasping Network)とGPD(Grasp Pose Detection Pack)の2つのアルゴリズムに対してGP-netを評価する。 ロボットの把握における最先端の手法とは対照的に、GP-netは、ワークスペースを定義することなく、柔軟で未知の視点からオブジェクトを把握するために使用することができ、VGNの51.1%、PDの33.6%に比べて51.8%の把握成功を達成する。 コードと事前トレーニングされたモデルとともに、ROSパッケージをhttps://aucoroboticsmu.github.io/GP-net/で提供します。

We present the Grasp Proposal Network (GP-net), a Convolutional Neural Network model which can generate 6-DOF grasps from flexible viewpoints, e.g. as experienced by mobile manipulators. To train GP-net, we synthetically generate a dataset containing depth-images and ground-truth grasp information. In real-world experiments we use the EGAD! grasping benchmark to evaluate GP-net against two commonly used algorithms, the Volumetric Grasping Network (VGN) and the Grasp Pose Detection package (GPD), on a PAL TIAGo mobile manipulator. In contrast to the state-of-the-art methods in robotic grasping, GP-net can be used for grasping objects from flexible, unknown viewpoints without the need to define the workspace and achieves a grasp success of 51.8% compared to 51.1% for VGN and 33.6% for GPD. We provide a ROS package along with our code and pre-trained models at https://aucoroboticsmu.github.io/GP-net/.
翻訳日:2023-03-24 18:29:14 公開日:2023-03-23
# 光ポンピングによる強結合三量子導波路系における擬似状態と量子非線形性

Probing dressed states and quantum nonlinearities in a strongly coupled three-qubit waveguide system under optical pumping ( http://arxiv.org/abs/2209.10403v3 )

ライセンス: Link先を確認
Sofia Arranz Regidor and Stephen Hughes(参考訳) 光ポンピングにおける3量子導波路系について検討し, サイドキュービットが原子状ミラーとして機能し, 強い光物質結合状態を示す。 量子ビットはフェルミオン二準位系としてモデル化され、重要な飽和効果と量子非線形性を説明する。 この系を光学的に励起すると、放射スペクトルで見られるような着物状態のリッチな多様体が得られ、マルコフの極限における中依存マスター方程式モデルと、マルコフ近似を起こさずに行列積状態を使用する2つの異なる理論解が示される。 ミラー量子ビットの相対減衰率と空間分離を変動させることにより、リッチ非線形スペクトルがどのように得られるかを示し、マルコフマスター方程式を用いることの限界を示す。 我々のモデルは、重要な遅延効果や多光子非線形性を含む巨大原子現象を直接モデル化することができる。 また, 励起3量子ビット系が強結合系において, 非線形系に入る際のjaynes-cummingsモデルから著しく逸脱することを示す。

We study a three-qubit waveguide system in the presence of optical pumping, when the side qubits act as atomlike mirrors, manifesting in a strong light-matter coupling regime. The qubits are modelled as Fermionic two-level systems, where we account for important saturation effects and quantum nonlinearities. Optically pumping this system is shown to lead to a rich manifold of dressed states that can be seen in the emitted spectrum, and we show two different theoretical solutions using a medium-dependent master equation model in the Markovian limit, as well as using matrix product states without invoking any Markov approximations. We demonstrate how a rich nonlinear spectrum is obtained by varying the relative decay rates of the mirror qubits as well as their spatial separation, and show the limitations of using a Markovian master equation. Our model allows one to directly model giant-atom phenomena, including important retardation effects and multi-photon nonlinearities. We also show how the excited three qubit system, in a strong coupling regime, deviates significantly from a Jaynes-Cummings model when entering the nonlinear regime.
翻訳日:2023-03-24 18:28:52 公開日:2023-03-23
# 介入密度推定のための正規化流れ

Normalizing Flows for Interventional Density Estimation ( http://arxiv.org/abs/2209.06203v4 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 因果推論のための既存の機械学習手法は通常、潜在的な結果の平均(例えば平均的な治療効果)で表される量を推定する。 しかし、そのような量は潜在的な結果の分布に関する完全な情報を捉えていない。 本研究では,観察データから介入後の潜在的結果の密度を推定する。 そこで本研究では,介入正規化フローと呼ばれる新しい完全パラメトリック深層学習手法を提案する。 具体的には2つの正規化フロー、すなわち (i)迷惑パラメータを推定するための迷惑フローと (ii)潜在的な結果の密度をパラメトリックに推定するためのターゲットフロー。 さらに,目標流れパラメータの効率的かつ二重ロバストな推定のために,一段階のバイアス補正に基づく移動可能な最適化目標を考案する。 その結果、介入正規化フローは適切な正規化密度推定器を提供する。 種々の実験において, インターベンショナル正規化フローは表現的かつ高効率であり, サンプルサイズと高次元共起の両方でスケール可能であることを示した。 我々の知識を最大限に活用するために、我々のインターベンショナル正規化フローは、潜在的な結果の密度推定のための最初の適切な完全パラメトリック深層学習法である。

Existing machine learning methods for causal inference usually estimate quantities expressed via the mean of potential outcomes (e.g., average treatment effect). However, such quantities do not capture the full information about the distribution of potential outcomes. In this work, we estimate the density of potential outcomes after interventions from observational data. For this, we propose a novel, fully-parametric deep learning method called Interventional Normalizing Flows. Specifically, we combine two normalizing flows, namely (i) a nuisance flow for estimating nuisance parameters and (ii) a target flow for a parametric estimation of the density of potential outcomes. We further develop a tractable optimization objective based on a one-step bias correction for an efficient and doubly robust estimation of the target flow parameters. As a result our Interventional Normalizing Flows offer a properly normalized density estimator. Across various experiments, we demonstrate that our Interventional Normalizing Flows are expressive and highly effective, and scale well with both sample size and high-dimensional confounding. To the best of our knowledge, our Interventional Normalizing Flows are the first proper fully-parametric, deep learning method for density estimation of potential outcomes.
翻訳日:2023-03-24 18:28:17 公開日:2023-03-23
# 時間周期系の最適ハミルトニアンシミュレーション

Optimal Hamiltonian simulation for time-periodic systems ( http://arxiv.org/abs/2209.05048v3 )

ライセンス: Link先を確認
Kaoru Mizuta and Keisuke Fujii(参考訳) 時間発展作用素 $u(t)$ の実装はハミルトニアンシミュレーションと呼ばれ、量子コンピュータの最も有望な利用の1つである。 時間非依存ハミルトニアンにとって、量子化は時間進化$U(t)=e^{-iHt}$の効率的な実現を確立し、時間$t$と許容可能なエラー$\varepsilon$の両方で最適な計算資源を達成する。 対照的に、時間依存システムでは、時間依存の処理が難しいため、よりコストがかかる。 本稿では,Floquetシステムと呼ばれる時間周期性を持つ汎用時間依存システムに対して,最適・近接最適ハミルトニアンシミュレーションを確立する。 フーリエ指数をラベル付けした補助状態を備えたいわゆるFloquet-Hilbert空間を用いることで、時間順積やダイソン系列の展開に依存することなく、確実に対象の時間進化状態を得る方法を開発した。 したがって、時間発展を実装するためのコストを測定するクエリ複雑性は、時間$t$と逆誤差$\varepsilon$でそれぞれ最適およびほぼ最適依存性を持ち、量子化のコストに十分近いものとなる。 そこで本プロトコルでは,時間依存型システムでは,時間依存型システムのように,時間依存型システムのように効率的にアクセス可能なクラスを提供する。 また,非平衡現象のシミュレーションや断熱状態の合成にも応用できるため,凝縮物物理学や量子化学における非平衡現象や,量子計算における時間依存性をもたらす量子タスクに光を当てる。

The implementation of time-evolution operators $U(t)$, called Hamiltonian simulation, is one of the most promising usage of quantum computers. For time-independent Hamiltonians, qubitization has recently established efficient realization of time-evolution $U(t)=e^{-iHt}$, with achieving the optimal computational resource both in time $t$ and an allowable error $\varepsilon$. In contrast, those for time-dependent systems require larger cost due to the difficulty of handling time-dependency. In this paper, we establish optimal/nearly-optimal Hamiltonian simulation for generic time-dependent systems with time-periodicity, known as Floquet systems. By using a so-called Floquet-Hilbert space equipped with auxiliary states labeling Fourier indices, we develop a way to certainly obtain the target time-evolved state without relying on either time-ordered product or Dyson-series expansion. Consequently, the query complexity, which measures the cost for implementing the time-evolution, has optimal and nearly-optimal dependency respectively in time $t$ and inverse error $\varepsilon$, and becomes sufficiently close to that of qubitization. Thus, our protocol tells us that, among generic time-dependent systems, time-periodic systems provides a class accessible as efficiently as time-independent systems despite the existence of time-dependency. As we also provide applications to simulation of nonequilibrium phenomena and adiabatic state preparation, our results will shed light on nonequilibrium phenomena in condensed matter physics and quantum chemistry, and quantum tasks yielding time-dependency in quantum computation.
翻訳日:2023-03-24 18:28:00 公開日:2023-03-23
# 視覚における拡散モデル:調査

Diffusion Models in Vision: A Survey ( http://arxiv.org/abs/2209.04747v4 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Mubarak Shah(参考訳) 拡散モデルの認知はコンピュータビジョンにおける近年の話題であり、生成モデリングの領域において顕著な成果を示している。 拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深い生成モデルである。 前方拡散段階では、ガウスノイズを加えることにより、入力データが数ステップにわたって徐々に摂動される。 逆段階では、拡散過程を段階的に徐々に逆転させる学習により、元の入力データを復元するモデルを課題とする。 拡散モデルは、その計算負荷、すなわちサンプリング中のステップ数の増加による低速さにもかかわらず、生成したサンプルの品質と多様性について広く評価されている。 本研究は,視覚に応用される分別拡散モデルに関する論文を総合的にレビューし,その分野における理論的および実用的貢献を考察する。 まず, 一般化確率モデル, 雑音条件付スコアネットワーク, 確率微分方程式に基づく3つの一般化拡散モデリングフレームワークを同定し, 提案する。 さらに,拡散モデルと可変オートエンコーダ,生成逆ネットワーク,エネルギーベースモデル,自己回帰モデル,正規化フローなど,他の深層生成モデルとの関係についても論じる。 次に,コンピュータビジョンに適用された拡散モデルの多視点分類を提案する。 最後に, 拡散モデルの現在の限界を説明し, 今後の研究に向けた興味深い方向性について考察する。

Denoising diffusion models represent a recent emerging topic in computer vision, demonstrating remarkable results in the area of generative modeling. A diffusion model is a deep generative model that is based on two stages, a forward diffusion stage and a reverse diffusion stage. In the forward diffusion stage, the input data is gradually perturbed over several steps by adding Gaussian noise. In the reverse stage, a model is tasked at recovering the original input data by learning to gradually reverse the diffusion process, step by step. Diffusion models are widely appreciated for the quality and diversity of the generated samples, despite their known computational burdens, i.e. low speeds due to the high number of steps involved during sampling. In this survey, we provide a comprehensive review of articles on denoising diffusion models applied in vision, comprising both theoretical and practical contributions in the field. First, we identify and present three generic diffusion modeling frameworks, which are based on denoising diffusion probabilistic models, noise conditioned score networks, and stochastic differential equations. We further discuss the relations between diffusion models and other deep generative models, including variational auto-encoders, generative adversarial networks, energy-based models, autoregressive models and normalizing flows. Then, we introduce a multi-perspective categorization of diffusion models applied in computer vision. Finally, we illustrate the current limitations of diffusion models and envision some interesting directions for future research.
翻訳日:2023-03-24 18:27:34 公開日:2023-03-23
# フレームカメラを用いたリアルタイムイベントシミュレーション

Real-time event simulation with frame-based cameras ( http://arxiv.org/abs/2209.04634v2 )

ライセンス: Link先を確認
Andreas Ziegler, Daniel Teigland, Jonas Tebbe, Thomas Gossard and Andreas Zell(参考訳) イベントカメラはロボット工学やコンピュータビジョンにおいて、高時間分解能、高帯域幅、ほとんど動きのぼやけ、消費電力の低さなどの利点のために人気が高まっている。 しかし、これらのカメラは高価で市場に出回らないため、大多数にはアクセスできない。 イベントシミュレータを使用すると、実際のイベントカメラが新しいアルゴリズムを開発する必要が最小限になる。 しかし、シミュレーションの計算の複雑さのため、既存のシミュレータのイベントストリームをリアルタイムで生成することはできないが、既存のビデオシーケンスから事前計算するか、仮想3Dシーンからシミュレーションする必要がある。 これらのオフライン生成されたイベントストリームは、学習タスクのトレーニングデータとして使用できるが、実際のイベントカメラを必要とするため、すべての応答時間依存アプリケーションは、これらのシミュレータの恩恵を受けられない。 本研究は, 性能評価において競争力を維持しつつ, イベントシミュレーションの性能を2桁(リアルタイム化)で向上させるシミュレーション手法を提案する。

Event cameras are becoming increasingly popular in robotics and computer vision due to their beneficial properties, e.g., high temporal resolution, high bandwidth, almost no motion blur, and low power consumption. However, these cameras remain expensive and scarce in the market, making them inaccessible to the majority. Using event simulators minimizes the need for real event cameras to develop novel algorithms. However, due to the computational complexity of the simulation, the event streams of existing simulators cannot be generated in real-time but rather have to be pre-calculated from existing video sequences or pre-rendered and then simulated from a virtual 3D scene. Although these offline generated event streams can be used as training data for learning tasks, all response time dependent applications cannot benefit from these simulators yet, as they still require an actual event camera. This work proposes simulation methods that improve the performance of event simulation by two orders of magnitude (making them real-time capable) while remaining competitive in the quality assessment.
翻訳日:2023-03-24 18:27:14 公開日:2023-03-23
# マスク視覚モデルを用いたエンドツーエンドビデオ言語変換器の実証的研究

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling ( http://arxiv.org/abs/2209.01540v3 )

ライセンス: Link先を確認
Tsu-Jui Fu and Linjie Li and Zhe Gan and Kevin Lin and William Yang Wang and Lijuan Wang and Zicheng Liu(参考訳) Masked Visual Modeling (MVM)は視覚前トレーニングに有効であることが最近証明されている。 ビデオ入力(例えば、マスク付きフレームモデリング)における同様の再構築目的が、ビデオ言語(vidl)事前トレーニングで検討されているが、以前の研究では、下流のパフォーマンスに大きな利益をもたらす真に効果的なmvm戦略を見いだせていない。 本研究では,VidL学習におけるMVMの可能性について,系統的に検討する。 具体的には、MVMトレーニングの監督をビデオピクセル空間に戻すことができる、完全なエンドツーエンドVIOLET(VIdeO-LanguagE Transformer)に基づく。 低レベル画素値と配向勾配から高レベル深度マップ,光フロー,離散的視覚トークン,潜時視覚特徴に至るまで,MVMの8つの異なる再構成対象を探索した。 我々は総合的な実験を行い、MVMの効果的なトレーニングにつながる要因について洞察を提供する。 実験により,MVM目標で事前学習したVIOLETv2は,ビデオ質問応答,ビデオキャプション,テキスト・ツー・ビデオ検索など,13のVidLベンチマークにおいて顕著な改善を実現している。

Masked visual modeling (MVM) has been recently proven effective for visual pre-training. While similar reconstructive objectives on video inputs (e.g., masked frame modeling) have been explored in video-language (VidL) pre-training, previous studies fail to find a truly effective MVM strategy that can largely benefit the downstream performance. In this work, we systematically examine the potential of MVM in the context of VidL learning. Specifically, we base our study on a fully end-to-end VIdeO-LanguagE Transformer (VIOLET), where the supervision from MVM training can be backpropagated to the video pixel space. In total, eight different reconstructive targets of MVM are explored, from low-level pixel values and oriented gradients to high-level depth maps, optical flow, discrete visual tokens, and latent visual features. We conduct comprehensive experiments and provide insights into the factors leading to effective MVM training, resulting in an enhanced model VIOLETv2. Empirically, we show VIOLETv2 pre-trained with MVM objective achieves notable improvements on 13 VidL benchmarks, ranging from video question answering, video captioning, to text-to-video retrieval.
翻訳日:2023-03-24 18:26:57 公開日:2023-03-23
# 新しいクラス発見におけるクラス間制約とクラス内制約のモデル化

Modeling Inter-Class and Intra-Class Constraints in Novel Class Discovery ( http://arxiv.org/abs/2210.03591v3 )

ライセンス: Link先を確認
Wenbin Li, Zhichen Fan, Jing Huo, Yang Gao(参考訳) 新たなクラス発見(NCD)は、クラス非結合なラベル付きデータセットから別の非ラベル付きデータセットに共通の知識を移行し、その内部に新しいクラス(クラスタ)を発見するモデルを学ぶことを目的としている。 多くの手法と詳細な訓練パイプライン、適切な目的が提案され、NCDタスクのパフォーマンスが大幅に向上した。 これらにもかかわらず、既存の手法がNCD設定の本質を十分に活用していないことが分かる。 そこで本稿では,NCDにおけるクラス間制約とクラス内制約の両方を対称なKullback-Leibler分散(sKLD)に基づいてモデル化する。 具体的には,ラベル付きクラスとラベル付きクラス間の不一致関係を効果的に活用するために,クラス間skld制約を提案する。 さらに,クラス内skld制約を提示することにより,サンプル間の関係性を明示的に制限し,同時にトレーニングプロセスの安定性を確保する。 我々は、CIFAR10, CIFAR100, ImageNetベンチマークの広範な実験を行い、我々の手法が技術の新たな状態を確立し、CIFAR100-50データセットにおける3.5%/3.7%のクラスタリング精度の改善をタスク認識/非依存評価プロトコルの下で達成できることを実証した。 コードはhttps://github.com/FanZhichen/NCD-IICで入手できる。

Novel class discovery (NCD) aims at learning a model that transfers the common knowledge from a class-disjoint labelled dataset to another unlabelled dataset and discovers new classes (clusters) within it. Many methods, as well as elaborate training pipelines and appropriate objectives, have been proposed and considerably boosted performance on NCD tasks. Despite all this, we find that the existing methods do not sufficiently take advantage of the essence of the NCD setting. To this end, in this paper, we propose to model both inter-class and intra-class constraints in NCD based on the symmetric Kullback-Leibler divergence (sKLD). Specifically, we propose an inter-class sKLD constraint to effectively exploit the disjoint relationship between labelled and unlabelled classes, enforcing the separability for different classes in the embedding space. In addition, we present an intra-class sKLD constraint to explicitly constrain the intra-relationship between a sample and its augmentations and ensure the stability of the training process at the same time. We conduct extensive experiments on the popular CIFAR10, CIFAR100 and ImageNet benchmarks and successfully demonstrate that our method can establish a new state of the art and can achieve significant performance improvements, e.g., 3.5%/3.7% clustering accuracy improvements on CIFAR100-50 dataset split under the task-aware/-agnostic evaluation protocol, over previous state-of-the-art methods. Code is available at https://github.com/FanZhichen/NCD-IIC.
翻訳日:2023-03-24 18:20:39 公開日:2023-03-23
# 凸・非凸サブ線形回帰とリーチ集合のデータ駆動学習への応用

Convex and Nonconvex Sublinear Regression with Application to Data-driven Learning of Reach Sets ( http://arxiv.org/abs/2210.01919v2 )

ライセンス: Link先を確認
Shadi Haddad and Abhishek Halder(参考訳) 有限データからその集合の支持関数を線形回帰を用いて近似することによりコンパクト集合を推定する。 サポート関数は、凸化の閉包を構成するコンパクト集合を一意的に特徴付け、部分線型である(凸と次数 1 の正等質)。 逆に、任意の部分線型函数はコンパクト集合の支持函数である。 この特性を利用して、コンパクトな集合を学習するタスクを、そのサポート関数を学ぶタスクに書き起こす。 本研究では,非凸計画による部分線形回帰を行う2つのアルゴリズムを提案する。 凸プログラミングのアプローチは二次プログラム(QP)を解くことである。 非凸プログラミングアプローチでは、入力サブ線形ニューラルネットワークをトレーニングする。 提案手法は,軌道データから設定値の入力不確実性を受ける制御力学の到達集合を学習するための数値例を用いて記述する。

We consider estimating a compact set from finite data by approximating the support function of that set via sublinear regression. Support functions uniquely characterize a compact set up to closure of convexification, and are sublinear (convex as well as positive homogeneous of degree one). Conversely, any sublinear function is the support function of a compact set. We leverage this property to transcribe the task of learning a compact set to that of learning its support function. We propose two algorithms to perform the sublinear regression, one via convex and another via nonconvex programming. The convex programming approach involves solving a quadratic program (QP). The nonconvex programming approach involves training a input sublinear neural network. We illustrate the proposed methods via numerical examples on learning the reach sets of controlled dynamics subject to set-valued input uncertainties from trajectory data.
翻訳日:2023-03-24 18:20:12 公開日:2023-03-23
# 平面深度:直交平面による自己監督深度推定

PlaneDepth: Self-supervised Depth Estimation via Orthogonal Planes ( http://arxiv.org/abs/2210.01612v2 )

ライセンス: Link先を確認
Ruoyu Wang, Zehao Yu and Shenghua Gao(参考訳) 複数の前頭平行面に基づく深度表現は、自己教師付き単眼深度推定(MDE)において顕著な結果を示した。 一方、このような表現は、前方-平行平面に垂直な地面の不連続性を引き起こし、これは自律運転における乾燥可能な空間の同定に有害である。 本稿では,垂直平面と接地平面を含む,新しい直交平面に基づくプレゼンテーションであるplanedepthを提案する。 平面Depthは入力画像の直交平面に基づくラプラシアン混合モデルを用いて深度分布を推定する。 これらの平面は、自己超越信号を提供するために参照ビューを合成するために使用される。 さらに,広範に使用されるリサイズおよびクロッピングデータ拡張が直交性仮定を損なうことから,平面予測が劣ることがわかった。 本稿では,事前定義された平面と予測カメラのポーズを補正するために,再サイズトリミング変換を明示的に構築することでこの問題に対処する。 さらに, 咬合面表現のロバスト性を高めるため, 両側咬合マスクを併用した拡張自己蒸留損失法を提案する。 直交平面の表現により、無人運転において重要な、教師なしの方法で地上平面を抽出することができる。 KITTIデータセットの大規模な実験により,本手法の有効性と有効性を示した。 コードはhttps://github.com/svip-lab/planedepthで入手できる。

Multiple near frontal-parallel planes based depth representation demonstrated impressive results in self-supervised monocular depth estimation (MDE). Whereas, such a representation would cause the discontinuity of the ground as it is perpendicular to the frontal-parallel planes, which is detrimental to the identification of drivable space in autonomous driving. In this paper, we propose the PlaneDepth, a novel orthogonal planes based presentation, including vertical planes and ground planes. PlaneDepth estimates the depth distribution using a Laplacian Mixture Model based on orthogonal planes for an input image. These planes are used to synthesize a reference view to provide the self-supervision signal. Further, we find that the widely used resizing and cropping data augmentation breaks the orthogonality assumptions, leading to inferior plane predictions. We address this problem by explicitly constructing the resizing cropping transformation to rectify the predefined planes and predicted camera pose. Moreover, we propose an augmented self-distillation loss supervised with a bilateral occlusion mask to boost the robustness of orthogonal planes representation for occlusions. Thanks to our orthogonal planes representation, we can extract the ground plane in an unsupervised manner, which is important for autonomous driving. Extensive experiments on the KITTI dataset demonstrate the effectiveness and efficiency of our method. The code is available at https://github.com/svip-lab/PlaneDepth.
翻訳日:2023-03-24 18:19:56 公開日:2023-03-23
# 時間-双方向状態形式によるポスト選択誘起量子現象の探求

Exploring postselection-induced quantum phenomena with time-bidirectional state formalism ( http://arxiv.org/abs/2210.01583v2 )

ライセンス: Link先を確認
Evgeniy O. Kiktenko(参考訳) ここでは、時間-双方向状態形式(tbsf)を一般化して、ポスト選択のない標準量子力学的形式化と、ポスト選択状態を扱う時間-対称性2状態(密度)ベクトル形式化を述べる。 提案手法では、時間二方向性状態と呼ばれる量子粒子の状態は、反対の時間方向に伝播する2つの粒子の結合状態と等価である。 一般の時間2方向状態に対して、一般化された測定結果の確率と、エルミート可観測物の平均値と弱値を導出する。 また,ポストセレクションや一般化された2状態(密度)ベクトルの特別な場合において,得られた表現が既知の表現に還元されることを示す。 そこで我々は,相互に偏りのない基底と対称的に完備な正の演算子評価尺度に基づくトモグラフィープロトコルを開発した。 最後に, 量子テレポーテーションプロトコルにおいて, 量子ビットの時間反転を追跡する手法を, クラウドアクセス可能な超伝導量子プロセッサで実現している。 その結果,古典的観測者の時間帯と異なる選択誘発キュービットの固有時間帯の存在を正当化し,雑音の存在下でのポストセレクションによって生じる量子現象を探索するTBSFの能力を実証した。

Here we present the time-bidirectional state formalism (TBSF) unifying in a general manner the standard quantum mechanical formalism with no postselection and the time-symmetrized two-state (density) vector formalism, which deals with postselected states. In the proposed approach, a quantum particle's state, called a time-bidirectional state, is equivalent to a joined state of two particles propagating in opposite time directions. For a general time-bidirectional state, we derive outcome probabilities of generalized measurements, as well as mean and weak values of Hermitian observables. We also show how the obtained expressions reduce to known ones in the special cases of no postselection and generalized two-state (density) vectors. Then we develop tomography protocols based on mutually unbiased bases and a symmetric informationally complete positive operator-valued measure, allowing experimental reconstruction of an unknown single qubit time-bidirectional state. Finally, we employ the developed techniques for tracking of a qubit's time-reversal journey in a quantum teleportation protocol realized with a cloud-accessible noisy superconducting quantum processor. The obtained results justify an existence of a postselection-induced qubit's proper time-arrow, which is different from the time-arrow of a classical observer, and demonstrate capabilities of the TBSF for exploring quantum phenomena brought forth by a postselection in the presence of noise.
翻訳日:2023-03-24 18:19:36 公開日:2023-03-23
# omnigrok:アルゴリズムデータを超えたグロークキング

Omnigrok: Grokking Beyond Algorithmic Data ( http://arxiv.org/abs/2210.01117v2 )

ライセンス: Link先を確認
Ziming Liu, Eric J. Michaud, Max Tegmark(参考訳) トレーニングデータに過度に適合した後、一般化が起こるアルゴリズムデータセットの異常な現象であるGrokkingは、いまだ解明されていない。 本研究の目的は,ニューラルネットワークの損失状況を分析し,学習とテストのミスマッチをグロッキングの原因とすることでグロッキングを理解することである。 トレーニングとテストの損失(モデルウェイト標準)がそれぞれ「L」と「U」によく似ているため、これを「LU機構」と呼ぶ。 この単純なメカニズムは、データサイズ依存、重量減衰依存、表現の出現など、グルーキングの多くの側面をうまく説明できます。 直感的な図に導かれることで、画像、言語、分子を含むタスクのグロッキングを誘発することができる。 逆方向では、アルゴリズムデータセットのグラッキングを排除できます。 グラフキングの劇的な性質を,アルゴリズムデータセットから表現学習へ分類する。

Grokking, the unusual phenomenon for algorithmic datasets where generalization happens long after overfitting the training data, has remained elusive. We aim to understand grokking by analyzing the loss landscapes of neural networks, identifying the mismatch between training and test losses as the cause for grokking. We refer to this as the "LU mechanism" because training and test losses (against model weight norm) typically resemble "L" and "U", respectively. This simple mechanism can nicely explain many aspects of grokking: data size dependence, weight decay dependence, the emergence of representations, etc. Guided by the intuitive picture, we are able to induce grokking on tasks involving images, language and molecules. In the reverse direction, we are able to eliminate grokking for algorithmic datasets. We attribute the dramatic nature of grokking for algorithmic datasets to representation learning.
翻訳日:2023-03-24 18:19:12 公開日:2023-03-23
# 対応分布とエピポーラ幾何による多視点物体ポーズ推定

Multi-view object pose estimation from correspondence distributions and epipolar geometry ( http://arxiv.org/abs/2210.00924v2 )

ライセンス: Link先を確認
Rasmus Laurvig Haugaard, Thorbj{\o}rn Mosekj{\ae}r Iversen(参考訳) 剛体オブジェクトを操作する多くの自動化タスクでは、オブジェクトのポーズを取得する必要がある。 単一のRGBまたはRGB-Dセンサを用いた視覚ベースのポーズ推定は、その広い適用性から特に人気がある。 しかし, 単一視点のポーズ推定は, 咬合, 自己閉塞, 反射など様々な現象によって課される奥行きあいまいさやあいまいさによって本質的に制限される。 複数のビューからの情報の集約は、これらの曖昧さを解決する可能性があるが、現在の最先端のマルチビューポーズ推定手法は、単一のビューのポーズ推定を集約するために複数のビューのみを使用するため、良いシングルビュー推定を得る必要がある。 本稿では,学習した2D-3D分布を,初期推定と任意修正の両面から集約する多視点ポーズ推定手法を提案する。 本手法は2d-3d対応分布を用いてエピポーラ制約下での3d-3d対応の確率的サンプリングを行う。 このtlessデータセットの評価により,提案手法は,single-view法と比較してポーズ推定誤差を80~91%低減し,5~8 view法と比較しても,t-lessの最先端の結果を4 viewで示す。

In many automation tasks involving manipulation of rigid objects, the poses of the objects must be acquired. Vision-based pose estimation using a single RGB or RGB-D sensor is especially popular due to its broad applicability. However, single-view pose estimation is inherently limited by depth ambiguity and ambiguities imposed by various phenomena like occlusion, self-occlusion, reflections, etc. Aggregation of information from multiple views can potentially resolve these ambiguities, but the current state-of-the-art multi-view pose estimation method only uses multiple views to aggregate single-view pose estimates, and thus rely on obtaining good single-view estimates. We present a multi-view pose estimation method which aggregates learned 2D-3D distributions from multiple views for both the initial estimate and optional refinement. Our method performs probabilistic sampling of 3D-3D correspondences under epipolar constraints using learned 2D-3D correspondence distributions which are implicitly trained to respect visual ambiguities such as symmetry. Evaluation on the T-LESS dataset shows that our method reduces pose estimation errors by 80-91% compared to the best single-view method, and we present state-of-the-art results on T-LESS with four views, even compared with methods using five and eight views.
翻訳日:2023-03-24 18:18:57 公開日:2023-03-23
# Si-MOS量子ドットにおけるフロッピングモードスピン量子ビット

Flopping-mode spin qubit in a Si-MOS quantum dot ( http://arxiv.org/abs/2209.14531v2 )

ライセンス: Link先を確認
Rui-Zi Hu, Rong-Long Ma, Ming Ni, Yuan Zhou, Ning Chu, Wei-Zhu Liao, Zhen-Zhen Kong, Gang Cao, Gui-Lei Wang, Hai-Ou Li and Guo-Ping Guo(参考訳) シリコン金属酸化物半導体(Si-MOS)量子ドット(QD)に基づくスピン量子ビットは、大規模量子コンピュータにとって有望なプラットフォームである。 QDのスピン量子ビットを制御するために、近年は電気双極子スピン共鳴(EDSR)がよく使われている。 二重量子ドット電荷状態における電子の非局在化により、フラップモードedsrはsi/sige qdsで実現されている。 ここでは、エルザーマン単発読み出しによるSi-MOS QDのフローッピングモードスピン量子ビットを実演する。 固定駆動力でデチューニングを変更すると、s字形スピン共鳴周波数、スピンラビ周波数の桁違いの改善、およびほぼ一定スピンデフォーカス時間が得られる。 本結果は,Si-MOS QDの制御精度が高い大規模スピン量子ビットシステムへの経路を提供する。

Spin qubits based on silicon metal-oxide semiconductor (Si-MOS) quantum dots (QDs) are promising platforms for large-scale quantum computers. To control spin qubits in QDs, electric dipole spin resonance (EDSR) has been most commonly used in recent years. By delocalizing an electron across a double quantum dots charge state, flopping-mode EDSR has been realized in Si/SiGe QDs. Here, we demonstrate a flopping-mode spin qubit in a Si-MOS QD via Elzerman single-shot readout. When changing the detuning with a fixed drive power, we achieve s-shape spin resonance frequencies, an order of magnitude improvement in the spin Rabi frequencies, and virtually constant spin dephasing times. Our results offer a route to large-scale spin qubit systems with higher control fidelity in Si-MOS QDs.
翻訳日:2023-03-24 18:18:33 公開日:2023-03-23
# 電力網の電力線通信における新しいデータの可能性の活用

Leveraging the Potential of Novel Data in Power Line Communication of Electricity Grids ( http://arxiv.org/abs/2209.12693v2 )

ライセンス: Link先を確認
Christoph Balada, Max Bondorf, Sheraz Ahmed, Andreas Dengela, Markus Zdrallek(参考訳) 電力網は、たとえ日常的に意識されていなくても、日常生活の重要な部分となっている。 私たちは通常、電力網が使えなくなるまでには、この依存に特に気付くだけです。 しかし、再生可能エネルギー(太陽光発電、風力タービンなど)への移行や、複雑な負荷プロファイル(電気自動車、家庭用バッテリーシステムなど)を持つエネルギー消費の増加といった大きな変化は、電力網に新たな課題をもたらしている。 これらの課題に対処するために,ブロードバンド電力線通信(plc)インフラにおける計測に基づく2つの最初のits-kindデータセットを提案する。 両方のデータセットFiN-1とFiN-2は、約440万人を供給し、5100以上のセンサーで収集された13億以上のデータポイントを示すドイツの低電圧グリッドの一部で実際に使用中に収集された。 さらに, 資産管理, グリッド状態の可視化, 予測, 予測保守, 新規性検出において, この種のデータの利点を浮き彫りにするために, さまざまなユースケースを提示する。 これらのアプリケーションでは、従来のアプローチでは捉えられない実世界のデータからリッチな情報を抽出するために、新しい機械学習アーキテクチャを使うことを特に強調する。 最初の大規模実世界のデータセットを公開することで、これまで認識されていなかったPLCデータの可能性に光を当て、さまざまなユースケースを提示して低電圧分布ネットワークにおける機械学習に基づく研究を強調することを目指している。

Electricity grids have become an essential part of daily life, even if they are often not noticed in everyday life. We usually only become particularly aware of this dependence by the time the electricity grid is no longer available. However, significant changes, such as the transition to renewable energy (photovoltaic, wind turbines, etc.) and an increasing number of energy consumers with complex load profiles (electric vehicles, home battery systems, etc.), pose new challenges for the electricity grid. To address these challenges, we propose two first-of-its-kind datasets based on measurements in a broadband powerline communications (PLC) infrastructure. Both datasets FiN-1 and FiN-2, were collected during real practical use in a part of the German low-voltage grid that supplies around 4.4 million people and show more than 13 billion datapoints collected by more than 5100 sensors. In addition, we present different use cases in asset management, grid state visualization, forecasting, predictive maintenance, and novelty detection to highlight the benefits of these types of data. For these applications, we particularly highlight the use of novel machine learning architectures to extract rich information from real-world data that cannot be captured using traditional approaches. By publishing the first large-scale real-world dataset, we aim to shed light on the previously largely unrecognized potential of PLC data and emphasize machine-learning-based research in low-voltage distribution networks by presenting a variety of different use cases.
翻訳日:2023-03-24 18:18:15 公開日:2023-03-23
# 混合状態の自動駆除法

Automatic hermiticity for mixed states ( http://arxiv.org/abs/2209.11619v2 )

ライセンス: Link先を確認
Keiichi Nagao, Holger Bech Nielsen(参考訳) 筆者らは従来, 改良内積 $i_q$ に関して, 適切に選択されたエルミート作用素 $q$ を用いて, 与えられた非正規ハミルトン正規化を行うハーミートであるハミルトニアンを効果的に得るためのメカニズムを提案してきた。 純粋な状態について研究しました このレターでは、同様のメカニズムは密度行列を導入することで混合状態に対しても作用し、その性質を未来を暗示しない理論と未来を暗示する理論の両方で明示的に研究することで作用することを示した。 特に、初期時刻の過去の状態が$t_a$であるだけでなく、最終時刻に$t_b$が与えられる未来状態が与えられる場合、いくつかの候補を研究し、その積のトレースと演算子${\cal o}$が${\cal o}$の正規化行列要素に一致するように、将来の状態と過去の状態の両方からなる'skew density matrix'を導入する。 現在、$i_q$ で定義されるスキュー密度行列は、大きめの $t_b-t$ と大きめの $t-t_a$ は、過去の状態のアンサンブルのみからなる別の密度行列に対応し、大きめの $t-t_a$ に対して別の内積 $i_{q_j}$ で定義される。

We previously proposed a mechanism to effectively obtain, after a long time development, a Hamiltonian being Hermitian with regard to a modified inner product $I_Q$ that makes a given non-normal Hamiltonian normal by using an appropriately chosen Hermitian operator $Q$. We studied it for pure states. In this letter we show that a similar mechanism also works for mixed states by introducing density matrices to describe them and investigating their properties explicitly both in the future-not-included and future-included theories. In particular, in the latter, where not only a past state at the initial time $T_A$ but also a future state at the final time $T_B$ is given, we study a couple of candidates for it, and introduce a ``skew density matrix'' composed of both ensembles of the future and past states such that the trace of the product of it and an operator ${\cal O}$ matches a normalized matrix element of ${\cal O}$. We argue that the skew density matrix defined with $I_Q$ at the present time $t$ for large $T_B-t$ and large $t-T_A$ approximately corresponds to another density matrix composed of only an ensemble of past states and defined with another inner product $I_{Q_J}$ for large $t-T_A$.
翻訳日:2023-03-24 18:17:48 公開日:2023-03-23
# 手話認識と翻訳のための2ストリームネットワーク

Two-Stream Network for Sign Language Recognition and Translation ( http://arxiv.org/abs/2211.01367v2 )

ライセンス: Link先を確認
Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak(参考訳) 手話言語は、情報伝達に手動の調音と非操作要素を使用する視覚言語である。 手話の認識と翻訳では、既存のアプローチの大部分は、rgbビデオを直接隠れた表現にエンコードする。 しかし、RGBビデオは、かなりの視覚的冗長性を持つ生信号であり、エンコーダは手話理解の鍵となる情報を見落としてしまう。 この問題を緩和し、ハンドシェイプやボディムーブメントといったドメイン知識をより深く取り入れるために、2つの別々のストリームを含むデュアルビジュアルエンコーダを導入し、生の動画とオフセットのキーポイント推定器によって生成されたキーポイントシーケンスの両方をモデル化する。 この2つのストリームを相互に相互作用させるため,双方向の側方接続,補助的な監視を伴う信号ピラミッドネットワーク,フレームレベルの自己蒸留など,さまざまな手法を探索する。 結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識(SLR)に適している。 TwoStream-SLRは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換(SLT)モデルであるTwoStream-SLTに拡張される。 実験により,TwoStream-SLRとTwoStream-SLTは,Phoenix-2014,Phoenix-2014T,CSL-Dailyといった一連のデータセットに対して,SLRおよびSLTタスクの最先端性能を実現した。 コードとモデルは、https://github.com/FangyunWei/SLRT.comで入手できる。

Sign languages are visual languages using manual articulations and non-manual elements to convey information. For sign language recognition and translation, the majority of existing approaches directly encode RGB videos into hidden representations. RGB videos, however, are raw signals with substantial visual redundancy, leading the encoder to overlook the key information for sign language understanding. To mitigate this problem and better incorporate domain knowledge, such as handshape and body movement, we introduce a dual visual encoder containing two separate streams to model both the raw videos and the keypoint sequences generated by an off-the-shelf keypoint estimator. To make the two streams interact with each other, we explore a variety of techniques, including bidirectional lateral connection, sign pyramid network with auxiliary supervision, and frame-level self-distillation. The resulting model is called TwoStream-SLR, which is competent for sign language recognition (SLR). TwoStream-SLR is extended to a sign language translation (SLT) model, TwoStream-SLT, by simply attaching an extra translation network. Experimentally, our TwoStream-SLR and TwoStream-SLT achieve state-of-the-art performance on SLR and SLT tasks across a series of datasets including Phoenix-2014, Phoenix-2014T, and CSL-Daily. Code and models are available at: https://github.com/FangyunWei/SLRT.
翻訳日:2023-03-24 18:11:02 公開日:2023-03-23
# Deep Learning Interpretabilityのための相互情報のロバストな推定法

A robust estimator of mutual information for deep learning interpretability ( http://arxiv.org/abs/2211.00024v2 )

ライセンス: Link先を確認
Davide Piras, Hiranya V. Peiris, Andrew Pontzen, Luisa Lucie-Smith, Ningyuan Guo, Brian Nord(参考訳) 我々は,情報理論の確立した計量である相互情報(MI)を用いて,深層学習モデルの内部動作を解釈する。 有限個のサンプルからMIを正確に推定するために,GMM-MI($``$Jimmie$"$)を提案する。 GMM-MIは計算効率が高く、ハイパーパラメータの選択に頑健であり、有限サンプルサイズによるMI推定の不確実性を提供する。 我々は,GMM-MIを具体的真理MIが知られている玩具データに基づいて広範囲に検証し,その性能を既存の相互情報推定器と比較した。 次に、表現学習の文脈におけるMI推定器の使用を実演し、高度に非線形なプロセスを記述する合成データや物理データセットを扱う。 我々は,有意な圧縮(遅延)表現内に高次元データをエンコードする深層学習モデルを訓練し,GMM-MIを用いて潜伏変数間の絡み合いのレベルと関連する物理量との関係を定量化し,潜伏表現の解釈可能性を高める。 GMM-MIを公開しています。

We develop the use of mutual information (MI), a well-established metric in information theory, to interpret the inner workings of deep learning models. To accurately estimate MI from a finite number of samples, we present GMM-MI (pronounced $``$Jimmie$"$), an algorithm based on Gaussian mixture models that can be applied to both discrete and continuous settings. GMM-MI is computationally efficient, robust to the choice of hyperparameters and provides the uncertainty on the MI estimate due to the finite sample size. We extensively validate GMM-MI on toy data for which the ground truth MI is known, comparing its performance against established mutual information estimators. We then demonstrate the use of our MI estimator in the context of representation learning, working with synthetic data and physical datasets describing highly non-linear processes. We train deep learning models to encode high-dimensional data within a meaningful compressed (latent) representation, and use GMM-MI to quantify both the level of disentanglement between the latent variables, and their association with relevant physical quantities, thus unlocking the interpretability of the latent representation. We make GMM-MI publicly available.
翻訳日:2023-03-24 18:10:39 公開日:2023-03-23
# 対称性, 平らなミニマおよび保存された勾配流量

Symmetries, flat minima, and the conserved quantities of gradient flow ( http://arxiv.org/abs/2210.17216v2 )

ライセンス: Link先を確認
Bo Zhao, Iordan Ganev, Robin Walters, Rose Yu, Nima Dehmamy(参考訳) ディープ・ネットワークの損失景観に関する実証的研究により、多くのローカル・ミニマが低損失の谷を通っていることが明らかになった。 しかし、これらの谷の理論的起源についてはほとんど分かっていない。 パラメータ空間における連続対称性を見つけるための一般的な枠組みについて述べる。 我々のフレームワークはアクティベーション関数の等価性を使用し、異なる層アーキテクチャに適用できる。 この枠組みを非線形ニューラルネットワークに一般化するために,非線形データ依存対称性を新たに導入する。 これらの対称性は、新しいサンプルでも同様に機能するように訓練されたモデルを変換することができる。 次に、線形対称性に関連する保存量を用いて、低損失谷に沿った座標を定義することができることを示す。 保存された量は、共通の初期化法を用いることで、勾配流が大域最小値のごく一部しか探索しないことを示すのに役立つ。 保存量と最小の収束率と鋭さを関連付けることにより、初期化が収束性と一般化可能性にどのように影響するかを洞察する。

Empirical studies of the loss landscape of deep networks have revealed that many local minima are connected through low-loss valleys. Yet, little is known about the theoretical origin of such valleys. We present a general framework for finding continuous symmetries in the parameter space, which carve out low-loss valleys. Our framework uses equivariances of the activation functions and can be applied to different layer architectures. To generalize this framework to nonlinear neural networks, we introduce a novel set of nonlinear, data-dependent symmetries. These symmetries can transform a trained model such that it performs similarly on new samples, which allows ensemble building that improves robustness under certain adversarial attacks. We then show that conserved quantities associated with linear symmetries can be used to define coordinates along low-loss valleys. The conserved quantities help reveal that using common initialization methods, gradient flow only explores a small part of the global minimum. By relating conserved quantities to convergence rate and sharpness of the minimum, we provide insights on how initialization impacts convergence and generalizability.
翻訳日:2023-03-24 18:10:17 公開日:2023-03-23
# グラフ再構成を用いたコンテキスト・ツー・ベクターによる単語埋め込みの改善

Using Context-to-Vector with Graph Retrofitting to Improve Word Embeddings ( http://arxiv.org/abs/2210.16848v2 )

ライセンス: Link先を確認
Jiangbin Zheng, Yile Wang, Ge Wang, Jun Xia, Yufei Huang, Guojiang Zhao, Yue Zhang, Stan Z. Li(参考訳) 大規模な事前訓練されたモデルから生成されるコンテキスト化された埋め込みは多くのタスクでうまく機能するが、従来の静的埋め込み(例えば、Skip-gram、Word2Vec)は計算コストの低減、デプロイメントの容易さ、安定性のために、低リソースで軽量な設定において重要な役割を果たす。 本稿では,単語埋め込みを改善することを目的とする。 1) 既存の事前学習モデルからのよりコンテキスト的な情報を、Context-to-Vecと呼ぶSkip-gramフレームワークに組み込む。 2)事前同義語知識と重み付きベクトル分布を用いて,トレーニングに依存しない静的組込みに対する後処理レトロフィッティング法を提案する。 本手法は,外在的および内在的タスクを通じて,ベースラインを大きなマージンで上回ることを示す。

Although contextualized embeddings generated from large-scale pre-trained models perform well in many tasks, traditional static embeddings (e.g., Skip-gram, Word2Vec) still play an important role in low-resource and lightweight settings due to their low computational cost, ease of deployment, and stability. In this paper, we aim to improve word embeddings by 1) incorporating more contextual information from existing pre-trained models into the Skip-gram framework, which we call Context-to-Vec; 2) proposing a post-processing retrofitting method for static embeddings independent of training by employing priori synonym knowledge and weighted vector distribution. Through extrinsic and intrinsic tasks, our methods are well proven to outperform the baselines by a large margin.
翻訳日:2023-03-24 18:09:59 公開日:2023-03-23
# 過パラメータ再帰ニューラルネットを用いた低次元状態空間の学習

Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Nets ( http://arxiv.org/abs/2210.14064v3 )

ライセンス: Link先を確認
Edo Cohen-Karlik, Itamar Menuhin-Gruman, Raja Giryes, Nadav Cohen and Amir Globerson(参考訳) ディープラーニングの過剰パラメータ化(overparameterization in deep learning)は、トレーニングされたニューラルネットワーク(nn)がさまざまな方法でトレーニングデータに適合する表現能力を持つ設定を指すことが多い。 リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)では、トレーニングで見られるシーケンス長を一般化する多くのソリューションをモデルが示せるという意味で、オーバーパラメータ化(overparameterization)という追加層が存在する。 多くの研究は、オーバーパラメータ化されたnnによく一般化された解に適合する勾配降下(gd)の傾向を研究している。 一方、過パラメータ化されたRNNと外挿法に適合する傾向は、最近発見されたばかりであり、あまり理解されていない。 本稿では、過パラメータ化線形RNNに適用した場合のGDの外挿特性を解析する。 短期記憶に対する暗黙のバイアスを示唆する最近の議論とは対照的に, 長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。 私たちの結果は、gd(小さなステップサイズとほぼゼロのイニシャライズ)が、統計からモーメント問題(モーメントからの確率分布の再確認)の文脈で開発されたツールと同様に、ある種のバランスの維持に努めていることを示す動的特徴付けに依存しています。 実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。

Overparameterization in deep learning typically refers to settings where a trained neural network (NN) has representational capacity to fit the training data in many ways, some of which generalize well, while others do not. In the case of Recurrent Neural Networks (RNNs), there exists an additional layer of overparameterization, in the sense that a model may exhibit many solutions that generalize well for sequence lengths seen in training, some of which extrapolate to longer sequences, while others do not. Numerous works have studied the tendency of Gradient Descent (GD) to fit overparameterized NNs with solutions that generalize well. On the other hand, its tendency to fit overparameterized RNNs with solutions that extrapolate has been discovered only recently and is far less understood. In this paper, we analyze the extrapolation properties of GD when applied to overparameterized linear RNNs. In contrast to recent arguments suggesting an implicit bias towards short-term memory, we provide theoretical evidence for learning low-dimensional state spaces, which can also model long-term memory. Our result relies on a dynamical characterization which shows that GD (with small step size and near-zero initialization) strives to maintain a certain form of balancedness, as well as on tools developed in the context of the moment problem from statistics (recovery of a probability distribution from its moments). Experiments corroborate our theory, demonstrating extrapolation via learning low-dimensional state spaces with both linear and non-linear RNNs.
翻訳日:2023-03-24 18:09:05 公開日:2023-03-23
# 半コヒーレント状態を超えて:単一または複数量子ビット上での最適コヒーレント回転の場状態

Beyond transcoherent states: Field states for effecting optimal coherent rotations on single or multiple qubits ( http://arxiv.org/abs/2210.12167v2 )

ライセンス: Link先を確認
Aaron Z. Goldberg, Aephraim M. Steinberg, Khabat Heshami(参考訳) 半古典的に、レーザーパルスは原子系の任意の変換を実装するために使用され、量子力学的には、残留原子場絡み合いはこの約束を損なう。 トランスコヒーレント状態(transcoherent state)は、初期状態または励起状態において原子の完全なコヒーレンスを生成することにより、完全に量子化された状態においてこの問題を修正する場状態である。 第一に、原子をその基底または励起状態から、残差の原子場が絡み合うことなくブロッホ球上の任意の点へ変換する場状態を導入する。 角度$\theta$ による回転を行うための最も強いパルスは、$\rm{sinc}\theta$ の係数で光子数の分散で圧縮される。 次に、任意の未知の初期状態において原子に$\theta$パルスを課すための最適なガウス場状態が、$\rm{sinc}\tfrac{\theta}{2}$であることを示す。 第3に、これらの研究を複数の原子と同時に相互作用する場に拡張し、全ての原子に$\tfrac{\pi}{2}$のパルスを同時に行うために$\tfrac{\pi}{2}$でスクイーズする数が最適であることを発見し、原子数と光子数の比率の順に小さな補正を加える。 最後に、m$-光子吸収を含む非線形相互作用を通じて、$\theta$ による任意の回転を最もよく行うフィールド状態を見つけ、同じ最適スキーズ係数が $\rm{sinc}\theta$ となる。 したがって、様々な原子-場相互作用におけるバックアクションは、最適量で制御場を絞ることで緩和することができる。

Semiclassically, laser pulses can be used to implement arbitrary transformations on atomic systems; quantum mechanically, residual atom-field entanglement spoils this promise. Transcoherent states are field states that fix this problem in the fully quantized regime by generating perfect coherence in an atom initially in its ground or excited state. We extend this fully quantized paradigm in four directions: First, we introduce field states that transform an atom from its ground or excited state to any point on the Bloch sphere without residual atom-field entanglement. The best strong pulses for carrying out rotations by angle $\theta$ are are squeezed in photon-number variance by a factor of $\rm{sinc}\theta$. Next, we investigate implementing rotation gates, showing that the optimal Gaussian field state for enacting a $\theta$ pulse on an atom in an arbitrary, unknown initial state is number squeezed by less: $\rm{sinc}\tfrac{\theta}{2}$. Third, we extend these investigations to fields interacting with multiple atoms simultaneously, discovering once again that number squeezing by $\tfrac{\pi}{2}$ is optimal for enacting $\tfrac{\pi}{2}$ pulses on all of the atoms simultaneously, with small corrections on the order of the ratio of the number of atoms to the average number of photons. Finally, we find field states that best perform arbitrary rotations by $\theta$ through nonlinear interactions involving $m$-photon absorption, where the same optimal squeezing factor is found to be $\rm{sinc}\theta$. Backaction in a wide variety of atom-field interactions can thus be mitigated by squeezing the control fields by optimal amounts.
翻訳日:2023-03-24 18:08:37 公開日:2023-03-23
# 自己監督型映像表現学習のためのマスケモーション符号化

Masked Motion Encoding for Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2210.06096v2 )

ライセンス: Link先を確認
Xinyu Sun, Peihao Chen, Liangwei Chen, Changhao Li, Thomas H. Li, Mingkui Tan and Chuang Gan(参考訳) ラベルのないビデオから識別的なビデオ表現を学ぶことは難しいが、ビデオ分析には不可欠である。 最新の試みは,マスキング領域の出現内容を予測することによって,表現モデルを学ぶことである。 しかし、外観内容が単一のフレームから容易に再構成できるため、外観内容のマスキングや復元だけでは時間的手がかりをモデル化するには不十分である。 この限界を克服するため,我々は,時間的手がかりを探索するために出現情報と運動情報の両方を再構成する新しい事前学習パラダイムであるmasked motion encoding (mme)を提案する。 MMEでは、表現性能を改善するための2つの重要な課題に取り組むことに重点を置いている。 1) 複数のフレームにまたがる長期的動きをうまく表現する方法,及び 2) まばらなサンプルビデオから微細な時間的手がかりを得る方法。 物体の位置変化や形状変化を追跡することで、人間は行動を認識することができるという事実に動機づけられ、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築する。 さらに,スパース映像の入力を考慮し,空間的・時間的両面の濃密な運動軌跡の再構成を行う。 我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かい動きの詳細を予測できる。 コードはhttps://github.com/XinyuSun/MMEで入手できる。

How to learn discriminative video representation from unlabeled videos is challenging but crucial for video analysis. The latest attempts seek to learn a representation model by predicting the appearance contents in the masked regions. However, simply masking and recovering appearance contents may not be sufficient to model temporal clues as the appearance contents can be easily reconstructed from a single frame. To overcome this limitation, we present Masked Motion Encoding (MME), a new pre-training paradigm that reconstructs both appearance and motion information to explore temporal clues. In MME, we focus on addressing two critical challenges to improve the representation performance: 1) how to well represent the possible long-term motion across multiple frames; and 2) how to obtain fine-grained temporal clues from sparsely sampled videos. Motivated by the fact that human is able to recognize an action by tracking objects' position changes and shape changes, we propose to reconstruct a motion trajectory that represents these two kinds of change in the masked regions. Besides, given the sparse video input, we enforce the model to reconstruct dense motion trajectories in both spatial and temporal dimensions. Pre-trained with our MME paradigm, the model is able to anticipate long-term and fine-grained motion details. Code is available at https://github.com/XinyuSun/MME.
翻訳日:2023-03-24 18:08:00 公開日:2023-03-23
# 瞬時容積型頭部アバター

Instant Volumetric Head Avatars ( http://arxiv.org/abs/2211.12499v2 )

ライセンス: Link先を確認
Wojciech Zielonka, Timo Bolkart, Justus Thies(参考訳) 本稿では,フォトリアリスティックなデジタルアバターを瞬時に再構築するための新しいアプローチであるinsta(insta)を提案する。 INSTAは、パラメトリック顔モデルの周りに埋め込まれた神経グラフィックスプリミティブに基づいて、動的神経放射場をモデル化する。 我々のパイプラインは、異なる表現とビューで対象を観察する単一の単眼のRGBポートレートビデオに基づいて訓練されている。 最先端の手法では,アバターのトレーニングに数日を要するが,最新のGPUハードウェアでは10分以内でデジタルアバターを再構築することができる。 さらに、斬新なポーズや表現のインタラクティブなレンダリングを可能にする。 パラメトリックフェースモデルに先立って幾何を利用することにより、INSTAが未知のポーズに外挿することを示す。 様々な被験者の定量的および質的研究において、INSTAはレンダリング品質とトレーニング時間に関する最先端の手法より優れている。

We present Instant Volumetric Head Avatars (INSTA), a novel approach for reconstructing photo-realistic digital avatars instantaneously. INSTA models a dynamic neural radiance field based on neural graphics primitives embedded around a parametric face model. Our pipeline is trained on a single monocular RGB portrait video that observes the subject under different expressions and views. While state-of-the-art methods take up to several days to train an avatar, our method can reconstruct a digital avatar in less than 10 minutes on modern GPU hardware, which is orders of magnitude faster than previous solutions. In addition, it allows for the interactive rendering of novel poses and expressions. By leveraging the geometry prior of the underlying parametric face model, we demonstrate that INSTA extrapolates to unseen poses. In quantitative and qualitative studies on various subjects, INSTA outperforms state-of-the-art methods regarding rendering quality and training time.
翻訳日:2023-03-24 18:01:35 公開日:2023-03-23
# ビジュアルプロンプティングの理解と改善 - ラベルマッピングの視点から

Understanding and Improving Visual Prompting: A Label-Mapping Perspective ( http://arxiv.org/abs/2211.11635v4 )

ライセンス: Link先を確認
Aochuan Chen, Yuguang Yao, Pin-Yu Chen, Yihua Zhang, Sijia Liu(参考訳) 我々は視覚タスクの入力プロンプト技術である視覚プロンプト(VP)を再検討し前進する。 VPは、(入力摂動パターンの観点で)普遍的なプロンプトを下流のデータポイントに組み込むことで、固定されたトレーニング済みのソースモデルをプログラムして、ターゲットドメインの下流タスクを達成できる。 しかし、なぜVPが、ソースクラスとターゲットクラスの間のルールレスラベルマッピング(LM)でさえ有効であるのかは、いまだ解明されていない。 LMはVPとどのように関連していますか? そして、そのような関係を利用してターゲットタスクの精度を向上する方法。 我々は、LMがVPに与える影響を考察し、LMのより良い「品質」(マッピング精度と説明による評価)がVPの有効性を一貫して改善できるという肯定的な回答を提供する。 これは、LMの要素が欠落していた以前の技術とは対照的である。 LMを最適化するために、新たなVPフレームワークであるILM-VP(iterative label mapping-based visual prompting)を提案し、ソースラベルをターゲットラベルに自動的に再マップし、VPの目標タスク精度を徐々に改善する。 さらに,コントラッシブ言語画像事前訓練(CLIP)モデルを用いて,CLIPのテキスト選択を支援するためのLMプロセスの統合と,目標タスクの精度の向上を提案する。 広範な実験により,提案手法が最先端vp法を大きく上回ることを示した。 以下に示すように、ImageNet-pretrained ResNet-18を13のターゲットタスクに再プログラミングする場合、我々の手法はベースラインをかなり上回り、例えば、ターゲットのFlowers102とCIFAR100データセットへの変換学習の精度が7.9%と6.7%向上している。 さらに、CLIPベースのVPに関する提案では、Flowers102とDTDの精度がそれぞれ13.7%と7.1%向上している。 私たちのコードはhttps://github.com/OPTML-Group/ILM-VPで利用可能です。

We revisit and advance visual prompting (VP), an input prompting technique for vision tasks. VP can reprogram a fixed, pre-trained source model to accomplish downstream tasks in the target domain by simply incorporating universal prompts (in terms of input perturbation patterns) into downstream data points. Yet, it remains elusive why VP stays effective even given a ruleless label mapping (LM) between the source classes and the target classes. Inspired by the above, we ask: How is LM interrelated with VP? And how to exploit such a relationship to improve its accuracy on target tasks? We peer into the influence of LM on VP and provide an affirmative answer that a better 'quality' of LM (assessed by mapping precision and explanation) can consistently improve the effectiveness of VP. This is in contrast to the prior art where the factor of LM was missing. To optimize LM, we propose a new VP framework, termed ILM-VP (iterative label mapping-based visual prompting), which automatically re-maps the source labels to the target labels and progressively improves the target task accuracy of VP. Further, when using a contrastive language-image pretrained (CLIP) model, we propose to integrate an LM process to assist the text prompt selection of CLIP and to improve the target task accuracy. Extensive experiments demonstrate that our proposal significantly outperforms state-of-the-art VP methods. As highlighted below, we show that when reprogramming an ImageNet-pretrained ResNet-18 to 13 target tasks, our method outperforms baselines by a substantial margin, e.g., 7.9% and 6.7% accuracy improvements in transfer learning to the target Flowers102 and CIFAR100 datasets. Besides, our proposal on CLIP-based VP provides 13.7% and 7.1% accuracy improvements on Flowers102 and DTD respectively. Our code is available at https://github.com/OPTML-Group/ILM-VP.
翻訳日:2023-03-24 18:01:23 公開日:2023-03-23
# ソフトウェア工学における統計的因果推論の応用

Applications of statistical causal inference in software engineering ( http://arxiv.org/abs/2211.11482v3 )

ライセンス: Link先を確認
Julien Siebert(参考訳) 本稿では,統計的因果推論手法を適用したソフトウェア工学における既存の研究を概観する。 これらの手法は観測データから因果効果を推定することを目的としている。 2010年から2022年にかけて32の論文が出版された。 その結果,統計的因果推論手法の適用は比較的最近であり,それに対応する研究コミュニティは比較的断片化されている。

This paper reviews existing work in software engineering that applies statistical causal inference methods. These methods aim at estimating causal effects from observational data. The review covers 32 papers published between 2010 and 2022. Our results show that the application of statistical causal inference methods is relatively recent and that the corresponding research community remains relatively fragmented.
翻訳日:2023-03-24 18:00:53 公開日:2023-03-23
# 30pT/$\sqrt{\textrm{Hz}}=感度を持つ繊維結合ダイヤモンド磁性体

Fiber-coupled Diamond Magnetometry with an Unshielded 30 pT/$\sqrt{\textrm{Hz}}$ Sensitivity ( http://arxiv.org/abs/2211.09170v2 )

ライセンス: Link先を確認
S. M. Graham (1 and 2), A. T. M. A. Rahman (1), L. Munn (1), R. L. Patel (1 and 2), A. J. Newman (1 and 2), C. J. Stephen (1), G. Colston (1), A. Nikitin (1), A. M. Edmonds (3), D. J. Twitchen (3), M. L. Markham (3), G. W. Morley (1 and 2) ((1) Department of Physics, University of Warwick, Coventry, United Kingdom (2) Diamond Science and Technology Centre for Doctoral Training, University of Warwick, Coventry, United Kingdom (3) Element Six Innovation, Fermi Avenue, Harwell Oxford, Oxfordshire, United Kingdom)(参考訳) ダイヤモンド中の窒素空孔中心(NVC)のアンサンブルは、感度磁力測定に使用できる。 本研究では、(30$\pm$10) pT/$\sqrt{\textrm{Hz}}$(10 - 500)-Hz帯の非シールド感度を有する繊維結合型NVC磁気センサを提案する。 この感度は、比較的高い緑から赤への光子変換効率、[100]バイアス場アライメント、マイクロ波およびロックイン増幅器(LIA)パラメータ最適化、およびバランスの取れた超微細励起スキームによって実現される。 さらに、低ひずみの$^{12}\textrm{C}$ダイヤモンドとともにマイクロ波伝送には炭化ケイ素(SiC)熱スプレッダーが使用され、そのうちの1つが一般的なモードノイズキャンセリングのための第2の磁気非感応性蛍光収集センサヘッドに配置されている。 磁力計は、真空ポンプのような源からの信号を最大2m離れた方向で検出できるが、完全なデッドゾーンは存在せず、リモートセンシングでの使用の可能性を示している。

Ensembles of nitrogen vacancy centres (NVCs) in diamond can be employed for sensitive magnetometry. In this work we present a fiber-coupled NVC magnetometer with an unshielded sensitivity of (30 $\pm$ 10) pT/$\sqrt{\textrm{Hz}}$ in a (10 - 500)-Hz frequency range. This sensitivity is enabled by a relatively high green-to-red photon conversion efficiency, the use of a [100] bias field alignment, microwave and lock-in amplifier (LIA) parameter optimisation, as well as a balanced hyperfine excitation scheme. Furthermore, a silicon carbide (SiC) heat spreader is used for microwave delivery, alongside low-strain $^{12}\textrm{C}$ diamonds, one of which is placed in a second magnetically insensitive fluorescence collecting sensor head for common-mode noise cancellation. The magnetometer is capable of detecting signals from sources such as a vacuum pump up to 2 m away, with some orientation dependence but no complete dead zones, demonstrating its potential for use in remote sensing applications.
翻訳日:2023-03-24 18:00:31 公開日:2023-03-23
# 潜在空間における共起バイアス調整のための因果表現学習の実現

Realization of Causal Representation Learning to Adjust Confounding Bias in Latent Space ( http://arxiv.org/abs/2211.08573v5 )

ライセンス: Link先を確認
Jia Li, Xiang Li, Xiaowei Jia, Michael Steinbach, Vipin Kumar(参考訳) 因果dag(directed acyclic graphs)は通常2次元平面で考慮される。 エッジは因果効果の方向を示し、対応する時間経過を示す。 統計的モデルの自然な制限のため、効果推定は通常、個人の相関、すなわち特定の時間における観察的変化の平均化によって近似される。 しかし、複雑なdagを持つ大規模質問に対する機械学習の文脈において、このようなわずかなバイアスは、グローバルなモデルを歪めるために雪だるまになり得る。 本稿では,変数の値が時間スタンプに依存しなくなり,時系列が軸と見なせる因果dagを \emph{do-dag} と再定義する。 多次元のdo-DAGの幾何学的説明により、共通共役バイアスと区別された \emph{Causal Representation Bias} とその必要因子を同定する。 したがって、dl(deep learning)ベースのフレームワークが汎用ソリューションとして提案され、実現可能性を検証するための実現方法と実験が提案される。

Causal DAGs(Directed Acyclic Graphs) are usually considered in a 2D plane. Edges indicate causal effects' directions and imply their corresponding time-passings. Due to the natural restriction of statistical models, effect estimation is usually approximated by averaging the individuals' correlations, i.e., observational changes over a specific time. However, in the context of Machine Learning on large-scale questions with complex DAGs, such slight biases can snowball to distort global models - More importantly, it has practically impeded the development of AI, for instance, the weak generalizability of causal models. In this paper, we redefine causal DAG as \emph{do-DAG}, in which variables' values are no longer time-stamp-dependent, and timelines can be seen as axes. By geometric explanation of multi-dimensional do-DAG, we identify the \emph{Causal Representation Bias} and its necessary factors, differentiated from common confounding biases. Accordingly, a DL(Deep Learning)-based framework will be proposed as the general solution, along with a realization method and experiments to verify its feasibility.
翻訳日:2023-03-24 18:00:11 公開日:2023-03-23
# 万能拡散:1つの拡散モデルにおけるテキスト、画像、バリエーション

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model ( http://arxiv.org/abs/2211.08332v3 )

ライセンス: Link先を確認
Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi(参考訳) 近年の拡散モデルの発展は多くの世代で目覚ましいマイルストーンとなり、DALL-E2、Imagen、Stable Diffusionといったトレンド作品が注目されている。 急速なランドスケープの変化にもかかわらず、最近の新しいアプローチはキャパシティではなく拡張とパフォーマンスに焦点を当てている。 本研究では,既存の単一フロー拡散パイプラインを多タスクマルチモーダルネットワークに拡張し,汎用拡散 (vd) と呼ばれる,複数のテキスト・画像・画像・テキスト間の流れを1つの統一モデルで処理する。 VDのパイプライン設計は、画像やテキストを超えたクロスモーダルな一般化を可能にする、共有および交換可能なレイヤモジュールからなる、統一されたマルチフロー拡散フレームワークをインスタンス化する。 広範な実験を通して、VDは以下のことを達成できたことを実証する。 a)vdは,ベースラインアプローチを上回り,その基本タスクを競争品質で処理する。 b)VDは,スタイル及びセマンティクスの切り離し,二重・複数コンテキストのブレンディング等の新規な拡張を可能にする。 ; c)画像とテキストに対するマルチフローマルチモーダルフレームワークの成功は、さらなる拡散に基づくユニバーサルAI研究を刺激する可能性がある。 私たちのコードとモデルは、https://github.com/shi-labs/versatile-diffusionでオープンソースです。

Recent advances in diffusion models have set an impressive milestone in many generation tasks, and trending works such as DALL-E2, Imagen, and Stable Diffusion have attracted great interest. Despite the rapid landscape changes, recent new approaches focus on extensions and performance rather than capacity, thus requiring separate models for separate tasks. In this work, we expand the existing single-flow diffusion pipeline into a multi-task multimodal network, dubbed Versatile Diffusion (VD), that handles multiple flows of text-to-image, image-to-text, and variations in one unified model. The pipeline design of VD instantiates a unified multi-flow diffusion framework, consisting of sharable and swappable layer modules that enable the crossmodal generality beyond images and text. Through extensive experiments, we demonstrate that VD successfully achieves the following: a) VD outperforms the baseline approaches and handles all its base tasks with competitive quality; b) VD enables novel extensions such as disentanglement of style and semantics, dual- and multi-context blending, etc.; c) The success of our multi-flow multimodal framework over images and text may inspire further diffusion-based universal AI research. Our code and models are open-sourced at https://github.com/SHI-Labs/Versatile-Diffusion.
翻訳日:2023-03-24 17:59:52 公開日:2023-03-23
# NAR-Former: ホロスティック属性予測に向けたニューラルネットワーク表現学習

NAR-Former: Neural Architecture Representation Learning towards Holistic Attributes Prediction ( http://arxiv.org/abs/2211.08024v3 )

ライセンス: Link先を確認
Yun Yi, Haokui Zhang, Wenze Hu, Nannan Wang, Xiaoyu Wang(参考訳) ディープラーニングモデルを現実のアプリケーションで広く深く採用することにより、ニューラルネットワーク自体の表現をモデル化し、学習する必要性が高まっている。 これらのモデルは、実際のトレーニングや推論タスクを実行することなく、精度やレイテンシなど、さまざまなニューラルネットワークアーキテクチャの属性を推定するために使用することができる。 本稿では,これらの属性を階層的に推定できるニューラルアーキテクチャ表現モデルを提案する。 具体的には,ニューラルネットワークの動作情報とトポロジ情報を単一シーケンスにエンコードする,シンプルで効果的なトークン化手法を提案する。 次に、変換列からコンパクトなベクトル表現を構築するために多段核融合変換器を設計する。 効率的なモデルトレーニングのために,我々はさらに情報フロー一貫性強化を提案し,それに対応するアーキテクチャ一貫性損失をデザインする。 NAS-Bench-101,NAS-Bench-201,DARTSサーチスペースとNNLQPによる実験結果から,提案するフレームワークは,前述のセルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測し,有望な性能を実現する。 コードはhttps://github.com/yuny220/NAR-Formerで入手できる。

With the wide and deep adoption of deep learning models in real applications, there is an increasing need to model and learn the representations of the neural networks themselves. These models can be used to estimate attributes of different neural network architectures such as the accuracy and latency, without running the actual training or inference tasks. In this paper, we propose a neural architecture representation model that can be used to estimate these attributes holistically. Specifically, we first propose a simple and effective tokenizer to encode both the operation and topology information of a neural network into a single sequence. Then, we design a multi-stage fusion transformer to build a compact vector representation from the converted sequence. For efficient model training, we further propose an information flow consistency augmentation and correspondingly design an architecture consistency loss, which brings more benefits with less augmentation samples compared with previous random augmentation strategies. Experiment results on NAS-Bench-101, NAS-Bench-201, DARTS search space and NNLQP show that our proposed framework can be used to predict the aforementioned latency and accuracy attributes of both cell architectures and whole deep neural networks, and achieves promising performance. Code is available at https://github.com/yuny220/NAR-Former.
翻訳日:2023-03-24 17:59:21 公開日:2023-03-23
# ビデオフレーム補間のための統一ピラミッドリカレントネットワーク

A Unified Pyramid Recurrent Network for Video Frame Interpolation ( http://arxiv.org/abs/2211.03456v2 )

ライセンス: Link先を確認
Xin Jin, Longhai Wu, Jie Chen, Youxin Chen, Jayoon Koo, Cheul-hee Hahm(参考訳) フロー誘導合成は、連続する入力間の中間フレームの合成を導くために光フローを推定するフレーム補間のための共通のフレームワークを提供する。 本稿では,フレーム補間のための新しい統一ピラミッドリカレントネットワークupr-netを提案する。 フレキシブルなピラミッドフレームワークでキャストされたUPR-Netは、双方向フロー推定と中間フレーム合成の両方に軽量リカレントモジュールを利用する。 各ピラミッドレベルでは、推定された双方向の流れを利用してフレーム合成のための前方のウォープ表現を生成し、ピラミッドレベルでは、光学フローと中間フレームの両方を反復的に洗練することができる。 特に,我々の反復的合成戦略は,大きな動きの場合にフレーム補間のロバスト性を大幅に改善できることを示す。 極めて軽量(1.7mパラメータ)なupr-netのベースバージョンは、幅広いベンチマークで優れたパフォーマンスを実現しています。 UPR-Netシリーズのコードとトレーニングされたモデルは、以下の通りである。

Flow-guided synthesis provides a common framework for frame interpolation, where optical flow is estimated to guide the synthesis of intermediate frames between consecutive inputs. In this paper, we present UPR-Net, a novel Unified Pyramid Recurrent Network for frame interpolation. Cast in a flexible pyramid framework, UPR-Net exploits lightweight recurrent modules for both bi-directional flow estimation and intermediate frame synthesis. At each pyramid level, it leverages estimated bi-directional flow to generate forward-warped representations for frame synthesis; across pyramid levels, it enables iterative refinement for both optical flow and intermediate frame. In particular, we show that our iterative synthesis strategy can significantly improve the robustness of frame interpolation on large motion cases. Despite being extremely lightweight (1.7M parameters), our base version of UPR-Net achieves excellent performance on a large range of benchmarks. Code and trained models of our UPR-Net series are available at: https://github.com/srcn-ivl/UPR-Net.
翻訳日:2023-03-24 17:58:58 公開日:2023-03-23
# 空間選択的深部非線形フィルタによる話者抽出

Spatially Selective Deep Non-linear Filters for Speaker Extraction ( http://arxiv.org/abs/2211.02420v2 )

ライセンス: Link先を確認
Kristina Tesch, Timo Gerkmann(参考訳) 複数の人が同時に話すシナリオにおいて、信号の空間的特性は、対象信号を抽出するための最も異なる特徴である。 本研究では,任意の目標方向に操舵可能な深部結合型空間スペクトル非線形フィルタの開発を行う。 そこで本研究では,目的方向に基づいてフィルタの繰り返し層の初期状態を設定する,シンプルで効果的な条件付け機構を提案する。 本手法はベースラインアプローチよりも効果的であり,性能コストを伴わずにフィルタの柔軟性を向上できることを示す。 得られた空間選択型非線形フィルタは任意の話者の音声分離にも利用でき、本論文で示すような高精度なマルチスピーカの局所化を可能にする。

In a scenario with multiple persons talking simultaneously, the spatial characteristics of the signals are the most distinct feature for extracting the target signal. In this work, we develop a deep joint spatial-spectral non-linear filter that can be steered in an arbitrary target direction. For this we propose a simple and effective conditioning mechanism, which sets the initial state of the filter's recurrent layers based on the target direction. We show that this scheme is more effective than the baseline approach and increases the flexibility of the filter at no performance cost. The resulting spatially selective non-linear filters can also be used for speech separation of an arbitrary number of speakers and enable very accurate multi-speaker localization as we demonstrate in this paper.
翻訳日:2023-03-24 17:58:42 公開日:2023-03-23
# スピン0粒子の量子相対論的時間-平衡作用素と量子トンネル時間問題

Quantized relativistic time-of-arrival operators for spin-0 particles and the quantum tunneling time problem ( http://arxiv.org/abs/2212.00343v3 )

ライセンス: Link先を確認
Philip Caesar Flores and Eric A. Galapon(参考訳) 本稿では,スピン0粒子に対する量子化相対論的時間演算子を構築した最近の報告(EPL, 141 (2023) 10001})について,修正ワイル整列法を用いて正方形障壁を横断する時間を計算する。 その結果, 相対論的スピン-0粒子のトンネル時間は, バリア高さ$V_o$が残りの質量エネルギーよりも低い条件下で瞬時であることがわかった。 これは、瞬時トンネルが到着時間の文脈で固有の量子効果であることを意味する。

We provide a full account of our recent report (EPL, 141 (2023) 10001}) which constructed a quantized relativistic time-of-arrival operator for spin-0 particles using a modified Weyl-ordering rule to calculate the traversal time across a square barrier. It was shown that the tunneling time of a relativistic spin-0 particle is instantaneous under the condition that the barrier height $V_o$ is less than the rest mass energy. This implies that instantaneous tunneling is an inherent quantum effect in the context of arrival times.
翻訳日:2023-03-24 17:51:35 公開日:2023-03-23
# ShadowNeuS:Shadow Ray Supervisionによる神経SDF再構成

ShadowNeuS: Neural SDF Reconstruction by Shadow Ray Supervision ( http://arxiv.org/abs/2211.14086v2 )

ライセンス: Link先を確認
Jingwang Ling, Zhibo Wang, Feng Xu(参考訳) シーンとマルチビュー画像平面間のカメラ線を監視することにより、NeRFは新規なビュー合成作業のためのニューラルシーン表現を再構成する。 一方、光源とシーンの間の影の光は未だ検討されていない。 そこで本研究では,光線沿線試料と光線位置の両方を最適化する新しい影線監視手法を提案する。 影線を監督することにより、複数の照明条件下で単視点画像からシーンのニューラルSDFを再構成することに成功した。 シングルビューのバイナリシャドウが与えられると、カメラの視線に制限されない完全なシーンを再構築するためにニューラルネットワークをトレーニングします。 さらに画像色と影線の相関関係をモデル化することにより,RGB入力に効果的に拡張することができる。 本手法は, 単視点バイナリシャドウやRGB画像からの形状復元の課題について, 従来の手法と比較し, 大幅な改善が見られた。 コードとデータはhttps://github.com/gerwang/shadowneusで入手できる。

By supervising camera rays between a scene and multi-view image planes, NeRF reconstructs a neural scene representation for the task of novel view synthesis. On the other hand, shadow rays between the light source and the scene have yet to be considered. Therefore, we propose a novel shadow ray supervision scheme that optimizes both the samples along the ray and the ray location. By supervising shadow rays, we successfully reconstruct a neural SDF of the scene from single-view images under multiple lighting conditions. Given single-view binary shadows, we train a neural network to reconstruct a complete scene not limited by the camera's line of sight. By further modeling the correlation between the image colors and the shadow rays, our technique can also be effectively extended to RGB inputs. We compare our method with previous works on challenging tasks of shape reconstruction from single-view binary shadow or RGB images and observe significant improvements. The code and data are available at https://github.com/gerwang/ShadowNeuS.
翻訳日:2023-03-24 17:50:52 公開日:2023-03-23
# 地域ganインバージョンによるきめ細かい顔スワップ

Fine-Grained Face Swapping via Regional GAN Inversion ( http://arxiv.org/abs/2211.14068v2 )

ライセンス: Link先を確認
Zhian Liu, Maomao Li, Yong Zhang, Cairong Wang, Qi Zhang, Jue Wang, Yongwei Nie(参考訳) 本稿では,所望の微妙な形状とテクスチャの詳細を忠実に保持する,高忠実な顔交換のための新しいパラダイムを提案する。 顔のきめ細かい編集の観点から、顔のスワッピングを再考し、顔成分の形状やテクスチャの明示的な乱れに基づく枠組みを提案する。 e4s原則に従い、顔の特徴のグローバルスワップとローカルスワップの両方を可能にし、ユーザが指定した部分スワップの量を制御する。 さらに、E4Sパラダイムは本質的に、顔マスクを用いて顔の閉塞を処理できる。 我々のシステムの中核には、形状とテクスチャの明示的な切り離しを可能にする新しいRegional GAN Inversion(RGI)手法がある。 また、StyleGANの潜在空間でフェイススワップを行うこともできる。 具体的には、各顔成分のテクスチャを地域スタイルのコードに投影するマルチスケールマスクガイドエンコーダを設計する。 また,スタイルコードを用いて機能マップを操作するためのマスク誘導型インジェクションモジュールも設計した。 これにより、スタイルやマスクスワップの簡易化問題として、顔スワップを再構成する。 テクスチャや形状の詳細を保存したり、高解像度画像の処理を行う上で、我々のアプローチが優れていることを示す実験と最新の手法との比較を行った。 プロジェクトページはhttp://e4s2022.github.io

We present a novel paradigm for high-fidelity face swapping that faithfully preserves the desired subtle geometry and texture details. We rethink face swapping from the perspective of fine-grained face editing, \textit{i.e., ``editing for swapping'' (E4S)}, and propose a framework that is based on the explicit disentanglement of the shape and texture of facial components. Following the E4S principle, our framework enables both global and local swapping of facial features, as well as controlling the amount of partial swapping specified by the user. Furthermore, the E4S paradigm is inherently capable of handling facial occlusions by means of facial masks. At the core of our system lies a novel Regional GAN Inversion (RGI) method, which allows the explicit disentanglement of shape and texture. It also allows face swapping to be performed in the latent space of StyleGAN. Specifically, we design a multi-scale mask-guided encoder to project the texture of each facial component into regional style codes. We also design a mask-guided injection module to manipulate the feature maps with the style codes. Based on the disentanglement, face swapping is reformulated as a simplified problem of style and mask swapping. Extensive experiments and comparisons with current state-of-the-art methods demonstrate the superiority of our approach in preserving texture and shape details, as well as working with high resolution images. The project page is http://e4s2022.github.io
翻訳日:2023-03-24 17:50:35 公開日:2023-03-23
# 画像復元のためのクロスアグリゲーショントランス

Cross Aggregation Transformer for Image Restoration ( http://arxiv.org/abs/2211.13654v2 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Yongbing Zhang, Linghe Kong, Xin Yuan(参考訳) 近年,畳み込みニューラルネットワーク(cnn)を驚くべき結果に置き換えるため,画像復元にトランスフォーマーアーキテクチャが導入された。 グローバルな注意を伴うトランスフォーマーの計算複雑性を考えると、局所的な正方形ウィンドウを用いて自己注意の範囲を制限する方法もある。 しかし、これらの手法は異なるウィンドウ間で直接の相互作用を欠いているため、長距離依存関係の確立が制限される。 上記の問題に対処するため,新たな画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。 我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。 また、異なるウィンドウインタラクションのためのAxial-Shift演算も導入する。 さらに,cnnの帰納的バイアス(翻訳不変性と局所性など)をトランスフォーマーに組み込んで,グローバル局所結合を可能にする自己接続機構を補完する局所性補完モジュールを提案する。 我々のCATは、いくつかの画像復元アプリケーションにおいて、最近の最先端の手法よりも優れています。 コードとモデルはhttps://github.com/zhengchen1999/catで入手できる。

Recently, Transformer architecture has been introduced into image restoration to replace convolution neural network (CNN) with surprising results. Considering the high computational complexity of Transformer with global attention, some methods use the local square window to limit the scope of self-attention. However, these methods lack direct interaction among different windows, which limits the establishment of long-range dependencies. To address the above issue, we propose a new image restoration model, Cross Aggregation Transformer (CAT). The core of our CAT is the Rectangle-Window Self-Attention (Rwin-SA), which utilizes horizontal and vertical rectangle window attention in different heads parallelly to expand the attention area and aggregate the features cross different windows. We also introduce the Axial-Shift operation for different window interactions. Furthermore, we propose the Locality Complementary Module to complement the self-attention mechanism, which incorporates the inductive bias of CNN (e.g., translation invariance and locality) into Transformer, enabling global-local coupling. Extensive experiments demonstrate that our CAT outperforms recent state-of-the-art methods on several image restoration applications. The code and models are available at https://github.com/zhengchen1999/CAT.
翻訳日:2023-03-24 17:50:10 公開日:2023-03-23
# ActMAD: テスト時間トレーニングのためのアラインディストリビューションへのアクティベーションマッチング

ActMAD: Activation Matching to Align Distributions for Test-Time-Training ( http://arxiv.org/abs/2211.12870v2 )

ライセンス: Link先を確認
Muhammad Jehanzeb Mirza, Pol Jan\'e Soneira, Wei Lin, Mateusz Kozinski, Horst Possegger, Horst Bischof(参考訳) TTT(Test-Time-Training)は、テスト時に発生する分散シフトにトレーニングされたモデルを適用することで、アウト・オブ・ディストリビューション(OOD)データに対処するアプローチである。 そこで本研究では,モデルのアクティベーションマッチング(actmad)を用いて,モデルのアクティベーションを分析し,oodテストデータのアクティベーション統計をトレーニングデータと整合させる手法を提案する。 特徴抽出器の終端層におけるチャネル全体の分布をモデル化する既存の手法とは対照的に,ネットワーク上の複数の層における各特徴の分布をモデル化する。 これにより、よりきめ細かい監督が可能となり、ActMADはCIFAR-100CおよびImagenet-C上でのアートパフォーマンスの状態を達成できる。 ActMADはまた、アーキテクチャとタスクに依存しないので、画像分類を超えて、KITTI-Fog上でKITTIで訓練されたオブジェクト検出器を評価する際に、以前のアプローチよりも15.4%改善できる。 実験の結果、ActMADは現実的なシナリオにおけるオンライン適応に適用可能であり、完全なパフォーマンスを得るためにはほとんどデータを必要としないことがわかった。

Test-Time-Training (TTT) is an approach to cope with out-of-distribution (OOD) data by adapting a trained model to distribution shifts occurring at test-time. We propose to perform this adaptation via Activation Matching (ActMAD): We analyze activations of the model and align activation statistics of the OOD test data to those of the training data. In contrast to existing methods, which model the distribution of entire channels in the ultimate layer of the feature extractor, we model the distribution of each feature in multiple layers across the network. This results in a more fine-grained supervision and makes ActMAD attain state of the art performance on CIFAR-100C and Imagenet-C. ActMAD is also architecture- and task-agnostic, which lets us go beyond image classification, and score 15.4% improvement over previous approaches when evaluating a KITTI-trained object detector on KITTI-Fog. Our experiments highlight that ActMAD can be applied to online adaptation in realistic scenarios, requiring little data to attain its full performance.
翻訳日:2023-03-24 17:49:25 公開日:2023-03-23
# hac-net:高精度タンパク質結合親和性予測のための注意型畳み込みニューラルネットワーク

HAC-Net: A Hybrid Attention-Based Convolutional Neural Network for Highly Accurate Protein-Ligand Binding Affinity Prediction ( http://arxiv.org/abs/2212.12440v3 )

ライセンス: Link先を確認
Gregory W. Kyro, Rafael I. Brent, Victor S. Batista(参考訳) 画像検出とグラフ理論から深層学習の概念を適用することで、タンパク質-リガンド結合親和性予測が大幅に進歩し、薬物の発見とタンパク質工学の両方に多大な影響がもたらされた。 本研究では,チャネルワイズを利用した3次元畳み込みニューラルネットワークと,ノード特徴のアグリゲーションを利用した2つのグラフ畳み込みネットワークからなる,新しいディープラーニングアーキテクチャを設計することによって,これらの進歩の上に構築する。 HAC-Net(Hybrid Attention-Based Convolutional Neural Network)は、PDBbind v.2016コアセットの最先端の結果を得る。 実験と試験セットにおける複合体のタンパク質構造,タンパク質配列,リガンド拡張結合性指紋の差を最大化する複数の試験分割を用いて,我々のモデルの一般化可能性を評価する。 さらに、トレーニングおよびテストセットにおいて、SMILES文字列間の類似性の遮断を施した10倍のクロスバリデーションを行い、低品質データ上でのHAC-Netの性能を評価する。 我々は,このモデルを,構造に基づく生体分子特性予測に関連する幅広い教師付き学習問題に拡張できると考えている。 すべてのソフトウェアはhttps://github.com/gregory-kyro/HAC-Net/でオープンソースとして公開されています。

Applying deep learning concepts from image detection and graph theory has greatly advanced protein-ligand binding affinity prediction, a challenge with enormous ramifications for both drug discovery and protein engineering. We build upon these advances by designing a novel deep learning architecture consisting of a 3-dimensional convolutional neural network utilizing channel-wise attention and two graph convolutional networks utilizing attention-based aggregation of node features. HAC-Net (Hybrid Attention-Based Convolutional Neural Network) obtains state-of-the-art results on the PDBbind v.2016 core set, the most widely recognized benchmark in the field. We extensively assess the generalizability of our model using multiple train-test splits, each of which maximizes differences between either protein structures, protein sequences, or ligand extended-connectivity fingerprints of complexes in the training and test sets. Furthermore, we perform 10-fold cross-validation with a similarity cutoff between SMILES strings of ligands in the training and test sets, and also evaluate the performance of HAC-Net on lower-quality data. We envision that this model can be extended to a broad range of supervised learning problems related to structure-based biomolecular property prediction. All of our software is available as open source at https://github.com/gregory-kyro/HAC-Net/, and the HACNet Python package is available through PyPI.
翻訳日:2023-03-24 17:44:39 公開日:2023-03-23
# 正確な位置マッチングはデジタル病理学におけるDense Contrastive Learningを改善する

Precise Location Matching Improves Dense Contrastive Learning in Digital Pathology ( http://arxiv.org/abs/2212.12105v2 )

ライセンス: Link先を確認
Jingwei Zhang, Saarthak Kapse, Ke Ma, Prateek Prasanna, Maria Vakalopoulou, Joel Saltz, Dimitris Samaras(参考訳) セグメンテーションや病理組織の検出といった複雑な予測タスクは、計算病理ワークフローにおいて重要な臨床的価値を持っている。 しかし、大きなコホートに密集した注釈を得るのは通常退屈で高価である。 コントラスト学習(CL)は、バックボーンネットワークを事前訓練するために大量のラベルのないデータを活用するためにしばしば用いられる。 密接な予測のためにCLを高めるために、事前学習における密接なマッチング目的のバリエーションを提案する研究もある。 しかし, 組織像に既存の密集マッチング戦略を用いることで, 不正確な一対の密集特徴の分散を強制し, 不正確であることを示す。 そこで本研究では,幾何変換間の重なり情報を利用する高精度な位置情報マッチング機構を提案する。 2つの事前学習データセット(TCGA-BRCA, NCT-CRC-HE)と3つの下流データセット(GlaS, CRAG, BCSS)に対する大規模な実験は、セマンティックおよびインスタンスセグメンテーションタスクにおける我々の手法の優位性を強調している。 本手法は,従来の密マッチング手法よりも,検出平均精度が7.2%,インスタンスセグメンテーション平均精度が5.6%向上した。 さらに、MoCo-v2、VICRegL、ConCLの3つの一般的なコントラスト学習フレームワークにおけるマッチング機構を用いて、検出の平均精度を0.7%から5.2%改善し、セグメンテーションの平均精度を0.7%から4.0%改善し、一般化可能性を示している。 私たちのコードはhttps://github.com/cvlab-stonybrook/PLM_SSLで利用可能です。

Dense prediction tasks such as segmentation and detection of pathological entities hold crucial clinical value in computational pathology workflows. However, obtaining dense annotations on large cohorts is usually tedious and expensive. Contrastive learning (CL) is thus often employed to leverage large volumes of unlabeled data to pre-train the backbone network. To boost CL for dense prediction, some studies have proposed variations of dense matching objectives in pre-training. However, our analysis shows that employing existing dense matching strategies on histopathology images enforces invariance among incorrect pairs of dense features and, thus, is imprecise. To address this, we propose a precise location-based matching mechanism that utilizes the overlapping information between geometric transformations to precisely match regions in two augmentations. Extensive experiments on two pretraining datasets (TCGA-BRCA, NCT-CRC-HE) and three downstream datasets (GlaS, CRAG, BCSS) highlight the superiority of our method in semantic and instance segmentation tasks. Our method outperforms previous dense matching methods by up to 7.2% in average precision for detection and 5.6% in average precision for instance segmentation tasks. Additionally, by using our matching mechanism in the three popular contrastive learning frameworks, MoCo-v2, VICRegL, and ConCL, the average precision in detection is improved by 0.7% to 5.2%, and the average precision in segmentation is improved by 0.7% to 4.0%, demonstrating generalizability. Our code is available at https://github.com/cvlab-stonybrook/PLM_SSL.
翻訳日:2023-03-24 17:44:12 公開日:2023-03-23
# 共振器光に結合した吊り鏡の有効記述 -光ばねによるノーマルモード分割によるQ強調の限界-

Effective description of a suspended mirror coupled to cavity light -Limitations of Q-enhancement due to normal mode splitting by an optical spring- ( http://arxiv.org/abs/2212.11056v2 )

ライセンス: Link先を確認
Yuuki Sugiyama, Tomoya Shichijo, Nobuyuki Matsumoto, Akira Matsumura, Daisuke Miki, and Kazuhiro Yamamoto(参考訳) ペンデュラムは、究極的には低い散逸(高品質な要因)特性のため、長い間、力センサーとして使用されてきた。 これらは重力定数の測定、重力波の検出、超軽い暗黒物質の決定に広く用いられている。 さらに, マクロな振り子に対して量子制御を行うことにより, 重力の量子性が実証されることが期待される。 近年,光ばね(三木,n.松本,a.松村,t.七条,杉山,k.山本,n.山本,arxiv:2210.13169 (2022))を用いて2つの振り子間の量子絡み合いが生成できることが実証されているが,光ばねが振子と相対的に高い散逸を有する回転モードとの間の通常のモード分割を適用することで品質因子(q-factor)を低減できることは無視されている。 そこで本研究では,ビーム(吊り鏡,振り子)と光ばねを用いて吊り下げられたシリンダーとからなり,通常のモード分割を考慮したシステムを分析する。 q因子の低減は、鏡の半径とビームの長さの比、キャビティ光子がない場合の回転モードと振子モードの周波数の比というビームパラメータのみによって決定される。 分析の結果,松本 \textit{et al での実験結果と一致する 4.38$ の還元係数が再現されていることがわかった。 とN。 松本, S. B. Catan$\tilde{\text{o}}$-Lopez, M. Sugawara, S. Suzuki, N. Abe, K. Komori, Y. Michimura, Y. Aso, K. Edamatsu, Phys。 Rev. Lett. 122, 071101 (2019)]. 本研究では,自由度を考慮した現実的な振り子システムにおいて,光学ばねを用いて低散逸(高品質)に到達できることを示す。

Pendulums have long been used as force sensors due to their ultimately low dissipation (high-quality factor) characteristic. They are widely used in the measurement of the gravitational constant, detection of gravitational waves, and determination of ultralight dark matter. Furthermore, it is expected that the quantum nature of gravity will be demonstrated by performing quantum control for macroscopic pendulums. Recently, we have demonstrated that quantum entanglement between two pendulums can be generated using an optical spring [D. Miki, N. Matsumoto, A. Matsumura, T. Shichijo, Y. Sugiyama, K. Yamamoto, and N. Yamamoto, arXiv:2210.13169 (2022)]; however, we have ignored that an optical spring can reduce the quality factor (Q-factor) by applying normal-mode splitting between the pendulum and rotational modes possessing relatively high dissipation. Herein, we analyze a system composed of a cylinder suspended using a beam (a suspended mirror, i.e., a pendulum) and an optical spring to consider normal-mode splitting. The reduction in Q-factor is determined only by the beam parameters: the ratio of the radius of the mirror to the length of the beam, and the ratio of the frequency of the rotational mode to the pendulum mode in the absence of cavity photons. In our analysis, we find that the reduction factor $4.38$ is reproduced, which is consistent with the experimental result in Matsumoto \textit{et al.} [N. Matsumoto, S. B. Catan$\tilde{\text{o}}$-Lopez, M. Sugawara, S. Suzuki, N. Abe, K. Komori, Y. Michimura, Y. Aso, and K. Edamatsu, Phys. Rev. Lett. 122, 071101 (2019)]. Our analysis shows that low dissipation (high quality) can be reached using an optical spring for the realistic pendulum system considering the rotational degree of freedom.
翻訳日:2023-03-24 17:43:42 公開日:2023-03-23
# 熱力学資源としてのフェルミオン一体絡み合い

Fermionic one-body entanglement as a thermodynamic resource ( http://arxiv.org/abs/2212.10954v3 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito(参考訳) 2つのフェルミオンモードの占有状態のコヒーレントな重ね合わせが絡み合うか、すなわち、その本質的な量子相関が操作的にアクセス可能で資源として有用であるか、という議論が続いている。 これは、物理観測可能な集合を制約するパリティスーパーセレクション規則のため、個々のモード上の局所操作では、そのような絡み合いはアクセスできないという根拠から疑問視されている。 言い換えれば、ベルの不平等の違反を観察することはできない。 しかし、ここでは、2モードフェルミオン状態の絡み合いは、開系熱力学過程における真の量子資源として利用でき、分離可能な状態に対するタスクを禁止できることを示す。 したがって、量子熱力学はフェルミオンの絡み合いの性質とそれを定義するために使われる異なる概念の操作的意味に光を放つことができる。

There is ongoing controversy about whether a coherent superposition of the occupied states of two fermionic modes should be regarded entangled or not, that is, whether its intrinsic quantum correlations are operationally accessible and useful as a resource. This has been questioned on the basis that such an entanglement cannot be accessed by local operations on individual modes due to the parity superselection rule which constrains the set of physical observables. In other words, one cannot observe violations of Bell's inequality. Here we show, however, that entanglement of a two-mode fermionic state can be used as a genuine quantum resource in open-system thermodynamic processes, enabling one to perform tasks forbidden for separable states. We thus demonstrate that quantum thermodynamics can shed light on the nature of fermionic entanglement and the operational meaning of the different notions used to define it.
翻訳日:2023-03-24 17:42:56 公開日:2023-03-23
# 計画指向自律運転

Planning-oriented Autonomous Driving ( http://arxiv.org/abs/2212.10156v2 )

ライセンス: Link先を確認
Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li(参考訳) 現代の自動運転システムは、知覚、予測、計画といった逐次的な順序のモジュラータスクとして特徴づけられる。 幅広いタスクを実行し、高度なインテリジェンスを達成するために、現代のアプローチでは、個々のタスクのためのスタンドアロンモデルをデプロイするか、別々のヘッドを持つマルチタスクパラダイムを設計する。 しかし、累積的なエラーやタスクの調整不足に苦しむ可能性がある。 代わりに、望ましい枠組みは究極の目標、すなわち自動運転車の計画を追求するために考案され、最適化されるべきであると主張する。 これに合わせて、認識と予測の主要なコンポーネントを再検討し、これらのタスクが計画に寄与するようにタスクを優先順位付けします。 Unified Autonomous Driving (UniAD)は、1つのネットワークにフルスタックの運転タスクを組み込んだ包括的フレームワークである。 各モジュールの利点を活用するために特別に考案され、グローバルの観点からエージェントインタラクションのための補完的な特徴抽象化を提供する。 タスクは統合クエリインターフェースと通信され、互いの計画を支援する。 挑戦的なnuScenesベンチマークでUniADをインスタンス化する。 このような哲学を使うことの有効性は、あらゆる面で過去の最先端技術よりもかなり優れていることが証明されている。 コードとモデルはパブリックです。

Modern autonomous driving system is characterized as modular tasks in sequential order, i.e., perception, prediction, and planning. In order to perform a wide diversity of tasks and achieve advanced-level intelligence, contemporary approaches either deploy standalone models for individual tasks, or design a multi-task paradigm with separate heads. However, they might suffer from accumulative errors or deficient task coordination. Instead, we argue that a favorable framework should be devised and optimized in pursuit of the ultimate goal, i.e., planning of the self-driving car. Oriented at this, we revisit the key components within perception and prediction, and prioritize the tasks such that all these tasks contribute to planning. We introduce Unified Autonomous Driving (UniAD), a comprehensive framework up-to-date that incorporates full-stack driving tasks in one network. It is exquisitely devised to leverage advantages of each module, and provide complementary feature abstractions for agent interaction from a global perspective. Tasks are communicated with unified query interfaces to facilitate each other toward planning. We instantiate UniAD on the challenging nuScenes benchmark. With extensive ablations, the effectiveness of using such a philosophy is proven by substantially outperforming previous state-of-the-arts in all aspects. Code and models are public.
翻訳日:2023-03-24 17:42:40 公開日:2023-03-23
# 神経常微分方程式を用いたサブグリッドスケールモデルの学習

Learning Subgrid-scale Models with Neural Ordinary Differential Equations ( http://arxiv.org/abs/2212.09967v2 )

ライセンス: Link先を確認
Shinhoo Kang, Emil M. Constantinescu(参考訳) 線形法により解いた偏微分方程式(PDE)とカオス常微分方程式の表現を,ニューラル常微分方程式(NODE)に基づいてシミュレーションする際のサブグリッドスケールモデルの学習手法を提案する。 時間的および空間的グリッドスケールの細かいシステムを解くことは、現在進行中の計算課題であり、クロージャモデルは概してチューニングが難しい。 機械学習のアプローチは、計算流体力学ソルバーの精度と効率を高めた。 このアプローチでは、ニューラルネットワークは、サブグリッドスケールのパラメータ化と見なすことができる粗大から細かなグリッドマップを学ぶために使用される。 本稿では,ノードと部分的知識を用いて,ソースダイナミクスを連続的に学習する戦略を提案する。 本手法はノードの利点を継承し,サブグリッドスケールのパラメータ化,近似結合演算子,低次解法効率の向上に利用可能である。 2スケールのローレンツ96ODE、対流拡散PDE、粘性バーガースのPDEによる数値的な結果を用いて、このアプローチを説明する。

We propose a new approach to learning the subgrid-scale model when simulating partial differential equations (PDEs) solved by the method of lines and their representation in chaotic ordinary differential equations, based on neural ordinary differential equations (NODEs). Solving systems with fine temporal and spatial grid scales is an ongoing computational challenge, and closure models are generally difficult to tune. Machine learning approaches have increased the accuracy and efficiency of computational fluid dynamics solvers. In this approach neural networks are used to learn the coarse- to fine-grid map, which can be viewed as subgrid-scale parameterization. We propose a strategy that uses the NODE and partial knowledge to learn the source dynamics at a continuous level. Our method inherits the advantages of NODEs and can be used to parameterize subgrid scales, approximate coupling operators, and improve the efficiency of low-order solvers. Numerical results with the two-scale Lorenz 96 ODE, the convection-diffusion PDE, and the viscous Burgers' PDE are used to illustrate this approach.
翻訳日:2023-03-24 17:42:19 公開日:2023-03-23
# clipは効率的なセグメンタでもある:弱い教師付きセマンティックセグメンテーションのためのテキスト駆動アプローチ

CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2212.09506v3 )

ライセンス: Link先を確認
Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He(参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は難しい課題である。 主流のアプローチは多段階のフレームワークに従い、高いトレーニングコストに苦しむ。 本稿では,コントラスト言語-画像事前学習モデル (CLIP) が,画像レベルラベルのみを用いて,さらなるトレーニングを行わずに,異なるカテゴリをローカライズする可能性について検討する。 高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。 私たちのフレームワークは、CLIPの特別な設計でWSSSの3つのステージをすべて改善します。 1) GradCAMにソフトマックス関数を導入し,CLIPのゼロショット機能を利用して,非ターゲットクラスやバックグラウンドによる混乱を抑制する。 一方、CLIPを最大限に活用するために、WSSS設定の下でテキスト入力を再発見し、シャープネスベースのプロンプト選択と同義融合という2つのテキスト駆動戦略をカスタマイズする。 2) CAM改善の段階を簡略化するため,CLIP-ViTにおけるMHSAに基づくリアルタイムクラス認識型アフィニティ(CAA)モジュールを提案する。 3)CLIPが生成したマスクを用いて最終セグメンテーションモデルをトレーニングする際,信頼性領域に着目した信頼誘導損失(CGL)を導入した。 私たちのCLIP-ESはPascal VOC 2012とMS COCO 2014のSOTA性能を達成し,従来の擬似マスク生成手法の10%の時間を要した。 コードはhttps://github.com/linyq2117/CLIP-ESで入手できる。

Weakly supervised semantic segmentation (WSSS) with image-level labels is a challenging task. Mainstream approaches follow a multi-stage framework and suffer from high training costs. In this paper, we explore the potential of Contrastive Language-Image Pre-training models (CLIP) to localize different categories with only image-level labels and without further training. To efficiently generate high-quality segmentation masks from CLIP, we propose a novel WSSS framework called CLIP-ES. Our framework improves all three stages of WSSS with special designs for CLIP: 1) We introduce the softmax function into GradCAM and exploit the zero-shot ability of CLIP to suppress the confusion caused by non-target classes and backgrounds. Meanwhile, to take full advantage of CLIP, we re-explore text inputs under the WSSS setting and customize two text-driven strategies: sharpness-based prompt selection and synonym fusion. 2) To simplify the stage of CAM refinement, we propose a real-time class-aware attention-based affinity (CAA) module based on the inherent multi-head self-attention (MHSA) in CLIP-ViTs. 3) When training the final segmentation model with the masks generated by CLIP, we introduced a confidence-guided loss (CGL) focus on confident regions. Our CLIP-ES achieves SOTA performance on Pascal VOC 2012 and MS COCO 2014 while only taking 10% time of previous methods for the pseudo mask generation. Code is available at https://github.com/linyq2117/CLIP-ES.
翻訳日:2023-03-24 17:41:57 公開日:2023-03-23
# 連続領域マッチングアルゴリズムによる循環複合ドメインテスト時間適応

Cyclical Compound Domain Test-time Adaptation via Continual Domain-Matching Algorithm ( http://arxiv.org/abs/2212.08356v2 )

ライセンス: Link先を確認
Junha Song, Kwanyong Park, InKyu Shin, Sanghyun Woo, Chaoning Zhang, and In So Kweon(参考訳) エッジデバイスにおける生涯学習の重要なコンポーネントであるテスト時適応(TTA)は、事前訓練されたモデルがテスト期間中に新しい環境に適応する能力を指す。 実用能力のため、TTAは注目され、近年は急速に性能が向上している。 本稿では,未検討だがより現実的なttaシナリオを提案し,このシナリオに好適なベースラインである環状化合物ドメイン(ccd)を提案する。 CCDは、ターゲットドメインが複数のサブターゲットドメイン(例えば、天候や時間変化による複合ドメイン)を含み、サブターゲットドメインが循環的に上昇する実世界のシナリオを表す。 残念ながら、既存の作業は、現在のサブターゲットドメインに適応しつつ、繰り返しターゲットドメインから取得した過去の知識を捨てることだけに焦点を当てている。 そこで我々はまず,ttaモデルが複合ドメインからの知識を管理できる軽量なドメインマッチングアルゴリズムを提案する。 このアルゴリズムは、現在の画像の分布と参照領域点を連続的に一致させることで、サブターゲットドメイン間のドメインタイプを特定する。 さらに,本手法では,対象領域内の各データに応じて適応ペースを定式化するために,本分布とソース分布を比較した。 質的には,imagenet-cの画像分類や,gta5における意味セグメンテーション,c-driving dataset,汚職を伴う都市景観など,様々なベンチマークで適応性が向上することを示す。

Test-time adaptation (TTA), a key component of lifelong learning in edge devices, refers to the ability of a pre-trained model to adapt itself to new environments during test time. Due to its practical ability, TTA has attracted significant attention and experienced a rapid performance boost these days. In this paper, we present an under-explored yet more realistic TTA scenario and provide a strong baseline favorable to this scenario, named cyclical compound domain (CCD). The CCD represents the real-world scenario in which the target domain contains multiple sub-target domains (i.e., compound domain due to weather or time change) and the sub-target domains are likely to rise cyclically. Unfortunately, existing works do not faithfully account for this plausible scenario, only focusing on adapting to the current sub-target domain while discarding the past knowledge acquired from repeated sub-target domains. Therefore, we first propose a lightweight domain-matching algorithm that allows the TTA model to manage knowledge from the compound domain. This algorithm identifies the type of domain among sub-target domains by continuously matching the current image's distribution with reference domain points. Moreover, our newly proposed regularization method compares the present distribution with source one in order to regularize the adaptation pace according to each data in sub-target domains. Qualitatively, we demonstrate that our simple-yet-effective approach improves the adaptation performance on various benchmarks, including image classification on ImageNet-C and semantic segmentation on GTA5, C-driving datasets, and Cityscapes with corruptions.
翻訳日:2023-03-24 17:41:27 公開日:2023-03-23
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v5 )

ライセンス: Link先を確認
Yikun Bai and Bernard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2023-03-24 17:40:58 公開日:2023-03-23
# ECON: 正常な統合によって最適化された明示的な衣服人間

ECON: Explicit Clothed humans Optimized via Normal integration ( http://arxiv.org/abs/2212.07422v2 )

ライセンス: Link先を確認
Yuliang Xiu, Jinlong Yang, Xu Cao, Dimitrios Tzionas, Michael J. Black(参考訳) ディープラーニング、アーティストによるスキャン、Implicit Functions(IF)の組み合わせにより、画像から詳細な3D人間を作ることができる。 しかし、既存の手法は完璧とは程遠い。 IFベースの手法は自由形形状を復元するが、新しいポーズや衣服のために、不自由な手足や退化形を生成する。 これらのケースのロバスト性を高めるために、既存の研究は表面の再構成を制限するために明示的なパラメトリックボディモデルを用いているが、これは体から逸脱するゆるい衣服のような自由形表面の回復を制限する。 私たちが望むのは、暗黙の表現と明示的な身体規則化の最良の性質を組み合わせる方法です。 この目的のために,(1)現在のネットワークは,完全な3d表面よりも詳細な2dマップを推定し,(2)パラメトリックモデルは,詳細な表面パッチを縫い合わせるための「カンバス」と見なすことができる。 これらの結果から,本手法は,(1)着衣者の表裏面の詳細な2次元正規地図を推定する,という3つのステップを有する。 2) 画像から回収したsmpl-xボディメッシュを用いて, 2.5dの前面および裏面(d-bini)を均等に詳細かつ不完全に復元し, それぞれを登録する。 (3) d-BiNI曲面の間の欠測幾何を「塗装」する。 顔と手がうるさい場合は、オプションでsmpl-xのものに置き換えることができる。 結果として、ECONは、ゆるい服や挑戦的なポーズでも高忠実度3D人間を推測する。 CAPEとRenderPeopleデータセットの定量的評価によると、これはこれまでの方法を超えている。 知覚学的研究は、ECONの認識されたリアリズムが大きなマージンで優れていることも示している。 コードとモデルはecon.is.tue.mpg.deで研究目的に利用できる

The combination of deep learning, artist-curated scans, and Implicit Functions (IF), is enabling the creation of detailed, clothed, 3D humans from images. However, existing methods are far from perfect. IF-based methods recover free-form geometry, but produce disembodied limbs or degenerate shapes for novel poses or clothes. To increase robustness for these cases, existing work uses an explicit parametric body model to constrain surface reconstruction, but this limits the recovery of free-form surfaces such as loose clothing that deviates from the body. What we want is a method that combines the best properties of implicit representation and explicit body regularization. To this end, we make two key observations: (1) current networks are better at inferring detailed 2D maps than full-3D surfaces, and (2) a parametric model can be seen as a "canvas" for stitching together detailed surface patches. Based on these, our method, ECON, has three main steps: (1) It infers detailed 2D normal maps for the front and back side of a clothed person. (2) From these, it recovers 2.5D front and back surfaces, called d-BiNI, that are equally detailed, yet incomplete, and registers these w.r.t. each other with the help of a SMPL-X body mesh recovered from the image. (3) It "inpaints" the missing geometry between d-BiNI surfaces. If the face and hands are noisy, they can optionally be replaced with the ones of SMPL-X. As a result, ECON infers high-fidelity 3D humans even in loose clothes and challenging poses. This goes beyond previous methods, according to the quantitative evaluation on the CAPE and Renderpeople datasets. Perceptual studies also show that ECON's perceived realism is better by a large margin. Code and models are available for research purposes at econ.is.tue.mpg.de
翻訳日:2023-03-24 17:40:45 公開日:2023-03-23
# 時変ゲームにおける非回帰学習ダイナミクスの収束について

On the Convergence of No-Regret Learning Dynamics in Time-Varying Games ( http://arxiv.org/abs/2301.11241v2 )

ライセンス: Link先を確認
Ioannis Anagnostides, Ioannis Panageas, Gabriele Farina, Tuomas Sandholm(参考訳) ゲームにおける学習に関する文献の多くは、根底にある繰り返しゲームが時間とともに変化しない制限的な設定に焦点を当てている。 動的マルチエージェント設定における非回帰学習アルゴリズムの収束についてはあまり知られていない。 本稿では,時間変動ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。 本フレームワークは,ゲーム列の自然な変動測度に基づいてパラメータ化されたゼロサムゲームにおけるogdの平衡ギャップに対する鋭い収束限界を与え,静的ゲームにおける既知の結果を推定する。 さらに,各ゲームが複数回繰り返される限り,強い凸凸性の下で改良された2次変動境界を確立する。 また,関係平衡の双線形定式化による時間変化型汎用マルチプレイヤーゲームにも適用し,メタラーニングや改良された変分依存後悔境界の獲得に新たな意味を持つ。 最後に,我々のフレームワークを活用して,静的ゲームにおける動的後悔の保証に関する新たな洞察を提供する。

Most of the literature on learning in games has focused on the restrictive setting where the underlying repeated game does not change over time. Much less is known about the convergence of no-regret learning algorithms in dynamic multiagent settings. In this paper, we characterize the convergence of optimistic gradient descent (OGD) in time-varying games. Our framework yields sharp convergence bounds for the equilibrium gap of OGD in zero-sum games parameterized on natural variation measures of the sequence of games, subsuming known results for static games. Furthermore, we establish improved second-order variation bounds under strong convexity-concavity, as long as each game is repeated multiple times. Our results also apply to time-varying general-sum multi-player games via a bilinear formulation of correlated equilibria, which has novel implications for meta-learning and for obtaining refined variation-dependent regret bounds, addressing questions left open in prior papers. Finally, we leverage our framework to also provide new insights on dynamic regret guarantees in static games.
翻訳日:2023-03-24 17:34:01 公開日:2023-03-23
# ボース・アインシュタイン凝縮の李陽理論

Lee-Yang theory of Bose-Einstein condensation ( http://arxiv.org/abs/2301.10997v2 )

ライセンス: Link先を確認
Fredrik Brange, Tuomas Pyh\"aranta, Eppu Heinonen, Kay Brandner, Christian Flindt(参考訳) ボース・アインシュタイン凝縮は、ボソンのガスがその遷移温度以下で冷却され、基底状態がマクロ的に占有されるときに起こる。 相転移は多くの粒子の熱力学的極限で起こる。 しかし、最近の実験的進歩により、例えば光学格子に1度に1つの原子を加えることで、ボトムアップから量子多体系を組み立てることができるようになった。 ここでは,少数のボソンのエネルギー変動から,ボースガスの凝縮温度を予測する方法について述べる。 これにより、エネルギー変動の高累積から逆温度の複素平面における分配関数の零点と極を決定することができる。 トラップポテンシャルにおけるボソンの数を増やすことで、熱力学的限界における分割関数 0 の収束点を予測でき、そこでは実軸上の逆臨界温度に達する。 100ボーソン以下を用いることで、2次元と3次元の調和ポテンシャルを持つボース気体の凝縮温度を推定でき、また1次元の相転移は期待できるほど存在しないことが判明した。

Bose-Einstein condensation happens as a gas of bosons is cooled below its transition temperature, and the ground state becomes macroscopically occupied. The phase transition occurs in the thermodynamic limit of many particles. However, recent experimental progress has made it possible to assemble quantum many-body systems from the bottom up, for example, by adding single atoms to an optical lattice one at a time. Here, we show how one can predict the condensation temperature of a Bose gas from the energy fluctuations of a small number of bosons. To this end, we make use of recent advances in Lee-Yang theories of phase transitions, which allow us to determine the zeros and the poles of the partition function in the complex plane of the inverse temperature from the high cumulants of the energy fluctuations. By increasing the number of bosons in the trapping potential, we can predict the convergence point of the partition function zeros in the thermodynamic limit, where they reach the inverse critical temperature on the real axis. Using less than 100 bosons, we can estimate the condensation temperature for a Bose gas in a harmonic potential in two and three dimensions, and we also find that there is no phase transition in one dimension as one would expect.
翻訳日:2023-03-24 17:33:43 公開日:2023-03-23
# 一般化政策改善優先順位付けによるサンプル効率の良い多目的学習

Sample-Efficient Multi-Objective Learning via Generalized Policy Improvement Prioritization ( http://arxiv.org/abs/2301.07784v2 )

ライセンス: Link先を確認
Lucas N. Alegre and Ana L. C. Bazzan and Diederik M. Roijers and Ann Now\'e and Bruno C. da Silva(参考訳) 多目的強化学習(MORL)アルゴリズムは、エージェントが報酬関数に対して異なる好み(おそらく矛盾する)を持つ可能性のあるシーケンシャルな決定問題に対処する。 このようなアルゴリズムは、しばしば(特定のエージェントの好みに最適化された)一連のポリシーを学習し、後に新しい好みで問題を解決するために使用できる。 本稿では,一般政策改善法(gpi)を用いて,サンプル効率のよい学習法を定式化した優先順位付けスキームを定義する新しいアルゴリズムを提案する。 彼らはエージェントができるアクティブラーニング戦略を実装している (i)各瞬間に訓練すべき最も有望な選好/目的を特定し、所定のモール問題をより迅速に解くこと。 (2)新しいDynaスタイルのMORL手法を用いて,特定のエージェント選好のポリシーを学ぶ際に,どの経験が最も重要かを特定する。 我々のアルゴリズムは、有限ステップで常に最適解に収束することが保証されており、エージェントが制限され、潜在的に最適でないポリシーを特定できるならば、$\epsilon$-optimal Solution(有界な$\epsilon$)が保証される。 また,本手法が学習中の部分解の品質を単調に改善することを示す。 最後に,本手法が学習を通じて計算した部分解から得られる最大効用損失(最適解に関して)を特徴付ける境界を導入する。 本手法は離散的かつ連続的な状態と行動空間を持つ多目的タスクにおいて,最先端のMORLアルゴリズムよりも優れていることを示す。

Multi-objective reinforcement learning (MORL) algorithms tackle sequential decision problems where agents may have different preferences over (possibly conflicting) reward functions. Such algorithms often learn a set of policies (each optimized for a particular agent preference) that can later be used to solve problems with novel preferences. We introduce a novel algorithm that uses Generalized Policy Improvement (GPI) to define principled, formally-derived prioritization schemes that improve sample-efficient learning. They implement active-learning strategies by which the agent can (i) identify the most promising preferences/objectives to train on at each moment, to more rapidly solve a given MORL problem; and (ii) identify which previous experiences are most relevant when learning a policy for a particular agent preference, via a novel Dyna-style MORL method. We prove our algorithm is guaranteed to always converge to an optimal solution in a finite number of steps, or an $\epsilon$-optimal solution (for a bounded $\epsilon$) if the agent is limited and can only identify possibly sub-optimal policies. We also prove that our method monotonically improves the quality of its partial solutions while learning. Finally, we introduce a bound that characterizes the maximum utility loss (with respect to the optimal solution) incurred by the partial solutions computed by our method throughout learning. We empirically show that our method outperforms state-of-the-art MORL algorithms in challenging multi-objective tasks, both with discrete and continuous state and action spaces.
翻訳日:2023-03-24 17:33:08 公開日:2023-03-23
# 未知空間分布を用いた3次元画像合成の学習

Learning 3D-aware Image Synthesis with Unknown Pose Distribution ( http://arxiv.org/abs/2301.07702v2 )

ライセンス: Link先を確認
Zifan Shi, Yujun Shen, Yinghao Xu, Sida Peng, Yiyi Liao, Sheng Guo, Qifeng Chen, Dit-Yan Yeung(参考訳) 既存の3次元認識画像合成手法は,トレーニングセットで推定される3次元ポーズ分布に大きく依存する。 不正確な推定は、モデルを誤り幾何学の学習に誤用する可能性がある。 本研究は3次元ポーズ先行条件から生成放射場を解放するPoF3Dを提案する。 まず,隠れたコードからポーズを推測できる効率的なポーズ学習器を発電機に装備し,その基礎となる真ポーズ分布を自動的に近似する。 次に、判別器に、ジェネレータの監督下でポーズ分布を学習し、予測されたポーズを条件として実画像と合成画像を区別するタスクを割り当てる。 ポーズフリージェネレータとポーズアウェア判別器とを相反的に共同で訓練する。 いくつかのデータセットにおいて、画像の品質と幾何学的品質の両方に関して、我々のアプローチの性能が、最先端技術と同等であることを確認した。 我々の知る限り、PoF3Dは初めて3Dポーズを使わずに高品質な3D画像合成を学習できる可能性を示した。

Existing methods for 3D-aware image synthesis largely depend on the 3D pose distribution pre-estimated on the training set. An inaccurate estimation may mislead the model into learning faulty geometry. This work proposes PoF3D that frees generative radiance fields from the requirements of 3D pose priors. We first equip the generator with an efficient pose learner, which is able to infer a pose from a latent code, to approximate the underlying true pose distribution automatically. We then assign the discriminator a task to learn pose distribution under the supervision of the generator and to differentiate real and synthesized images with the predicted pose as the condition. The pose-free generator and the pose-aware discriminator are jointly trained in an adversarial manner. Extensive results on a couple of datasets confirm that the performance of our approach, regarding both image quality and geometry quality, is on par with state of the art. To our best knowledge, PoF3D demonstrates the feasibility of learning high-quality 3D-aware image synthesis without using 3D pose priors for the first time.
翻訳日:2023-03-24 17:32:39 公開日:2023-03-23
# 水中物体追跡におけるサンプル不均衡の調整と類似物体の排除

Adjust Sample Imbalance and Exclude Similar Object in Underwater Object Tracking ( http://arxiv.org/abs/2301.01482v3 )

ライセンス: Link先を確認
Yunfeng Li, Bo Wang, Ye Li, Wei Huo, Zhuoyan Liu(参考訳) 現代のトラッカーは水中画像の劣化を扱う際の競合性能があるが、水中物体追跡(uot)に適用する場合、まだ2つの問題がある。 一方、単一のオブジェクトトラッカーは、オープンエアデータセットに基づいてトレーニングされるため、UOTに適用された場合、水中オブジェクトとオープンエアオブジェクトの間に深刻なサンプル不均衡がある。 一方で、魚やイルカのような水中の標的は、通常同様の外観をしているため、モデル自体が弱い識別特徴を識別することは困難である。 既存の検出ベースのポスト処理は、追跡対象を類似したオブジェクトと区別することが難しい。 本稿では,水中画像とオープンエアシークエンスからなるUOSTrackと,動きに基づくポストプロセッシング(MBPP)を提案する。 UOHTはサンプルの不均衡水中追跡装置を調整するように設計されている。 特に、水中物体検出(UOD)画像は、カスタマイズされたデータ拡張によって画像ペアに変換されるため、トラッカーはより水中ドメイントレーニングサンプルを持ち、水中オブジェクトの特徴表現を学ぶことができる。 MBPPは、ターゲット周辺の類似したオブジェクトを除外するために提案されている。 具体的には、カルマンフィルタによって予測される推定ボックスと各フレーム内の候補ボックスを用いて、目標が失われたときに候補領域に隠されたターゲットを再確認する。 UOSTrackは、UOT100とUTB180データセットの類似オブジェクトチャレンジにおいて、OSTrackよりも平均3.5%パフォーマンスが改善されている。 UOT100 と UTB180 における UOSTrack の平均性能改善率は 1% と 3% である。 2つの UOT ベンチマーク実験により,UOHT と MBPP の有効性,および UOT に対する MBPP の一般化と適用性を示した。

Although modern trackers have competitive performance when dealing with underwater image degradation, there are still two problems when applying them to Underwater Object Tracking (UOT). On the one hand, the single object tracker is trained on the open-air datasets, which means that the tracker has a serious sample imbalance between underwater objects and open-air objects when applied to UOT. On the other hand, underwater targets such as fish and dolphins usually have a similar appearance, it is challenging for the model itself to discriminate the weak discriminative features. The existing detection-based post processing is hard to distinguish the tracked target among similar objects. In this paper, we propose UOSTrack, which consists of Underwater images and Open-air sequences Hybrid Training (UOHT) and Motion-based Post Processing (MBPP). UOHT is designed to adjust the sample imbalance underwater tracker. Specifically, Underwater Object Detection (UOD) image is converted into imag pairs through customized data augmentation, so that the tracker has more underwater domain training samples and learn the feature expression of underwater objects. MBPP is proposed to exclude similar objects around the target. Specifically, it uses the estimation box predicted by the Kalman Filter and candidate boxes in each frame to reconfirm the target that is hidden in the candidate area when the target is lost. UOSTrack has an average performance improvement of 3.5% over OSTrack on Similar Object challenge of the UOT100 and UTB180 datasets. The average performance improvement of UOSTrack on UOT100 and UTB180 is 1% and 3%, respectively. Experiments on two UOT benchmarks demonstrate the effectiveness of UOHT and MBPP, and the generalization and applicability of MBPP for UOT.
翻訳日:2023-03-24 17:32:08 公開日:2023-03-23
# unlearnable cluster: ラベルに依存しないunlearnable例に向けて

Unlearnable Clusters: Towards Label-agnostic Unlearnable Examples ( http://arxiv.org/abs/2301.01217v4 )

ライセンス: Link先を確認
Jiaming Zhang, Xingjun Ma, Qi Yi, Jitao Sang, Yu-Gang Jiang, Yaowei Wang, Changsheng Xu(参考訳) インターネット上の視覚的プライバシー漏洩に対して、未学習の例(UE)を開発することへの関心が高まっている。 UEは目に見えないが学習不可能なノイズを付加したトレーニングサンプルであり、機械学習モデルの不正なトレーニングを防ぐことができる。 UEは通常、元のサンプルからエラーを除去(最小化)し、未知のターゲットモデルからデータを保護するための代理モデルを備えた双方向最適化フレームワークを介して生成される。 しかし、既存のUE生成手法はすべてラベル一貫性と呼ばれる理想的な仮定に依存しており、ハッカーとプロテクターは与えられたサンプルに対して同じラベルを保持すると仮定される。 本研究では,ハッカーが保護者とは異なる保護されたデータを活用できる,より実用的なラベルに依存しない環境を提案する。 例えば、プロテクタが保持するmクラスアンリーナブルデータセットは、ハッカーによってnクラスデータセットとして悪用される可能性がある。 既存のUE生成方法は、この困難な環境では非効率にレンダリングされる。 この課題に取り組むために,クラスタ毎の摂動を伴うラベル非依存な非学習例を生成する,unlearnable cluster(ucs)と呼ばれる新しい手法を提案する。 さらに、CLIPのようなVisionandLanguage Pre-trained Model(VLPM)を代理モデルとして活用して、工芸UCの多様なドメインへの転送性を向上させることを提案する。 さまざまなデータセットやターゲットモデル,さらにはMicrosoft AzureやBaidu PaddlePaddleといった商用プラットフォームで,さまざまな設定で提案したアプローチの有効性を実証的に検証しています。 コードは \url{https://github.com/jiamingzhang94/Unlearnable-Clusters} で公開されている。

There is a growing interest in developing unlearnable examples (UEs) against visual privacy leaks on the Internet. UEs are training samples added with invisible but unlearnable noise, which have been found can prevent unauthorized training of machine learning models. UEs typically are generated via a bilevel optimization framework with a surrogate model to remove (minimize) errors from the original samples, and then applied to protect the data against unknown target models. However, existing UE generation methods all rely on an ideal assumption called label-consistency, where the hackers and protectors are assumed to hold the same label for a given sample. In this work, we propose and promote a more practical label-agnostic setting, where the hackers may exploit the protected data quite differently from the protectors. E.g., a m-class unlearnable dataset held by the protector may be exploited by the hacker as a n-class dataset. Existing UE generation methods are rendered ineffective in this challenging setting. To tackle this challenge, we present a novel technique called Unlearnable Clusters (UCs) to generate label-agnostic unlearnable examples with cluster-wise perturbations. Furthermore, we propose to leverage VisionandLanguage Pre-trained Models (VLPMs) like CLIP as the surrogate model to improve the transferability of the crafted UCs to diverse domains. We empirically verify the effectiveness of our proposed approach under a variety of settings with different datasets, target models, and even commercial platforms Microsoft Azure and Baidu PaddlePaddle. Code is available at \url{https://github.com/jiamingzhang94/Unlearnable-Clusters}.
翻訳日:2023-03-24 17:31:42 公開日:2023-03-23
# 相互作用するビームの焦点面が異なる自発的パラメトリックダウン変換の空間的・時間的特性

Spatial and temporal characteristics of spontaneous parametric down-conversion with varying focal planes of interacting beams ( http://arxiv.org/abs/2212.12571v2 )

ライセンス: Link先を確認
Richard Bernecker, Baghdasar Baghdasaryan, Stephan Fritzsche(参考訳) 自然パラメトリックダウンコンバージョン(SPDC)は、絡み合った光子対を作るために広く用いられるプロセスである。 SPDCでは、2階非線形結晶をコヒーレントレーザービームで励起して光子対を生成する。 光子対は通常単モードファイバー(SMF)によって検出され、ガウスモードの光子のみが収集される。 収集モードは典型的なガウスパラメータ、すなわちビームウエストと焦点面の位置を持つ。 光子の収集効率は、両方のパラメータの選択に大きく依存する。 検出モードと比較してポンプビームの正確な焦点平面位置を実実験で決定することは困難である。 通常、理論的および実験的研究は、ポンプと生成されたビームの焦点面の位置が結晶の中心にあると仮定する。 ビーム焦点平面の変位は期待結果からのずれを生じさせ、smfへの結合効率は増大または低下する。 本研究では、焦点平面の可変位置を考察し、焦点平面のシフトが光子対の空間的および時間的性質にどのように影響するかを検討する。 本研究では,焦点面の正確な位置に関する知識が不可欠であるSPDCアレンジメントと,焦点面の変位が実験結果に大きく寄与しないシナリオについて述べる。 これらの結果はSPDC実験において高い効率を達成することに特に関心がある。

Spontaneous parametric down-conversion (SPDC) is a widely used process to prepare entangled photon pairs. In SPDC, a second-order nonlinear crystal is pumped by a coherent laser beam to generate photon pairs. The photon pairs are usually detected by single-mode fibers (SMF), where only photons in a Gaussian mode can be collected. The collection modes possess typical Gaussian parameters, namely a beam waist and a focal plane position. The collection efficiency of photons highly depends on the choice of both parameters. The exact focal plane position of the pump beam relative to those of the detection modes is difficult to determine in a real experiment. Usually, theoretical and experimental studies assume that the focal plane positions of the pump and the generated beams are positioned in the center of the crystal. The displacement of beam focal planes can lead to deviations from expected results and the coupling efficiency into SMF can increase or decrease. In this work, we consider variable positions of focal planes and investigate how shifts of these focal planes influence the spatial and temporal properties of photon pairs. We present SPDC arrangements, in which the knowledge of the exact position of the focal planes is essential, as well as scenarios, where focal plane displacements do not contribute significantly to experimental outcomes. These findings are of particular interest for achieving higher efficiency in SPDC experiments.
翻訳日:2023-03-24 17:30:55 公開日:2023-03-23
# 視覚ナビゲーションのためのRenderable Neural Radiance Map

Renderable Neural Radiance Map for Visual Navigation ( http://arxiv.org/abs/2303.00304v3 )

ライセンス: Link先を確認
Obin Kwon, Jeongho Park, Songhwai Oh(参考訳) 本研究では,3d環境全体の視覚情報を含むように設計された,描画可能な神経放射マップ(rnr-map)である視覚ナビゲーションのための新しいタイプのマップを提案する。 RNR-Mapはグリッド形式であり、各ピクセルの遅延符号で構成されている。 これらの潜在コードは画像観察から埋め込まれており、カメラのポーズによって画像レンダリングを可能にするニューラル・ラミアンス・フィールドに変換できる。 記録された潜伏符号には環境に関する情報が暗黙的に含まれており、RNR-Mapは視覚的に記述される。 RNR-Mapのこのビジュアル情報は、視覚的なローカライゼーションとナビゲーションに有用なガイドラインである。 RNRマップを効果的に活用するローカライズおよびナビゲーションフレームワークを開発する。 提案するカメラトラッキング,視覚的位置決め,画像ゴールナビゲーションのフレームワークを評価する。 実験結果から,RNR-Mapベースのローカライゼーションフレームワークは,他のベースラインと比較して高速かつ競合的な精度で,単一のクエリ画像に基づいて目標位置を見つけることができることがわかった。 また、このローカライゼーションフレームワークは環境変化に対して堅牢であり、異なる環境からのクエリイメージが与えられる場合に最も視覚的に類似した場所を見つける。 提案したナビゲーションフレームワークは,既存の画像ゴールナビゲーション手法よりも,音韻法やアクティベーションノイズの下で,困難なシナリオにおいて優れている。 ナビゲーションフレームワークはNRNSデータセットの湾曲したシナリオで65.7%の成功率を示しており、現在の最先端よりも18.6%改善されている。 プロジェクトページ: https://rllab-snu.github.io/projects/RNR-Map/

We propose a novel type of map for visual navigation, a renderable neural radiance map (RNR-Map), which is designed to contain the overall visual information of a 3D environment. The RNR-Map has a grid form and consists of latent codes at each pixel. These latent codes are embedded from image observations, and can be converted to the neural radiance field which enables image rendering given a camera pose. The recorded latent codes implicitly contain visual information about the environment, which makes the RNR-Map visually descriptive. This visual information in RNR-Map can be a useful guideline for visual localization and navigation. We develop localization and navigation frameworks that can effectively utilize the RNR-Map. We evaluate the proposed frameworks on camera tracking, visual localization, and image-goal navigation. Experimental results show that the RNR-Map-based localization framework can find the target location based on a single query image with fast speed and competitive accuracy compared to other baselines. Also, this localization framework is robust to environmental changes, and even finds the most visually similar places when a query image from a different environment is given. The proposed navigation framework outperforms the existing image-goal navigation methods in difficult scenarios, under odometry and actuation noises. The navigation framework shows 65.7% success rate in curved scenarios of the NRNS dataset, which is an improvement of 18.6% over the current state-of-the-art. Project page: https://rllab-snu.github.io/projects/RNR-Map/
翻訳日:2023-03-24 17:25:22 公開日:2023-03-23
# シーケンシャルな学習を通じて広まること:搾取するか、探究するか?

Containing a spread through sequential learning: to exploit or to explore? ( http://arxiv.org/abs/2303.00141v2 )

ライセンス: Link先を確認
Xingran Chen, Hesam Nikpey, Jungyeol Kim, Saswati Sarkar, Shirin Saeedi-Bidokhti(参考訳) 感染症(例:COVID-19)のような望ましくない接触プロセスの拡散は、感染したノードのテストと隔離を通じて含まれる。 プロセスの時間的・空間的進化(分離による封じ込めを伴う)は、アクティブな探索検出戦略と根本的に異なる。 本研究は、アクティブラーニングアプローチを通じて、所定のテスト予算下での累積感染の拡散と最小化を封じ込め、テストおよび隔離戦略を設計する。 テスト対象のノードを丁寧に選択することで、性能保証とともに目標を最適化できることを実証する。 さらに,累積感染の上限を効果的に最小化し,大規模ネットワークで計算可能な報酬ベースの手法も設計する。 しかしながら、これらのポリシーは、動的に変化し、シーケンシャルなテストによって学ぶ必要があるノードの感染確率に関する知識を必要とする。 我々は、この目的のためにメッセージパスフレームワークを開発し、それに基づいて、報酬に基づくヒューリスティックスによる知識の搾取と、慎重に設計された確率的テストによる未知の探索との新たなトレードオフを示す。 トレードオフは、アクティブ検索やマルチアームバンディット問題(MAB)の下での古典的なものと根本的に異なる。 本研究では,スタイリッシュネットワークにおける探索の必要性を実証し,ネットワークのパラメータや拡散度によって,様々な合成・実データネットワークの活用方法よりも探索が優れていることを示す。

The spread of an undesirable contact process, such as an infectious disease (e.g. COVID-19), is contained through testing and isolation of infected nodes. The temporal and spatial evolution of the process (along with containment through isolation) render such detection as fundamentally different from active search detection strategies. In this work, through an active learning approach, we design testing and isolation strategies to contain the spread and minimize the cumulative infections under a given test budget. We prove that the objective can be optimized, with performance guarantees, by greedily selecting the nodes to test. We further design reward-based methodologies that effectively minimize an upper bound on the cumulative infections and are computationally more tractable in large networks. These policies, however, need knowledge about the nodes' infection probabilities which are dynamically changing and have to be learned by sequential testing. We develop a message-passing framework for this purpose and, building on that, show novel tradeoffs between exploitation of knowledge through reward-based heuristics and exploration of the unknown through a carefully designed probabilistic testing. The tradeoffs are fundamentally distinct from the classical counterparts under active search or multi-armed bandit problems (MABs). We provably show the necessity of exploration in a stylized network and show through simulations that exploration can outperform exploitation in various synthetic and real-data networks depending on the parameters of the network and the spread.
翻訳日:2023-03-24 17:25:01 公開日:2023-03-23
# 縮約-連結トレードオフ--変分推論のための因子化ガウス近似の解析

The Shrinkage-Delinkage Trade-off: An Analysis of Factorized Gaussian Approximations for Variational Inference ( http://arxiv.org/abs/2302.09163v2 )

ライセンス: Link先を確認
Charles C. Margossian and Lawrence K. Saul(参考訳) 因子化近似が変分推論(vi)に使用されるとき、それらは近似する分布の不確実性(様々な方法で測定される)を過小評価する傾向がある。 我々は、VIの不確実性を測る2つの一般的な方法を考える。 (i)成分的なばらつきを過小評価する程度 (二)エントロピーを過小評価する程度 これらの効果、およびそれらの関係をよりよく理解するために、これらを明示的に(かつエレガントに)分析できる情報的設定について検討する: 密度共分散行列を持つガウス行列の近似は、対角共分散行列を持つガウス行列(英語版)(gaussian,~$q$)である。 q$は常にコンポーネントごとの分散と$p$, \textit{ but not always to the same degree}のエントロピーの両方を過小評価していることを証明する。 さらに、$q$のエントロピーは、2つの競合する力のトレードオフによって決定され、その成分的分散(我々の最初の不確実性の尺度)の縮小によって減少するが、これはグラフィカルモデルのノードを$p$で切り離す分解近似によって増加する。 特に、問題の次元が大きくなるにつれて、成分ごとのエントロピーギャップが、一定の乗算係数によってすべての成分ごとの分散を過小評価しているにもかかわらず、$p$ と $q$ の間の減少する。 また,問題次元と相関行列の条件数でエントロピーギャップを拘束するために,縮小-デリンジトレードオフを用いる。 最後に、ガウス的目標と非ガウス的目標の両方について実験結果を示し、前者は分析を検証し、後者は限界を探索する。

When factorized approximations are used for variational inference (VI), they tend to underestimate the uncertainty -- as measured in various ways -- of the distributions they are meant to approximate. We consider two popular ways to measure the uncertainty deficit of VI: (i) the degree to which it underestimates the componentwise variance, and (ii) the degree to which it underestimates the entropy. To better understand these effects, and the relationship between them, we examine an informative setting where they can be explicitly (and elegantly) analyzed: the approximation of a Gaussian,~$p$, with a dense covariance matrix, by a Gaussian,~$q$, with a diagonal covariance matrix. We prove that $q$ always underestimates both the componentwise variance and the entropy of $p$, \textit{though not necessarily to the same degree}. Moreover we demonstrate that the entropy of $q$ is determined by the trade-off of two competing forces: it is decreased by the shrinkage of its componentwise variances (our first measure of uncertainty) but it is increased by the factorized approximation which delinks the nodes in the graphical model of $p$. We study various manifestations of this trade-off, notably one where, as the dimension of the problem grows, the per-component entropy gap between $p$ and $q$ becomes vanishingly small even though $q$ underestimates every componentwise variance by a constant multiplicative factor. We also use the shrinkage-delinkage trade-off to bound the entropy gap in terms of the problem dimension and the condition number of the correlation matrix of $p$. Finally we present empirical results on both Gaussian and non-Gaussian targets, the former to validate our analysis and the latter to explore its limitations.
翻訳日:2023-03-24 17:24:37 公開日:2023-03-23
# 教師なしクロスドメイン画像検索のための対応自由領域アライメント

Correspondence-Free Domain Alignment for Unsupervised Cross-Domain Image Retrieval ( http://arxiv.org/abs/2302.06081v2 )

ライセンス: Link先を確認
Xu Wang, Dezhong Peng, Ming Yan, Peng Hu(参考訳) クロスドメイン画像検索は、異なるドメインにまたがる画像を検索して、クロスドメインの分類や対応関係を抽出することを目的としている。 本稿では,非教師付きクロスドメイン画像検索という,非教師付きクロスドメイン画像検索の問題点について,以下の前提から考察する。 (i)対応関係がなく、また (ii)カテゴリアノテーションなし。 ドメイン間の対応なしに異なるドメインを調整し橋渡しすることは困難である。 そこで本研究では, ドメイン間自己マッチング監督 (iss) とクロスドメイン分類アライメント (cca) により, ドメイン間ギャップを効果的に排除する新しい対応なしドメインアライメント (coda) 手法を提案する。 具体的には、ISSは、新しい自己マッチング監視機構を組み込むことにより、識別情報を潜在共通空間にカプセル化する。 ドメイン間の相違を緩和するため、CCAは異なるドメイン固有の分類器を整合させることが提案されている。 ISSとCCAにより,非教師なしクロスドメイン画像検索のための領域不変な埋め込み空間への識別を符号化することができた。 提案手法の有効性を検証するために,4つのベンチマークデータセットを用いた6つの最先端手法との比較実験を行った。

Cross-domain image retrieval aims at retrieving images across different domains to excavate cross-domain classificatory or correspondence relationships. This paper studies a less-touched problem of cross-domain image retrieval, i.e., unsupervised cross-domain image retrieval, considering the following practical assumptions: (i) no correspondence relationship, and (ii) no category annotations. It is challenging to align and bridge distinct domains without cross-domain correspondence. To tackle the challenge, we present a novel Correspondence-free Domain Alignment (CoDA) method to effectively eliminate the cross-domain gap through In-domain Self-matching Supervision (ISS) and Cross-domain Classifier Alignment (CCA). To be specific, ISS is presented to encapsulate discriminative information into the latent common space by elaborating a novel self-matching supervision mechanism. To alleviate the cross-domain discrepancy, CCA is proposed to align distinct domain-specific classifiers. Thanks to the ISS and CCA, our method could encode the discrimination into the domain-invariant embedding space for unsupervised cross-domain image retrieval. To verify the effectiveness of the proposed method, extensive experiments are conducted on four benchmark datasets compared with six state-of-the-art methods.
翻訳日:2023-03-24 17:24:03 公開日:2023-03-23
# 多変量注目型BiLSTMエンコーダデコーダニューラルネットワークを用いた建物におけるハイブリッド換気の性能予測

Predicting the performance of hybrid ventilation in buildings using a multivariate attention-based biLSTM Encoder-Decoder neural network ( http://arxiv.org/abs/2302.04126v2 )

ライセンス: Link先を確認
Gaurav Chaudhary, Hicham Johra, Laurent Georges, Bj{\o}rn Austb{\o}(参考訳) ハイブリッド換気は、信頼性の高い制御システムを備えているため、ほとんどの気候に新鮮な空気を供給するためのエネルギー効率の高いソリューションである。 このようなシステムを最適に運用するには、高忠実度制御指向のモードを必要とする。 窓開放やHVACの運用スケジュールなどの運用条件に基づいて,室内空気温度のほぼリアルタイムな予測を可能にする。 しかし、物理に基づく制御指向モデル(ホワイトボックスモデル)は労働集約的で計算コストが高い。 あるいは、ニューラルネットワークに基づくブラックボックスモデルは、ダイナミクスを構築するための優れた推定器として訓練することができる。 本稿では,多変量多頭注意型long short term memory (lstm)エンコーダ・デコーダニューラルネットワークであるdeep neural network (dnn) の機能について検討し,窓の開閉時の室内気温を予測する。 トレーニングとテストデータは、詳細なマルチゾーンオフィスビルモデル(energyplus)から生成される。 擬似ランダム信号は室内の気温設定点と窓の開口点に使用される。 その結果,DNNは窓の開閉時に5つのゾーンの室内空気温度を正確に予測できることがわかった。 予測誤差は、第24段階の予測後(6 hrの予測前)に表される。

Hybrid ventilation is an energy-efficient solution to provide fresh air for most climates, given that it has a reliable control system. To operate such systems optimally, a high-fidelity control-oriented modesl is required. It should enable near-real time forecast of the indoor air temperature based on operational conditions such as window opening and HVAC operating schedules. However, physics-based control-oriented models (i.e., white-box models) are labour-intensive and computationally expensive. Alternatively, black-box models based on artificial neural networks can be trained to be good estimators for building dynamics. This paper investigates the capabilities of a deep neural network (DNN), which is a multivariate multi-head attention-based long short-term memory (LSTM) encoder-decoder neural network, to predict indoor air temperature when windows are opened or closed. Training and test data are generated from a detailed multi-zone office building model (EnergyPlus). Pseudo-random signals are used for the indoor air temperature setpoints and window opening instances. The results indicate that the DNN is able to accurately predict the indoor air temperature of five zones whenever windows are opened or closed. The prediction error plateaus after the 24th step ahead prediction (6 hr ahead prediction).
翻訳日:2023-03-24 17:23:41 公開日:2023-03-23
# 動的画像融合のための局所-グローバルエキスパートのマルチモーダルGated Mixture

Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image Fusion ( http://arxiv.org/abs/2302.01392v2 )

ライセンス: Link先を確認
Yiming Sun, Bing Cao, Pengfei Zhu, Qinghua Hu(参考訳) 赤外線および可視画像融合は、複数のソースからの包括的な情報を統合し、検出などの様々な実用的なタスクにおいて単一のモダリティよりも優れたパフォーマンスを達成することを目的としている。 しかし、既存のほとんどの手法は、テクスチャの詳細と異なるモードのオブジェクトコントラストを直接組み合わせ、現実の動的変化を無視し、良質な照明条件における可視テクスチャと低照度における赤外線コントラストを減少させる。 このギャップを埋めるために,MoE-Fusionと呼ばれるマルチモーダルゲートを用いた動的画像融合フレームワークを提案し,各モーダルから効果的かつ包括的な情報を動的に抽出する。 本モデルでは,地域の専門家 (mole) とグローバル専門家 (moge) を混合し,マルチモーダルゲートを導いた。 MoLEはマルチモーダルな局所特徴の専門的な学習を行い、融合した画像が局所情報をサンプル適応的に保持するように促す一方、MoGEは融合した画像を総合的なテクスチャの詳細とコントラストで補完するグローバルな情報に焦点を当てる。 広汎な実験により,MoE-Fusionはマルチモーダル画像テクスチャとコントラストを局所的・グローバル的動的学習パラダイムで保存する上で,最先端の手法よりも優れており,検出タスクにおいて優れた性能を発揮することが示された。 私たちのコードは、https://github.com/SunYM2020/MoE-Fusion.comで利用可能です。

Infrared and visible image fusion aims to integrate comprehensive information from multiple sources to achieve superior performances on various practical tasks, such as detection, over that of a single modality. However, most existing methods directly combined the texture details and object contrast of different modalities, ignoring the dynamic changes in reality, which diminishes the visible texture in good lighting conditions and the infrared contrast in low lighting conditions. To fill this gap, we propose a dynamic image fusion framework with a multi-modal gated mixture of local-to-global experts, termed MoE-Fusion, to dynamically extract effective and comprehensive information from the respective modalities. Our model consists of a Mixture of Local Experts (MoLE) and a Mixture of Global Experts (MoGE) guided by a multi-modal gate. The MoLE performs specialized learning of multi-modal local features, prompting the fused images to retain the local information in a sample-adaptive manner, while the MoGE focuses on the global information that complements the fused image with overall texture detail and contrast. Extensive experiments show that our MoE-Fusion outperforms state-of-the-art methods in preserving multi-modal image texture and contrast through the local-to-global dynamic learning paradigm, and also achieves superior performance on detection tasks. Our code will be available: https://github.com/SunYM2020/MoE-Fusion.
翻訳日:2023-03-24 17:23:23 公開日:2023-03-23
# オンライン連続学習におけるリアルタイム評価:新しい希望

Real-Time Evaluation in Online Continual Learning: A New Hope ( http://arxiv.org/abs/2302.01047v2 )

ライセンス: Link先を確認
Yasir Ghunaim, Adel Bibi, Kumail Alhamoud, Motasem Alfarra, Hasan Abed Al Kader Hammoud, Ameya Prabhu, Philip H. S. Torr, Bernard Ghanem(参考訳) 現在のCL(Continuous Learning)手法の評価では、トレーニング時間や計算に制約がないと仮定することが多い。 ストリームはモデルが予測のために次のデータを明らかにする前にトレーニングを完了するのを待たない、連続学習の実用的なリアルタイム評価です。 そこで本研究では,現在のCL手法を計算コストに対して評価する。 位置ラベル付き3900万のタイムスタンプ画像を含む大規模データセットであるCLOCについて広範な実験を行った。 本評価では, 現状のCL手法よりも単純なベースラインが優れており, 現実的な設定における既存手法の適用性に疑問を呈する。 さらに,メモリサンプリング戦略や正規化アプローチなど,文献で一般的に使用される様々なclコンポーネントについて検討する。 考慮されたすべてのメソッドが、私たちの単純なベースラインと競合しないことがわかった。 これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。 我々は,オンライン連続学習手法の開発において,計算コストを考慮するためのパラダイムシフトに向けた第一歩となることを期待する。

Current evaluations of Continual Learning (CL) methods typically assume that there is no constraint on training time and computation. This is an unrealistic assumption for any real-world setting, which motivates us to propose: a practical real-time evaluation of continual learning, in which the stream does not wait for the model to complete training before revealing the next data for predictions. To do this, we evaluate current CL methods with respect to their computational costs. We conduct extensive experiments on CLOC, a large-scale dataset containing 39 million time-stamped images with geolocation labels. We show that a simple baseline outperforms state-of-the-art CL methods under this evaluation, questioning the applicability of existing methods in realistic settings. In addition, we explore various CL components commonly used in the literature, including memory sampling strategies and regularization approaches. We find that all considered methods fail to be competitive against our simple baseline. This surprisingly suggests that the majority of existing CL literature is tailored to a specific class of streams that is not practical. We hope that the evaluation we provide will be the first step towards a paradigm shift to consider the computational cost in the development of online continual learning methods.
翻訳日:2023-03-24 17:22:56 公開日:2023-03-23
# オフラインデータによるモンテカルロ評価の改善

Improving Monte Carlo Evaluation with Offline Data ( http://arxiv.org/abs/2301.13734v2 )

ライセンス: Link先を確認
Shuze Liu, Shangtong Zhang(参考訳) モンテカルロ法(MC法、Monte Carlo method)は、政策の性能を推定する最も広く用いられる方法である。 興味のあるポリシーが与えられると、mcメソッドは、このポリシーを繰り返し実行してサンプルを収集し、結果の平均を取ることで、見積もりを与える。 この過程で収集されたサンプルはオンラインサンプルと呼ばれる。 正確な推定を得るために、MCメソッドは大量のオンラインサンプルを消費する。 オンラインサンプルが高価である場合、例えばオンラインレコメンデーションや在庫管理などでは、オンラインサンプルの数を減らすとともに、同じ推定精度を達成したい。 この目的のために、我々は行動ポリシーと呼ばれる異なるポリシーを実行することによって、関心のあるポリシーを評価するオフ・ポリシーmc手法を用いる。 我々は、オフポリチックMC推定器の分散が通常のMC推定器よりも確実に小さいように調整された行動ポリシーを設計する。 重要なのは、このカスタマイズされた行動ポリシーは、既存のオフラインデータから効率的に学習できることだ。 これはオンラインのサンプルよりずっと安価だ。 ばらつきが小さくなると、通常のMC法と比較して、政策の評価にオンラインサンプルが少なくなる。 さらに、我々の政界外のMC推定器は常に偏りがない。

Monte Carlo (MC) methods are the most widely used methods to estimate the performance of a policy. Given an interested policy, MC methods give estimates by repeatedly running this policy to collect samples and taking the average of the outcomes. Samples collected during this process are called online samples. To get an accurate estimate, MC methods consume massive online samples. When online samples are expensive, e.g., online recommendations and inventory management, we want to reduce the number of online samples while achieving the same estimate accuracy. To this end, we use off-policy MC methods that evaluate the interested policy by running a different policy called behavior policy. We design a tailored behavior policy such that the variance of the off-policy MC estimator is provably smaller than the ordinary MC estimator. Importantly, this tailored behavior policy can be efficiently learned from existing offline data, i,e., previously logged data, which are much cheaper than online samples. With reduced variance, our off-policy MC method requires fewer online samples to evaluate the performance of a policy compared with the ordinary MC method. Moreover, our off-policy MC estimator is always unbiased.
翻訳日:2023-03-24 17:22:39 公開日:2023-03-23
# DepGraph: 構造的なプルングを目指す

DepGraph: Towards Any Structural Pruning ( http://arxiv.org/abs/2301.12900v2 )

ライセンス: Link先を確認
Gongfan Fang, Xinyin Ma, Mingli Song, Michael Bi Mi, Xinchao Wang(参考訳) 構造的プルーニングは、ニューラルネットワークから構造的にグループ化されたパラメータを取り除くことで、モデル加速を可能にする。 しかし、パラメータグループ化パターンは様々なモデルで大きく異なり、新しいアーキテクチャでは一般化できない手動設計のグルーピングスキームに依存するアーキテクチャ固有のプルーナーが作られる。 本研究では, CNN, RNN, GNN, Transformers などの任意のアーキテクチャの一般的な構造解析に対処するため, 構造解析を行おうとする。 この目標に対する最も顕著な障害は、異なるレイヤを同時にプルーニングするだけでなく、すべての削除パラメータが一貫して重要ではないことを期待する構造的結合であり、プルーニング後の構造的問題や大幅なパフォーマンス劣化を回避する。 この問題に対処するため,我々は階層間の依存関係を明示的にモデル化し,包括的にグループ化したプルーニングパラメータをグループ化する,汎用的かつ {fully automated} method, \emph{Dependency Graph} (DepGraph)を提案する。 本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広く評価し,単純なノルムベースの基準を用いても,提案手法が常に満足度の高い性能を示す。

Structural pruning enables model acceleration by removing structurally-grouped parameters from neural networks. However, the parameter-grouping patterns vary widely across different models, making architecture-specific pruners, which rely on manually-designed grouping schemes, non-generalizable to new architectures. In this work, we study a highly-challenging yet barely-explored task, any structural pruning, to tackle general structural pruning of arbitrary architecture like CNNs, RNNs, GNNs and Transformers. The most prominent obstacle towards this goal lies in the structural coupling, which not only forces different layers to be pruned simultaneously, but also expects all removed parameters to be consistently unimportant, thereby avoiding structural issues and significant performance degradation after pruning. To address this problem, we propose a general and {fully automatic} method, \emph{Dependency Graph} (DepGraph), to explicitly model the dependency between layers and comprehensively group coupled parameters for pruning. In this work, we extensively evaluate our method on several architectures and tasks, including ResNe(X)t, DenseNet, MobileNet and Vision transformer for images, GAT for graph, DGCNN for 3D point cloud, alongside LSTM for language, and demonstrate that, even with a simple norm-based criterion, the proposed method consistently yields gratifying performances.
翻訳日:2023-03-24 17:22:22 公開日:2023-03-23
# ゼロ次最適化手法としての生体ニューラルネットワークにおける学習の解釈

Interpreting learning in biological neural networks as zero-order optimization method ( http://arxiv.org/abs/2301.11777v2 )

ライセンス: Link先を確認
Johannes Schmidt-Hieber(参考訳) 近年,ANN(Artificial Neural Network)の統計的理解に関する重要な進展が報告されている。 ANNは脳の機能によって動機づけられるが、いくつかの重要な側面において異なる。 特に、生物学的ニューラルネットワーク(bnns)における接続パラメータの更新規則の局所性は、脳の学習が勾配降下に基づいていることを生物学的に示さない。 本研究では,脳を教師あり学習の統計的手法として捉えた。 主な貢献は、BNNにおける接続パラメータの局所的な更新規則をゼロ階最適化法に関連付けることである。 イテレートの期待値が勾配降下の修正を実施できることが示されている。

Recently, significant progress has been made regarding the statistical understanding of artificial neural networks (ANNs). ANNs are motivated by the functioning of the brain, but differ in several crucial aspects. In particular, the locality in the updating rule of the connection parameters in biological neural networks (BNNs) makes it biologically implausible that the learning of the brain is based on gradient descent. In this work, we look at the brain as a statistical method for supervised learning. The main contribution is to relate the local updating rule of the connection parameters in BNNs to a zero-order optimization method. It is shown that the expected values of the iterates implement a modification of gradient descent.
翻訳日:2023-03-24 17:21:50 公開日:2023-03-23
# DICNet:Double Uncomplete Multi-View Multi-Label 分類のためのディープインスタンスレベルコントラストネットワーク

DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification ( http://arxiv.org/abs/2303.08358v2 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Xiaoling Luo, Chao Huang, Zhihao Wu, Yong Xu(参考訳) 近年,多視点マルチラベル学習が広範な研究熱意を喚起している。 しかし,データ収集や手動アノテーションの不確実性のため,実世界のマルチビュー・マルチラベル・データは一般的に不完全であり,多ビューの特徴が欠落しているだけでなく,ラベルの完全性も満足できない。 二重不完全多視点マルチラベル分類問題に対処するため,DICNetという深層インスタンスレベルのコントラストネットワークを提案する。 従来の手法とは異なり、DICNetは深層ニューラルネットワークを活用して、浅いレベルの特徴ではなく、サンプルの高レベルなセマンティック表現を活用することに重点を置いています。 まず、重ねられたオートエンコーダを用いて、エンドツーエンドのマルチビュー特徴抽出フレームワークを構築し、サンプルのビュー固有表現を学習する。 さらに,コンセンサス表現能力を向上させるために,複数のビューのコンセンサス情報をよりよく抽出し,マルチビュー重み付き融合モジュールを用いて意味的特徴の識別性を高めるために,エンコーダを誘導する不完全なインスタンスレベルのコントラスト学習方式を導入する。 全体として、DICNetは多視点多ラベルデータの一貫した識別的表現を捉え、欠落したビューや欠落したラベルの負の影響を避けることに長けている。 5つのデータセットで広範な実験を行い、この手法が最先端の他の手法よりも優れていることを検証した。

In recent years, multi-view multi-label learning has aroused extensive research enthusiasm. However, multi-view multi-label data in the real world is commonly incomplete due to the uncertain factors of data collection and manual annotation, which means that not only multi-view features are often missing, and label completeness is also difficult to be satisfied. To deal with the double incomplete multi-view multi-label classification problem, we propose a deep instance-level contrastive network, namely DICNet. Different from conventional methods, our DICNet focuses on leveraging deep neural network to exploit the high-level semantic representations of samples rather than shallow-level features. First, we utilize the stacked autoencoders to build an end-to-end multi-view feature extraction framework to learn the view-specific representations of samples. Furthermore, in order to improve the consensus representation ability, we introduce an incomplete instance-level contrastive learning scheme to guide the encoders to better extract the consensus information of multiple views and use a multi-view weighted fusion module to enhance the discrimination of semantic features. Overall, our DICNet is adept in capturing consistent discriminative representations of multi-view multi-label data and avoiding the negative effects of missing views and missing labels. Extensive experiments performed on five datasets validate that our method outperforms other state-of-the-art methods.
翻訳日:2023-03-24 17:15:30 公開日:2023-03-23
# Edit-A-Video:Object-Aware Consistencyによるシングルビデオ編集

Edit-A-Video: Single Video Editing with Object-Aware Consistency ( http://arxiv.org/abs/2303.07945v2 )

ライセンス: Link先を確認
Chaehun Shin, Heeseung Kim, Che Hyun Lee, Sang-gil Lee, Sungroh Yoon(参考訳) 近年,テキスト・ツー・ビデオ(TTV)モデルが顕著な成功を収めているにもかかわらず,ビデオ編集の拡張に対するTTVへのアプローチはほとんどない。 拡散に基づくテキスト・ツー・イメージ(tti)モデルに適応したttvモデルのアプローチに動機づけられ,事前学習されたttiモデルと<text, video>ペアのみを与えられた映像編集フレームワークを提案する。 このフレームワークは、(1)時間的モジュールを付加して2dモデルを3dモデルに拡張し、ソースビデオにチューニングする(2)ソースビデオをノイズに反転させ、ターゲットテキストプロンプトとアテンションマップインジェクションで編集する2段階からなる。 各ステージは、ソースビデオの意味的属性の時間的モデリングと保存を可能にする。 ビデオ編集における重要な課題の1つは、編集に含まれない領域が望ましくない時間変化に悩まされる背景の不整合の問題である。 この問題を軽減するため,sparse-causal blending (sc blending) と呼ばれる新しいマスクブレンディング法を提案する。 従来のマスクブレンディング法を改良して時間的一貫性を反映し,編集対象領域のスムーズな遷移と,未編集領域の時空間的一貫性を実現する。 提案手法は,様々な種類のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,映像編集品質の面でのベースラインと比較し,提案手法の優位性を示す。

Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single <text, video> pair, which we term Edit-A-Video. The framework consists of two stages: (1) inflating the 2D model into the 3D model by appending temporal modules and tuning on the source video (2) inverting the source video into the noise and editing with target text prompt and attention map injection. Each stage enables the temporal modeling and preservation of semantic attributes of the source video. One of the key challenges for video editing include a background inconsistency problem, where the regions not included for the edit suffer from undesirable and inconsistent temporal alterations. To mitigate this issue, we also introduce a novel mask blending method, termed as sparse-causal blending (SC Blending). We improve previous mask blending methods to reflect the temporal consistency so that the area where the editing is applied exhibits smooth transition while also achieving spatio-temporal consistency of the unedited regions. We present extensive experimental results over various types of text and videos, and demonstrate the superiority of the proposed method compared to baselines in terms of background consistency, text alignment, and video editing quality.
翻訳日:2023-03-24 17:15:06 公開日:2023-03-23
# 一般化量子部分空間による誤差軽減のためのハードウェア制御不完全化の活用

Leveraging hardware-control imperfections for error mitigation via generalized quantum subspace ( http://arxiv.org/abs/2303.07660v3 )

ライセンス: Link先を確認
Yasuhiro Ohkura and Suguru Endo and Takahiko Satoh and Rodney Van Meter and Nobuyuki Yoshioka(参考訳) 完全なフォールトトレランスのない量子コンピューティングの時代には、量子デバイスの計算能力を高めるために、量子誤差緩和技術によってノイズ効果を抑制することが不可欠である。 最も効果的なノイズ非依存誤り緩和スキームの1つは一般化量子部分空間展開(gse)法であり、量子部分空間展開の枠組みの下で様々な緩和アルゴリズムを統合する。 具体的には、GSE法のサブクラスであるフォールト・サブスペース法は、異なるノイズレベルを持つ量子状態のコピーを含む誤差緩和量子状態を構築する。 しかし、実験的な側面から、シミュレーション結果の誤差を効率的に抑えるために、ノイズを確実に増幅する方法を決定することは容易ではない。 本研究では,ハードウェア指向のノイズを故意に増幅し,アイデンティティの挿入によるノイズの増大,クロストークの利用,ノイズチャネルの確率的実装という,フォールト・サブスペース法の可能性を検討する。 本提案の妥当性は,ibm quantumで利用可能な量子デバイスにおけるノイズパラメータを反映した数値シミュレーションと,実験の両方を通じて実証する。

In the era of quantum computing without full fault-tolerance, it is essential to suppress noise effects via the quantum error mitigation techniques to enhance the computational power of the quantum devices. One of the most effective noise-agnostic error mitigation schemes is the generalized quantum subspace expansion (GSE) method, which unifies various mitigation algorithms under the framework of the quantum subspace expansion. Specifically, the fault-subspace method, a subclass of GSE method, constructs an error-mitigated quantum state with copies of quantum states with different noise levels. However, from the experimental aspect, it is nontrivial to determine how to reliably amplify the noise so that the error in the simulation result is efficiently suppressed. In this work, we explore the potential of the fault-subspace method by leveraging the hardware-oriented noise: intentional amplification of the decoherence, noise boost by insertion of identity, making use of crosstalk, and probabilistic implementation of noise channel. We demonstrate the validity of our proposals via both numerical simulations with the noise parameters reflecting those in quantum devices available via IBM Quantum, and also experiments performed therein.
翻訳日:2023-03-24 17:14:36 公開日:2023-03-23
# Multi PILOT:動的MRIのための学習可能な多重取得軌跡

Multi PILOT: Learned Feasible Multiple Acquisition Trajectories for Dynamic MRI ( http://arxiv.org/abs/2303.07150v2 )

ライセンス: Link先を確認
Tamir Shor, Tomer Weiss, Dor Noti, Alex Bronstein(参考訳) dynamic magnetic resonance imaging(mri)は、内部臓器や組織の動的イメージングのための強力で信頼性の高い技術として知られ、主要な診断ツールとなっている。 この設定でMRIを使用する際の大きな困難は、高時空間分解能の撮像に必要な比較的長い取得時間(およびそれによるコストの増加)であり、関連する運動アーティファクトの出現と分解能の低下につながる。 圧縮センシング(CS)技術は,k空間における画像のサブサンプリングによってMRI取得時間を短縮するための一般的なツールとなっている。 いくつかの研究は、事前に定義された軌跡のセットを使用するのではなく、より優れた画像再構成を実現するために、これらの取得軌跡を学習するためにディープラーニング技術を適用することに重点を置いている。 我々の知る限りでは、学習獲得軌道は静的MRIの文脈でのみ探索されている。 本研究では,ダイナミックイメージング環境における獲得軌跡学習について考察する。 我々は,複数フレーム毎の取得経路と再構成ニューラルネットワークを併用したエンドツーエンドパイプラインを設計し,より短い取得時間で画像再構成品質の向上を示す。 すべての実験を再現するコードは、https://github.com/tamirshor7/multipilot.comから利用できる。

Dynamic Magnetic Resonance Imaging (MRI) is known to be a powerful and reliable technique for the dynamic imaging of internal organs and tissues, making it a leading diagnostic tool. A major difficulty in using MRI in this setting is the relatively long acquisition time (and, hence, increased cost) required for imaging in high spatio-temporal resolution, leading to the appearance of related motion artifacts and decrease in resolution. Compressed Sensing (CS) techniques have become a common tool to reduce MRI acquisition time by subsampling images in the k-space according to some acquisition trajectory. Several studies have particularly focused on applying deep learning techniques to learn these acquisition trajectories in order to attain better image reconstruction, rather than using some predefined set of trajectories. To the best of our knowledge, learning acquisition trajectories has been only explored in the context of static MRI. In this study, we consider acquisition trajectory learning in the dynamic imaging setting. We design an end-to-end pipeline for the joint optimization of multiple per-frame acquisition trajectories along with a reconstruction neural network, and demonstrate improved image reconstruction quality in shorter acquisition times. The code for reproducing all experiments is accessible at https://github.com/tamirshor7/MultiPILOT.
翻訳日:2023-03-24 17:14:18 公開日:2023-03-23
# フォールトトレラント量子コンピュータにおける短深さ量子回路を用いた多重固有値の同時推定

Simultaneous estimation of multiple eigenvalues with short-depth quantum circuit on early fault-tolerant quantum computers ( http://arxiv.org/abs/2303.05714v2 )

ライセンス: Link先を確認
Zhiyan Ding and Lin Lin(参考訳) 量子ハミルトニアンの複数の固有値を同時に推定する多段量子複素指数最小二乗法(MM-QCELS)を提案する。 回路深さと総コストはハイゼンベルク制限スケーリングを示す。 量子回路は1つのアンシラ量子ビットを使用し、適切な初期状態条件下では、回路深さは量子位相推定(QPE)型回路よりもはるかに短い。 その結果、この手法は早期のフォールトトレラント量子コンピュータに適している。 提案手法は,[ding and lin, arxiv:2211.11973] を推定するために最近開発された量子複素指数最小二乗法(qcels)を拡張し,改良するものである。 複数の固有値を推定するための理論的解析は、単一支配固有値推定のバウンダリを締め付ける。 数値結果は、qpeと比較して、ある量子系の基底状態と励起状態エネルギーを推定するためのいくつかの設定の下で、回路の深さを約2桁小さくできることを示唆している。

We introduce a multi-modal, multi-level quantum complex exponential least squares (MM-QCELS) method to simultaneously estimate multiple eigenvalues of a quantum Hamiltonian. The circuit depth and the total cost exhibit Heisenberg-limited scaling. The quantum circuit uses one ancilla qubit, and under suitable initial state conditions, the circuit depth can be much shorter than that of quantum phase estimation (QPE) type circuits. As a result, this method is well-suited for early fault-tolerant quantum computers. Our approach extends and refines the quantum complex exponential least squares (QCELS) method, recently developed for estimating a single dominant eigenvalue [Ding and Lin, arXiv:2211.11973]. Our theoretical analysis for estimating multiple eigenvalues also tightens the bound for single dominant eigenvalue estimation. Numerical results suggest that compared to QPE, the circuit depth can be reduced by around two orders of magnitude under several settings for estimating ground-state and excited-state energies of certain quantum systems.
翻訳日:2023-03-24 17:13:56 公開日:2023-03-23
# バンディットフィードバックによるオンラインカーネル選択における後悔領域の改善

Improved Regret Bounds for Online Kernel Selection under Bandit Feedback ( http://arxiv.org/abs/2303.05018v2 )

ライセンス: Link先を確認
Junfan Li and Shizhong Liao(参考訳) 本稿では,バンディットフィードバックによるオンラインカーネル選択に対する後悔度を向上する。 以前のアルゴリズムは、リプシッツ損失関数の期待バウンドとして$O((\Vert f\Vert^2_{\mathcal{H}_i}+1)K^{\frac{1}{3}}T^{\frac{2}{3}})を楽しんだ。 過去の限界を改善する2種類の後悔境界を証明する。 滑らかな損失関数に対して、$O(U^{\frac{2}{3}}K^{-\frac{1}{3}}(\sum^K_{i=1}L_T(f^\ast_i))^{\frac{2}{3}})$期待境界を持つアルゴリズムを提案し、$L_T(f^\ast_i)$は、$\mathbb{H}_{i}=\{f\in\mathcal{H}_i:\Vert f\Vert_{\mathcal{H}_i}\leq U\}$における最適仮説の累積損失である。 データ依存のバウンドは、以前の最悪のケースバウンドを保持し、候補カーネルがデータとマッチする場合にはより小さくなる。 リプシッツ損失関数に対しては、$O(U\sqrt{KT}\ln^{\frac{2}{3}}{T})$期待境界を漸近的に改善したアルゴリズムを提案する。 2つのアルゴリズムを時間制約付きオンラインカーネル選択に適用し、以前の$o(\sqrt{t\ln{k}} +\vert f\vert^2_{\mathcal{h}_i}\max\{\sqrt{t},\frac{t}{\sqrt{\mathcal{r}}}\})$が時間予算であるような新たな後悔の限界を証明します。 最後に、オンライン回帰および分類タスクにおけるアルゴリズムを実証的に検証する。

In this paper, we improve the regret bound for online kernel selection under bandit feedback. Previous algorithm enjoys a $O((\Vert f\Vert^2_{\mathcal{H}_i}+1)K^{\frac{1}{3}}T^{\frac{2}{3}})$ expected bound for Lipschitz loss functions. We prove two types of regret bounds improving the previous bound. For smooth loss functions, we propose an algorithm with a $O(U^{\frac{2}{3}}K^{-\frac{1}{3}}(\sum^K_{i=1}L_T(f^\ast_i))^{\frac{2}{3}})$ expected bound where $L_T(f^\ast_i)$ is the cumulative losses of optimal hypothesis in $\mathbb{H}_{i}=\{f\in\mathcal{H}_i:\Vert f\Vert_{\mathcal{H}_i}\leq U\}$. The data-dependent bound keeps the previous worst-case bound and is smaller if most of candidate kernels match well with the data. For Lipschitz loss functions, we propose an algorithm with a $O(U\sqrt{KT}\ln^{\frac{2}{3}}{T})$ expected bound asymptotically improving the previous bound. We apply the two algorithms to online kernel selection with time constraint and prove new regret bounds matching or improving the previous $O(\sqrt{T\ln{K}} +\Vert f\Vert^2_{\mathcal{H}_i}\max\{\sqrt{T},\frac{T}{\sqrt{\mathcal{R}}}\})$ expected bound where $\mathcal{R}$ is the time budget. Finally, we empirically verify our algorithms on online regression and classification tasks.
翻訳日:2023-03-24 17:13:37 公開日:2023-03-23
# 可視性のパッチ:オブジェクト検出器に対する自然なブラックボックス攻撃

Patch of Invisibility: Naturalistic Black-Box Adversarial Attacks on Object Detectors ( http://arxiv.org/abs/2303.04238v3 )

ライセンス: Link先を確認
Raz Lapid and Moshe Sipper(参考訳) 近年,ディープラーニングモデルに対する敵意攻撃が注目されている。 この領域での作業は、主に勾配に基づく手法、いわゆるホワイトボックス攻撃に焦点を当てており、攻撃者はターゲットモデルの内部パラメータにアクセスすることができる。 さらに、一部の攻撃はピクセル空間全体を使って特定のモデルを騙すが、実用的でも物理的でもない(実世界)。 一方,本研究では,GAN(Pretrained Generative Adversarial Network, GAN)の学習画像多様体を用いて,対象検出器の自然な物理逆パッチを生成する勾配のない手法を提案する。 提案手法はデジタルと物理の両方で動作することを示す。

Adversarial attacks on deep-learning models have been receiving increased attention in recent years. Work in this area has mostly focused on gradient-based techniques, so-called white-box attacks, wherein the attacker has access to the targeted model's internal parameters; such an assumption is usually unrealistic in the real world. Some attacks additionally use the entire pixel space to fool a given model, which is neither practical nor physical (i.e., real-world). On the contrary, we propose herein a gradient-free method that uses the learned image manifold of a pretrained generative adversarial network (GAN) to generate naturalistic physical adversarial patches for object detectors. We show that our proposed method works both digitally and physically.
翻訳日:2023-03-24 17:13:00 公開日:2023-03-23
# ハミルトン系におけるhayden-preskill recovery

Hayden-Preskill Recovery in Hamiltonian Systems ( http://arxiv.org/abs/2303.02010v2 )

ライセンス: Link先を確認
Yoshifumi Nakata and Masaki Tezuka(参考訳) 複雑な量子システムを理解するための鍵は、もともとはHayden-Preskillリカバリに関して提案されていた情報スクランブルである。 この現象はランダムユニタリモデルでよく理解されているが、ハミルトン系ではほとんど研究されていない。 本稿では,Sachdev-Ye-Kitaev(SYK)モデルやカオススピン鎖など,時間に依存しないハミルトン系の情報回復について検討する。 Hayden-Preskillリカバリは通常、ハミルトン系において満たされない仮定に依存しているにもかかわらず、情報リカバリは、あるが全てのカオスモデルでは可能であることを示す。 これは情報スクランブルと量子カオスの違いを強調し、情報回復を新しい複雑な量子力学の顕在化のための完全に動作するプローブとして提供する。

The key to understanding complex quantum systems is information scrambling originally proposed in relation to the Hayden-Preskill recovery, which refers to localized information being spread over the whole system and being accessible from small subsystems. This phenomenon is well-understood in random unitary models but is hardly explored in Hamiltonian systems. In this Letter, we investigate the information recovery for various time-independent Hamiltonians, including Sachdev-Ye-Kitaev (SYK) models and chaotic spin chains. Despite the fact that the Hayden-Preskill recovery typically relies on the assumption never satisfied in Hamiltonian systems, we show that information recovery is possible in certain, but not all, chaotic models. This highlights the difference between information scrambling and quantum chaos and offers the information recovery as a fully operational probe for the manifestation of novel complex quantum dynamics.
翻訳日:2023-03-24 17:12:37 公開日:2023-03-23
# ブラインド画像品質評価のための品質認識事前学習モデル

Quality-aware Pre-trained Models for Blind Image Quality Assessment ( http://arxiv.org/abs/2303.00521v2 )

ライセンス: Link先を確認
Kai Zhao, Kun Yuan, Ming Sun, Mading Li and Xing Wen(参考訳) ブラインド画像品質評価(BIQA)は,近年,深層学習による評価が向上している単一画像の品質を自動的に評価することを目的としている。 しかし、ラベル付きデータの曖昧さは、深層学習に基づくBIQA手法が、その潜在能力を解き放つことを幾分抑制している。 本稿では、BIQA用にカスタマイズされたプレテキストタスクを自己教師付き学習方法で解決し、さらに多くのデータから表現を学習できるようにする。 学習過程を制約するために,歪み画像からのパッチの質は類似するが,異なる画像からのパッチと異なる劣化とパッチの異なる同一画像からのパッチから変化するという単純な仮定に基づいて,品質に配慮したコントラスト損失を提案する。 さらに, 既存の劣化過程を改善し, 約2\times10^7$の分解空間を形成する。 提案手法を用いてImageNetで事前トレーニングを行った結果,画像品質に敏感なモデルとなり,下流のBIQAタスクにおいて大幅に向上した。 実験の結果,本手法はBIQAデータセットに顕著な改善をもたらすことがわかった。

Blind image quality assessment (BIQA) aims to automatically evaluate the perceived quality of a single image, whose performance has been improved by deep learning-based methods in recent years. However, the paucity of labeled data somewhat restrains deep learning-based BIQA methods from unleashing their full potential. In this paper, we propose to solve the problem by a pretext task customized for BIQA in a self-supervised learning manner, which enables learning representations from orders of magnitude more data. To constrain the learning process, we propose a quality-aware contrastive loss based on a simple assumption: the quality of patches from a distorted image should be similar, but vary from patches from the same image with different degradations and patches from different images. Further, we improve the existing degradation process and form a degradation space with the size of roughly $2\times10^7$. After pre-trained on ImageNet using our method, models are more sensitive to image quality and perform significantly better on downstream BIQA tasks. Experimental results show that our method obtains remarkable improvements on popular BIQA datasets.
翻訳日:2023-03-24 17:12:11 公開日:2023-03-23
# 画像生成のためのテキスト意味論:安定拡散モデルに基づくファサード設計ベースの構築法

Text Semantics to Image Generation: A method of building facades design base on Stable Diffusion model ( http://arxiv.org/abs/2303.12755v2 )

ライセンス: Link先を確認
Haoran Ma(参考訳) 安定拡散モデルは, 古テクトチュラル画像生成の研究に広く利用されているが, 生成した画像の可制御性を向上する機会は依然としてある。 本稿では,マルチネットワーク合成によるファサード画像生成手法を提案する。 まず, cmp fa-cades データセット上の安定拡散モデルを lora (low-rank adaptation) アプローチで微調整し, 制御ネットモデルを用いて出力制御を行った。 最後に、様々なアーキテクチャスタイルのテキストコンテントと制御戦略の下でのファサード生成結果の対比を行った。 その結果,LoRAトレーニング手法は,安定拡散拡散大モデルを微調整する可能性を大幅に低減し,制御ネットモデルの追加により,ファサード画像作成のためのテキスト生成の制御可能性を高めることが示された。 これにより、建築画像の生成に関するその後の研究の基礎が明確になる。

Stable Diffusion model has been extensively employed in the study of archi-tectural image generation, but there is still an opportunity to enhance in terms of the controllability of the generated image content. A multi-network combined text-to-building facade image generating method is proposed in this work. We first fine-tuned the Stable Diffusion model on the CMP Fa-cades dataset using the LoRA (Low-Rank Adaptation) approach, then we ap-ply the ControlNet model to further control the output. Finally, we contrast-ed the facade generating outcomes under various architectural style text con-tents and control strategies. The results demonstrate that the LoRA training approach significantly decreases the possibility of fine-tuning the Stable Dif-fusion large model, and the addition of the ControlNet model increases the controllability of the creation of text to building facade images. This pro-vides a foundation for subsequent studies on the generation of architectural images.
翻訳日:2023-03-24 17:06:22 公開日:2023-03-23
# 適応型コントラスト学習による統一型任意スタイル伝達フレームワーク

A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive Learning ( http://arxiv.org/abs/2303.12710v2 )

ライセンス: Link先を確認
Yuxin Zhang, Fan Tang, Weiming Dong, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Changsheng Xu(参考訳) 本稿では,cnnベース,vitベース,フローベースなど,既存の任意の画像スタイル転送モデルに適合可能な,新しいスタイル表現学習・転送フレームワークであるunified contrastive arbitrary style transfer (ucast)を提案する。 画像スタイル転送タスクの重要なコンポーネントとして、適切なスタイル表現は、十分な結果を得るのに不可欠である。 ディープニューラルネットワークに基づく既存のアプローチは通常、出力を生成するために2階統計を使用する。 しかし、単一の画像から計算されたこれらの手作りの特徴は、スタイル情報を十分に活用できないため、局所的な歪みやスタイルの不整合などのアーティファクトに繋がる。 これらの課題に対処するために,特定のスタイルと全体的スタイル分布の関係を考慮し,コントラスト学習に基づく大量の画像からスタイル表現を直接学習することを提案する。 具体的には,入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。 本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。 本手法は,最先端の手法により得られた手法よりも優れた結果が得られることを示すため,定性的かつ定量的な評価を行う。

We present Unified Contrastive Arbitrary Style Transfer (UCAST), a novel style representation learning and transfer framework, which can fit in most existing arbitrary image style transfer models, e.g., CNN-based, ViT-based, and flow-based methods. As the key component in image style transfer tasks, a suitable style representation is essential to achieve satisfactory results. Existing approaches based on deep neural network typically use second-order statistics to generate the output. However, these hand-crafted features computed from a single image cannot leverage style information sufficiently, which leads to artifacts such as local distortions and style inconsistency. To address these issues, we propose to learn style representation directly from a large amount of images based on contrastive learning, by taking the relationships between specific styles and the holistic style distribution into account. Specifically, we present an adaptive contrastive learning scheme for style transfer by introducing an input-dependent temperature. Our framework consists of three key components, i.e., a parallel contrastive learning scheme for style representation and style transfer, a domain enhancement module for effective learning of style distribution, and a generative network for style transfer. We carry out qualitative and quantitative evaluations to show that our approach produces superior results than those obtained via state-of-the-art methods.
翻訳日:2023-03-24 17:06:04 公開日:2023-03-23
# AptSim2Real:ほぼペアのSim-to-Real画像翻訳

AptSim2Real: Approximately-Paired Sim-to-Real Image Translation ( http://arxiv.org/abs/2303.12704v2 )

ライセンス: Link先を確認
Charles Y Zhang and Ashish Shrivastava(参考訳) グラフィック技術の進歩により、機械学習モデルのトレーニングにシミュレーションデータの利用が増加した。 しかし、シミュレーションデータはしばしば実世界のデータと異なり、実世界のアプリケーションでシミュレーションデータに基づいてトレーニングされたモデルの効率を低下させる分散ギャップを生じる。 このギャップを軽減するため、sim-to-realドメイン転送はシミュレーション画像を修正し、実世界データとのマッチングを改善し、モデルトレーニングにおけるシミュレーションデータの有効利用を可能にする。 sim-to-real transfer は画像翻訳法を用いており、2つの主要なカテゴリに分類されている。 ペア画像翻訳は完全なピクセルマッチングを必要とするため、シミュレーションと実世界のデータの間にピクセル単位で対応できないため、実際に適用するのは困難である。 非ペア画像翻訳は、シミュレートからリアルへの移行に適しているが、複雑な自然シーンを学ぶことは依然として困難である。 これらの課題に対処するために,我々は,ソース画像とターゲット画像が正確にペアリングされる必要のない,ほぼペア化されたsim-to-real翻訳という,第3のカテゴリを提案する。 概ねペアリングされた手法であるaptsim2realは、シミュレーターが照明、環境、構成の点で現実世界のシーンにゆるやかに類似したシーンを生成できるという事実を生かしている。 我々の新しいトレーニング戦略は、最先端の未経験画像翻訳法と比較してFIDスコアが最大24%向上する、質的かつ定量的な改善をもたらす。

Advancements in graphics technology has increased the use of simulated data for training machine learning models. However, the simulated data often differs from real-world data, creating a distribution gap that can decrease the efficacy of models trained on simulation data in real-world applications. To mitigate this gap, sim-to-real domain transfer modifies simulated images to better match real-world data, enabling the effective use of simulation data in model training. Sim-to-real transfer utilizes image translation methods, which are divided into two main categories: paired and unpaired image-to-image translation. Paired image translation requires a perfect pixel match, making it difficult to apply in practice due to the lack of pixel-wise correspondence between simulation and real-world data. Unpaired image translation, while more suitable for sim-to-real transfer, is still challenging to learn for complex natural scenes. To address these challenges, we propose a third category: approximately-paired sim-to-real translation, where the source and target images do not need to be exactly paired. Our approximately-paired method, AptSim2Real, exploits the fact that simulators can generate scenes loosely resembling real-world scenes in terms of lighting, environment, and composition. Our novel training strategy results in significant qualitative and quantitative improvements, with up to a 24% improvement in FID score compared to the state-of-the-art unpaired image-translation methods.
翻訳日:2023-03-24 17:05:42 公開日:2023-03-23
# SPARTAN:グループ活動認識のための自己監督型時空間変換器アプローチ

SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group Activity Recognition ( http://arxiv.org/abs/2303.12149v2 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu(参考訳) 本稿では, グループアクティビティ認識(GAR)に対する非ラベル付きビデオデータを用いたSPARTAN(Self-supervised Spatio-temporal Transformers)アプローチを提案する。 ビデオでは,空間的パッチサイズやフレームレートの異なる局所的・グローバルな時空間ビューを作成している。 提案した自己監督的目的は、時空間領域の変動と一致するように、同じビデオを表すこれらのコントラストビューの特徴を一致させることを目的としている。 我々の知る限り、提案するメカニズムは、ビデオトランスフォーマーのエンコーダを用いて、GARの弱教師付き設定を緩和する最初の研究の1つである。 さらに, 変圧器モデルの利点を生かして, 時空間次元に沿った長期関係モデリングを支援する。 提案手法は, nba と volleyball データセットを含む2つのグループアクティビティ認識ベンチマークにおいて, mca と mpca の指標で有意なマージンで最先端結果を上回り, 良好に機能する。

In this paper, we propose a new, simple, and effective Self-supervised Spatio-temporal Transformers (SPARTAN) approach to Group Activity Recognition (GAR) using unlabeled video data. Given a video, we create local and global Spatio-temporal views with varying spatial patch sizes and frame rates. The proposed self-supervised objective aims to match the features of these contrasting views representing the same video to be consistent with the variations in spatiotemporal domains. To the best of our knowledge, the proposed mechanism is one of the first works to alleviate the weakly supervised setting of GAR using the encoders in video transformers. Furthermore, using the advantage of transformer models, our proposed approach supports long-term relationship modeling along spatio-temporal dimensions. The proposed SPARTAN approach performs well on two group activity recognition benchmarks, including NBA and Volleyball datasets, by surpassing the state-of-the-art results by a significant margin in terms of MCA and MPCA metrics.
翻訳日:2023-03-24 17:05:13 公開日:2023-03-23
# crosel: 部分ラベル学習のための自信付き擬似ラベルのクロスセレクション

CroSel: Cross Selection of Confident Pseudo Labels for Partial-Label Learning ( http://arxiv.org/abs/2303.10365v2 )

ライセンス: Link先を確認
Shiyu Tian, Hongxin Wei, Yiqun Wang, Lei Feng(参考訳) 部分ラベル学習(pll)は、各トレーニング例が単一の基底ラベルではなく候補ラベルセットを持つことを可能にする、重要な弱教師付き学習問題である。 同定に基づく手法は、真ラベルを識別すべき潜在変数とみなすPLLのラベル曖昧性問題に対処するために広く研究されている。 しかし、真のラベルを正確に同定することは困難であり、モデルトレーニング中に擬似ラベルにノイズが生じる。 本稿では,モデルからの履歴予測情報を利用して,学習例の真のラベルを識別する手法であるcroselを提案する。 まず,2つの深層モデルでラベル付きデータの真のラベルを相互に選択できるクロスセレクション戦略を提案する。 また, サンプルの無駄や誤選択による小ノイズを避けるために, 共混合という新しい一貫性のある正規化用語を提案する。 このようにして、CroSelは、ほとんどの例の本当のラベルを高い精度で取り出すことができる。 大規模な実験は、ベンチマークデータセットにおける従来の最先端メソッドを一貫して上回るクロセルの優位性を示す。 さらに,cifar型データセットの真ラベルを各種設定で選択する精度と量を90\%以上向上させた。

Partial-label learning (PLL) is an important weakly supervised learning problem, which allows each training example to have a candidate label set instead of a single ground-truth label. Identification-based methods have been widely explored to tackle label ambiguity issues in PLL, which regard the true label as a latent variable to be identified. However, identifying the true labels accurately and completely remains challenging, causing noise in pseudo labels during model training. In this paper, we propose a new method called CroSel, which leverages historical prediction information from models to identify true labels for most training examples. First, we introduce a cross selection strategy, which enables two deep models to select true labels of partially labeled data for each other. Besides, we propose a novel consistent regularization term called co-mix to avoid sample waste and tiny noise caused by false selection. In this way, CroSel can pick out the true labels of most examples with high precision. Extensive experiments demonstrate the superiority of CroSel, which consistently outperforms previous state-of-the-art methods on benchmark datasets. Additionally, our method achieves over 90\% accuracy and quantity for selecting true labels on CIFAR-type datasets under various settings.
翻訳日:2023-03-24 17:04:54 公開日:2023-03-23
# Memotion 3: Codemixed Hindi- English Memes の知覚と感情分析に関するデータセット

Memotion 3: Dataset on Sentiment and Emotion Analysis of Codemixed Hindi-English Memes ( http://arxiv.org/abs/2303.09892v2 )

ライセンス: Link先を確認
Shreyash Mishra, S Suryavardan, Parth Patwa, Megha Chakraborty, Anku Rani, Aishwarya Reganti, Aman Chadha, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal and Srijan Kumar(参考訳) ミームはソーシャルメディアサイトにおけるユーモアの新しい年齢搬送メカニズムである。 ミームには画像やテキストが含まれることが多い。 ミームは偽情報や憎悪の促進に使用できるため、詳細を調査することが重要である。 memotion 3は10,000の注釈付きミームを持つ新しいデータセットである。 memotion 3は、memotionの以前のイテレーションを含む、ドメイン内の他の一般的なデータセットとは異なり、ヒンズー英語のcodemixed memeを導入している。 本稿では,Memotionタスク,データ収集,データセット作成手法について述べる。 タスクのベースラインも提供しています。 ベースラインコードとデータセットはhttps://github.com/Shreyashm16/Memotion-3.0で公開される。

Memes are the new-age conveyance mechanism for humor on social media sites. Memes often include an image and some text. Memes can be used to promote disinformation or hatred, thus it is crucial to investigate in details. We introduce Memotion 3, a new dataset with 10,000 annotated memes. Unlike other prevalent datasets in the domain, including prior iterations of Memotion, Memotion 3 introduces Hindi-English Codemixed memes while prior works in the area were limited to only the English memes. We describe the Memotion task, the data collection and the dataset creation methodologies. We also provide a baseline for the task. The baseline code and dataset will be made available at https://github.com/Shreyashm16/Memotion-3.0
翻訳日:2023-03-24 17:04:33 公開日:2023-03-23
# 新しいベンチマーク: 平均教師付き学習と下流ドメイン適応のためのブレンダー付き合成データの有用性について

A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation ( http://arxiv.org/abs/2303.09165v2 )

ライセンス: Link先を確認
Hui Tang and Kui Jia(参考訳) コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。 しかしながら、高い労働コストとあいまいなラベリング精度のため、すべての関心領域のタスクごとに徹底したデータアノテーションは実行不可能である。 さらに、制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。 これらすべての疑問は、典型的な理論の検証と新しい発見への露出を妨げる可能性がある。 これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。 この研究は、素人による教師なし学習と下流ドメイン適応に関する深い研究をすることで、この線に沿って前進させます。 具体的には、3Dレンダリングによって実現されたよく制御されたIDデータ設定の下で、例えば、ショートカット学習のような典型的な重要な学習の洞察を体系的に検証し、一般化における様々なデータ体制とネットワークアーキテクチャの新しい法則を発見する。 さらに,3dシーンにおける物体スケール,素材テクスチャ,照明,カメラ視点,背景などの一般化に対する画像形成因子の影響についても検討した。 さらに, 合成データと実データとの伝達性を比較するため, シミュレーションから現実への適応を下流タスクとして用いることにより, 合成データの事前学習が実テスト結果の向上にも寄与することを示す。 最後に,今後の研究を促進するために,s2rdaと呼ばれる画像分類のための新しい大規模合成-実数ベンチマークを開発し,シミュレーションから現実への移動に関するより重要な課題を提供する。 コードとデータセットはhttps://github.com/huitangtang/on_the_utility_of_synthetic_dataで入手できる。

Deep learning in computer vision has achieved great success with the price of large-scale labeled training data. However, exhaustive data annotation is impracticable for each task of all domains of interest, due to high labor costs and unguaranteed labeling accuracy. Besides, the uncontrollable data collection process produces non-IID training and test data, where undesired duplication may exist. All these nuisances may hinder the verification of typical theories and exposure to new findings. To circumvent them, an alternative is to generate synthetic data via 3D rendering with domain randomization. We in this work push forward along this line by doing profound and extensive research on bare supervised learning and downstream domain adaptation. Specifically, under the well-controlled, IID data setting enabled by 3D rendering, we systematically verify the typical, important learning insights, e.g., shortcut learning, and discover the new laws of various data regimes and network architectures in generalization. We further investigate the effect of image formation factors on generalization, e.g., object scale, material texture, illumination, camera viewpoint, and background in a 3D scene. Moreover, we use the simulation-to-reality adaptation as a downstream task for comparing the transferability between synthetic and real data when used for pre-training, which demonstrates that synthetic data pre-training is also promising to improve real test results. Lastly, to promote future research, we develop a new large-scale synthetic-to-real benchmark for image classification, termed S2RDA, which provides more significant challenges for transfer from simulation to reality. The code and datasets are available at https://github.com/huitangtang/On_the_Utility_of_Synthetic_Data.
翻訳日:2023-03-24 17:04:00 公開日:2023-03-23
# Aerial-Ground Person Re-ID

Aerial-Ground Person Re-ID ( http://arxiv.org/abs/2303.08597v3 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes(参考訳) 人は複数の重複しないカメラで人と再識別します。 飛行中のプラットフォームを監視に展開する一方で、既存の人物のre-IDベンチマークは地上でのマッチングと空中のマッチングに非常に限定的な取り組みに重点を置いている。 そこで我々は,航空カメラと地上カメラをまたいで,人物のリIDマッチングを行う新しいベンチマークデータセットAG-ReIDを提案する。 データセットには、388のアイデンティティの21,983のイメージと、各IDに対する15のソフト属性が含まれている。 データは、高度15~45mのUAVと、大学のキャンパスで地上のCCTVカメラによって収集されました。 我々のデータセットは、カメラ間で人物の外観が著しく異なるため、人物のリIDに対する新たな視点課題を提示している。 本稿では,この課題に対処するために,ソフト属性を用いたリIDモデルのトレーニングを指導するための説明可能なアルゴリズムを提案する。 地上人物再ID課題に対する提案手法の有効性を示す実験を行った。 データセットは公開され、ベースラインコードはhttps://github.com/huynguyen792/AG-ReIDでオープンソース化される。

Person re-ID matches persons across multiple non-overlapping cameras. Despite the increasing deployment of airborne platforms in surveillance, current existing person re-ID benchmarks' focus is on ground-ground matching and very limited efforts on aerial-aerial matching. We propose a new benchmark dataset - AG-ReID, which performs person re-ID matching in a new setting: across aerial and ground cameras. Our dataset contains 21,983 images of 388 identities and 15 soft attributes for each identity. The data was collected by a UAV flying at altitudes between 15 to 45 meters and a ground-based CCTV camera on a university campus. Our dataset presents a novel elevated-viewpoint challenge for person re-ID due to the significant difference in person appearance across these cameras. We propose an explainable algorithm to guide the person re-ID model's training with soft attributes to address this challenge. Experiments demonstrate the efficacy of our method on the aerial-ground person re-ID task. The dataset will be published and the baseline codes will be open-sourced at https://github.com/huynguyen792/AG-ReID to facilitate research in this area.
翻訳日:2023-03-24 17:03:32 公開日:2023-03-23
# ニアリニア量子レギュレータのグローバル最適政策への政策勾配の収束

Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators ( http://arxiv.org/abs/2303.08431v2 )

ライセンス: Link先を確認
Yinbin Han, Meisam Razaviyayn and Renyuan Xu(参考訳) 意思決定者に部分的な情報を与える非線形制御システムは、様々なアプリケーションで広く使われている。 このような非線形システムの研究の一歩として, ほぼ線形2次制御系における最適政策を見つけるための強化学習手法を検討する。 特に、線形成分と非線形成分を結合し、同じ構造を持つポリシーによって制御される動的システムを考える。 非線形成分が小さなリプシッツ係数を持つカーネルからなると仮定すると、コスト関数の最適化景観を特徴づける。 コスト関数は一般に非凸であるが、大域最適化器の近傍で局所的な強い凸性と滑らか性を確立する。 さらに,これらの特性を利用する初期化機構を提案する。 開発を基盤として,線形レートでグローバルな最適政策に収束することが保証される政策勾配アルゴリズムを設計する。

Nonlinear control systems with partial information to the decision maker are prevalent in a variety of applications. As a step toward studying such nonlinear systems, this work explores reinforcement learning methods for finding the optimal policy in the nearly linear-quadratic regulator systems. In particular, we consider a dynamic system that combines linear and nonlinear components, and is governed by a policy with the same structure. Assuming that the nonlinear component comprises kernels with small Lipschitz coefficients, we characterize the optimization landscape of the cost function. Although the cost function is nonconvex in general, we establish the local strong convexity and smoothness in the vicinity of the global optimizer. Additionally, we propose an initialization mechanism to leverage these properties. Building on the developments, we design a policy gradient algorithm that is guaranteed to converge to the globally optimal policy with a linear rate.
翻訳日:2023-03-24 17:03:13 公開日:2023-03-23
# Cloud Vision Emotion APIの性能解析と評価

Performance Analysis and Evaluation of Cloud Vision Emotion APIs ( http://arxiv.org/abs/2303.12974v1 )

ライセンス: Link先を確認
Salik Ram Khanal, Prabin Sharma, Hugo Fernandes, Jo\~ao Barroso, V\'itor Manuel de Jesus Filipe(参考訳) 表情はコンピュータや他の電子機器との対話に使用できるコミュニケーションの手段であり、顔からの感情の認識は多くの分野における応用の新たな実践である。 顔画像やビデオから感情を認識する、クラウドベースのビジョンアプリケーションプログラミングインターフェースが数多く用意されている。 本稿では、顔の感情の980イメージの公開データセットを用いて、2つのよく知られたAPIのパフォーマンスを比較した。 これらの実験のために、イメージセットを反復してクラウドサービスを呼び出し、各イメージに対する感情検出の結果をキャッシュするクライアントプログラムが開発された。 評価は予測精度を用いて各感情クラスで評価した。 使用するクラウドサービスによって、各感情の予測精度が変化することが判明した。 同様に、各サービスプロバイダは、分析されているクラスに応じて、パフォーマンスの強いバリエーションを示します。

Facial expression is a way of communication that can be used to interact with computers or other electronic devices and the recognition of emotion from faces is an emerging practice with application in many fields. There are many cloud-based vision application programming interfaces available that recognize emotion from facial images and video. In this article, the performances of two well-known APIs were compared using a public dataset of 980 images of facial emotions. For these experiments, a client program was developed which iterates over the image set, calls the cloud services, and caches the results of the emotion detection for each image. The performance was evaluated in each class of emotions using prediction accuracy. It has been found that the prediction accuracy for each emotion varies according to the cloud service being used. Similarly, each service provider presents a strong variation of performance according to the class being analyzed, as can be seen with more detail in this artilects.
翻訳日:2023-03-24 16:11:22 公開日:2023-03-23
# 勧告における不確実性校正

Uncertainty Calibration for Counterfactual Propensity Estimation in Recommendation ( http://arxiv.org/abs/2303.12973v1 )

ライセンス: Link先を確認
Wenbo Hu, Xin Sun, Qiang liu, Shu Wu(参考訳) レコメンデーションシステムでは、選択バイアスのために評価の大部分が欠落している。 反事実逆確率スコア (IPS) は, 観測された各評価値の計算誤差の重み付けに用いられた。 複数のシナリオにおいて有効であるが,不確実性推定の不確かさによりIPS推定の性能は制限されていると論じる。 本稿では,複数の代表的不確実性校正手法を用いたレコメンデーションシステムにおける不確実性評価手法を提案する。 偏りと一般化境界の理論解析は、校正されたIPS推定器が未校正値よりも優れていることを示している。 coat と yahoo データセットの実験結果は不確実性校正が改善され、より良い推奨結果をもたらすことを示している。

In recommendation systems, a large portion of the ratings are missing due to the selection biases, which is known as Missing Not At Random. The counterfactual inverse propensity scoring (IPS) was used to weight the imputation error of every observed rating. Although effective in multiple scenarios, we argue that the performance of IPS estimation is limited due to the uncertainty miscalibration of propensity estimation. In this paper, we propose the uncertainty calibration for the propensity estimation in recommendation systems with multiple representative uncertainty calibration techniques. Theoretical analysis on the bias and generalization bound shows the superiority of the calibrated IPS estimator over the uncalibrated one. Experimental results on the coat and yahoo datasets shows that the uncertainty calibration is improved and hence brings the better recommendation results.
翻訳日:2023-03-24 16:11:09 公開日:2023-03-23
# ポストパンデミック環境におけるキャッシュレス決済サービスの検討

Examining Cashless Payment Services in a Post-Pandemic Environment ( http://arxiv.org/abs/2303.12970v1 )

ライセンス: Link先を確認
Janiya R. Peters, Orissa Rose(参考訳) 新型コロナウイルス(COVID-19)は、米国のレストランや食品サービスに多くの課題をもたらした。 多くの企業は緊急健康規定に従うために無接触注文と無現金支払い政策を採用した。 2023年5月に国民および公衆衛生の緊急事態宣言が切れるとしても、キャッシュレス決済サービスはドアダッシュやuber eatsなどのオンライン注文プラットフォームやスナックパスのようなソーシャル決済プラットフォームを通じて成長を続けている。 現在、デザイナーと政策立案者は、キャッシュレス支払いサービスの社会経済政治と、限界グループに対するサービスアクセシビリティに対処しなければならない。

The global pandemic COVID-19 posed numerous challenges for U.S. restaurants and food services. Many businesses adopted contactless ordering and cashless payment policies to comply with emergency health mandates. Even with national and public health emergency mandates set to expire in May 2023, cashless payment services continue to thrive through online ordering platforms such as DoorDash and Uber Eats and social payment platforms such as Snackpass. At present, designers and policymakers must address the socioeconomic politics of cashless payment services and service accessibility for marginalized groups.
翻訳日:2023-03-24 16:10:56 公開日:2023-03-23
# 散逸状態形成のための初期状態依存量子速度限界:枠組みと最適化

Initial-state dependent quantum speed limit for dissipative state preparation: Framework and optimization ( http://arxiv.org/abs/2303.12967v1 )

ライセンス: Link先を確認
Junjie Liu and Hamlin Nie(参考訳) 散逸は伝統的に量子情報処理の障害と考えられてきたが、近年の研究により、所望の量子状態を生成するために利用できることが示されている。 実用的な用途に有用であるためには、散逸的な進化をスピードアップする能力が不可欠である。 本研究では, 生成状態がエネルギー固有状態の1つであるマルコフ散逸状態生成スキームに着目した。 我々は、一般的に用いられる初期状態非依存緩和時間と比較して、実際の進化時間のより洗練された測定値を提供する初期状態依存量子速度制限(QSL)を導出する。 これにより、異なる初期状態にわたる散逸的進化のパッシブ最適化が可能になる。 qslを用いた進化時間の最小化を条件とした調製過程における散逸熱の最小化により、望ましい初期状態は固有値の増加の順序エネルギー固有値に対して対角要素の特定の置換を持つことがわかった。 この構成では、準備された状態の個体数は最大であり、残りの対角要素は、同じ順序のエネルギー固有基底における受動的状態の順にソートされる。 ベル状態を作成するための散逸ライドバーグ原子系における戦略の有効性を実証する。 我々の研究は、散逸状態準備プロセスの最適化に関する新たな洞察を提供し、実用的な量子技術に重大な影響を与える可能性がある。

Dissipation has traditionally been considered a hindrance to quantum information processing, but recent studies have shown that it can be harnessed to generate desired quantum states. To be useful for practical applications, the ability to speed up the dissipative evolution is crucial. In this study, we focus on a Markovian dissipative state preparation scheme where the prepared state is one of the energy eigenstates. We derive an initial-state-dependent quantum speed limit (QSL) that offers a more refined measure of the actual evolution time compared to the commonly used initial-state-independent relaxation time. This allows for a passive optimization of dissipative evolution across different initial states. By minimizing the dissipated heat during the preparation process, conditioned on the minimization of evolution time using the QSL, we find that the preferred initial state has a specific permutation of diagonal elements with respect to an ordered energy eigenbasis of increasing eigenvalues. In this configuration, the population on the prepared state is the largest, and the remaining diagonal elements are sorted in an order resembling that of a passive state in the same ordered energy eigenbasis. We demonstrate the effectiveness of our strategy in a dissipative Rydberg atom system for preparing the Bell state. Our work provides new insights into the optimization of dissipative state preparation processes and could have significant implications for practical quantum technologies.
翻訳日:2023-03-24 16:10:45 公開日:2023-03-23
# アニマタブルヒトアバターのための効率的なメッシュニューラルネットワーク

Efficient Meshy Neural Fields for Animatable Human Avatars ( http://arxiv.org/abs/2303.12965v1 )

ライセンス: Link先を確認
Xiaoke Huang, Yiji Cheng, Yansong Tang, Xiu Li, Jie Zhou, Jiwen Lu(参考訳) ビデオから高忠実なアニメーション可能な人間のアバターを効率的にデジタル化することは、挑戦的で活発な研究テーマである。 最近のボリュームレンダリングに基づくニューラル表現は、フレンドリーなユーザビリティとフォトリアリスティックな再構築品質を備えた、人間のデジタル化の新しい方法を開く。 しかし、それらは長い最適化時間と推論速度の遅いために非効率であり、その暗黙の性質は絡み合った幾何学、材料、そしてその後の編集が難しい人間のダイナミクスをもたらす。 このような欠点は、下流アプリケーション、特に顕著なラスタライズベースのグラフィックアプリケーションに直接適用できない。 アニマタブルなヒトアバターを再構築するために,メッシュニューラルネットワークを効果的に学習する手法であるEMAを提案する。 端から端までの逆レンダリングによって、明示的な三角形の標準メッシュ、空間変化物質、モーションダイナミクスを共同で最適化する。 上記の各コンポーネントは、別々のニューラルネットワークから派生したもので、テンプレートの要件やリギングを緩和する。 メッシュ表現は効率的なラスタライズベースのレンダラと高い互換性を持つため、この手法はトレーニングに約1時間しかかからず、リアルタイムにレンダリングできる。 また, 再建には数分の最適化だけで十分である。 メッシュの絡み合いが直接下流アプリケーションを可能にします。 大規模な実験は、従来の手法に対する非常に競争力のある性能と大幅な速度向上を示す。 また,新しいポーズ合成,素材編集,リライトといった応用例も紹介する。 プロジェクトページ: https://xk-huang.github.io/ema/

Efficiently digitizing high-fidelity animatable human avatars from videos is a challenging and active research topic. Recent volume rendering-based neural representations open a new way for human digitization with their friendly usability and photo-realistic reconstruction quality. However, they are inefficient for long optimization times and slow inference speed; their implicit nature results in entangled geometry, materials, and dynamics of humans, which are hard to edit afterward. Such drawbacks prevent their direct applicability to downstream applications, especially the prominent rasterization-based graphic ones. We present EMA, a method that Efficiently learns Meshy neural fields to reconstruct animatable human Avatars. It jointly optimizes explicit triangular canonical mesh, spatial-varying material, and motion dynamics, via inverse rendering in an end-to-end fashion. Each above component is derived from separate neural fields, relaxing the requirement of a template, or rigging. The mesh representation is highly compatible with the efficient rasterization-based renderer, thus our method only takes about an hour of training and can render in real-time. Moreover, only minutes of optimization is enough for plausible reconstruction results. The disentanglement of meshes enables direct downstream applications. Extensive experiments illustrate the very competitive performance and significant speed boost against previous methods. We also showcase applications including novel pose synthesis, material editing, and relighting. The project page: https://xk-huang.github.io/ema/.
翻訳日:2023-03-24 16:10:21 公開日:2023-03-23
# 連続不確定確率ニューラルネットワーク

Continuous Indeterminate Probability Neural Network ( http://arxiv.org/abs/2303.12964v1 )

ライセンス: Link先を確認
Tao Yang(参考訳) 本稿では、CIPNN-Continuous Indeterminate Probability Neural Networkと呼ばれる一般的なモデルを紹介し、このモデルは離散潜在確率変数に使用されるIPNNに基づいている。 現在、連続潜伏変数の後方は難解であると見なされており、IPNNによって提案された新しい理論はこの問題を解くことができる。 私たちの貢献は4倍です。 まず,連続潜時確率変数の後方計算における解析解を導出し,一般化分類モデル(CIPNN)を提案する。 次に,連続不確定確率オートエンコーダであるcipaeと呼ばれる一般的な自動エンコーダを提案する。 第3に,n次元の潜在変数の1つをデコーダとして使用して入力画像の再構成を行い,分類タスクにおいても機能する手法を提案する。 第4に、IPNNは優れた分類能力を示し、CIPNNはこの分類能力を無限にプッシュした。 理論的利点は実験結果に反映される。

This paper introduces a general model called CIPNN - Continuous Indeterminate Probability Neural Network, and this model is based on IPNN, which is used for discrete latent random variables. Currently, posterior of continuous latent variables is regarded as intractable, with the new theory proposed by IPNN this problem can be solved. Our contributions are Four-fold. First, we derive the analytical solution of the posterior calculation of continuous latent random variables and propose a general classification model (CIPNN). Second, we propose a general auto-encoder called CIPAE - Continuous Indeterminate Probability Auto-Encoder, the decoder part is not a neural network and uses a fully probabilistic inference model for the first time. Third, we propose a new method to visualize the latent random variables, we use one of N dimensional latent variables as a decoder to reconstruct the input image, which can work even for classification tasks, in this way, we can see what each latent variable has learned. Fourth, IPNN has shown great classification capability, CIPNN has pushed this classification capability to infinity. Theoretical advantages are reflected in experimental results.
翻訳日:2023-03-24 16:09:59 公開日:2023-03-23
# 予測型モデル駆動LSTM

Forecast-Aware Model Driven LSTM ( http://arxiv.org/abs/2303.12963v1 )

ライセンス: Link先を確認
Sophia Hamer, Jennifer Sleeman, Ivanka Stajner(参考訳) 空気の質は人間の健康に大きな影響を及ぼす。 海洋大気庁(NOAA)の大気質予報ガイダンスは、野生の火災や熱波などの極端な気象現象により、極端な大気質イベントの存在が増大しているため、課題となっている。 これらの極端な空気質の出来事は人間の健康にさらに影響を及ぼす。 モデルバイアスを正す伝統的な方法は、線形性と基礎となる分布を仮定する。 極端に空気質のイベントは、イベントにつながる強いシグナルがなければ発生しがちであり、この振る舞いは、既存の手法がバイアスを補うか過度に補償する傾向にある。 深層学習は、非線形問題を一般化し学習する能力により、極端な空気質イベントの存在下での空気質予測を約束する。 しかし、これらの異常な空気質イベントの存在下では、単一のネットワークを用いて将来の予測を一般化する標準的なディープネットワークアプローチは、地理や気象学を含む完全な特徴セットであっても、常に最高の性能を提供するとは限らない。 本研究では,非教師なし学習と予測対応双方向LSTMネットワークを組み合わせた,オゾンおよびPM2.5のエアNow局データを用いた運用空気質予測のバイアス補正を行う手法について述べる。 緯度・経度・都市化・標高などの局地的特徴を訓練した教師なしクラスタリング手法を用いて,lstmネットワークのトレーニングデータを分割して直接トレーニングを行う。 LSTMは予測に気付き、予測日を通して前後に学習を行うユニークな方法を用いて実装されている。 予測モデルのRMSEとバイアス補正モデルのRMSEを比較すると、バイアス補正モデルはベース予測よりも顕著な改善(オゾンに対するRMSEの27\%低下)を示した。

Poor air quality can have a significant impact on human health. The National Oceanic and Atmospheric Administration (NOAA) air quality forecasting guidance is challenged by the increasing presence of extreme air quality events due to extreme weather events such as wild fires and heatwaves. These extreme air quality events further affect human health. Traditional methods used to correct model bias make assumptions about linearity and the underlying distribution. Extreme air quality events tend to occur without a strong signal leading up to the event and this behavior tends to cause existing methods to either under or over compensate for the bias. Deep learning holds promise for air quality forecasting in the presence of extreme air quality events due to its ability to generalize and learn nonlinear problems. However, in the presence of these anomalous air quality events, standard deep network approaches that use a single network for generalizing to future forecasts, may not always provide the best performance even with a full feature-set including geography and meteorology. In this work we describe a method that combines unsupervised learning and a forecast-aware bi-directional LSTM network to perform bias correction for operational air quality forecasting using AirNow station data for ozone and PM2.5 in the continental US. Using an unsupervised clustering method trained on station geographical features such as latitude and longitude, urbanization, and elevation, the learned clusters direct training by partitioning the training data for the LSTM networks. LSTMs are forecast-aware and implemented using a unique way to perform learning forward and backwards in time across forecasting days. When comparing the RMSE of the forecast model to the RMSE of the bias corrected model, the bias corrected model shows significant improvement (27\% lower RMSE for ozone) over the base forecast.
翻訳日:2023-03-24 16:09:39 公開日:2023-03-23
# 探査の計画目標

Planning Goals for Exploration ( http://arxiv.org/abs/2303.13002v1 )

ライセンス: Link先を確認
Edward S. Hu, Richard Chang, Oleh Rybkin, Dinesh Jayaraman(参考訳) エージェントは未知の環境に陥り、環境について素早く学び、その中の様々なタスクをどうやって達成すべきか? 目標条件付き強化学習パラダイムでは,探索を最大化するために,エージェントが目標をトレーニング時に設定すべきかどうかを特定することで,この問題に対処する。 我々は,各訓練エピソードの目標を設定し,本質的探索報酬を直接最適化する「計画探索目標」(peg)を提案する。 pegはまず目標コマンドを選択し、エージェントの目標条件のポリシーは、現在の訓練レベルにおいて、高い探索可能性を持つ州で終わる。 その後、有望な州から探索政策を開始する。 この直接的な最適化を実現するため、PEGは世界モデルを学び、サンプリングベースの計画アルゴリズムを"計画目標コマンド"に適応させる。 迷路内のマルチレッグのアリロボットや、散らかったテーブルトップ上のロボットアームなど、シミュレーションされたロボット環境において、PEG探索は、ベースラインとアブレーションに対して、より効率的で効果的な目標条件のトレーニングを可能にする。 私たちのアリは長い迷路をナビゲートし、ロボットアームはコマンドで3ブロックの積み重ねを成功させました。 ウェブサイト:https://penn-pal-lab.github.io/peg/

Dropped into an unknown environment, what should an agent do to quickly learn about the environment and how to accomplish diverse tasks within it? We address this question within the goal-conditioned reinforcement learning paradigm, by identifying how the agent should set its goals at training time to maximize exploration. We propose "Planning Exploratory Goals" (PEG), a method that sets goals for each training episode to directly optimize an intrinsic exploration reward. PEG first chooses goal commands such that the agent's goal-conditioned policy, at its current level of training, will end up in states with high exploration potential. It then launches an exploration policy starting at those promising states. To enable this direct optimization, PEG learns world models and adapts sampling-based planning algorithms to "plan goal commands". In challenging simulated robotics environments including a multi-legged ant robot in a maze, and a robot arm on a cluttered tabletop, PEG exploration enables more efficient and effective training of goal-conditioned policies relative to baselines and ablations. Our ant successfully navigates a long maze, and the robot arm successfully builds a stack of three blocks upon command. Website: https://penn-pal-lab.github.io/peg/
翻訳日:2023-03-24 16:01:56 公開日:2023-03-23
# ChatGPTは良いキーワード生成器か? 予備的研究

Is ChatGPT A Good Keyphrase Generator? A Preliminary Study ( http://arxiv.org/abs/2303.13001v1 )

ライセンス: Link先を確認
Mingyang Song, Haiyun Jiang, Shuming Shi, Songfang Yao, Shilong Lu, Yi Feng, Huafeng Liu, Liping Jing(参考訳) ChatGPTの出現は、最近、計算言語学コミュニティから大きな注目を集めている。 キーフレーズ生成器としての機能を実証するために,キーフレーズ生成タスクにおけるchatgptの予備評価を行う。 我々は,キーフレーズ生成プロンプト,キーフレーズ生成多様性,マルチドメインキーフレーズ生成,長い文書理解など,様々な面でその性能を評価する。 評価は6つのベンチマークデータセットに基づいており、OpenAIが提案するプロンプトを6つの候補プロンプトに拡張しながら採用しています。 chatgptは6つの候補プロンプトすべてにおいて非常によく機能しており、データセット全体では小さなパフォーマンスの違いが観察されている。 以上の結果から,chatgptはキーフレーズ生成に大きな可能性があると結論づけた。 さらに,チャットgptではキーフレーズの欠落が問題となっていることも判明した。 一方,最終節では,本報告の限界と今後の拡張についても紹介する。

The emergence of ChatGPT has recently garnered significant attention from the computational linguistics community. To demonstrate its capabilities as a keyphrase generator, we conduct a preliminary evaluation of ChatGPT for the keyphrase generation task. We evaluate its performance in various aspects, including keyphrase generation prompts, keyphrase generation diversity, multi-domain keyphrase generation, and long document understanding. Our evaluation is based on six benchmark datasets, and we adopt the prompt suggested by OpenAI while extending it to six candidate prompts. We find that ChatGPT performs exceptionally well on all six candidate prompts, with minor performance differences observed across the datasets. Based on our findings, we conclude that ChatGPT has great potential for keyphrase generation. Moreover, we discover that ChatGPT still faces challenges when it comes to generating absent keyphrases. Meanwhile, in the final section, we also present some limitations and future expansions of this report.
翻訳日:2023-03-24 16:01:33 公開日:2023-03-23
# モバイルエッジネットワークにおける自動フェデレーション学習 -- 高速適応と収束

Automated Federated Learning in Mobile Edge Networks -- Fast Adaptation and Convergence ( http://arxiv.org/abs/2303.12999v1 )

ライセンス: Link先を確認
Chaoqun You, Kun Guo, Gang Feng, Peng Yang, Tony Q. S. Quek(参考訳) フェデレートラーニング(FL)は、モバイルエッジネットワークで機械学習モデルを分散的にトレーニングするために使用することができる。 近年、FLはModel-Agnostic Meta-Learning (MAML) フレームワークで解釈されている。 しかし、既存の研究は単にMAMLとFLを組み合わせるだけで、MAMLがFLにどの程度の利益をもたらすか、モバイルエッジネットワークに対してそのような利益を最大化する方法を明確に示していない。 本稿では,モバイルエッジネットワークにおけるflハイパーパラメータの最適化(サンプルデータサイズと通信ラウンド数)とリソース割り当て(送信電力)の2つの側面から,その利点を定量化する。 具体的には,モデル精度とエネルギー消費の制約の下で,mamlに基づくfl設計を学習時間最小化問題として定式化する。 そこで,MAMLに基づくFLの収束解析により定式化問題を分解し,解析解と座標降下法を用いて解いた。 得られたFLハイパーパラメータとリソース割り当てを用いて、高速適応と収束を可能にするMAMLベースのFLアルゴリズムであるAutomated Federated Learning(AutoFL)を設計する。 広範な実験結果は、autoflが学習時間と収束性能に関して他のベンチマークアルゴリズムよりも優れていることを検証している。

Federated Learning (FL) can be used in mobile edge networks to train machine learning models in a distributed manner. Recently, FL has been interpreted within a Model-Agnostic Meta-Learning (MAML) framework, which brings FL significant advantages in fast adaptation and convergence over heterogeneous datasets. However, existing research simply combines MAML and FL without explicitly addressing how much benefit MAML brings to FL and how to maximize such benefit over mobile edge networks. In this paper, we quantify the benefit from two aspects: optimizing FL hyperparameters (i.e., sampled data size and the number of communication rounds) and resource allocation (i.e., transmit power) in mobile edge networks. Specifically, we formulate the MAML-based FL design as an overall learning time minimization problem, under the constraints of model accuracy and energy consumption. Facilitated by the convergence analysis of MAML-based FL, we decompose the formulated problem and then solve it using analytical solutions and the coordinate descent method. With the obtained FL hyperparameters and resource allocation, we design a MAML-based FL algorithm, called Automated Federated Learning (AutoFL), that is able to conduct fast adaptation and convergence. Extensive experimental results verify that AutoFL outperforms other benchmark algorithms regarding the learning time and convergence performance.
翻訳日:2023-03-24 16:01:19 公開日:2023-03-23
# FER-former:表情認識のためのマルチモーダルトランス

FER-former: Multi-modal Transformer for Facial Expression Recognition ( http://arxiv.org/abs/2303.12997v1 )

ライセンス: Link先を確認
Yande Li, Mingjie Wang, Minglun Gong, Yonggang Lu, Li Liu(参考訳) バーチャルリアリティーにおける直感的な相互作用に対する需要は、顔の表情認識(FER)の領域でブームを引き起こしている。 本論文では、既存のアプローチ(例えば、狭い受容場と均質な監視信号)の限界に対処し、FERツールの能力をさらに強化するために、野生におけるFERのための新しい多孔性監視ステアリングトランスを提案する。 fer-former と呼ばれるこのアプローチは,マルチグラニュラリティ埋め込み統合,ハイブリッドセルフアテンションスキーム,ヘテロジニアスなドメインステアリング監督を特徴とする。 具体的には、cnnとトランスフォーマーが提供する機能の組み合わせの利点を深く掘り下げるために、ハイブリッドstemは2つのタイプの学習パラダイムを同時にカスケードするように設計されている。 一方、FER固有のトランスフォーマー機構は、最終分類のために従来のハードワンホットラベルフォーカスとCLIPベースのテキスト指向トークンを並列に特徴付けるために考案されている。 アノテーションの曖昧さの問題を緩和するため,画像特徴とテキスト特徴の類似性を監督することにより,画像特徴がテキスト空間意味相関を持つように,異種ドメインステアリング監督モジュールを提案する。 マルチファーラストークンヘッドのコラボレーションに加えて、多モーダルなセマンティックキューを備えた多様なグローバルな受容フィールドをキャプチャして、スーパーブラーニング能力を提供する。 人気のあるベンチマークに関する広範囲な実験は、既存の最新技術よりもfer-formerの方が優れていることを示している。

The ever-increasing demands for intuitive interactions in Virtual Reality has triggered a boom in the realm of Facial Expression Recognition (FER). To address the limitations in existing approaches (e.g., narrow receptive fields and homogenous supervisory signals) and further cement the capacity of FER tools, a novel multifarious supervision-steering Transformer for FER in the wild is proposed in this paper. Referred as FER-former, our approach features multi-granularity embedding integration, hybrid self-attention scheme, and heterogeneous domain-steering supervision. In specific, to dig deep into the merits of the combination of features provided by prevailing CNNs and Transformers, a hybrid stem is designed to cascade two types of learning paradigms simultaneously. Wherein, a FER-specific transformer mechanism is devised to characterize conventional hard one-hot label-focusing and CLIP-based text-oriented tokens in parallel for final classification. To ease the issue of annotation ambiguity, a heterogeneous domains-steering supervision module is proposed to make image features also have text-space semantic correlations by supervising the similarity between image features and text features. On top of the collaboration of multifarious token heads, diverse global receptive fields with multi-modal semantic cues are captured, thereby delivering superb learning capability. Extensive experiments on popular benchmarks demonstrate the superiority of the proposed FER-former over the existing state-of-the-arts.
翻訳日:2023-03-24 16:00:55 公開日:2023-03-23
# 有害データセットの適応的分割によるバックドア防御

Backdoor Defense via Adaptively Splitting Poisoned Dataset ( http://arxiv.org/abs/2303.12993v1 )

ライセンス: Link先を確認
Kuofeng Gao, Yang Bai, Jindong Gu, Yong Yang, Shu-Tao Xia(参考訳) バックドアディフェンスは、ディープニューラルネットワーク(DNN)がバックドアを攻撃され、悪質に変更されることの脅威を軽減するために研究されている。 DNNは通常、信頼できない第三者からの外部トレーニングデータを採用するため、トレーニング段階で堅牢なバックドア防衛戦略が重要である。 トレーニング時間防衛の核心は, 有毒な試料を選別し, 適切な処理を行うことである。 本稿では,汚染されたデータセットを2つのデータプールに分割することで,統一フレームワークからのトレーニング時間の防御を要約する。 本フレームワークでは,適応的に分割されたデータセットベースディフェンス(ASD)を提案する。 具体的には,損失誘導スプリットとメタ学習に触発されたスプリットを適用し,2つのデータプールを動的に更新する。 スプリットクリーンなデータプールと汚染されたデータプールによって、asdはトレーニング中にバックドア攻撃に対してうまく防御する。 最先端の6つのバックドア攻撃に対する複数のベンチマークデータセットとDNNモデルに対する大規模な実験は、ASDの優位性を示している。 私たちのコードはhttps://github.com/kuofenggao/asdで利用可能です。

Backdoor defenses have been studied to alleviate the threat of deep neural networks (DNNs) being backdoor attacked and thus maliciously altered. Since DNNs usually adopt some external training data from an untrusted third party, a robust backdoor defense strategy during the training stage is of importance. We argue that the core of training-time defense is to select poisoned samples and to handle them properly. In this work, we summarize the training-time defenses from a unified framework as splitting the poisoned dataset into two data pools. Under our framework, we propose an adaptively splitting dataset-based defense (ASD). Concretely, we apply loss-guided split and meta-learning-inspired split to dynamically update two data pools. With the split clean data pool and polluted data pool, ASD successfully defends against backdoor attacks during training. Extensive experiments on multiple benchmark datasets and DNN models against six state-of-the-art backdoor attacks demonstrate the superiority of our ASD. Our code is available at https://github.com/KuofengGao/ASD.
翻訳日:2023-03-24 16:00:30 公開日:2023-03-23
# 歴史学習に関するサーベイ:学習履歴を持つ学習モデル

A Survey of Historical Learning: Learning Models with Learning History ( http://arxiv.org/abs/2303.12992v1 )

ライセンス: Link先を確認
Xiang Li, Ge Wu, Lingfeng Yang, Wenhai Wang, Renjie Song, Jian Yang(参考訳) 新しい知識は古いものに由来する。 トレーニング履歴に蓄積された様々な種類の要素は、深層モデルの学習を改善するための大量の富である。 本研究では,「歴史学習:学習履歴を持つ学習モデル」というトピックを,その最適化過程における学習履歴の助けを借りて,より優れたニューラルモデルを学ぶ手法について,歴史タイプ(what),機能部分(where),記憶形式(how)の3つの詳細な側面から総合的に検討・要約する。 我々の知る限りでは、ディープニューラルネットワークのトレーニングに様々な歴史的統計を利用する方法論を体系的に研究する最初の調査である。 リカレント/メモリネットワーク、アンサンブル学習、強化学習といった関連トピックとの議論が示されている。 我々はまた、このトピックの今後の課題を明らかにし、アルゴリズムを設計する際の歴史的学習原則の考え方にコミュニティが注意を払うように促します。 歴史学習に関するペーパーリストは、 \url{https://github.com/martinser/awesome-historical-learningで入手できる。 }

New knowledge originates from the old. The various types of elements, deposited in the training history, are a large amount of wealth for improving learning deep models. In this survey, we comprehensively review and summarize the topic--``Historical Learning: Learning Models with Learning History'', which learns better neural models with the help of their learning history during its optimization, from three detailed aspects: Historical Type (what), Functional Part (where) and Storage Form (how). To our best knowledge, it is the first survey that systematically studies the methodologies which make use of various historical statistics when training deep neural networks. The discussions with related topics like recurrent/memory networks, ensemble learning, and reinforcement learning are demonstrated. We also expose future challenges of this topic and encourage the community to pay attention to the think of historical learning principles when designing algorithms. The paper list related to historical learning is available at \url{https://github.com/Martinser/Awesome-Historical-Learning.}
翻訳日:2023-03-24 16:00:16 公開日:2023-03-23
# ターボファンエンジンの故障予後:最終的な故障予測と有効寿命推定

Fault Prognosis of Turbofan Engines: Eventual Failure Prediction and Remaining Useful Life Estimation ( http://arxiv.org/abs/2303.12982v1 )

ライセンス: Link先を確認
Joseph Cohen, Xun Huan, Jun Ni(参考訳) 産業ビッグデータの時代には、在庫、メンテナンス、人的コストを最小限に抑えるために将来の失敗の予測を改善するためには、予測と健康管理が不可欠である。 2021 phmデータチャレンジに使用されるnasaの新しい商用モジュール型空力推進システムシミュレーションデータセットは、現実的な飛行条件下で飛行するターボファンエンジンユニットをシミュレーションしたオープンソースベンチマークである。 このアプリケーションのために以前に実装されたディープラーニングアプローチは、エンジンユニットの有効寿命を予測しようとするが、ラベル付き障害モード情報を利用せず、実用的な使用と説明可能性を妨げる。 これらの制限に対処するため、新しい予後学的なアプローチがカスタマイズされた損失関数で定式化され、現在の状態、最終的に失敗したコンポーネント、そして残りの有用な寿命を同時に予測する。 提案手法は,ランダム林,極端ランダム林,XGBoost,人工ニューラルネットワークなどの教師付き回帰器に入力される統計時間領域の特徴を直交化するための主成分分析を含む。 最も高性能なアルゴリズムであるANN-FluxはAUROCとAUPRのスコアを各分類で0.95を超えている。 さらに、ANN-Fluxは、過去の作業と比べてデータセットの同じテスト分割に対して、RMSEを38%削減し、計算コストを大幅に削減した。

In the era of industrial big data, prognostics and health management is essential to improve the prediction of future failures to minimize inventory, maintenance, and human costs. Used for the 2021 PHM Data Challenge, the new Commercial Modular Aero-Propulsion System Simulation dataset from NASA is an open-source benchmark containing simulated turbofan engine units flown under realistic flight conditions. Deep learning approaches implemented previously for this application attempt to predict the remaining useful life of the engine units, but have not utilized labeled failure mode information, impeding practical usage and explainability. To address these limitations, a new prognostics approach is formulated with a customized loss function to simultaneously predict the current health state, the eventual failing component(s), and the remaining useful life. The proposed method incorporates principal component analysis to orthogonalize statistical time-domain features, which are inputs into supervised regressors such as random forests, extreme random forests, XGBoost, and artificial neural networks. The highest performing algorithm, ANN-Flux, achieves AUROC and AUPR scores exceeding 0.95 for each classification. In addition, ANN-Flux reduces the remaining useful life RMSE by 38% for the same test split of the dataset compared to past work, with significantly less computational cost.
翻訳日:2023-03-24 15:59:57 公開日:2023-03-23
# 深部強化学習における連結超レベル集合とそのミニマックス理論への応用

Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minimax Theorems ( http://arxiv.org/abs/2303.12981v1 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 本研究の目的は,強化学習における政策最適化問題に対する最適化環境の理解を深めることである。 具体的には、ポリシーパラメータに関する目的関数の超レベル集合が、表的な設定とニューラルネットワークのクラスによって表されるポリシーの両方で常に連結集合であることを示す。 さらに,政策パラメータと報酬の関数としての最適化目標が,より強い「等価性」特性を満たすことを示す。 私たちの知る限りでは、これらは新しい発見であり、以前は知られていなかった。 本稿では,これらの超レベル集合の連結性を,ロバスト強化学習のためのミニマックス定理の導出に適用する。 一方の面が凸で他方の面が等連結な任意のミニマックス最適化プログラムがミニマックス等価性(すなわちナッシュ平衡)を観測することを示す。 この構造は,敵の報酬攻撃下での興味深い強固な強化学習問題によって示され,そのミニマックス等式の有効性は直ちに従う。 このような結果が文献に定着するのはこれが初めてである。

The aim of this paper is to improve the understanding of the optimization landscape for policy optimization problems in reinforcement learning. Specifically, we show that the superlevel set of the objective function with respect to the policy parameter is always a connected set both in the tabular setting and under policies represented by a class of neural networks. In addition, we show that the optimization objective as a function of the policy parameter and reward satisfies a stronger "equiconnectedness" property. To our best knowledge, these are novel and previously unknown discoveries. We present an application of the connectedness of these superlevel sets to the derivation of minimax theorems for robust reinforcement learning. We show that any minimax optimization program which is convex on one side and is equiconnected on the other side observes the minimax equality (i.e. has a Nash equilibrium). We find that this exact structure is exhibited by an interesting robust reinforcement learning problem under an adversarial reward attack, and the validity of its minimax equality immediately follows. This is the first time such a result is established in the literature.
翻訳日:2023-03-24 15:59:22 公開日:2023-03-23
# マルチ制御quditゲートの最適合成

Optimal Synthesis of Multi-Controlled Qudit Gates ( http://arxiv.org/abs/2303.12979v1 )

ライセンス: Link先を確認
Wei Zi, Qian Li, Xiaoming Sun(参考訳) クアディット上の多制御トフォリゲートの線形サイズ合成を,少なくとも1つの借用アンシラを用いて提案する。 この1つのアンシラは、クディット次元が奇数であれば保存できる。 我々の合成はキューディットに実装された様々な量子アルゴリズムの改善につながる。 特に私たちは (i)多制御quditゲートの線形サイズおよび1クリーンアンシラ合成 (ii)クディッツ上のユニタリの最適サイズおよび1クリーンアンシラ合成 (三)クディットゲートとして古典的可逆関数を準最適かつアンシラフリー・ワンボロージュアンシラで実装すること。

We propose a linear-size synthesis of the multi-controlled Toffoli gate on qudits with at most one borrowed ancilla. This one ancilla can even be saved when the qudit dimension is odd. Our synthesis leads to improvements in various quantum algorithms implemented on qudits. In particular, we obtain (i) a linear-size and one-clean-ancilla synthesis of multi-controlled qudit gates; (ii) an optimal-size and one-clean-ancilla synthesis of unitaries on qudits; (iii) a near-optimal-size and ancilla-free/one-borrowed-ancilla implementation of classical reversible functions as qudit gates.
翻訳日:2023-03-24 15:58:57 公開日:2023-03-23
# nvautonet: 自己運転のための高速で正確な360$^{\circ}$ 3d知覚

NVAutoNet: Fast and Accurate 360$^{\circ}$ 3D Perception For Self Driving ( http://arxiv.org/abs/2303.12976v1 )

ライセンス: Link先を確認
Trung Pham, Mehran Maghoumi, Wanli Jiang, Bala Siva Sashank Jujjavarapu, Mehdi Sajjadi Xin Liu, Hsuan-Chu Lin, Bor-Jeng Chen, Giang Truong, Chao Fang, Junghyun Kwon, Minwoo Park(参考訳) 3D世界に対するロバストなリアルタイム認識は、自動運転車にとって不可欠である。 我々は、自動運転のためのエンドツーエンドのサラウンドカメラ認識システムを導入する。 私たちの知覚システムは,様々な時間同期カメラを入力として,サイズ,方向,障害物の位置,駐車スペース,フリースペースなどの3d信号の豊富なコレクションを生成する,新しいマルチタスクマルチカメラネットワークである。 私たちの知覚ネットワークはモジュラーでエンドツーエンドです。 1)アウトプットは、クラスタリングやフュージョンのようなポストプロセスなしで、下流モジュールによって直接消費できる -- モデルのデプロイと車内テストのスピードを改善する。 2) ネットワークトレーニングは1つのステージで行われ、モデルの改善とイテレーションのスピードが向上します。 このネットワークは、nvidia orin soc(system-on-a-chip)上で53fpsで動作しながら、高精度に設計されている。 ネットワークはセンサー搭載のバリエーションに頑健であり、トレーニングやテスト中にキャリブレーションパラメータを追加入力として使用することで、効率的なモデルの微調整により、さまざまな車両タイプに対して迅速にカスタマイズすることができる。 最も重要なことは、私たちのネットワークは実際の道路でうまくデプロイされ、テストされています。

Robust real-time perception of 3D world is essential to the autonomous vehicle. We introduce an end-to-end surround camera perception system for self-driving. Our perception system is a novel multi-task, multi-camera network which takes a variable set of time-synced camera images as input and produces a rich collection of 3D signals such as sizes, orientations, locations of obstacles, parking spaces and free-spaces, etc. Our perception network is modular and end-to-end: 1) the outputs can be consumed directly by downstream modules without any post-processing such as clustering and fusion -- improving speed of model deployment and in-car testing 2) the whole network training is done in one single stage -- improving speed of model improvement and iterations. The network is well designed to have high accuracy while running at 53 fps on NVIDIA Orin SoC (system-on-a-chip). The network is robust to sensor mounting variations (within some tolerances) and can be quickly customized for different vehicle types via efficient model fine-tuning thanks of its capability of taking calibration parameters as additional inputs during training and testing. Most importantly, our network has been successfully deployed and being tested on real roads.
翻訳日:2023-03-24 15:58:48 公開日:2023-03-23
# 無線ネットワークにおける異常検出のための耐故障分散学習

Failure-tolerant Distributed Learning for Anomaly Detection in Wireless Networks ( http://arxiv.org/abs/2303.13015v1 )

ライセンス: Link先を確認
Marc Katzef, Andrew C. Cullen, Tansu Alpcan, Christopher Leckie, Justin Kopacz(参考訳) 分散技術の分析は、しばしばその堅牢性(または欠如)を考慮せずに、その効率性に焦点を当てる。 このような考慮は、デバイスや中央サーバが障害を起こし、分散システムを損なう可能性がある場合に特に重要である。 このような障害が無線通信ネットワークで発生すると、それらが使用する/提供する重要なサービス(異常検出など)は動作不能となり、セキュリティ上の問題が発生する可能性がある。 本稿では,フラットトポロジとスタートポロジを組み合わせることにより,これらのリスクに対処する新しい手法を提案する。 本手法は,フェデレートラーニング(Federated Learning)技術と比較して,耐障害性の向上による「Tol-FL」と呼ぶ。 当社のアプローチは,クライアントだけでなくサーバの障害も考慮し,通信コストの低減を図ることで,AUROCの異常検出において,従来手法を最大8%上回りながら,デバイス障害リスクを抑える。 この性能は、特に無線ネットワークの領域において、Tol-FLが異常検出のための分散モデルトレーニングに非常に適していることを示す。

The analysis of distributed techniques is often focused upon their efficiency, without considering their robustness (or lack thereof). Such a consideration is particularly important when devices or central servers can fail, which can potentially cripple distributed systems. When such failures arise in wireless communications networks, important services that they use/provide (like anomaly detection) can be left inoperable and can result in a cascade of security problems. In this paper, we present a novel method to address these risks by combining both flat- and star-topologies, combining the performance and reliability benefits of both. We refer to this method as "Tol-FL", due to its increased failure-tolerance as compared to the technique of Federated Learning. Our approach both limits device failure risks while outperforming prior methods by up to 8% in terms of anomaly detection AUROC in a range of realistic settings that consider client as well as server failure, all while reducing communication costs. This performance demonstrates that Tol-FL is a highly suitable method for distributed model training for anomaly detection, especially in the domain of wireless networks.
翻訳日:2023-03-24 15:53:29 公開日:2023-03-23
# セマンティクスレイ: クロスリプロジェクションを考慮した一般化可能なセマンティクスフィールドの学習

Semantic Ray: Learning a Generalizable Semantic Field with Cross-Reprojection Attention ( http://arxiv.org/abs/2303.13014v1 )

ライセンス: Link先を確認
Fangfu Liu, Chubin Zhang, Yu Zheng, Yueqi Duan(参考訳) 本稿では,精度,効率,一般化可能な複数のシーンから意味的放射場を学習することを目的とする。 既存のほとんどのNeRFは、ニューラルシーンレンダリング、画像合成、マルチビュー再構成といったタスクを対象としているが、セマンティック・NeRFのような、NeRF構造による高度なセマンティック理解を学習するための試みはいくつかある。 しかし、Semantic-NeRFは複数の頭を持つ1つの光線から色とセマンティックラベルを同時に学習し、そこでは1つの光線がリッチなセマンティック情報を提供しない。 その結果、セマンティックNeRFは位置エンコーディングに依存し、シーンごとに1つの特定のモデルをトレーニングする必要がある。 これを解決するために,多視点再計画から線方向のセマンティック情報を完全に活用するセマンティック・レイ(S-Ray)を提案する。 マルチビュー・リプロジェクション・レイに対して直接注目を集中させると計算コストのかかるクロス・リジェクション・アテンション・モジュールを設計し、連続的なビュー内ラジアルおよびクロスビュー・スパース・アテンションを設計し、リジェクション・レイに沿ってコンテキスト情報を分解し、複数のビューを横断し、モジュールを積み重ねて密接な接続を収集する。 実験により、S線は複数のシーンから学習できることが示され、見えないシーンに適応する強力な一般化能力を示す。

In this paper, we aim to learn a semantic radiance field from multiple scenes that is accurate, efficient and generalizable. While most existing NeRFs target at the tasks of neural scene rendering, image synthesis and multi-view reconstruction, there are a few attempts such as Semantic-NeRF that explore to learn high-level semantic understanding with the NeRF structure. However, Semantic-NeRF simultaneously learns color and semantic label from a single ray with multiple heads, where the single ray fails to provide rich semantic information. As a result, Semantic NeRF relies on positional encoding and needs to train one specific model for each scene. To address this, we propose Semantic Ray (S-Ray) to fully exploit semantic information along the ray direction from its multi-view reprojections. As directly performing dense attention over multi-view reprojected rays would suffer from heavy computational cost, we design a Cross-Reprojection Attention module with consecutive intra-view radial and cross-view sparse attentions, which decomposes contextual information along reprojected rays and cross multiple views and then collects dense connections by stacking the modules. Experiments show that our S-Ray is able to learn from multiple scenes, and it presents strong generalization ability to adapt to unseen scenes.
翻訳日:2023-03-24 15:53:07 公開日:2023-03-23
# GesGPT:GPTからのテキスト解析による音声ジェスチャー合成

GesGPT: Speech Gesture Synthesis With Text Parsing from GPT ( http://arxiv.org/abs/2303.13013v1 )

ライセンス: Link先を確認
Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng(参考訳) ジェスチャー合成は、文脈的に適切で自然なジェスチャーを音声やテキスト入力に対応付けることに焦点を当て、重要な研究領域として注目されている。 深層学習に基づくアプローチは目覚ましい進歩を遂げているが、しばしばテキストに存在する豊かな意味情報を見落とし、表現力や意味のあるジェスチャーを少なくする。 本稿では,GPT などの大規模言語モデル (LLM) の意味解析機能を活用したジェスチャ生成手法である GesGPT を提案する。 テキスト解析におけるLLMの強みを活かして,テキスト入力からジェスチャー関連情報を抽出するプロンプトを設計する。 提案手法は,ジェスチャ生成をGPTに基づく意図的分類問題に変換する素早い原理の確立と,構造化ジェスチャライブラリと統合モジュールを用いて意味豊かな音声合成を行う。 実験の結果,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成し,意味的共同音声ジェスチャ生成の新しい視点を提供することがわかった。

Gesture synthesis has gained significant attention as a critical research area, focusing on producing contextually appropriate and natural gestures corresponding to speech or textual input. Although deep learning-based approaches have achieved remarkable progress, they often overlook the rich semantic information present in the text, leading to less expressive and meaningful gestures. We propose GesGPT, a novel approach to gesture generation that leverages the semantic analysis capabilities of Large Language Models (LLMs), such as GPT. By capitalizing on the strengths of LLMs for text analysis, we design prompts to extract gesture-related information from textual input. Our method entails developing prompt principles that transform gesture generation into an intention classification problem based on GPT, and utilizing a curated gesture library and integration module to produce semantically rich co-speech gestures. Experimental results demonstrate that GesGPT effectively generates contextually appropriate and expressive gestures, offering a new perspective on semantic co-speech gesture generation.
翻訳日:2023-03-24 15:52:39 公開日:2023-03-23
# 結合古典振動子シミュレーションにおける指数量子スピードアップ

Exponential quantum speedup in simulating coupled classical oscillators ( http://arxiv.org/abs/2303.13012v1 )

ライセンス: Link先を確認
Ryan Babbush, Dominic W. Berry, Robin Kothari, Rolando D. Somma and Nathan Wiebe(参考訳) 2^n$結合振動子の古典力学をシミュレートする量子アルゴリズム(例えば、バネに結合された2^n$質量)を提案する。 我々のアプローチは、進化した量子状態の振幅が古典振動子のモータと変位を符号化するような調和ポテンシャルに対するシュリンガー方程式とニュートン方程式の間の写像を利用する。 個々の質量とばね定数を効率的に問合せすることができ、初期状態が効率的に作成できるとき、量子アルゴリズムの複雑性は多項式 n$ であり、進化時間はほぼ線形であり、スパーシティにおける部分線型である。 例として、BQP完全であることを示す問題の仕様について、振動子の運動エネルギーを常に効率的に推定するために量子アルゴリズムを適用した。 そこで本手法は,古典的コンピュータ上での指数的高速化によって,潜在的に実用的な応用を解く。 最後に、同様の条件下では、2^n$モードでより一般的な古典調和系を効率的にシミュレートできることを示す。

We present a quantum algorithm for simulating the classical dynamics of $2^n$ coupled oscillators (e.g., $2^n$ masses coupled by springs). Our approach leverages a mapping between the Schr\"odinger equation and Newton's equations for harmonic potentials such that the amplitudes of the evolved quantum state encode the momenta and displacements of the classical oscillators. When individual masses and spring constants can be efficiently queried, and when the initial state can be efficiently prepared, the complexity of our quantum algorithm is polynomial in $n$, almost linear in the evolution time, and sublinear in the sparsity. As an example application, we apply our quantum algorithm to efficiently estimate the kinetic energy of an oscillator at any time, for a specification of the problem that we prove is BQP-complete. Thus, our approach solves a potentially practical application with an exponential speedup over classical computers. Finally, we show that under similar conditions our approach can efficiently simulate more general classical harmonic systems with $2^n$ modes.
翻訳日:2023-03-24 15:52:19 公開日:2023-03-23
# 視覚モデル診断のためのセマンティックイメージアタック

Semantic Image Attack for Visual Model Diagnosis ( http://arxiv.org/abs/2303.13010v1 )

ライセンス: Link先を確認
Jinqi Luo, Zhaoning Wang, Chen Henry Wu, Dong Huang, Fernando De la Torre(参考訳) 実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。 これは部分的には、バランスのとれた、多様性があり、完全にラベル付けされたデータセットを得ることが、一般的に高価で、時間がかかり、エラーが発生しやすいためである。 本稿では,mlモデルの失敗,公平性,堅牢性を評価するために,注意深く設計されたテストセットに頼るのではなく,モデル診断,解釈性,堅牢性を可能にする意味的敵画像を提供する敵攻撃に基づく方法である,セマンティックイメージアタック(sia)を提案する。 従来の逆行訓練は、攻撃に対してMLモデルを堅牢化するための一般的な方法論である。 しかし、既存の敵対的手法はモデルの欠点の解釈と分析を可能にする2つの側面、すなわち意味的トレーサビリティと知覚的品質を組み合わせたものではない。 SIAは、予め定義されたセマンティック属性空間と画像空間の反復勾配による2つの特徴を組み合わせる。 キーポイント検出と分類の3つのシナリオにおいて,提案手法の有効性を示す。 1) モデル診断: SIAは、MLモデルのセマンティックな脆弱性(すなわち、モデルを失敗させる属性)を強調する属性のヒストグラムを生成する。 2) より強力な攻撃: SIAは, ベースライン法よりも高い攻撃成功率をもたらす視覚的に解釈可能な属性を持つ敵例を生成する。 SIAに対する敵の訓練は、異なる勾配ベースの攻撃における移動可能な堅牢性を改善する。 3)不均衡データセットに対するロバスト性: 私たちはsiaを使って、過剰表現されたクラスを強化します。

In practice, metric analysis on a specific train and test dataset does not guarantee reliable or fair ML models. This is partially due to the fact that obtaining a balanced, diverse, and perfectly labeled dataset is typically expensive, time-consuming, and error-prone. Rather than relying on a carefully designed test set to assess ML models' failures, fairness, or robustness, this paper proposes Semantic Image Attack (SIA), a method based on the adversarial attack that provides semantic adversarial images to allow model diagnosis, interpretability, and robustness. Traditional adversarial training is a popular methodology for robustifying ML models against attacks. However, existing adversarial methods do not combine the two aspects that enable the interpretation and analysis of the model's flaws: semantic traceability and perceptual quality. SIA combines the two features via iterative gradient ascent on a predefined semantic attribute space and the image space. We illustrate the validity of our approach in three scenarios for keypoint detection and classification. (1) Model diagnosis: SIA generates a histogram of attributes that highlights the semantic vulnerability of the ML model (i.e., attributes that make the model fail). (2) Stronger attacks: SIA generates adversarial examples with visually interpretable attributes that lead to higher attack success rates than baseline methods. The adversarial training on SIA improves the transferable robustness across different gradient-based attacks. (3) Robustness to imbalanced datasets: we use SIA to augment the underrepresented classes, which outperforms strong augmentation and re-balancing baselines.
翻訳日:2023-03-24 15:52:01 公開日:2023-03-23
# MELTR:ビデオファウンデーションモデルの学習用メタロストランス

MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models ( http://arxiv.org/abs/2303.13009v1 )

ライセンス: Link先を確認
Dohwan Ko, Joonmyung Choi, Hyeong Kyu Choi, Kyoung-Woon On, Byungseok Roh, Hyunwoo J. Kim(参考訳) 基礎モデルは、ドメイン間で優れたパフォーマンスと一般化能力を示している。 基礎モデルのほとんどの研究は事前学習段階に重点を置いているため、単一タスク固有の損失を最小限に抑えるナイーブ戦略が微調整に採用されている。 しかし、このような微調整方法は、ターゲットタスクに潜在的に有益である他の損失を完全には活用しない。 そこで本研究では,様々な損失関数を自動および非線形に組み合わせ,補助学習による対象タスクの学習を支援するプラグインモジュールであるメタ損失トランスフォーマ(meltr)を提案する。 補助学習を二段階最適化問題として定式化し,近似暗黙的微分(aid)に基づく効率的な最適化アルゴリズムを提案する。 評価のために,提案手法を様々なビデオ基盤モデル(univl,violet,all-in-one)に適用し,テキスト間検索,ビデオ質問応答,ビデオキャプション,マルチモーダル感情分析の4つの下流タスクで有意な性能向上を示した。 定性解析の結果,meltrは個々の損失関数を十分に‘変換’し,meltsを効果的に統一損失にすることを示した。 コードはhttps://github.com/mlvlab/MELTRで入手できる。

Foundation models have shown outstanding performance and generalization capabilities across domains. Since most studies on foundation models mainly focus on the pretraining phase, a naive strategy to minimize a single task-specific loss is adopted for fine-tuning. However, such fine-tuning methods do not fully leverage other losses that are potentially beneficial for the target task. Therefore, we propose MEta Loss TRansformer (MELTR), a plug-in module that automatically and non-linearly combines various loss functions to aid learning the target task via auxiliary learning. We formulate the auxiliary learning as a bi-level optimization problem and present an efficient optimization algorithm based on Approximate Implicit Differentiation (AID). For evaluation, we apply our framework to various video foundation models (UniVL, Violet and All-in-one), and show significant performance gain on all four downstream tasks: text-to-video retrieval, video question answering, video captioning, and multi-modal sentiment analysis. Our qualitative analyses demonstrate that MELTR adequately `transforms' individual loss functions and `melts' them into an effective unified loss. Code is available at https://github.com/mlvlab/MELTR.
翻訳日:2023-03-24 15:51:36 公開日:2023-03-23
# 拡散によるブラックボックス顔認識モデルの制御可能インバージョン

Controllable Inversion of Black-Box Face-Recognition Models via Diffusion ( http://arxiv.org/abs/2303.13006v1 )

ライセンス: Link先を確認
Manuel Kansy, Anton Ra\"el, Graziana Mignone, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber(参考訳) 顔認識モデルは、個人が互いに区別できるアイデンティティ固有の顔の特徴の抽象的なエンコーディングを含む低次元のアイデンティティベクトルに顔画像を埋め込む。 学習済みの顔認識モデルの潜在空間をフルモデルアクセス(ブラックボックス設定)なしで反転させるという課題に対処する。 この課題の文献には様々な方法が提案されているが、現実的なアウトプットの欠如、長い推論時間、データセットに対する強い要求、顔認識モデルのアクセシビリティといった深刻な欠点がある。 ブラックボックス反転問題の解析により,条件拡散モデル損失が自然に出現し,同一性に特異的な損失を伴わずに逆分布から効果的にサンプルできることを示した。 拡散確率モデル (ID3PM) と呼ばれる本手法は, 拡散過程の確率的性質を活用し, 背景, 照明, ポーズ, 表情の異なる高品質な顔画像を生成する。 我々はアイデンティティの保存と多様性の両面において,質的かつ定量的に最先端のパフォーマンスを示す。 本手法は, 生成過程を直感的に制御できる最初のブラックボックス顔認識モデルインバージョン法であり, 競合する手法との共通する欠点に苦しむことはない。

Face recognition models embed a face image into a low-dimensional identity vector containing abstract encodings of identity-specific facial features that allow individuals to be distinguished from one another. We tackle the challenging task of inverting the latent space of pre-trained face recognition models without full model access (i.e. black-box setting). A variety of methods have been proposed in literature for this task, but they have serious shortcomings such as a lack of realistic outputs, long inference times, and strong requirements for the data set and accessibility of the face recognition model. Through an analysis of the black-box inversion problem, we show that the conditional diffusion model loss naturally emerges and that we can effectively sample from the inverse distribution even without an identity-specific loss. Our method, named identity denoising diffusion probabilistic model (ID3PM), leverages the stochastic nature of the denoising diffusion process to produce high-quality, identity-preserving face images with various backgrounds, lighting, poses, and expressions. We demonstrate state-of-the-art performance in terms of identity preservation and diversity both qualitatively and quantitatively. Our method is the first black-box face recognition model inversion method that offers intuitive control over the generation process and does not suffer from any of the common shortcomings from competing methods.
翻訳日:2023-03-24 15:51:12 公開日:2023-03-23
# 知識蒸留から自己知識蒸留へ:正規化損失とカスタマイズソフトラベルを用いた統一的アプローチ

From Knowledge Distillation to Self-Knowledge Distillation: A Unified Approach with Normalized Loss and Customized Soft Labels ( http://arxiv.org/abs/2303.13005v1 )

ライセンス: Link先を確認
Zhendong Yang, Ailing Zeng, Zhe Li, Tianke Zhang, Chun Yuan, Yu Li(参考訳) 知識蒸留(KD)は、教師の予測ロジットをソフトラベルとして使用し、セルフKDはソフトラベルを必要とする真の教師を必要としない。 この研究は、汎用的なKD損失を正規化KD(NKD)損失に分解して再編成し、ターゲットクラス(イメージのカテゴリ)とUniversal Self-Knowledge Distillation(USKD)という非ターゲットクラスの両方にカスタマイズしたソフトラベルを組み込むことにより、2つのタスクの定式化を行う。 kdの損失を分解し、その損失から非目標の損失を見つけることで、生徒の非目標のロジットは教師の損失と一致させるが、2つの非目標のロジットの合計が異なるため、同一視できない。 NKDはターゲットでないロジットを正規化して和を等化する。 一般的に、KDとセルフKDは、蒸留損失にソフトラベルをよりよく利用するために用いられる。 USKDは教師なしでターゲットクラスと非ターゲットクラスの両方にカスタマイズされたソフトラベルを生成する。 これは学生のターゲットロジットをソフトターゲットラベルとして滑らかにし、中間特徴のランクを使ってzipfの法則でソフトターゲットでないラベルを生成する。 教師のKDでは,CIFAR-100とImageNetデータセットの最先端のパフォーマンスを実現し,ResNet18のImageNet Top-1精度を69.90%から71.96%に向上させた。 教師がいないセルフKDでは、USKDはCNNモデルとViTモデルの両方に、許容しない追加時間とメモリコストで効果的に適用できる最初のセルフKD手法であり、それぞれ1.17%と0.55%の精度でImageNet for MobileNetとDeiT-Tinyの精度が向上した。 私たちのコードはhttps://github.com/yzd-v/cls_kdで利用可能です。

Knowledge Distillation (KD) uses the teacher's prediction logits as soft labels to guide the student, while self-KD does not need a real teacher to require the soft labels. This work unifies the formulations of the two tasks by decomposing and reorganizing the generic KD loss into a Normalized KD (NKD) loss and customized soft labels for both target class (image's category) and non-target classes named Universal Self-Knowledge Distillation (USKD). We decompose the KD loss and find the non-target loss from it forces the student's non-target logits to match the teacher's, but the sum of the two non-target logits is different, preventing them from being identical. NKD normalizes the non-target logits to equalize their sum. It can be generally used for KD and self-KD to better use the soft labels for distillation loss. USKD generates customized soft labels for both target and non-target classes without a teacher. It smooths the target logit of the student as the soft target label and uses the rank of the intermediate feature to generate the soft non-target labels with Zipf's law. For KD with teachers, our NKD achieves state-of-the-art performance on CIFAR-100 and ImageNet datasets, boosting the ImageNet Top-1 accuracy of ResNet18 from 69.90% to 71.96% with a ResNet-34 teacher. For self-KD without teachers, USKD is the first self-KD method that can be effectively applied to both CNN and ViT models with negligible additional time and memory cost, resulting in new state-of-the-art results, such as 1.17% and 0.55% accuracy gains on ImageNet for MobileNet and DeiT-Tiny, respectively. Our codes are available at https://github.com/yzd-v/cls_KD.
翻訳日:2023-03-24 15:50:52 公開日:2023-03-23
# 条件付き神経過程の相反的推定

Adversarially Contrastive Estimation of Conditional Neural Processes ( http://arxiv.org/abs/2303.13004v1 )

ライセンス: Link先を確認
Zesheng Ye, Jing Du, Lina Yao(参考訳) 条件付きニューラルプロセス~(CNP)は関数上の分布を定式化し、正確な条件付き確率で関数観測を生成する。 しかし、CNPは、その予測分布が非制約(典型的には)ガウス出力の積に分解されるため、高次元観測に対して限られた表現性を持つ。 以前は、これは潜在変数や自己回帰的可能性を使って扱うことができたが、難解なトレーニングと二次的な複雑さを犠牲にしていた。 そこで本研究では,通常の最大推定値の他に,逆トレーニング方式によるCNPの校正を提案する。 具体的には、エネルギーベースモデル(EBM)をノイズコントラスト推定で訓練し、ESMを用いてCNP世代からの真の観測を識別する。 このようにして、CNPは、固定形式の可能性に関して単に最適化するのではなく、ESMを騙すために、基底的真実に近い予測を生成する必要がある。 生成関数再構成から下流回帰および分類タスクに至るまで、本手法は主流のCNPメンバーに適合し、制約のないガウス確率が定義される場合に有効であることを示す。

Conditional Neural Processes~(CNPs) formulate distributions over functions and generate function observations with exact conditional likelihoods. CNPs, however, have limited expressivity for high-dimensional observations, since their predictive distribution is factorized into a product of unconstrained (typically) Gaussian outputs. Previously, this could be handled using latent variables or autoregressive likelihood, but at the expense of intractable training and quadratically increased complexity. Instead, we propose calibrating CNPs with an adversarial training scheme besides regular maximum likelihood estimates. Specifically, we train an energy-based model (EBM) with noise contrastive estimation, which enforces EBM to identify true observations from the generations of CNP. In this way, CNP must generate predictions closer to the ground-truth to fool EBM, instead of merely optimizing with respect to the fixed-form likelihood. From generative function reconstruction to downstream regression and classification tasks, we demonstrate that our method fits mainstream CNP members, showing effectiveness when unconstrained Gaussian likelihood is defined, requiring minimal computation overhead while preserving foundation properties of CNPs.
翻訳日:2023-03-24 15:50:12 公開日:2023-03-23
# ポストトレーニング量子化の信頼性のベンチマーク--特にWorst-caseパフォーマンスに着目して

Benchmarking the Reliability of Post-training Quantization: a Particular Focus on Worst-case Performance ( http://arxiv.org/abs/2303.13003v1 )

ライセンス: Link先を確認
Zhihang Yuan, Jiawei Liu, Jiaxiang Wu, Dawei Yang, Qiang Wu, Guangyu Sun, Wenyu Liu, Xinggang Wang, Bingzhe Wu(参考訳) ポストトレーニング量子化(ptq)は、ディープニューラルネットワーク(dnn)を本来のアーキテクチャやトレーニング手順を変更することなく圧縮する一般的な方法である。 その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。 本稿ではまず,様々なPTQ法について検討する。 本研究の目的は,ptqの信頼性に及ぼすキャリブレーションセット分布変動,キャリブレーションパラダイム選択,データ拡張およびサンプリング戦略の影響に関するいくつかの研究課題に答えることである。 システム評価プロセスは、幅広いタスクと一般的に使用されるPTQパラダイムにまたがって行われる。 以上の結果から,既存のPTQ手法はグループ性能が最悪の場合,信頼性が低いことが示唆され,ロバストな手法の必要性が浮き彫りになった。 本研究は,分散シフトシナリオを効果的に処理し,実世界アプリケーションへの量子化dnnの展開を可能にするptq手法の開発のための知見を提供する。

Post-training quantization (PTQ) is a popular method for compressing deep neural networks (DNNs) without modifying their original architecture or training procedures. Despite its effectiveness and convenience, the reliability of PTQ methods in the presence of some extrem cases such as distribution shift and data noise remains largely unexplored. This paper first investigates this problem on various commonly-used PTQ methods. We aim to answer several research questions related to the influence of calibration set distribution variations, calibration paradigm selection, and data augmentation or sampling strategies on PTQ reliability. A systematic evaluation process is conducted across a wide range of tasks and commonly-used PTQ paradigms. The results show that most existing PTQ methods are not reliable enough in term of the worst-case group performance, highlighting the need for more robust methods. Our findings provide insights for developing PTQ methods that can effectively handle distribution shift scenarios and enable the deployment of quantized DNNs in real-world applications.
翻訳日:2023-03-24 15:49:50 公開日:2023-03-23
# ライドバーグ原子アレイにおけるフロケ・リンド工学によるグリーンベルガー・ホルン・ザイリンガーと$W$状態の高忠実変換

High-fidelity interconversion between Greenberger-Horne-Zeilinger and $W$ states through Floquet-Lindblad engineering in Rydberg atom arrays ( http://arxiv.org/abs/2303.13039v1 )

ライセンス: Link先を確認
X. Q. Shao, F. Liu, X. W. Xue, W. L. Mu, Weibin Li(参考訳) Greenberger-Horne-Zeilinger と $W$ state は、局所的な操作や古典的な通信によって互いに変換できない真の三部構造を持つ。 ここでは、グリーンベルガー・ホーネ・ザイリンガーと2次元アレイの等角三角形に配置された3つの中性$^{87}$Rb原子の$W$状態の間の決定論的相互変換の散逸プロトコルを提案する。 リードベルク原子の3つの原子準位と対角ファンデルワールス相互作用により、周期光学ポンプと散逸工学を通して、三部体の絡み合った状態間の相互変換をフロケ・リンドブラッドの枠組みで効率的に行うことができる。 現在の中性原子プラットフォームにアクセスできる実験パラメータを用いて,既存の方法論の有効性を評価する。 本手法は,レーザー位相ノイズや原子配列の幾何学的欠陥など,典型的な雑音に対して頑健であることがわかった。 さらに,本手法はガウスソフト量子制御手法と統合でき,全体的な変換時間を更に短縮し,タイミングエラーや原子間距離の変動に対する回復力を高める。 高忠実で堅牢な三部結合変換プロトコルは、物理資源を節約し、中立原子配列によって形成される量子ネットワークの計算効率を高める経路を提供する。

Greenberger-Horne-Zeilinger and $W$ states feature genuine tripartite entanglement that cannot be converted into each other by local operations and classical communication. Here, we present a dissipative protocol for deterministic interconversion between the Greenberger-Horne-Zeilinger and the $W$ states of three neutral $^{87}$Rb atoms arranged in an equilateral triangle of a two-dimensional array. With three atomic levels and diagonal van der Waals interactions of Rydberg atoms, the interconversion between tripartite entangled states can be efficiently accomplished in the Floquet-Lindblad framework through the periodic optical pump and dissipation engineering. We evaluate the feasibility of the existing methodology using the experimental parameters accessible to current neutral-atom platforms. We find that our scheme is robust against typical noises, such as laser phase noise and geometric imperfection of the atom array. In addition, our scheme can integrate the Gaussian soft quantum control technique, which further reduces the overall conversion time and increases the resilience to timing errors and interatomic distance fluctuations. The high-fidelity and robust tripartite entanglement interconversion protocol provides a route to save physical resources and enhance the computational efficiency of quantum networks formed by neutral-atom arrays.
翻訳日:2023-03-24 15:43:19 公開日:2023-03-23
# 空間的非コヒーレント回折型プロセッサを用いた普遍線形強度変換

Universal Linear Intensity Transformations Using Spatially-Incoherent Diffractive Processors ( http://arxiv.org/abs/2303.13037v1 )

ライセンス: Link先を確認
Md Sadman Sakib Rahman, Xilin Yang, Jingxi Li, Bijie Bai, Aydogan Ozcan(参考訳) 空間コヒーレント光の下では、最適化可能な位相のみの微分特徴の総数(N)が ~2 Ni x No より大きい場合、構造面からなる回折光学ネットワークは、入力と出力のFOVの間の任意の複素値線形変換を実行するように設計することができる。 本稿では,入力と出力間の時間平均強度の任意の線形変換を近似できる空間非一貫性回折型光プロセッサの設計について述べる。 空間的非コヒーレントな単色光の下では、任意の任意選択された線形強度変換に対応する微分ネットワークの空間的に変化する強度点functon(H)は、H(m,n;m',n')=|h(m,n;m',n')|^2と書くことができ、hは同一の微分ネットワークの空間的にコヒーレントな点-スプレッド関数であり、(m,n)と(m,n')はそれぞれ出力と入力FOVの座標を定義する。 入力出力プロファイルの例を通して教師ありしたディープラーニングを用いて,nが~2 ni x no 以上の場合,入力と出力の間で任意の線形インテンシティ変換を行うように空間的に非一貫性な回折ネットワークを訓練できることを数値的に証明した。 これらの結果は、空間的不整合照明下で入力FOV上で実行される普遍線形強度変換の最初の実証であり、非整合自然光で動作する全光学視覚プロセッサの設計に有用である。

Under spatially-coherent light, a diffractive optical network composed of structured surfaces can be designed to perform any arbitrary complex-valued linear transformation between its input and output fields-of-view (FOVs) if the total number (N) of optimizable phase-only diffractive features is greater than or equal to ~2 Ni x No, where Ni and No refer to the number of useful pixels at the input and the output FOVs, respectively. Here we report the design of a spatially-incoherent diffractive optical processor that can approximate any arbitrary linear transformation in time-averaged intensity between its input and output FOVs. Under spatially-incoherent monochromatic light, the spatially-varying intensity point spread functon(H) of a diffractive network, corresponding to a given, arbitrarily-selected linear intensity transformation, can be written as H(m,n;m',n')=|h(m,n;m',n')|^2, where h is the spatially-coherent point-spread function of the same diffractive network, and (m,n) and (m',n') define the coordinates of the output and input FOVs, respectively. Using deep learning, supervised through examples of input-output profiles, we numerically demonstrate that a spatially-incoherent diffractive network can be trained to all-optically perform any arbitrary linear intensity transformation between its input and output if N is greater than or equal to ~2 Ni x No. These results constitute the first demonstration of universal linear intensity transformations performed on an input FOV under spatially-incoherent illumination and will be useful for designing all-optical visual processors that can work with incoherent, natural light.
翻訳日:2023-03-24 15:42:52 公開日:2023-03-23
# SPeC: 臨床ノートの要約における性能変動の緩和に関するソフトプロンプトによる校正

SPeC: A Soft Prompt-Based Calibration on Mitigating Performance Variability in Clinical Notes Summarization ( http://arxiv.org/abs/2303.13035v1 )

ライセンス: Link先を確認
Yu-Neng Chuang, Ruixiang Tang, Xiaoqian Jiang, Xia Hu(参考訳) 電子健康記録(EHR)は、医療史、診断、治療、検査結果を含む幅広い患者の情報を保存している。 これらの記録は、医療提供者が患者ケアに関する適切な意思決定を可能にするために重要である。 臨床ノートの要約は、医療専門家が潜在的な健康リスクを特定し、より良い意思決定を行うのに役立つ。 このプロセスは、提供者が最も重要かつ現在の患者データにアクセスできるようにすることで、エラーの低減と患者の成果の向上に寄与する。 近年の研究では,大規模言語モデル(LLM)にプロンプトを組み込むことで,要約タスクの有効性が著しく向上することが示されている。 しかし,本手法により出力のばらつきが増大し,プロンプトが類似した意味を共有する場合においても,顕著に異なる出力が得られることがわかった。 この課題に対処するために,ソフトプロンプトを用いたモデルに依存しないソフトプロンプトベース校正(SPeC)パイプラインを導入する。 複数の臨床ノートタスクとLCMに関する実験結果から,本手法は各種LSMの分散を効果的に抑制するだけでなく,より均一で信頼性の高い医療情報を要約するためのソリューションを提供する。

Electronic health records (EHRs) store an extensive array of patient information, encompassing medical histories, diagnoses, treatments, and test outcomes. These records are crucial for enabling healthcare providers to make well-informed decisions regarding patient care. Summarizing clinical notes further assists healthcare professionals in pinpointing potential health risks and making better-informed decisions. This process contributes to reducing errors and enhancing patient outcomes by ensuring providers have access to the most pertinent and current patient data. Recent research has shown that incorporating prompts with large language models (LLMs) substantially boosts the efficacy of summarization tasks. However, we show that this approach also leads to increased output variance, resulting in notably divergent outputs even when prompts share similar meanings. To tackle this challenge, we introduce a model-agnostic Soft Prompt-Based Calibration (SPeC) pipeline that employs soft prompts to diminish variance while preserving the advantages of prompt-based summarization. Experimental findings on multiple clinical note tasks and LLMs indicate that our method not only bolsters performance but also effectively curbs variance for various LLMs, providing a more uniform and dependable solution for summarizing vital medical information.
翻訳日:2023-03-24 15:42:20 公開日:2023-03-23
# 選好認識制約付き多目的ベイズ最適化

Preference-Aware Constrained Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2303.13034v1 )

ライセンス: Link先を確認
Alaleh Ahmadianshalchi, Syrine Belakaria, Janardhan Rao Doppa(参考訳) 本稿では,入力空間の大部分が制約を満たさない場合(すなわち制約に違反する場合)に,対象に対して実践者が指定した選好を持つブラックボックス目的関数に対する制約付き多目的最適化の問題に対処する。 この問題はアナログ回路や電力系統の設計を含む多くの工学設計問題で生じる。 我々の全体的な目標は、入力設計の少ない部分に対して最適パレートセットを近似することである。 主な課題は、設計空間の巨大なサイズ、複数の目的と多数の制約、そして高価なシミュレーションを実行した後にのみ特定できる実行可能な入力設計のごく一部である。 そこで本稿では,PAC-MOO(PAC-MOO)と呼ばれる制約付き複数目的ベイズ最適化手法を提案する。 鍵となるアイデアは、出力対象と制約の両方のサロゲートモデルを学び、最適な制約付きパレートフロントに関する情報を最大化する各イテレーションで評価のための候補入力を選択することである。 2つの実世界のアナログ回路設計問題に対する実験により,従来の手法よりもPAC-MOOの有効性が示された。

This paper addresses the problem of constrained multi-objective optimization over black-box objective functions with practitioner-specified preferences over the objectives when a large fraction of the input space is infeasible (i.e., violates constraints). This problem arises in many engineering design problems including analog circuits and electric power system design. Our overall goal is to approximate the optimal Pareto set over the small fraction of feasible input designs. The key challenges include the huge size of the design space, multiple objectives and large number of constraints, and the small fraction of feasible input designs which can be identified only after performing expensive simulations. We propose a novel and efficient preference-aware constrained multi-objective Bayesian optimization approach referred to as PAC-MOO to address these challenges. The key idea is to learn surrogate models for both output objectives and constraints, and select the candidate input for evaluation in each iteration that maximizes the information gained about the optimal constrained Pareto front while factoring in the preferences over objectives. Our experiments on two real-world analog circuit design optimization problems demonstrate the efficacy of PAC-MOO over prior methods.
翻訳日:2023-03-24 15:41:55 公開日:2023-03-23
# 糖尿病網膜症高齢化に対するFederated Uncertainty-Aware Aggregation

Federated Uncertainty-Aware Aggregation for Fundus Diabetic Retinopathy Staging ( http://arxiv.org/abs/2303.13033v1 )

ライセンス: Link先を確認
Meng Wang, Lianyu Wang, Xinxing Xu, Ke Zou, Yiming Qian, Rick Siow Mong Goh, Yong Liu, and Huazhu Fu(参考訳) 深層学習モデルは糖尿病網膜症(DR)のステージングの分野で有望なパフォーマンスを示した。 しかし、複数の機関でDRステージングモデルを協調的にトレーニングすることは、非IDデータ、クライアントの信頼性、予測の信頼性評価などによる課題である。 これらの課題に対処するために,各クライアントの信頼性を考慮し,DRステージングに対する信頼度を推定する,新しいフェデレーション型不確実性認識集約パラダイム(FedUAA)を提案する。 feduaaでは,全クライアントで集計エンコーダを共有し,眼底画像のグローバル表現を学習し,各クライアントに対して局所的パーソナライズされたステージング基準として新たな温度ウォード不確実性ヘッド(tweu)を活用した。 我々のTWEUは、クライアント信頼性評価のためのDRステージ結果と不確実性スコアを生成するために、明らかな深い層を用いています。 さらに、各クライアントの不確かさスコア分布に基づいてモデル集約の重み付けを動的に調整する新しい不確実性認識重み付けモジュール(UAW)を開発した。 実験では,各機関から利用可能な5つのデータセットを収集し,実際の非iid条件を満たすためのフェデレーションdrステージングのためのデータセットを作成した。 実験の結果,feduaは他のフェデレーション学習法と比較して高い信頼性でdrステージング性能を達成できた。 提案するFedUAAパラダイムは,複数の施設でDRステージングモデルを協調訓練する上での課題に効果的に対処し,実際の臨床シナリオにおけるDR診断モデルの展開に対して,堅牢かつ信頼性の高いソリューションを提供する。

Deep learning models have shown promising performance in the field of diabetic retinopathy (DR) staging. However, collaboratively training a DR staging model across multiple institutions remains a challenge due to non-iid data, client reliability, and confidence evaluation of the prediction. To address these issues, we propose a novel federated uncertainty-aware aggregation paradigm (FedUAA), which considers the reliability of each client and produces a confidence estimation for the DR staging. In our FedUAA, an aggregated encoder is shared by all clients for learning a global representation of fundus images, while a novel temperature-warmed uncertainty head (TWEU) is utilized for each client for local personalized staging criteria. Our TWEU employs an evidential deep layer to produce the uncertainty score with the DR staging results for client reliability evaluation. Furthermore, we developed a novel uncertainty-aware weighting module (UAW) to dynamically adjust the weights of model aggregation based on the uncertainty score distribution of each client. In our experiments, we collect five publicly available datasets from different institutions to conduct a dataset for federated DR staging to satisfy the real non-iid condition. The experimental results demonstrate that our FedUAA achieves better DR staging performance with higher reliability compared to other federated learning methods. Our proposed FedUAA paradigm effectively addresses the challenges of collaboratively training DR staging models across multiple institutions, and provides a robust and reliable solution for the deployment of DR diagnosis models in real-world clinical scenarios.
翻訳日:2023-03-24 15:41:37 公開日:2023-03-23
# 新しいデータセットと劣化モデルを用いたsdr-to-hdrtvアップコンバージョン学習

Learning a Practical SDR-to-HDRTV Up-conversion using New Dataset and Degradation Models ( http://arxiv.org/abs/2303.13031v1 )

ライセンス: Link先を確認
Cheng Guo and Leidong Fan and Ziyu Xue and and Xiuhua Jiang(参考訳) メディア業界では、hdr-wcg(high dynamic range-wide color gamut)テレビ(high dynamic range-wide color gamut)を持っているユーザーがsdr-hdrtvのアップコンバージョンを要求される。 研究コミュニティは、この低レベルのビジョンタスクに学習ベースのアプローチで取り組み始めている。 しかし、実際のSDRに適用すると、現在の手法は薄暗く不飽和な結果をもたらす傾向にあり、視聴体験をほとんど改善しない。 他のネットワーク指向手法と異なり、そのような欠陥はトレーニングセット(HDR-SDRペア)に起因している。 その結果,新しいHDRTVデータセット(HDRTV4K)と新しいHDR-to-SDR劣化モデルを提案する。 次に、グローバルマッピングトランクと2つのトランスフォーマーブランチからなる輝度分離ネットワーク(LSN)を、明るく暗い輝度範囲でトレーニングするために使用する。 また,評価基準を調整した指標と主観実験により更新する。 最後に, その効果を証明するため, アブレーション研究を行った。 私たちの仕事は、https://github.com/AndreGuo/HDRTVDM.comで公開されています。

In media industry, the demand of SDR-to-HDRTV up-conversion arises when users possess HDR-WCG (high dynamic range-wide color gamut) TVs while most off-the-shelf footage is still in SDR (standard dynamic range). The research community has started tackling this low-level vision task by learning-based approaches. When applied to real SDR, yet, current methods tend to produce dim and desaturated result, making nearly no improvement on viewing experience. Different from other network-oriented methods, we attribute such deficiency to training set (HDR-SDR pair). Consequently, we propose new HDRTV dataset (dubbed HDRTV4K) and new HDR-to-SDR degradation models. Then, it's used to train a luminance-segmented network (LSN) consisting of a global mapping trunk, and two Transformer branches on bright and dark luminance range. We also update assessment criteria by tailored metrics and subjective experiment. Finally, ablation studies are conducted to prove the effectiveness. Our work is available at: https://github.com/AndreGuo/HDRTVDM.
翻訳日:2023-03-24 15:41:07 公開日:2023-03-23
# TBI生理状態の同定のための多変量時系列データの自己監視クラスタリング

Self-Supervised Clustering of Multivariate Time-Series Data for Identifying TBI Physiological States ( http://arxiv.org/abs/2303.13024v1 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Amin Nayebi, Sindhu Tipirneni, Chandan K. Reddy, Vignesh Subbian(参考訳) 外傷性脳損傷(tbi)、呼吸不全、心不全などの急性疾患に対する適切な治療を行うには、多変量時系列データから臨床関連生理状態を決定することが不可欠である。 非時間的クラスタリングやデータ計算や集約技術を利用することで、貴重な情報やバイアス分析が失われる可能性がある。 本研究では,イミューテーションやアグリゲーションを回避してデータの整合性を維持する革新的な自己超越型アプローチであるSLAC-Timeアルゴリズムを適用し,急性患者の状態をより有用な表現を提供する。 大規模な研究データセットにSLAC-Timeを用いてデータをクラスタリングすることにより,3つの異なるTBI生理状態とその特徴プロファイルを同定した。 種々のクラスタリング評価指標を用いて,臨床領域の専門家からの入力を取り入れ,同定された生理状態の検証と解釈を行った。 さらに,臨床経過や介入が患者の状態や状態遷移にどのように影響するかも明らかにした。

Determining clinically relevant physiological states from multivariate time series data with missing values is essential for providing appropriate treatment for acute conditions such as Traumatic Brain Injury (TBI), respiratory failure, and heart failure. Utilizing non-temporal clustering or data imputation and aggregation techniques may lead to loss of valuable information and biased analyses. In our study, we apply the SLAC-Time algorithm, an innovative self-supervision-based approach that maintains data integrity by avoiding imputation or aggregation, offering a more useful representation of acute patient states. By using SLAC-Time to cluster data in a large research dataset, we identified three distinct TBI physiological states and their specific feature profiles. We employed various clustering evaluation metrics and incorporated input from a clinical domain expert to validate and interpret the identified physiological states. Further, we discovered how specific clinical events and interventions can influence patient states and state transitions.
翻訳日:2023-03-24 15:40:51 公開日:2023-03-23
# ENVIDR:ニューラル環境照明付き難微分式レンダラー

ENVIDR: Implicit Differentiable Renderer with Neural Environment Lighting ( http://arxiv.org/abs/2303.13022v1 )

ライセンス: Link先を確認
Ruofan Liang, Huiting Chen, Chunlin Li, Fan Chen, Selvakumar Panneer, Nandita Vijaykumar(参考訳) ニューラルレンダリングの最近の進歩は、マルチビュー画像からシーンを再構成する大きな可能性を示している。 しかし、光沢のある表面を持つオブジェクトを正確に表現することは、既存の手法の課題である。 本稿では,鏡面反射に挑戦し,高品質なレンダリングと再構成を行うためのレンダリングおよびモデリングフレームワークであるenvidrを紹介する。 そこで我々はまず,分解されたレンダリング部品を用いたニューラルレンダラーを提案し,表面光と環境光の相互作用を学習する。 このレンダラは、既存の物理ベースのレンダラを使用してトレーニングされ、実際のシーン表現から分離される。 そこで我々は,この学習したニューラルレンダラを利用して一般場面を表現するsdfベースのニューラルサーフェスモデルを提案する。 また, 反射面からの反射が反射面をマーチングすることによって生じる間接的照度を合成する。 提案手法は,光沢のあるシーンに挑戦する最先端の手法よりも優れており,高画質な反射表示を実現するとともに,素材編集やシーンライティングも実現している。

Recent advances in neural rendering have shown great potential for reconstructing scenes from multiview images. However, accurately representing objects with glossy surfaces remains a challenge for existing methods. In this work, we introduce ENVIDR, a rendering and modeling framework for high-quality rendering and reconstruction of surfaces with challenging specular reflections. To achieve this, we first propose a novel neural renderer with decomposed rendering components to learn the interaction between surface and environment lighting. This renderer is trained using existing physically based renderers and is decoupled from actual scene representations. We then propose an SDF-based neural surface model that leverages this learned neural renderer to represent general scenes. Our model additionally synthesizes indirect illuminations caused by inter-reflections from shiny surfaces by marching surface-reflected rays. We demonstrate that our method outperforms state-of-art methods on challenging shiny scenes, providing high-quality rendering of specular reflections while also enabling material editing and scene relighting.
翻訳日:2023-03-24 15:40:33 公開日:2023-03-23
# 触媒による熱過程の階層崩壊

A hierarchy of thermal processes collapses under catalysis ( http://arxiv.org/abs/2303.13020v1 )

ライセンス: Link先を確認
Jeongrak Son, Nelly H.Y. Ng(参考訳) 一般的な熱操作を、選択されたシステムエネルギーレベルのみを操作する単純な熱過程の組み合わせと結合に分解することは不可能である。 これにより、全ての熱力学的状態遷移に到達するために現実的に実装可能なプロトコルを提供することが妨げられる。 しかし,本研究では,熱浴のリサイクルにより,熱操作を1回に2つのシステムレベルのみを含む一連の基本的な熱操作に分解できることを示す。 このようなスキームは、基本的な熱操作の触媒バージョンと等価であり、触媒はギブス状態で調製され、後に再加熱される。 したがって、ギブス状態触媒は、基本熱操作と熱操作の間のギャップを閉じる。 さらに, 触媒を用いる場合, 異なる熱過程の階層が熱操作の階層に収束することを示す。

It is not possible to decompose generic thermal operations into combinations and concatenations of simpler thermal processes that only manipulate selected system energy levels. This creates a hindrance in providing realistically-implementable protocols to reach all thermodynamic state transitions. However, in this work we show that the recycling of thermal baths allows the decomposition of thermal operations into a series of elementary thermal operations, each involving only two system levels at a time. Such a scheme is equivalent to a catalytic version of elementary thermal operations, where the catalysts are prepared in Gibbs states and re-thermalized at a later time. Thus, the Gibbs state catalyst closes the gap between elementary thermal operations and thermal operations. Furthermore, when any catalyst can be employed, we prove that a hierarchy of different thermal processes converge to that of thermal operations.
翻訳日:2023-03-24 15:40:17 公開日:2023-03-23
# MonoATT:Adaptive Token Transformerを用いたオンラインモノクロ3Dオブジェクト検出

MonoATT: Online Monocular 3D Object Detection with Adaptive Token Transformer ( http://arxiv.org/abs/2303.13018v1 )

ライセンス: Link先を確認
Yunsong Zhou, Hongzi Zhu, Quan Liu, Shan Chang, and Minyi Guo(参考訳) 移動式モノクロ3Dオブジェクト検出(例えば、車両、ドローン、ロボット)は、重要な課題でありながら難しい課題である。 既存のtransformerベースのオフラインmono3dモデルでは、グリッドベースのビジョントークンが採用されている。 本稿では,様々な形状や大きさの異質なトークンを持つ新しい視覚変換器を利用して,移動型Mono3Dを実現するMonoATTというオンラインMono3Dフレームワークを提案する。 monoattの中核となる考え方は、mono3dを強化するトランスフォーマーを利用する前に、より重要な領域により細かいトークンを適応的に割り当てることである。 この目的のために、まず画像の最も重要な領域を選択するためのスコアリングネットワークを設計し、次に、注目機構を備えたトークンクラスタリングとマージネットワークを提案し、選択された領域のトークンを複数の段階で徐々にマージする。 最後に、SOTA Mono3D検出器を基礎となる検出コアとして使用する前に、画素レベルの特徴マップを異種トークンから再構成する。 実世界のKITTIデータセットの実験結果は、MonoATTが近距離オブジェクトと遠距離オブジェクトのMono3D精度を効果的に改善し、低レイテンシを保証できることを示した。 MonoATTは最先端の手法と比較して大きなマージンで最高のパフォーマンスを示し、KITTI 3Dベンチマークで第1位にランクされている。

Mobile monocular 3D object detection (Mono3D) (e.g., on a vehicle, a drone, or a robot) is an important yet challenging task. Existing transformer-based offline Mono3D models adopt grid-based vision tokens, which is suboptimal when using coarse tokens due to the limited available computational power. In this paper, we propose an online Mono3D framework, called MonoATT, which leverages a novel vision transformer with heterogeneous tokens of varying shapes and sizes to facilitate mobile Mono3D. The core idea of MonoATT is to adaptively assign finer tokens to areas of more significance before utilizing a transformer to enhance Mono3D. To this end, we first use prior knowledge to design a scoring network for selecting the most important areas of the image, and then propose a token clustering and merging network with an attention mechanism to gradually merge tokens around the selected areas in multiple stages. Finally, a pixel-level feature map is reconstructed from heterogeneous tokens before employing a SOTA Mono3D detector as the underlying detection core. Experiment results on the real-world KITTI dataset demonstrate that MonoATT can effectively improve the Mono3D accuracy for both near and far objects and guarantee low latency. MonoATT yields the best performance compared with the state-of-the-art methods by a large margin and is ranked number one on the KITTI 3D benchmark.
翻訳日:2023-03-24 15:40:05 公開日:2023-03-23
# Decoupled Representation を用いた検索拡張分類

Retrieval-Augmented Classification with Decoupled Representation ( http://arxiv.org/abs/2303.13065v1 )

ライセンス: Link先を確認
Xinnian Liang, Shuangzhi Wu, Hui Huang, Jiaqi Bai, Chao Bian, Zhoujun Li(参考訳) プレトレーニング言語モデル(PLM)は、様々なNLPタスクで驚くほど改善されている。 ほとんどの中国語のPLMは入力テキストを文字のシーケンスとして扱い、単語情報を完全に無視する。 全単語マスキングはこれを緩和できるが、単語の意味論はいまだよく表現されていない。 本稿では,中国のplmのセグメンテーション粒度を再検討する。 文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。 これを実現するために,文字および単語レベルの表現を学習するための目的関数を設計する。 提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。 実験結果から,MigBERTは全てのタスクにおいて新しいSOTA性能を実現することがわかった。 さらに分析すると、単語は文字よりも意味的に豊かであることが示される。 さらに興味深いのは、MigBERTが日本語でも使えることだ。 私たちのコードはここ~\footnote{\url{https://github.com/xnliang98/MigBERT}}でリリースされています。

Pretrained language models (PLMs) have shown marvelous improvements across various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence of characters, and completely ignore word information. Although Whole Word Masking can alleviate this, the semantics in words is still not well represented. In this paper, we revisit the segmentation granularity of Chinese PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both characters and words. To achieve this, we design objective functions for learning both character and word-level representations. We conduct extensive experiments on various Chinese NLP tasks to evaluate existing PLMs as well as the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA performance on all these tasks. Further analysis demonstrates that words are semantically richer than characters. More interestingly, we show that MigBERT also works with Japanese. Our code has been released here~\footnote{\url{https://github.com/xnliang98/MigBERT}} and you can download our model here~\footnote{\url{https://huggingface.co/xnliang/MigBERT-large/}}.
翻訳日:2023-03-24 15:34:28 公開日:2023-03-23
# SIEDOB:オブジェクトと背景を分離したセマンティックイメージ編集

SIEDOB: Semantic Image Editing by Disentangling Object and Background ( http://arxiv.org/abs/2303.13062v1 )

ライセンス: Link先を確認
Wuyang Luo, Su Yang, Xinjian Zhang, Weishan Zhang(参考訳) セマンティック画像編集は、対応するセグメンテーションマップで誘導された所定の画像を修正するための柔軟なツールを提供する。 このタスクでは、前景オブジェクトと背景の特徴はかなり異なる。 しかしながら、以前のメソッドはすべて、モノリシックなモデルを使用して、背景とオブジェクト全体を処理します。 そのため、コンテンツに富んだ画像の処理に制限があり、非現実的なオブジェクトやテクスチャに一貫性のない背景を生成するのに苦しむ。 この問題に対処するために、新しいパラダイムである \textbf{S}emantic \textbf{I}mage \textbf{E}diting by \textbf{D}isentangling \textbf{O}bject and \textbf{B}ackground (\textbf{SIEDOB})を提案する。 まず、SIEDOBは編集された入力を背景領域とインスタンスレベルのオブジェクトに分解する。 そして、それらを専用の発電機に供給します。 最後に、全ての合成部品は元の場所に埋め込まれ、融合ネットワークを利用して調和した結果を得る。 さらに,高品質な編集画像を生成するために,セマンティクス認識型自己伝達モジュール,バウンダリアンカーパッチ判別器,スタイル多様性オブジェクト生成器などの革新的な設計を提案し,それをsedobに統合する。 我々は,都市景観とade20k-roomデータセットを広範囲に実験し,本手法がベースライン,特に現実的で多様なオブジェクトやテクスチャに一貫性のある背景を合成する上で,極めて優れていることを示す。

Semantic image editing provides users with a flexible tool to modify a given image guided by a corresponding segmentation map. In this task, the features of the foreground objects and the backgrounds are quite different. However, all previous methods handle backgrounds and objects as a whole using a monolithic model. Consequently, they remain limited in processing content-rich images and suffer from generating unrealistic objects and texture-inconsistent backgrounds. To address this issue, we propose a novel paradigm, \textbf{S}emantic \textbf{I}mage \textbf{E}diting by \textbf{D}isentangling \textbf{O}bject and \textbf{B}ackground (\textbf{SIEDOB}), the core idea of which is to explicitly leverages several heterogeneous subnetworks for objects and backgrounds. First, SIEDOB disassembles the edited input into background regions and instance-level objects. Then, we feed them into the dedicated generators. Finally, all synthesized parts are embedded in their original locations and utilize a fusion network to obtain a harmonized result. Moreover, to produce high-quality edited images, we propose some innovative designs, including Semantic-Aware Self-Propagation Module, Boundary-Anchored Patch Discriminator, and Style-Diversity Object Generator, and integrate them into SIEDOB. We conduct extensive experiments on Cityscapes and ADE20K-Room datasets and exhibit that our method remarkably outperforms the baselines, especially in synthesizing realistic and diverse objects and texture-consistent backgrounds.
翻訳日:2023-03-24 15:34:12 公開日:2023-03-23
# DiffPattern:離散拡散によるレイアウトパターン生成

DiffPattern: Layout Pattern Generation via Discrete Diffusion ( http://arxiv.org/abs/2303.13060v1 )

ライセンス: Link先を確認
Zixiao Wang, Yunheng Shen, Wenqian Zhao, Yang Bai, Guojin Chen, Farzan Farnia, Bei Yu(参考訳) ディープジェネレーティブモデルは、レイアウトパターン生成における既存の文献を支配している。 しかしながら、いくつかのアプリケーションでは、説明不能なニューラルネットワークに合法性を保証することが問題になる可能性がある。 本稿では,信頼できるレイアウトパターンを生成するために, \tool{diffpattern} を提案する。 \tool{DiffPattern} は,計算効率の低いレイアウトパターン表現を持つ離散拡散モデルを用いて,新しい多様なトポロジ生成手法を提案する。 そして、ホワイトボックスパターンアセスメントを使用して、望ましい設計規則が与えられた法的パターンを生成する。 いくつかのベンチマーク設定実験により,\tool{DiffPattern} は既存のベースラインを著しく上回り,信頼性の高いレイアウトパターンを合成できることがわかった。

Deep generative models dominate the existing literature in layout pattern generation. However, leaving the guarantee of legality to an inexplicable neural network could be problematic in several applications. In this paper, we propose \tool{DiffPattern} to generate reliable layout patterns. \tool{DiffPattern} introduces a novel diverse topology generation method via a discrete diffusion model with compute-efficiently lossless layout pattern representation. Then a white-box pattern assessment is utilized to generate legal patterns given desired design rules. Our experiments on several benchmark settings show that \tool{DiffPattern} significantly outperforms existing baselines and is capable of synthesizing reliable layout patterns.
翻訳日:2023-03-24 15:33:31 公開日:2023-03-23
# 深層学習による宇宙の初期状態の予測

Predicting the Initial Conditions of the Universe using Deep Learning ( http://arxiv.org/abs/2303.13056v1 )

ライセンス: Link先を確認
Vaibhav Jindal, Drew Jamieson, Albert Liang, Aarti Singh, Shirley Ho(参考訳) 宇宙の現在の状態に繋がる初期条件を見つけることは、初期条件の広大な入力空間を探索することと、計算コストのかかるNボディシミュレーションのようなツールによる進化をモデル化することを含むため、難しい。 深層学習は、N体シミュレーションの線形入力と赤方偏移ゼロにおける最終的な非線形変位とのマッピングを学習し、前方モデリングを著しく加速する代替モデリングツールとして登場した。 しかし、これは初期条件の検索スペースを減らす助けにはならない。 本稿では,逆マッピングのために深層学習モデルをトレーニングできることを初めて示す。 我々は、現在の時間的非線形変位とシステムの宇宙的パラメータを考慮し、N体系の線形変位を出力するV-Netベースの畳み込みニューラルネットワークを訓練する。 このニューラルネットワークは,小さいスケールでの逆問題の性質がよく定義されていないにもかかわらず,幅広いスケールでの線形変位場(<1$-$2\%$誤差)をほぼ$k = 1\ \mathrm{Mpc}^{-1}\,h$まで正確に回復することを示した。 特に、小さなスケールは非線形効果によって支配されるため、後方ダイナミクスは数値的および計算的誤差に非常に敏感になり、高度に発散した後方軌道と1対多の後方マッピングに繋がる。 提案手法は,ニューラルネットワークをベースとしたモデルが初期線形状態のよい近似器として機能し,その予測が宇宙の初期状態を予測するサンプリングベース手法のよい出発点となることを示す。

Finding the initial conditions that led to the current state of the universe is challenging because it involves searching over a vast input space of initial conditions, along with modeling their evolution via tools such as N-body simulations which are computationally expensive. Deep learning has emerged as an alternate modeling tool that can learn the mapping between the linear input of an N-body simulation and the final nonlinear displacements at redshift zero, which can significantly accelerate the forward modeling. However, this does not help reduce the search space for initial conditions. In this paper, we demonstrate for the first time that a deep learning model can be trained for the reverse mapping. We train a V-Net based convolutional neural network, which outputs the linear displacement of an N-body system, given the current time nonlinear displacement and the cosmological parameters of the system. We demonstrate that this neural network accurately recovers the initial linear displacement field over a wide range of scales ($<1$-$2\%$ error up to nearly $k = 1\ \mathrm{Mpc}^{-1}\,h$), despite the ill-defined nature of the inverse problem at smaller scales. Specifically, smaller scales are dominated by nonlinear effects which makes the backward dynamics much more susceptible to numerical and computational errors leading to highly divergent backward trajectories and a one-to-many backward mapping. The results of our method motivate that neural network based models can act as good approximators of the initial linear states and their predictions can serve as good starting points for sampling-based methods to infer the initial states of the universe.
翻訳日:2023-03-24 15:33:21 公開日:2023-03-23
# 深層学習手法を用いたアプリケーションユーザインタフェース(ui)設計の再考:課題と機会

Reimagining Application User Interface (UI) Design using Deep Learning Methods: Challenges and Opportunities ( http://arxiv.org/abs/2303.13055v1 )

ライセンス: Link先を確認
Subtain Malik, Muhammad Tariq Saeed, Marya Jabeen Zia, Shahzad Rasool, Liaquat Ali Khan, and Mian Ilyas Ahmed(参考訳) 本稿では,ユーザインタフェース設計のためのディープラーニング手法に関する最近の研究について概観する。 この調査は、よく知られたディープラーニング技術(ディープニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、オートエンコーダ、ジェネレイティブアドバーサネットワーク)と、ユーザインターフェースアプリケーションの設計に広く使用されるデータセットを含んでいる。 我々はこの分野の重要な問題と新興研究のフロンティアに注目している。 ユーザインタフェース設計自動化タスクにおけるディープラーニングの利用は、ソフトウェア開発産業の進歩の潜在的な分野の1つだと考えています。

In this paper, we present a review of the recent work in deep learning methods for user interface design. The survey encompasses well known deep learning techniques (deep neural networks, convolutional neural networks, recurrent neural networks, autoencoders, and generative adversarial networks) and datasets widely used to design user interface applications. We highlight important problems and emerging research frontiers in this field. We believe that the use of deep learning for user interface design automation tasks could be one of the high potential fields for the advancement of the software development industry.
翻訳日:2023-03-24 15:32:53 公開日:2023-03-23
# シーン認識ビデオ異常検出のための階層的セマンティックコントラスト

Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection ( http://arxiv.org/abs/2303.13051v1 )

ライセンス: Link先を確認
Shengyang Sun, Xiaojin Gong(参考訳) シーン認識の増大は,ビデオ異常検出(vad)において重要な課題である。 本研究では,通常のビデオからシーン認識型VADモデルを学習するための階層的意味コントラスト(HSC)手法を提案する。 まず,事前学習されたビデオ解析モデルを利用して,前景オブジェクトと背景シーンの機能を高レベルセマンティクスに組み込む。 次に、オートエンコーダに基づく再構成フレームワークを構築し、シーンレベルとオブジェクトレベルのコントラスト学習の両方を導入し、異なるクラス間で分離可能ながら、同じセマンティッククラス内でコンパクトなエンコードされた潜在機能を強制する。 この階層的なセマンティックコントラスト戦略は、通常のパターンの多様性に対処し、識別能力を高めるのに役立つ。 さらに, 希少な正常な活動に取り組むために, スケルトンに基づく運動増強をデザインし, 試料を増加させ, モデルをさらに洗練する。 3つの公開データセットとシーン依存混合データセットの大規模な実験により,提案手法の有効性が検証された。

Increasing scene-awareness is a key challenge in video anomaly detection (VAD). In this work, we propose a hierarchical semantic contrast (HSC) method to learn a scene-aware VAD model from normal videos. We first incorporate foreground object and background scene features with high-level semantics by taking advantage of pre-trained video parsing models. Then, building upon the autoencoder-based reconstruction framework, we introduce both scene-level and object-level contrastive learning to enforce the encoded latent features to be compact within the same semantic classes while being separable across different classes. This hierarchical semantic contrast strategy helps to deal with the diversity of normal patterns and also increases their discrimination ability. Moreover, for the sake of tackling rare normal activities, we design a skeleton-based motion augmentation to increase samples and refine the model further. Extensive experiments on three public datasets and scene-dependent mixture datasets validate the effectiveness of our proposed method.
翻訳日:2023-03-24 15:32:43 公開日:2023-03-23
# マイクロ波周波数における量子ドット源線輸送応答

Quantum Dot Source-Drain Transport Response at Microwave Frequencies ( http://arxiv.org/abs/2303.13048v1 )

ライセンス: Link先を確認
Harald Havir, Subhomoy Haldar, Waqar Khan, Sebastian Lehmann, Kimberly A. Dick, Claes Thelander, Peter Samuelsson, Ville F. Maisi(参考訳) 量子ドットはしばしば、量子ドットを流れる電流が近くの電荷環境によって変調されるメソスコピック導体における電荷を探索する、低温実験における電荷感受性デバイスとして用いられる。 最近の実験では、ドットを通る低周波電流を検知するのではなく、最大ghzの反射率測定を用いてこれらの検出器を運用している。 本研究では、オンチップコプレーナー導波路共振器を用いて6GHzの周波数で2つの量子ドットのソース・ドレイン輸送応答を測定し、さらに電荷検出の帯域幅制限を増大させる。 低周波領域と同様に、反応は概ね散逸的である。 大きなトンネル結合の場合、応答はランダウアー-B\"uttiker理論に従って低周波伝導によって制御される。 より小さなカップリングでは、高周波応答が低周波限界から逸脱する2つのレジームを示す: 光子エネルギーが量子ドット共鳴線幅を超えると、縮退依存高原が発生する。 これらは逐次トンネル計算によって再現される。 他方、トンネル結合において大きな非対称性を持つ場合、高周波応答は低周波コンダクタンスGより2桁大きく、高周波の読み出しが好ましい。

Quantum dots are frequently used as charge sensitive devices in low temperature experiments to probe electric charge in mesoscopic conductors where the current running through the quantum dot is modulated by the nearby charge environment. Recent experiments have been operating these detectors using reflectometry measurements up to GHz frequencies rather than probing the low frequency current through the dot. In this work, we use an on-chip coplanar waveguide resonator to measure the source-drain transport response of two quantum dots at a frequency of 6 GHz, further increasing the bandwidth limit for charge detection. Similar to the low frequency domain, the response is here predominantly dissipative. For large tunnel coupling, the response is still governed by the low frequency conductance, in line with Landauer-B\"uttiker theory. For smaller couplings, our devices showcase two regimes where the high frequency response deviates from the low frequency limit and Landauer-B\"uttiker theory: When the photon energy exceeds the quantum dot resonance linewidth, degeneracy dependent plateaus emerge. These are reproduced by sequential tunneling calculations. In the other case with large asymmetry in the tunnel couplings, the high frequency response is two orders of magnitude larger than the low frequency conductance G, favoring the high frequency readout.
翻訳日:2023-03-24 15:32:26 公開日:2023-03-23
# 動的グラフ学習の改善に向けて: 新しいアーキテクチャと統一ライブラリ

Towards Better Dynamic Graph Learning: New Architecture and Unified Library ( http://arxiv.org/abs/2303.13047v1 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 我々はdygformerを提案する。dygformerは動的グラフ学習のための新しいトランスフォーマーアーキテクチャで、ノードの歴史的なファーストホップインタラクションのシーケンスからのみ学習する。 DyGFormerは、2つの異なる設計を取り入れている: ソースノードと宛先ノードの相関関係をそれらのシーケンスに基づいて探索する隣人の共起符号化スキーム; 各シーケンスを複数のパッチに分割し、Transformerにフィードするパッチ技術。 また、標準的なトレーニングパイプライン、拡張可能なコーディングインターフェース、再現可能でスケーラブルで信頼性の高い動的グラフ学習研究を促進する包括的な評価プロトコルを備えた統合ライブラリDyGLibも導入した。 By performing extensive experiments on thirteen datasets from various domains for transductive/inductive dynamic link prediction and dynamic node classification tasks, we observe that: DyGFormer achieves state-of-the-art performance on most of the datasets, demonstrating the effectiveness of capturing nodes' correlations and long-term temporal dependencies; the results of baselines vary across different datasets and some findings are inconsistent with previous reports, which may be caused by their diverse pipelines and problematic implementations. 我々の研究が新たな洞察を与え、動的グラフ学習分野の開発を促進することを願っている。 データセット、データローダ、アルゴリズム、実行スクリプトを含むすべてのリソースはhttps://github.com/yule-BUAA/DyGLibで公開されている。

We propose DyGFormer, a new Transformer-based architecture for dynamic graph learning that solely learns from the sequences of nodes' historical first-hop interactions. DyGFormer incorporates two distinct designs: a neighbor co-occurrence encoding scheme that explores the correlations of the source node and destination node based on their sequences; a patching technique that divides each sequence into multiple patches and feeds them to Transformer, allowing the model to effectively and efficiently benefit from longer histories. We also introduce DyGLib, a unified library with standard training pipelines, extensible coding interfaces, and comprehensive evaluating protocols to promote reproducible, scalable, and credible dynamic graph learning research. By performing extensive experiments on thirteen datasets from various domains for transductive/inductive dynamic link prediction and dynamic node classification tasks, we observe that: DyGFormer achieves state-of-the-art performance on most of the datasets, demonstrating the effectiveness of capturing nodes' correlations and long-term temporal dependencies; the results of baselines vary across different datasets and some findings are inconsistent with previous reports, which may be caused by their diverse pipelines and problematic implementations. We hope our work can provide new insights and facilitate the development of the dynamic graph learning field. All the resources including datasets, data loaders, algorithms, and executing scripts are publicly available at https://github.com/yule-BUAA/DyGLib.
翻訳日:2023-03-24 15:32:02 公開日:2023-03-23
# 合成分析によるトップダウン視覚注意

Top-Down Visual Attention from Analysis by Synthesis ( http://arxiv.org/abs/2303.13043v1 )

ライセンス: Link先を確認
Baifeng Shi, Trevor Darrell, Xin Wang(参考訳) 現在の注意アルゴリズム(例えば、自己注意)は刺激駆動であり、画像内のすべての有能な物体をハイライトする。 しかしながら、人間のような知的エージェントは、手前の高レベルなタスクに基づいて注意を誘導し、タスク関連のオブジェクトのみに焦点を当てることが多い。 このタスク誘導トップダウンアテンションの能力は、タスク適応表現を提供し、モデルが様々なタスクに一般化するのに役立つ。 本稿では,古典的分析合成(AbS)による視覚の視点からトップダウンの注意を考察する。 先行研究は,視覚注意とスパース再構成との間の機能的等価性を示し,目標指向トップダウン信号によって変調される類似スパース再構築目標を最適化するabs視覚システムは,自然にトップダウン注意をシミュレートすることを示す。 さらに、AbSを変動的に近似するトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。 現実世界のアプリケーションでは、AbSViTは、VQAやゼロショット検索などのビジョン言語タスクのベースラインを一貫して改善し、言語がトップダウンの注意を導く。 AbSViTは一般的なバックボーンとしても機能し、分類、セマンティックセグメンテーション、モデルロバスト性が改善される。

Current attention algorithms (e.g., self-attention) are stimulus-driven and highlight all the salient objects in an image. However, intelligent agents like humans often guide their attention based on the high-level task at hand, focusing only on task-related objects. This ability of task-guided top-down attention provides task-adaptive representation and helps the model generalize to various tasks. In this paper, we consider top-down attention from a classic Analysis-by-Synthesis (AbS) perspective of vision. Prior work indicates a functional equivalence between visual attention and sparse reconstruction; we show that an AbS visual system that optimizes a similar sparse reconstruction objective modulated by a goal-directed top-down signal naturally simulates top-down attention. We further propose Analysis-by-Synthesis Vision Transformer (AbSViT), which is a top-down modulated ViT model that variationally approximates AbS, and achieves controllable top-down attention. For real-world applications, AbSViT consistently improves over baselines on Vision-Language tasks such as VQA and zero-shot retrieval where language guides the top-down attention. AbSViT can also serve as a general backbone, improving performance on classification, semantic segmentation, and model robustness.
翻訳日:2023-03-24 15:31:39 公開日:2023-03-23
# Pseudo Caption Labels を用いた開語彙オブジェクト検出

Open-Vocabulary Object Detection using Pseudo Caption Labels ( http://arxiv.org/abs/2303.13040v1 )

ライセンス: Link先を確認
Han-Cheol Cho, Won Young Jhoo, Wooyoung Kang, Byungseok Roh(参考訳) 近年のオープンボキャブラリ検出手法は,視覚言語モデル (VLM) から大量の画像テキスト対で訓練された知識を抽出することにより,新しい物体を検出することを目的としている。 これらの手法の有効性を改善するために、研究者は、モデルが様々なオブジェクト間の関係に関する包括的な知識を抽出し、未知のオブジェクトクラスにより良い一般化を可能にすると仮定して、多数のオブジェクトクラスを含む大きな語彙を持つデータセットを利用した。 本研究では,その名前に加えて,オブジェクト属性やリレーションシップなど,新たなオブジェクトに関するより豊富な知識を抽出するには,より詳細なラベルが必要であることを論じる。 この課題に対処するために,画像キャプションモデルを用いて多様な視点からオブジェクトインスタンスを記述するキャプションを生成する,Pseudo Caption Labeling (PCL) というシンプルで効果的な手法を提案する。 得られた疑似字幕ラベルは、知識蒸留のための濃密なサンプルを提供する。 LVISベンチマークでは、切り離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。 PCLの単純さと柔軟性は、モデルアーキテクチャやトレーニングプロセスに制限を加えることなく、どんな画像キャプションモデルでも使用できる単純な前処理技術であるため、他の注目すべき特徴である。

Recent open-vocabulary detection methods aim to detect novel objects by distilling knowledge from vision-language models (VLMs) trained on a vast amount of image-text pairs. To improve the effectiveness of these methods, researchers have utilized datasets with a large vocabulary that contains a large number of object classes, under the assumption that such data will enable models to extract comprehensive knowledge on the relationships between various objects and better generalize to unseen object classes. In this study, we argue that more fine-grained labels are necessary to extract richer knowledge about novel objects, including object attributes and relationships, in addition to their names. To address this challenge, we propose a simple and effective method named Pseudo Caption Labeling (PCL), which utilizes an image captioning model to generate captions that describe object instances from diverse perspectives. The resulting pseudo caption labels offer dense samples for knowledge distillation. On the LVIS benchmark, our best model trained on the de-duplicated VisualGenome dataset achieves an AP of 34.5 and an APr of 30.6, comparable to the state-of-the-art performance. PCL's simplicity and flexibility are other notable features, as it is a straightforward pre-processing technique that can be used with any image captioning model without imposing any restrictions on model architecture or training process.
翻訳日:2023-03-24 15:31:15 公開日:2023-03-23
# 直交アノテーションの医療画像分割に対する効果

Orthogonal Annotation Benefits Barely-supervised Medical Image Segmentation ( http://arxiv.org/abs/2303.13090v1 )

ライセンス: Link先を確認
Heng Cai, Shumeng Li, Lei Qi, Qian Yu, Yinghuan Shi, Yang Gao(参考訳) 半教師付き学習の最近の傾向は、3次元半教師付き医用画像セグメンテーションの性能を大幅に向上させた。 2d画像と比較すると、3d医療ボリュームは、横方向、矢状、コロナ面などの異なる方向からの情報を伴い、自然に補完的な視点を提供する。 これらの相補的視点と隣接する3次元スライス間の本質的類似性は,新しい注釈法とそれに対応する半教師付きモデルの開発を促した。 具体的には,ラベル付きボリュームに2つの直交スライスのみをラベル付けすることにより,アノテーションの負担を大幅に軽減する直交アノテーションを提案する。 そして、疎ラベル付きボリュームの初期擬似ラベルを取得するために登録を行う。 その後、ラベルなしボリュームを導入することで、初期段階における密接な擬似ラベルと後期段階におけるスパースラベルを活用し、2つのネットワークの一貫した出力を強いる、dish-sparse co-training(desco)と呼ばれるデュアルネットワークパラダイムを提案する。 3つのベンチマークデータセットによる実験結果から,アノテーションの性能と効率性が検証された。 例えば、注釈付きスライスはわずか10個で、kits19データセット上で86.93%までダイスに達する。

Recent trends in semi-supervised learning have significantly boosted the performance of 3D semi-supervised medical image segmentation. Compared with 2D images, 3D medical volumes involve information from different directions, e.g., transverse, sagittal, and coronal planes, so as to naturally provide complementary views. These complementary views and the intrinsic similarity among adjacent 3D slices inspire us to develop a novel annotation way and its corresponding semi-supervised model for effective segmentation. Specifically, we firstly propose the orthogonal annotation by only labeling two orthogonal slices in a labeled volume, which significantly relieves the burden of annotation. Then, we perform registration to obtain the initial pseudo labels for sparsely labeled volumes. Subsequently, by introducing unlabeled volumes, we propose a dual-network paradigm named Dense-Sparse Co-training (DeSCO) that exploits dense pseudo labels in early stage and sparse labels in later stage and meanwhile forces consistent output of two networks. Experimental results on three benchmark datasets validated our effectiveness in performance and efficiency in annotation. For example, with only 10 annotated slices, our method reaches a Dice up to 86.93% on KiTS19 dataset.
翻訳日:2023-03-24 15:25:16 公開日:2023-03-23
# ボックスレベルアクティブ検出

Box-Level Active Detection ( http://arxiv.org/abs/2303.13089v1 )

ライセンス: Link先を確認
Mengyao Lyu, Jundong Zhou, Hui Chen, Yijie Huang, Dongdong Yu, Yaqian Li, Yandong Guo, Yuchen Guo, Liuyu Xiang, Guiguang Ding(参考訳) アクティブラーニングは、最近オブジェクト検出において効率的であることが証明された予算内でアノテーションのための情報サンプルを選択する。 しかし、広く使われているアクティブ検出ベンチマークは、人間のワークロード推定では非現実的であり、混み合ったイメージに偏りがある画像レベルの評価を行う。 さらに、既存のメソッドは画像レベルのアノテーションを実行するが、同じイメージ内のすべてのターゲットを等しくスコアリングすることは、予算と冗長なラベルを浪費する。 上記の問題と限界を明らかにし,ボックスレベルのアクティブ検出フレームワークを導入し,ボックスベースの予算をサイクル毎に制御し,情報的目標を優先順位付けし,公平な比較と効率的なアプリケーションのための冗長性を回避する。 提案するボックスレベル設定では,新たなパイプライン,すなわちcompresive pseudo active strategy (compas) を考案する。 それは人間のアノテーションとモデルインテリジェンスの両方を補完的に利用し、効率的なインプット・エンド委員会が情報的対象のみを問うラベルを検索する一方で、よく学習されたターゲットはモデルによって識別され、擬似ラベルで補償される。 ComPASは、統一コードベースで4つの設定で10の競合より一貫して優れている。 ラベル付きデータのみの監視により、19%のボックスアノテーションでVOC0712の100%の教師付きパフォーマンスを実現している。 COCOデータセットでは、第2ベット法よりも最大4.3%のmAP改善が得られる。 ComPASはラベルなしのプールでのトレーニングもサポートしており、85%のラベル削減でCOCOが監督するパフォーマンスを90%以上越えている。 ソースコードはhttps://github.com/lyumengyao/blad.com/で公開しています。

Active learning selects informative samples for annotation within budget, which has proven efficient recently on object detection. However, the widely used active detection benchmarks conduct image-level evaluation, which is unrealistic in human workload estimation and biased towards crowded images. Furthermore, existing methods still perform image-level annotation, but equally scoring all targets within the same image incurs waste of budget and redundant labels. Having revealed above problems and limitations, we introduce a box-level active detection framework that controls a box-based budget per cycle, prioritizes informative targets and avoids redundancy for fair comparison and efficient application. Under the proposed box-level setting, we devise a novel pipeline, namely Complementary Pseudo Active Strategy (ComPAS). It exploits both human annotations and the model intelligence in a complementary fashion: an efficient input-end committee queries labels for informative objects only; meantime well-learned targets are identified by the model and compensated with pseudo-labels. ComPAS consistently outperforms 10 competitors under 4 settings in a unified codebase. With supervision from labeled data only, it achieves 100% supervised performance of VOC0712 with merely 19% box annotations. On the COCO dataset, it yields up to 4.3% mAP improvement over the second-best method. ComPAS also supports training with the unlabeled pool, where it surpasses 90% COCO supervised performance with 85% label reduction. Our source code is publicly available at https://github.com/lyumengyao/blad.
翻訳日:2023-03-24 15:24:55 公開日:2023-03-23
# 最悪のシャープネス最小化による光子限界破壊に対するロバスト一般化

Robust Generalization against Photon-Limited Corruptions via Worst-Case Sharpness Minimization ( http://arxiv.org/abs/2303.13087v1 )

ライセンス: Link先を確認
Zhuo Huang, Miaoxi Zhu, Xiaobo Xia, Li Shen, Jun Yu, Chen Gong, Bo Han, Bo Du, Tongliang Liu(参考訳) ロバスト一般化は、トレーニングセットで稀であり、厳しいノイズ、すなわち光子限定の腐敗を含む最も困難なデータ分布に取り組むことを目的としている。 分散ロバスト最適化 (distributionally robust optimization, dro) のような一般的なソリューションは、まれなノイズの分布に対して低いトレーニングエラーを確実にする、最悪の経験的リスクに焦点を当てている。 しかし、最短ケースデータに最適化された過パラメータモデルのため、DROはスムーズなロスランドスケープの生成に失敗し、テストセットの一般化に苦慮する。 そこで, 最悪のリスク最小化ではなく, 学習パラメータの周辺における損失変化を計測する, 最悪のケース分布の鋭さをペナルティ化し, SharpDROを提案する。 最短ケースのシャープネス最小化により, 提案手法は破損した分布に平坦な損失曲線を生じ, 堅牢な一般化を実現する。 さらに,分散アノテーションが利用可能かどうかを考慮し,2つの問題設定にsharpdroを適用し,ロバスト一般化のための最悪のケース選択プロセスを設計する。 理論的には、SharpDROは収束性に大きな保証を持つ。 実験により,CIFAR10/100とImageNet30のデータセットを用いて光子限定の破損をシミュレートし,シャープDROが強大な腐敗に対して強力な一般化能力を示し,高い性能向上を示す。

Robust generalization aims to tackle the most challenging data distributions which are rare in the training set and contain severe noises, i.e., photon-limited corruptions. Common solutions such as distributionally robust optimization (DRO) focus on the worst-case empirical risk to ensure low training error on the uncommon noisy distributions. However, due to the over-parameterized model being optimized on scarce worst-case data, DRO fails to produce a smooth loss landscape, thus struggling on generalizing well to the test set. Therefore, instead of focusing on the worst-case risk minimization, we propose SharpDRO by penalizing the sharpness of the worst-case distribution, which measures the loss changes around the neighbor of learning parameters. Through worst-case sharpness minimization, the proposed method successfully produces a flat loss curve on the corrupted distributions, thus achieving robust generalization. Moreover, by considering whether the distribution annotation is available, we apply SharpDRO to two problem settings and design a worst-case selection process for robust generalization. Theoretically, we show that SharpDRO has a great convergence guarantee. Experimentally, we simulate photon-limited corruptions using CIFAR10/100 and ImageNet30 datasets and show that SharpDRO exhibits a strong generalization ability against severe corruptions and exceeds well-known baseline methods with large performance gains.
翻訳日:2023-03-24 15:24:30 公開日:2023-03-23
# MSAT:スパイクニューラルネットワークの変換のための生物学的にヒントを得た多段階適応閾値

MSAT: Biologically Inspired Multi-Stage Adaptive Threshold for Conversion of Spiking Neural Networks ( http://arxiv.org/abs/2303.13080v1 )

ライセンス: Link先を確認
Xiang He, Yang Li, Dongcheng Zhao, Qingqun Kong, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)はそのスパイク間隔のために低消費電力で推測できる。 ANN-SNN変換は、よく訓練されたニューラルネットワーク(ANN)を変換することで、深いSNNを実現する効率的な方法である。 しかし、既存の手法では変換に一定の閾値を用いることが多いため、ニューロンがより深い層にスパイクを素早く送り込むのを防ぎ、高い時間遅延を引き起こす。 さらに、異なる入力に対する同じ応答は、情報伝達中に情報損失をもたらす可能性がある。 生体モデル機構に着想を得て,多段階適応しきい値(MSAT)を提案する。 具体的には、各ニューロンの動的閾値は発火履歴や入力特性によって異なり、平均膜電位と正の相関があり、脱分極率と負の相関がある。 膜電位と入力への自己適応により、閾値をタイムリーに調整し、スパイクを速く発射し、より多くの情報を送信することができる。 さらに、早期に広まる不活性化ニューロンエラーのスパイクを分析し、スパイクを正しく伝達するニューロンに対する信頼度の測定としてスパイク信頼度を提案する。 このようなスパイク信頼度を早期ステップで使用して,このエラーを軽減するためにスパイクを誘発するかどうかを判断する。 提案手法と組み合わせて,非自明なデータセットCIFAR-10,CIFAR-100,ImageNetの性能を検討した。 また, idbmとgoogle speech commandsデータセット上で感情分類と音声認識実験を行った。 実験では、ほぼロスレスで低レイテンシのANN-SNN変換が示されている。 我々の知る限りでは、エネルギー効率を向上しつつ、最先端の手法に匹敵する性能を持つ変換SNNのための生物学的にインスパイアされた多段階適応しきい値を構築するのはこれが初めてである。

Spiking Neural Networks (SNNs) can do inference with low power consumption due to their spike sparsity. ANN-SNN conversion is an efficient way to achieve deep SNNs by converting well-trained Artificial Neural Networks (ANNs). However, the existing methods commonly use constant threshold for conversion, which prevents neurons from rapidly delivering spikes to deeper layers and causes high time delay. In addition, the same response for different inputs may result in information loss during the information transmission. Inspired by the biological model mechanism, we propose a multi-stage adaptive threshold (MSAT). Specifically, for each neuron, the dynamic threshold varies with firing history and input properties and is positively correlated with the average membrane potential and negatively correlated with the rate of depolarization. The self-adaptation to membrane potential and input allows a timely adjustment of the threshold to fire spike faster and transmit more information. Moreover, we analyze the Spikes of Inactivated Neurons error which is pervasive in early time steps and propose spike confidence accordingly as a measurement of confidence about the neurons that correctly deliver spikes. We use such spike confidence in early time steps to determine whether to elicit spike to alleviate this error. Combined with the proposed method, we examine the performance on non-trivial datasets CIFAR-10, CIFAR-100, and ImageNet. We also conduct sentiment classification and speech recognition experiments on the IDBM and Google speech commands datasets respectively. Experiments show near-lossless and lower latency ANN-SNN conversion. To the best of our knowledge, this is the first time to build a biologically inspired multi-stage adaptive threshold for converted SNN, with comparable performance to state-of-the-art methods while improving energy efficiency.
翻訳日:2023-03-24 15:24:02 公開日:2023-03-23
# 知識伝達を伴うイベントベースデータセットにおけるスパイクニューラルネットワークの性能向上

Improving the Performance of Spiking Neural Networks on Event-based Datasets with Knowledge Transfer ( http://arxiv.org/abs/2303.13077v1 )

ライセンス: Link先を確認
Xiang He, Dongcheng Zhao, Yang Li, Guobin Shen, Qingqun Kong, Yi Zeng(参考訳) スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックなイベントベースのデータを処理するのに適した、豊富な時空間ダイナミクスを持つ。 しかし、イベントベースのデータセットは通常、従来のディープラーニングで使用される静的データセットよりも注釈が少ない。 小規模なデータスケールにより、SNNはSNNの性能を過度に調整し制限する傾向にある。 イベントベースデータセットにおけるSNNの一般化性を高めるため,静的な画像を利用してニューロモルフィックデータセットのトレーニングを支援する知識伝達フレームワークを提案する。 本手法では,これら2つのドメインのドメイン不変性とユニークな特徴を生かすために,ドメイン損失とセマンティクス損失を提案する。 具体的には、ドメイン損失は機能空間を調整し、静的イメージとイベントベースのイメージの共通機能をキャプチャすることを目的としているが、セマンティック損失は、異なるカテゴリのサンプル間の差異が可能な限り大きいことを強調している。 実験の結果,本手法は主要神経形態的視覚データセットの既存手法よりも優れていた。 特に,CIFAR10-DVSとN-Caltech 101データセットのトレーニングデータのみを使用することで,2.7\%と9.8\%の大幅なパフォーマンス向上を実現した。

Spiking neural networks (SNNs) have rich spatial-temporal dynamics, which are suitable for processing neuromorphic, event-based data. However, event-based datasets are usually less annotated than static datasets used in traditional deep learning. Small data scale makes SNNs prone to overfitting and limits the performance of the SNN. To enhance the generalizability of SNNs on event-based datasets, we propose a knowledge-transfer framework that leverages static images to assist in the training on neuromorphic datasets. Our method proposes domain loss and semantic loss to exploit both domain-invariant and unique features of these two domains, providing SNNs with more generalized knowledge for subsequent targeted training on neuromorphic data. Specifically, domain loss aligns the feature space and aims to capture common features between static and event-based images, while semantic loss emphasizes that the differences between samples from different categories should be as large as possible. Experimental results demonstrate that our method outperforms existing methods on all mainstream neuromorphic vision datasets. In particular, we achieve significant performance improvement of 2.7\% and 9.8\% when using only 10\% training data of CIFAR10-DVS and N-Caltech 101 datasets, respectively.
翻訳日:2023-03-24 15:23:34 公開日:2023-03-23
# CORA: Region Prompting と Anchor Pre-Matching を用いた開語彙検出のためのCLIP適応

CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching ( http://arxiv.org/abs/2303.13076v1 )

ライセンス: Link先を確認
Xiaoshi Wu, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) オープン語彙検出(Open-vocabulary Detection, OVD)は、検出器が訓練される基本カテゴリを越えて、新しいカテゴリからオブジェクトを検出することを目的としたオブジェクト検出タスクである。 近年のOVD法は、CLIPのような大規模視覚言語事前学習モデルに頼っている。 我々は,これらのモデルを検出器訓練に取り入れる際に対処すべき2つの障害を同定する:(1)画像全体に基づいて訓練されたVLモデルを適用した場合の分布ミスマッチ,(2)見えないクラスのオブジェクトのローカライズが困難である。 このような障害を克服するために,領域のプロンプトとアンカーの事前マッチングによる開語彙検出にCLIPを適用するDETRスタイルのフレームワークであるCORAを提案する。 領域プロンプトはクリップベースの領域分類器の領域特徴を促進させることで、地域全体の分布ギャップを緩和する。 Anchor Pre-matchingは、クラス認識マッチングメカニズムによる一般化可能なオブジェクトのローカライゼーションの学習を支援する。 我々はCOCO OVDベンチマークでCORAを評価し、新しいクラスで41.7 AP50を達成し、余分なトレーニングデータに頼ることなく、以前のSOTAを2.4 AP50で上回った。 追加のトレーニングデータが利用可能であれば、ベースカテゴリアノテーションと、coraが計算した擬似境界ボックスラベルの両方でcora$^+$をトレーニングします。 CORA$^+$はCOCO OVDベンチマークで43.1 AP50、LVIS OVDベンチマークで28.1 APrを達成した。

Open-vocabulary detection (OVD) is an object detection task aiming at detecting objects from novel categories beyond the base categories on which the detector is trained. Recent OVD methods rely on large-scale visual-language pre-trained models, such as CLIP, for recognizing novel objects. We identify the two core obstacles that need to be tackled when incorporating these models into detector training: (1) the distribution mismatch that happens when applying a VL-model trained on whole images to region recognition tasks; (2) the difficulty of localizing objects of unseen classes. To overcome these obstacles, we propose CORA, a DETR-style framework that adapts CLIP for Open-vocabulary detection by Region prompting and Anchor pre-matching. Region prompting mitigates the whole-to-region distribution gap by prompting the region features of the CLIP-based region classifier. Anchor pre-matching helps learning generalizable object localization by a class-aware matching mechanism. We evaluate CORA on the COCO OVD benchmark, where we achieve 41.7 AP50 on novel classes, which outperforms the previous SOTA by 2.4 AP50 even without resorting to extra training data. When extra training data is available, we train CORA$^+$ on both ground-truth base-category annotations and additional pseudo bounding box labels computed by CORA. CORA$^+$ achieves 43.1 AP50 on the COCO OVD benchmark and 28.1 box APr on the LVIS OVD benchmark.
翻訳日:2023-03-24 15:23:13 公開日:2023-03-23
# blockfw -- ブロックチェーンベースのルール共有ファイアウォールへ

BlockFW -- Towards Blockchain-based Rule-Sharing Firewall ( http://arxiv.org/abs/2303.13073v1 )

ライセンス: Link先を確認
Wei-Yang Chiu and Weizhi Meng(参考訳) 中央管理型のセキュリティメカニズムは、多くの組織でよく利用されるが、そのようなサーバはセキュリティのブレークポイントでもある。 これは、サーバがセキュリティ保護を共有するすべてのノードの権限を持っているためです。 したがって、攻撃者がサーバーの改ざんに成功した場合、組織はトラブルに陥る。 また、サーバに保存される設定とポリシーは、通常暗号的に保護されず、ハッシュで保証される。 したがって、セキュリティソリューションにアラームを発生させることなく、代替方法から設定を変更することが可能である。 これらの問題を緩和するために、BlockFWaブロックチェーンベースのルール共有ファイアウォールを開発し、複数のノードからの検証と監視を提供するマネージドセキュリティメカニズムを作成します。 BlockFWにとって、発生したすべてのトランザクションは、その整合性を保証するために暗号的に保護されている。 評価では,いくつかの逆条件下でのBlockFWの性能について検討し,その有効性を実証する。

Central-managed security mechanisms are often utilized in many organizations, but such server is also a security breaking point. This is because the server has the authority for all nodes that share the security protection. Hence if the attackers successfully tamper the server, the organization will be in trouble. Also, the settings and policies saved on the server are usually not cryptographically secured and ensured with hash. Thus, changing the settings from alternative way is feasible, without causing the security solution to raise any alarms. To mitigate these issues, in this work, we develop BlockFW - a blockchain-based rule sharing firewall to create a managed security mechanism, which provides validation and monitoring from multiple nodes. For BlockFW, all occurred transactions are cryptographically protected to ensure its integrity, making tampering attempts in utmost challenging for attackers. In the evaluation, we explore the performance of BlockFW under several adversarial conditions and demonstrate its effectiveness.
翻訳日:2023-03-24 15:22:46 公開日:2023-03-23
# Beyond Universal Transformer: 自動音声認識のためのTransformerのアダプタによるブロック再利用

Beyond Universal Transformer: block reusing with adaptor in Transformer for automatic speech recognit ( http://arxiv.org/abs/2303.13072v1 )

ライセンス: Link先を確認
Haoyu Tang, Zhaoyi Liu, Chang Zeng, Xinfeng Li(参考訳) トランスフォーマーベースモデルは最近、エンドツーエンド(E2E)自動音声認識(ASR)の適用において大きな成果を上げている。 Transformerベースのモデルを使用して、E2E ASRシステムをスマートデバイスにデプロイすることができる。 これらのモデルには、多くのモデルパラメータを必要とする欠点がある。 エッジデバイスにおけるasrの適用におけるユニバーサルトランスフォーマーモデルの欠点を克服するため,認識精度を損なうことなく資源制限を満たした小型フットプリントasrシステムにおいて,トランスフォーマーモデルのブロックを再利用する手法を提案する。 具体的には,パラメータの有効性を高めるために,音声トランスフォーマタ(brst)のための新しいブロックリユース戦略を設計し,各リユースブロックに付随する数個の練習可能なパラメータしか持たないコンパクトで適応可能なモデルを生成するアダプタモジュール(adm)を提案する。 提案手法をAISHELL-1コーパス上で実験した結果,提案手法は文字誤り率(CER)が9.3%/6.63%であり,ADMは7.6M/8.3Mのパラメータしか持たないことがわかった。 さらに, 一般ブロック再利用法におけるADMの効果について, より深い解析を行った。

Transformer-based models have recently made significant achievements in the application of end-to-end (E2E) automatic speech recognition (ASR). It is possible to deploy the E2E ASR system on smart devices with the help of Transformer-based models. While these models still have the disadvantage of requiring a large number of model parameters. To overcome the drawback of universal Transformer models for the application of ASR on edge devices, we propose a solution that can reuse the block in Transformer models for the occasion of the small footprint ASR system, which meets the objective of accommodating resource limitations without compromising recognition accuracy. Specifically, we design a novel block-reusing strategy for speech Transformer (BRST) to enhance the effectiveness of parameters and propose an adapter module (ADM) that can produce a compact and adaptable model with only a few additional trainable parameters accompanying each reusing block. We conducted an experiment with the proposed method on the public AISHELL-1 corpus, and the results show that the proposed approach achieves the character error rate (CER) of 9.3%/6.63% with only 7.6M/8.3M parameters without and with the ADM, respectively. In addition, we also make a deeper analysis to show the effect of ADM in the general block-reusing method.
翻訳日:2023-03-24 15:22:32 公開日:2023-03-23
# PanoHead: 360$^{\circ}$における幾何学的3Dフルヘッド合成

PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360$^{\circ}$ ( http://arxiv.org/abs/2303.13071v1 )

ライセンス: Link先を確認
Sizhe An, Hongyi Xu, Yichun Shi, Guoxian Song, Umit Ogras, Linjie Luo(参考訳) 近年,3次元頭部の合成と再構築がコンピュータビジョンやコンピュータグラフィックスへの関心が高まっている。 3次元頭部合成のための既存の最先端の3D生成敵ネットワーク(GAN)は、正面近傍のビューに限られるか、大きなビュー角で3D一貫性を維持するのが困難である。 本研究では,360^\circ$でフルヘッドの高画質な映像合成を可能にする最初の3d認識生成モデルであるpanoheadを提案する。 中心となるのは、近年の3D GANの表現力を高め、広範に分散した画像からトレーニングする際のデータアライメントギャップを埋める。 具体的には,ロバストな3d ganトレーニングのための新しい2段階の自己適応画像アライメントを提案する。 さらに,広範に付加された三面体定式化に根ざした前頭部特徴と後頭部特徴の絡み合いを効果的に対処する三叉神経体積表現を導入する。 本手法は,3次元ニューラルシーン構造の逆学習における2次元画像分割の事前知識を抽出し,多様な背景における合成可能な頭部合成を可能にする。 提案手法は, 従来の3D GANよりも優れており, 任意のポーズからレンダリング可能な長い波状・アフロヘアスタイルであっても, 正確な形状と多様な外観を持つ高品質な3Dヘッドを生成する。 さらに,本システムでは,単一入力画像から全3次元頭部を再構築し,現実的な3次元アバターをパーソナライズする。

Synthesis and reconstruction of 3D human head has gained increasing interests in computer vision and computer graphics recently. Existing state-of-the-art 3D generative adversarial networks (GANs) for 3D human head synthesis are either limited to near-frontal views or hard to preserve 3D consistency in large view angles. We propose PanoHead, the first 3D-aware generative model that enables high-quality view-consistent image synthesis of full heads in $360^\circ$ with diverse appearance and detailed geometry using only in-the-wild unstructured images for training. At its core, we lift up the representation power of recent 3D GANs and bridge the data alignment gap when training from in-the-wild images with widely distributed views. Specifically, we propose a novel two-stage self-adaptive image alignment for robust 3D GAN training. We further introduce a tri-grid neural volume representation that effectively addresses front-face and back-head feature entanglement rooted in the widely-adopted tri-plane formulation. Our method instills prior knowledge of 2D image segmentation in adversarial learning of 3D neural scene structures, enabling compositable head synthesis in diverse backgrounds. Benefiting from these designs, our method significantly outperforms previous 3D GANs, generating high-quality 3D heads with accurate geometry and diverse appearances, even with long wavy and afro hairstyles, renderable from arbitrary poses. Furthermore, we show that our system can reconstruct full 3D heads from single input images for personalized realistic 3D avatars.
翻訳日:2023-03-24 15:22:07 公開日:2023-03-23
# リアル画像超解像のための人間誘導地中構造生成

Human Guided Ground-truth Generation for Realistic Image Super-resolution ( http://arxiv.org/abs/2303.13069v1 )

ライセンス: Link先を確認
Du Chen, Jie Liang, Xindong Zhang, Ming Liu, Hui Zeng, Lei Zhang(参考訳) GT画像を生成する方法は、現実的な画像超解像(Real-ISR)モデルをトレーニングする上で重要な問題である。 既存の手法は主に高分解能(HR)画像をGTとして取り、低分解能(LR)画像をシミュレートするために様々な劣化を適用している。 しかし、LR-HRペア生成方式にはいくつかの制限がある。 第一に、HR画像の知覚品質は十分に高くないことがあり、リアルISR出力の品質が制限される。 第二に、既存のスキームはgt生成において人間の知覚をあまり考慮せず、訓練されたモデルは過剰な結果や不快な成果を生み出す傾向がある。 以上の観点から,人間の誘導型GT生成手法を提案する。 まず、HR画像の知覚品質を向上させるために複数の画像強調モデルを精巧に訓練し、複数のHR画像を持つ1つのLR画像を可能にする。 被験者は、強化されたHR画像中の高品質領域をGTとして注釈付けし、不快なアーティファクトを負のサンプルとしてラベル付けする。 次に、正と負の両方のサンプルを持つ人間のガイド付きGT画像データセットを構築し、Real-ISRモデルをトレーニングするために損失関数を提案する。 実験によれば、データセットでトレーニングされた実際のisrモデルは、より少ないアーティファクトで知覚的により現実的な結果を生み出すことができる。 データセットとコードはhttps://github.com/ChrisDud0257/HGGTで確認できる。

How to generate the ground-truth (GT) image is a critical issue for training realistic image super-resolution (Real-ISR) models. Existing methods mostly take a set of high-resolution (HR) images as GTs and apply various degradations to simulate their low-resolution (LR) counterparts. Though great progress has been achieved, such an LR-HR pair generation scheme has several limitations. First, the perceptual quality of HR images may not be high enough, limiting the quality of Real-ISR outputs. Second, existing schemes do not consider much human perception in GT generation, and the trained models tend to produce over-smoothed results or unpleasant artifacts. With the above considerations, we propose a human guided GT generation scheme. We first elaborately train multiple image enhancement models to improve the perceptual quality of HR images, and enable one LR image having multiple HR counterparts. Human subjects are then involved to annotate the high quality regions among the enhanced HR images as GTs, and label the regions with unpleasant artifacts as negative samples. A human guided GT image dataset with both positive and negative samples is then constructed, and a loss function is proposed to train the Real-ISR models. Experiments show that the Real-ISR models trained on our dataset can produce perceptually more realistic results with less artifacts. Dataset and codes can be found at https://github.com/ChrisDud0257/HGGT
翻訳日:2023-03-24 15:21:38 公開日:2023-03-23
# OCELOT:病理組織学のための組織データセット上のオーバーラップ細胞

OCELOT: Overlapped Cell on Tissue Dataset for Histopathology ( http://arxiv.org/abs/2303.13110v1 )

ライセンス: Link先を確認
Jeongun Ryu, Aaron Valero Puche, JaeWoong Shin, Seonwook Park, Biagio Brattoli, Jinhee Lee, Wonkyung Jung, Soo Ick Cho, Kyunghyun Paeng, Chan-Young Ock, Donggeun Yoo, S\'ergio Pereira(参考訳) 細胞検出は計算病理学の基本的な課題であり、全スライディング画像から高レベルの医療情報を抽出するのに使用できる。 正確な細胞検出のために、病理学者は組織レベルの構造を理解するためにズームアウトし、その形態と周囲の状況に基づいて細胞を分類する。 しかしながら、細胞検出モデルにおける病理学者のこのような行動を反映しようとする努力の欠如は、主に重複した領域を持つ細胞と組織の両方を含むデータセットの欠如によるものである。 この制限を克服するために,組織学における細胞検出のための細胞間関係の研究を目的としたデータセットOCELOTを提案する。 OCELOTは複数の臓器から取得した画像に重複する細胞および組織アノテーションを提供する。 この設定内では,細胞と組織の両方のタスクを同時に学習できるマルチタスク学習手法も提案する。 細胞検出タスクのみで訓練されたモデルと比較すると,提案手法はOCELOT,パブリックTIGER,内部CARPデータセットの3つのデータセット上での細胞検出性能を向上させる。 特にOCELOTテストセットでは、F1スコアが最大6.79改善されている。 我々は,OCELOTデータセットをhttps://lunit-io.github.io/research/publications/ocelotでリリースすることを含め,本論文のコントリビューションは,計算病理学に細胞-組織関係を組み込む上で重要な研究方向への重要な出発点であると考えている。

Cell detection is a fundamental task in computational pathology that can be used for extracting high-level medical information from whole-slide images. For accurate cell detection, pathologists often zoom out to understand the tissue-level structures and zoom in to classify cells based on their morphology and the surrounding context. However, there is a lack of efforts to reflect such behaviors by pathologists in the cell detection models, mainly due to the lack of datasets containing both cell and tissue annotations with overlapping regions. To overcome this limitation, we propose and publicly release OCELOT, a dataset purposely dedicated to the study of cell-tissue relationships for cell detection in histopathology. OCELOT provides overlapping cell and tissue annotations on images acquired from multiple organs. Within this setting, we also propose multi-task learning approaches that benefit from learning both cell and tissue tasks simultaneously. When compared against a model trained only for the cell detection task, our proposed approaches improve cell detection performance on 3 datasets: proposed OCELOT, public TIGER, and internal CARP datasets. On the OCELOT test set in particular, we show up to 6.79 improvement in F1-score. We believe the contributions of this paper, including the release of the OCELOT dataset at https://lunit-io.github.io/research/publications/ocelot are a crucial starting point toward the important research direction of incorporating cell-tissue relationships in computation pathology.
翻訳日:2023-03-24 15:16:28 公開日:2023-03-23
# bipotent architectureにおけるqaoaの最適化

Optimizing QAOA on Bipotent Architectures ( http://arxiv.org/abs/2303.13109v1 )

ライセンス: Link先を確認
Yanjun Ji, Kathrin F. Koenig, and Ilia Polian(参考訳) 量子ゲートの活発な最適化は、最適化されたゲートがいくつかの量子ビットで利用できるが、他の量子ビットでは利用できない二元的量子アーキテクチャをもたらす。 しかし、このようなゲートレベルの改善は、量子近似最適化アルゴリズム(QAOA)のアンサッツ回路のような高い正則性を持つ量子回路に有効なユーザ側パルスレベル最適化の適用を制限する。 本稿では,二元量子アーキテクチャにおけるハードウェアレベルとアルゴリズムレベルの改善のトレードオフについて検討する。 IBMが提供している2つの量子コンピュータ上の様々なQAOAインスタンスの結果、パルスレベルの最適化の利点は、鮮やかに最適化されたモノリシックゲートによる改善よりも優れていることが示された。 さらに,本研究では,回路プリミティブの忠実性がアルゴリズム全体の性能を示す最善の指標であるとは限らないことを示す。 この効果はqaoaがポートフォリオの密集した最適化問題に対して特に顕著であり、それらのトランスパイル化には多くのスワップゲートが必要であり、効率的なパルスレベルの最適化が存在する。 本研究は,2次量子アーキテクチャにおける最適量子ビット選択に関する実践的ガイダンスを提供し,それらのアーキテクチャの改善の必要性を示唆し,最終的にすべてのゲートタイプに対してパルスレベルの最適化を実現する。

Vigorous optimization of quantum gates has led to bipotent quantum architectures, where the optimized gates are available for some qubits but not for others. However, such gate-level improvements limit the application of user-side pulse-level optimizations, which have proven effective for quantum circuits with a high level of regularity, such as the ansatz circuit of the Quantum Approximate Optimization Algorithm (QAOA). In this paper, we investigate the trade-off between hardware-level and algorithm-level improvements on bipotent quantum architectures. Our results for various QAOA instances on two quantum computers offered by IBM indicate that the benefits of pulse-level optimizations currently outweigh the improvements due to vigorously optimized monolithic gates. Furthermore, our data indicate that the fidelity of circuit primitives is not always the best indicator for the overall algorithm performance; also their gate type and schedule duration should be taken into account. This effect is particularly pronounced for QAOA on dense portfolio optimization problems, since their transpilation requires many SWAP gates, for which efficient pulse-level optimization exists. Our findings provide practical guidance on optimal qubit selection on bipotent quantum architectures and suggest the need for improvements of those architectures, ultimately making pulse-level optimization available for all gate types.
翻訳日:2023-03-24 15:16:05 公開日:2023-03-23
# 22個の非線形光学結晶から発生する中赤外スペクトル単光子状態

Mid-infrared spectrally-pure single-photon states generation from 22 nonlinear optical crystals ( http://arxiv.org/abs/2303.13106v1 )

ライセンス: Link先を確認
Wu-Hao Cai, Ying Tian, and Rui-Bo Jin(参考訳) 1224nmから11650nmの範囲で14個の複屈折結晶 (CMTC, THI, LiIO$_3$, AAS, HGS, CGA, TAS, AGS, AGSe, GaSe, LIS, LISe, LGS, LGSe) と8個の周期性ポリング結晶 (LT, LN, KTP, KN, BaTiO$_3$, MgBaF$_4$, PMN-0.38PT, OP-ZnSe) からの純状態単光子源の合成を理論的に検討した。 各結晶について, 3種類の群速度整合(GVM)条件, 相整合条件, スペクトル純度, およびHong-Ou-Mandel干渉を算出する。 この研究は、中赤外波長域における量子センシング、量子イメージング、および量子通信アプリケーションのための高品質な単一光子源を提供するかもしれない。

We theoretically investigate the preparation of pure-state single-photon source from 14 birefringent crystals (CMTC, THI, LiIO$_3$, AAS, HGS, CGA, TAS, AGS, AGSe, GaSe, LIS, LISe, LGS, and LGSe) and 8 periodic poling crystals (LT, LN, KTP, KN, BaTiO$_3$, MgBaF$_4$, PMN-0.38PT, and OP-ZnSe) in a wavelength range from 1224 nm to 11650 nm. The three kinds of group-velocity-matching (GVM) conditions, the phase matching conditions, the spectral purity, and the Hong-Ou-Mandel interference are calculated for each crystal. This study may provide high-quality single-photon sources for quantum sensing, quantum imaging, and quantum communication applications at the mid-infrared wavelength range.
翻訳日:2023-03-24 15:15:42 公開日:2023-03-23
# キーポイント誘導最適輸送

Keypoint-Guided Optimal Transport ( http://arxiv.org/abs/2303.13102v1 )

ライセンス: Link先を確認
Xiang Gu, Yucheng Yang, Wei Zeng, Jian Sun, Zongben Xu(参考訳) 既存の最適輸送(ot)法は、主に輸送コスト/距離最小化基準の下での最適輸送計画/マッチングを導出する。 多くのアプリケーションでは、ドメイン間のマッチしたキーポイントをアノテートするのは合理的で、アノテーションの負担も無用です。 アノテーション付きキーポイントを使ってOTの正しいマッチングをガイドする方法を検討することは重要である。 本稿では,otのキーポイントに導かれる最適なマッチング(すなわち輸送計画)を探索する,関係保存(kpg-rl)による新しいキーポイント誘導モデルを提案する。 まず、OTにキーポイントを課すために、キーポイントペアのマッチングを保持する輸送計画のマスクベースの制約を提案する。 次に,各データポイントとキーポイントの関係を保存し,マッチングをガイドすることを提案する。 提案した KPG-RL モデルはシンクホーンのアルゴリズムで解くことができ、異なる空間で分布がサポートされている場合でも適用可能である。 さらに,関東ロヴィチ問題における関係保存制約とグロモフ・ワッセルシュタインモデルを用いて,キーポイントの指導を行う。 一方、提案したKPG-RLモデルは部分OT設定に拡張される。 さらに, 深層学習手法を用いて, KPG-RLモデルの二重定式化を導出する。 二重KPG-RLからの学習された輸送計画に基づき、ターゲット領域にソースデータを転送する新しい多様体バリ中心射影を提案する。 提案するkpg-rlモデルを異種領域適応と画像から画像への変換に適用する。 提案手法の有効性を検証した。

Existing Optimal Transport (OT) methods mainly derive the optimal transport plan/matching under the criterion of transport cost/distance minimization, which may cause incorrect matching in some cases. In many applications, annotating a few matched keypoints across domains is reasonable or even effortless in annotation burden. It is valuable to investigate how to leverage the annotated keypoints to guide the correct matching in OT. In this paper, we propose a novel KeyPoint-Guided model by ReLation preservation (KPG-RL) that searches for the optimal matching (i.e., transport plan) guided by the keypoints in OT. To impose the keypoints in OT, first, we propose a mask-based constraint of the transport plan that preserves the matching of keypoint pairs. Second, we propose to preserve the relation of each data point to the keypoints to guide the matching. The proposed KPG-RL model can be solved by Sinkhorn's algorithm and is applicable even when distributions are supported in different spaces. We further utilize the relation preservation constraint in the Kantorovich Problem and Gromov-Wasserstein model to impose the guidance of keypoints in them. Meanwhile, the proposed KPG-RL model is extended to the partial OT setting. Moreover, we deduce the dual formulation of the KPG-RL model, which is solved using deep learning techniques. Based on the learned transport plan from dual KPG-RL, we propose a novel manifold barycentric projection to transport source data to the target domain. As applications, we apply the proposed KPG-RL model to the heterogeneous domain adaptation and image-to-image translation. Experiments verified the effectiveness of the proposed approach.
翻訳日:2023-03-24 15:15:16 公開日:2023-03-23
# mmformer: リモートセンシング画像分類のためのマルチスケールセルフアテンションを用いたマルチモーダルトランスフォーマー

MMFormer: Multimodal Transformer Using Multiscale Self-Attention for Remote Sensing Image Classification ( http://arxiv.org/abs/2303.13101v1 )

ライセンス: Link先を確認
Bo Zhang, Zuheng Ming, Wei Feng, Yaqian Liu, Liang He, Kaixing Zhao(参考訳) ヘテロジニアスデータ間の相補的情報を活用するために,光検出やラング(LiDAR)などの他のデータソースを伴うハイパースペクトル画像(HSI)を用いた,リモートセンシング(RS)画像分類のための新しいマルチモーダルトランスフォーマ(MMFormer)を導入する。 畳み込みの帰納バイアスを欠く従来のビジョントランスフォーマー(ViT)と比較して、まず、HSIとLiDARのマルチモーダルデータからパッチをトークン化するために、MMFormerに畳み込み層を導入します。 次に,高スペクトル分解能のHSIと比較的低空間分解能のLiDARに制限される互換性の問題に対処するため,MSMHSA(Multi-scale Multi-head Self-Attention)モジュールを提案する。 提案したMSMHSAモジュールは、HSIをLiDARデータに粗い方法で組み込むことで、きめ細かい表現を学べる。 広く使われているベンチマーク(trento や muufl など)に関する広範な実験は、提案する rs 画像分類における mmformer の有効性と優位性を示している。

To benefit the complementary information between heterogeneous data, we introduce a new Multimodal Transformer (MMFormer) for Remote Sensing (RS) image classification using Hyperspectral Image (HSI) accompanied by another source of data such as Light Detection and Ranging (LiDAR). Compared with traditional Vision Transformer (ViT) lacking inductive biases of convolutions, we first introduce convolutional layers to our MMFormer to tokenize patches from multimodal data of HSI and LiDAR. Then we propose a Multi-scale Multi-head Self-Attention (MSMHSA) module to address the problem of compatibility which often limits to fuse HSI with high spectral resolution and LiDAR with relatively low spatial resolution. The proposed MSMHSA module can incorporate HSI to LiDAR data in a coarse-to-fine manner enabling us to learn a fine-grained representation. Extensive experiments on widely used benchmarks (e.g., Trento and MUUFL) demonstrate the effectiveness and superiority of our proposed MMFormer for RS image classification.
翻訳日:2023-03-24 15:14:50 公開日:2023-03-23
# PointGame: ポイントクラウド上の幾何学的かつ適応的にマスキングされたオートエンコーダ

PointGame: Geometrically and Adaptively Masked Auto-Encoder on Point Clouds ( http://arxiv.org/abs/2303.13100v1 )

ライセンス: Link先を確認
Yun Liu, Xuefeng Yan, Zhilei Chen, Zhiqi Li, Zeyong Wei, and Mingqiang Wei(参考訳) 自己監督型学習は、ポイントクラウド理解において大きな注目を集めている。 しかし、その不規則性とスパーシティの性質から、識別可能で移動可能な特徴の探索は依然として困難である。 本稿では,ポイントクラウド上での自己教師型学習のための,幾何学的かつ適応的にマスクされたオートエンコーダを提案する。 PointGameには、GATEとEATの2つのコアコンポーネントが含まれている。 ゲートは幾何学的および適応的なトークン埋め込みモジュールを表しており、表面形状を効果的に捉える幾何学的ディスクリプタの従来の知識を吸収するだけでなく、アダプティブ・サリエンシーを利用して点雲の突出部に集中する。 EATは、パイプライン全体の効率を高める線形計算複雑性を持つ外部注目ベースのTransformerエンコーダの略である。 最先端の教師なし学習モデルとは異なり、PointGameは幾何学的記述子を利用して表面形状を認識し、トレーニングデータから識別的特徴を適応的にマイニングする。 pointgameは、グローバルおよびローカルの微調整戦略の下で、さまざまな下流タスクにおいて、競合他社よりも明確な優位性を示している。 コードと事前訓練されたモデルは一般公開される。

Self-supervised learning is attracting large attention in point cloud understanding. However, exploring discriminative and transferable features still remains challenging due to their nature of irregularity and sparsity. We propose a geometrically and adaptively masked auto-encoder for self-supervised learning on point clouds, termed \textit{PointGame}. PointGame contains two core components: GATE and EAT. GATE stands for the geometrical and adaptive token embedding module; it not only absorbs the conventional wisdom of geometric descriptors that captures the surface shape effectively, but also exploits adaptive saliency to focus on the salient part of a point cloud. EAT stands for the external attention-based Transformer encoder with linear computational complexity, which increases the efficiency of the whole pipeline. Unlike cutting-edge unsupervised learning models, PointGame leverages geometric descriptors to perceive surface shapes and adaptively mines discriminative features from training data. PointGame showcases clear advantages over its competitors on various downstream tasks under both global and local fine-tuning strategies. The code and pre-trained models will be publicly available.
翻訳日:2023-03-24 15:14:27 公開日:2023-03-23
# 対話からのマルチビューゼロショットオープンインテント誘導:マルチドメインバッチとプロキシグラディエント転送

Multi-View Zero-Shot Open Intent Induction from Dialogues: Multi Domain Batch and Proxy Gradient Transfer ( http://arxiv.org/abs/2303.13099v1 )

ライセンス: Link先を確認
Hyukhun Koh, Haesung Pyun, Nakyeong Yang, Kyomin Jung(参考訳) タスク指向対話(TOD)システムでは,新たな意図の検出と誘導が,実世界でシステムを適用する上で大きな課題である。 本稿では,(1)一般埋め込み(GE)のためのSBERT,(2)対話ドメイン知識のためのMultiple Domain Batch(MDB)、(3)クラスタ特定セマンティックのためのPGT(Proxy Gradient Transfer)という2つの課題を解決するためのセマンティックマルチビューモデルを提案する。 MDBは多様な対話データセットをモデルに一度に供給し、複数のドメイン知識を学習することで、マルチドメイン問題に取り組む。 本稿では,クラスタリング手法でモデルを微調整するために,Siameseネットワークを利用した新しいPGTを提案する。 実験の結果,mdbとpgtを用いたマルチビューモデルは,ベースラインシステムに比べてオープンインテント誘導性能が著しく向上することがわかった。

In Task Oriented Dialogue (TOD) system, detecting and inducing new intents are two main challenges to apply the system in the real world. In this paper, we suggest the semantic multi-view model to resolve these two challenges: (1) SBERT for General Embedding (GE), (2) Multi Domain Batch (MDB) for dialogue domain knowledge, and (3) Proxy Gradient Transfer (PGT) for cluster-specialized semantic. MDB feeds diverse dialogue datasets to the model at once to tackle the multi-domain problem by learning the multiple domain knowledge. We introduce a novel method PGT, which employs the Siamese network to fine-tune the model with a clustering method directly.Our model can learn how to cluster dialogue utterances by using PGT. Experimental results demonstrate that our multi-view model with MDB and PGT significantly improves the Open Intent Induction performance compared to baseline systems.
翻訳日:2023-03-24 15:14:07 公開日:2023-03-23
# CP$^3$: ポイントベースネットワークのためのチャネルプルーニングプラグイン

CP$^3$: Channel Pruning Plug-in for Point-based Networks ( http://arxiv.org/abs/2303.13097v1 )

ライセンス: Link先を確認
Yaomin Huang, Ning Liu, Zhengping Che, Zhiyuan Xu, Chaomin Shen, Yaxin Peng, Guixu Zhang, Xinmei Liu, Feifei Feng, Jian Tang(参考訳) チャネルプルーニングは、元のネットワークの計算コストとメモリフットプリントの両方を効果的に削減し、同等の精度性能を維持する。 2次元画像ベース畳み込みネットワーク(CNN)のチャネルプルーニングでは大きな成功を収めているが、既存の研究はチャネルプルーニング手法を3次元ポイントベースニューラルネットワーク(PNN)に拡張することは滅多にない。 PNNに2D CNNチャネルプルーニングを直接実装することは、2D画像と3Dポイントクラウドの異なる表現とネットワークアーキテクチャの相違により、PNNの性能を損なう。 本稿では,ポイントベースネットワークのためのチャネルプルーニングプラグインcp$^3$を提案する。 CP$^3$は、点雲とPNNの特性を活用して、PNNの2Dチャネルプルーニングを可能にするために、精巧に設計されている。 具体的には、次元情報と個々のチャネル特徴の相関関係を反映する座標強調チャネル重要度尺度を示し、PNNのサンプリングプロセスで捨てられたポイントをリサイクルし、チャネルプルーニングの堅牢性を高めるために、潜在的に排他的な情報を再考する。 様々なPNNアーキテクチャの実験では、CP$^3$は、異なるポイントクラウドタスクにおける最先端の2D CNNプルーニングアプローチを常に改善している。 例えば、ScanObjectNN上で圧縮したPointNeXt-Sは、プルーニング率57.8%で88.52%の精度を達成し、ベースラインプルーニング法を1.94%の精度で上回っている。

Channel pruning can effectively reduce both computational cost and memory footprint of the original network while keeping a comparable accuracy performance. Though great success has been achieved in channel pruning for 2D image-based convolutional networks (CNNs), existing works seldom extend the channel pruning methods to 3D point-based neural networks (PNNs). Directly implementing the 2D CNN channel pruning methods to PNNs undermine the performance of PNNs because of the different representations of 2D images and 3D point clouds as well as the network architecture disparity. In this paper, we proposed CP$^3$, which is a Channel Pruning Plug-in for Point-based network. CP$^3$ is elaborately designed to leverage the characteristics of point clouds and PNNs in order to enable 2D channel pruning methods for PNNs. Specifically, it presents a coordinate-enhanced channel importance metric to reflect the correlation between dimensional information and individual channel features, and it recycles the discarded points in PNN's sampling process and reconsiders their potentially-exclusive information to enhance the robustness of channel pruning. Experiments on various PNN architectures show that CP$^3$ constantly improves state-of-the-art 2D CNN pruning approaches on different point cloud tasks. For instance, our compressed PointNeXt-S on ScanObjectNN achieves an accuracy of 88.52% with a pruning rate of 57.8%, outperforming the baseline pruning methods with an accuracy gain of 1.94%.
翻訳日:2023-03-24 15:13:48 公開日:2023-03-23
# 野生における視覚情報抽出のための意味ポイントとしての実体のモデリング

Modeling Entities as Semantic Points for Visual Information Extraction in the Wild ( http://arxiv.org/abs/2303.13095v1 )

ライセンス: Link先を確認
Zhibo Yang, Rujiao Long, Pengfei Wang, Sibo Song, Humen Zhong, Wenqing Cheng, Xiang Bai, Cong Yao(参考訳) 近年、視覚情報抽出(vie)は、現実世界の幅広いアプリケーションによって、学界と産業の両方でますます重要になっている。 これまで、この問題に取り組むために多くの研究が提案されてきた。 しかし、これらの手法を評価するために使われるベンチマークは比較的単純であり、現実の複雑さを持つシナリオはこれらのベンチマークで完全には表現されない。 この研究の最初の貢献として、我々はVIEの新しいデータセットをキュレートしてリリースし、文書画像は実際のアプリケーションから取り出され、ぼやけや部分閉塞、印刷のシフトといった困難がとても多いという点で、より困難である。 これらの要因は情報抽出の失敗につながる可能性がある。 そこで,第2のコントリビューションとして,このような厳しい条件下で文書画像からキー情報を正確かつ堅牢に抽出する手法を提案する。 具体的には、通常、視覚情報をマルチモーダルアーキテクチャに組み込むか、テキストスポッティングとエンドツーエンドの方法で情報抽出を訓練する以前の方法とは対照的に、エンティティの中心点は、エンティティのラベリングとリンクに大いに役立つ、異なるエンティティの属性と関係を記述したセマンティック情報によって、セマンティックポイントとして明示的にモデル化します。 この分野での標準ベンチマークと提案したデータセットの広範な実験により,提案手法は従来の最先端モデルと比較して,エンティティラベリングおよびリンクの性能を大幅に向上できることを示した。 Datasetはhttps://www.modelscope.cn/datasets/damo/SIBR/summaryで入手できる。

Recently, Visual Information Extraction (VIE) has been becoming increasingly important in both the academia and industry, due to the wide range of real-world applications. Previously, numerous works have been proposed to tackle this problem. However, the benchmarks used to assess these methods are relatively plain, i.e., scenarios with real-world complexity are not fully represented in these benchmarks. As the first contribution of this work, we curate and release a new dataset for VIE, in which the document images are much more challenging in that they are taken from real applications, and difficulties such as blur, partial occlusion, and printing shift are quite common. All these factors may lead to failures in information extraction. Therefore, as the second contribution, we explore an alternative approach to precisely and robustly extract key information from document images under such tough conditions. Specifically, in contrast to previous methods, which usually either incorporate visual information into a multi-modal architecture or train text spotting and information extraction in an end-to-end fashion, we explicitly model entities as semantic points, i.e., center points of entities are enriched with semantic information describing the attributes and relationships of different entities, which could largely benefit entity labeling and linking. Extensive experiments on standard benchmarks in this field as well as the proposed dataset demonstrate that the proposed method can achieve significantly enhanced performance on entity labeling and linking, compared with previous state-of-the-art models. Dataset is available at https://www.modelscope.cn/datasets/damo/SIBR/summary.
翻訳日:2023-03-24 15:13:18 公開日:2023-03-23
# 確率的勾配降下の確率的安定性

The Probabilistic Stability of Stochastic Gradient Descent ( http://arxiv.org/abs/2303.13093v1 )

ライセンス: Link先を確認
Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda(参考訳) ディープラーニング理論における根本的なオープン問題は、確率勾配降下(SGD)の安定性を定点近くで定義し、理解する方法である。 従来の文献は、統計モーメント、例えば、安定性を定量化するためのパラメータの分散の収束に依存している。 SGD の安定性の定義を再検討し、SGD の \textit{probabilistic stability} を定義するために、確率条件の \textit{convergence を用いる。 提案された安定性は、ディープラーニング理論の根本的な問題に直結する。SGDは、膨大な数の解からニューラルネットワークの有意義な解をどうやって選択するか。 これを達成するために,確率安定性のレンズの下でのみ,SGDは,安定性の完全損失の位相,誤学習,低級サドルへの収束,正しい学習といった,豊かな,実践的な学習段階を示すことを示す。 ニューラルネットワークに適用すると、これらの位相図は、下位勾配がノイズである場合、sgdが低ランクサドルを好むことを暗示し、学習性能を向上させる。 この結果は、sgdがシャープなデータよりもフラットなミニマを好むという従来の考え方とは対照的であり、実験データを説明するには不十分である。 また,sgdの確率安定性は,実際に容易に測定できるsgdダイナミクスのリアプノフ指数によって定量化できることを示した。 我々の研究は、ディープラーニングの学習結果に学習アルゴリズムがどのように影響するかという根本的な問題に対処するための新しい場所を開く可能性がある。

A fundamental open problem in deep learning theory is how to define and understand the stability of stochastic gradient descent (SGD) close to a fixed point. Conventional literature relies on the convergence of statistical moments, esp., the variance, of the parameters to quantify the stability. We revisit the definition of stability for SGD and use the \textit{convergence in probability} condition to define the \textit{probabilistic stability} of SGD. The proposed stability directly answers a fundamental question in deep learning theory: how SGD selects a meaningful solution for a neural network from an enormous number of solutions that may overfit badly. To achieve this, we show that only under the lens of probabilistic stability does SGD exhibit rich and practically relevant phases of learning, such as the phases of the complete loss of stability, incorrect learning, convergence to low-rank saddles, and correct learning. When applied to a neural network, these phase diagrams imply that SGD prefers low-rank saddles when the underlying gradient is noisy, thereby improving the learning performance. This result is in sharp contrast to the conventional wisdom that SGD prefers flatter minima to sharp ones, which we find insufficient to explain the experimental data. We also prove that the probabilistic stability of SGD can be quantified by the Lyapunov exponents of the SGD dynamics, which can easily be measured in practice. Our work potentially opens a new venue for addressing the fundamental question of how the learning algorithm affects the learning outcome in deep learning.
翻訳日:2023-03-24 15:12:51 公開日:2023-03-23
# 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成

Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations ( http://arxiv.org/abs/2303.13129v1 )

ライセンス: Link先を確認
Quanzhou Li, Jingbo Wang, Chen Change Loy, Bo Dai(参考訳) デジタルヒューマンモーション合成は、映画、AR/VR、ビデオゲームに応用される活発な研究分野である。 自然で現実的な人間の動きを生成する方法が提案されたが、ほとんどは人間のモデリングに焦点を合わせ、物体の動きを無視した。 シミュレーションにおけるタスク指向の人間-物体相互作用運動の生成は困難である。 物体の使用の異なる意図のために、人間は様々な動きを行うため、人間はまず物体に接近し、そこに留まる代わりに人間と連続して動くように要求する。 また、下流アプリケーションに展開するためには、合成された動きは、様々な目的のために予測された動きをパーソナライズするオプションを提供するために、長めの柔軟性が望まれる。 この目的のために,タスクタイプ,オブジェクト,および開始状態のみを与えられた特定のタスクを実行するために,完全なヒューマン・オブジェクトインタラクション動作を生成する暗黙の神経表現によるタスク指向のヒューマン・オブジェクトインタラクション生成を提案する。 TOHOは3ステップで人物体の動きを生成する。 1) タスクの種類と対象情報を与えられたタスクを実行する際のキーフレームのポーズを最初に見積もる。 2) キーフレームを満たし,連続的な動作を生成する。 3) 最後に,コンパクトな閉形式物体運動推定を適用し,物体運動を生成する。 本手法では,時間座標のみによってパラメータ化される連続運動を生成し,任意のフレームへのシーケンスのアップサンプリングやダウンサンプリングを可能にし,時間座標ベクトルの設計による動き速度の調整を行う。 本手法の有効性を質的および定量的に実証する。 この研究は、一般の人間とシーンの相互作用シミュレーションに向けてさらに一歩前進する。

Digital human motion synthesis is a vibrant research field with applications in movies, AR/VR, and video games. Whereas methods were proposed to generate natural and realistic human motions, most only focus on modeling humans and largely ignore object movements. Generating task-oriented human-object interaction motions in simulation is challenging. For different intents of using the objects, humans conduct various motions, which requires the human first to approach the objects and then make them move consistently with the human instead of staying still. Also, to deploy in downstream applications, the synthesized motions are desired to be flexible in length, providing options to personalize the predicted motions for various purposes. To this end, we propose TOHO: Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations, which generates full human-object interaction motions to conduct specific tasks, given only the task type, the object, and a starting human status. TOHO generates human-object motions in three steps: 1) it first estimates the keyframe poses of conducting a task given the task type and object information; 2) then, it infills the keyframes and generates continuous motions; 3) finally, it applies a compact closed-form object motion estimation to generate the object motion. Our method generates continuous motions that are parameterized only by the temporal coordinate, which allows for upsampling or downsampling of the sequence to arbitrary frames and adjusting the motion speeds by designing the temporal coordinate vector. We demonstrate the effectiveness of our method, both qualitatively and quantitatively. This work takes a step further toward general human-scene interaction simulation.
翻訳日:2023-03-24 15:05:32 公開日:2023-03-23
# 駆動キャビティによる非局所多ビット量子ゲート

Non-Local Multi-Qubit Quantum Gates via a Driven Cavity ( http://arxiv.org/abs/2303.13127v1 )

ライセンス: Link先を確認
Sven Jandura, Vineesha Srivastava, Gavin Brennen, Guido Pupillo(参考訳) 共振器モードに結合したキュービット上の決定論的非局所的マルチキュービット量子ゲートを実装するための2つのプロトコルを提案する。 プロトコルはキャビティモードの古典的なドライブのみに依存し、キュービットの外部ドライブは不要である。 第1のプロトコルでは、空洞の状態は位相空間の閉軌跡に従い、量子ビットの状態に応じて幾何学的位相を蓄積する。 第2のプロトコルは、結合されたキュービットキャビティシステムの断熱進化を利用して動的位相を蓄積する。 このプロトコルの繰り返しの応用は、位相回転ゲートや多制御Zゲートといった任意の位相を持つ位相ゲートの実現を可能にする。 どちらのプロトコルに対しても、誤り率の解析解を提供し、$\sim N/\sqrt{C}$、$C$の協調性と$N$の量子ビット数でスケールする。 我々のプロトコルは様々なシステムに適用でき、音素モードのような異なるボソニックモードでキャビティを置き換えることで一般化することができる。 本報告では, 光学共振器とマイクロ波共振器に結合した原子および分子量子ビットのゲート密度と時間の推定を行い, 誤差補正への応用について述べる。

We present two protocols for implementing deterministic non-local multi-qubit quantum gates on qubits coupled to a common cavity mode. The protocols rely only on a classical drive of the cavity modes, while no external drive of the qubits is required. In the first protocol, the state of the cavity follows a closed trajectory in phase space and accumulates a geometric phase depending on the state of the qubits. The second protocol uses an adiabatic evolution of the combined qubit-cavity system to accumulate a dynamical phase. Repeated applications of this protocol allow for the realization of phase gates with arbitrary phases, e.g. phase-rotation gates and multi-controlled-Z gates. For both protocols, we provide analytic solutions for the error rates, which scale as $\sim N/\sqrt{C}$, with $C$ the cooperativity and $N$ the qubit number. Our protocols are applicable to a variety of systems and can be generalized by replacing the cavity by a different bosonic mode, such as a phononic mode. We provide estimates of gate fidelities and durations for atomic and molecular qubits coupled to an optical and a microwave cavity, respectively, and describe some applications for error correction.
翻訳日:2023-03-24 15:05:08 公開日:2023-03-23
# MagicFusion:拡散モデルによるテキスト・画像生成性能の向上

MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models ( http://arxiv.org/abs/2303.13126v1 )

ライセンス: Link先を確認
Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wenjing Yang(参考訳) オープンソースのAIコミュニティの出現は、さまざまなデータセットでトレーニングされた強力なテキスト誘導拡散モデルのコーンコピアを生み出した。 このようなモデルを組み合わすための調査は、ほとんど行われていない。 本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) を提案する。 具体的には,分類子なし誘導の応答が生成画像の正当性に強く関係していることが実験的に明らかになった。 そこで本研究では,2つの拡散モデルの予測ノイズを相応にブレンドすることで,それぞれの専門分野の異なるモデルを信頼することを提案する。 SNBはトレーニング不要であり、DDIMサンプリングプロセス内で完成することができる。 さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整できる。 広範囲な実験により、SNBの様々な応用における印象的な効果が示された。 プロジェクトページはhttps://magicfusion.github.io/で閲覧できる。

The advent of open-source AI communities has produced a cornucopia of powerful text-guided diffusion models that are trained on various datasets. While few explorations have been conducted on ensembling such models to combine their strengths. In this work, we propose a simple yet effective method called Saliency-aware Noise Blending (SNB) that can empower the fused text-guided diffusion models to achieve more controllable generation. Specifically, we experimentally find that the responses of classifier-free guidance are highly related to the saliency of generated images. Thus we propose to trust different models in their areas of expertise by blending the predicted noises of two diffusion models in a saliency-aware manner. SNB is training-free and can be completed within a DDIM sampling process. Additionally, it can automatically align the semantics of two noise spaces without requiring additional annotations such as masks. Extensive experiments show the impressive effectiveness of SNB in various applications. Project page is available at https://magicfusion.github.io/.
翻訳日:2023-03-24 15:04:45 公開日:2023-03-23
# ラプラシアンセグメンテーションネットワーク : 空間的アレエータ的不確かさからの認識的不確実性の改善

Laplacian Segmentation Networks: Improved Epistemic Uncertainty from Spatial Aleatoric Uncertainty ( http://arxiv.org/abs/2303.13123v1 )

ライセンス: Link先を確認
Kilian Zepf, Selma Wanna, Marco Miani, Juston Moore, Jes Frellsen, S{\o}ren Hauberg, Aasa Feragen, Frederik Warburg(参考訳) オフ・オブ・ディストリビューション(OOD)の医療画像は、サイトやスキャナの違いや画像の破損などによって頻繁に遭遇する。 OOD画像は誤った画像セグメンテーションのリスクがあり、下流の診断や治療に悪影響を及ぼす可能性がある。 このような不正確なセグメンテーションに対するロバスト性を確保するために,画像セグメンテーションにおける認識論的(モデル)とアレテータ的(データ)の不確かさを共同でモデル化するラプラシアンセグメンテーションネットワーク(lsn)を提案する。 空間的相関のあるロジット分布でデータの不確かさを捉える。 モデル不確実性について、高次元出力を持つスキップ接続を持つ大型ニューラルネットワークにスケールする重み後部の最初のラプラス近似を提案する。 実験により,空間的画素相関のモデル化により,ラプラシアンセグメンテーションネットワークは画像内に存在する分布外物体に対して高い認識の不確かさを割り当てることに成功した。

Out of distribution (OOD) medical images are frequently encountered, e.g. because of site- or scanner differences, or image corruption. OOD images come with a risk of incorrect image segmentation, potentially negatively affecting downstream diagnoses or treatment. To ensure robustness to such incorrect segmentations, we propose Laplacian Segmentation Networks (LSN) that jointly model epistemic (model) and aleatoric (data) uncertainty in image segmentation. We capture data uncertainty with a spatially correlated logit distribution. For model uncertainty, we propose the first Laplace approximation of the weight posterior that scales to large neural networks with skip connections that have high-dimensional outputs. Empirically, we demonstrate that modelling spatial pixel correlation allows the Laplacian Segmentation Network to successfully assign high epistemic uncertainty to out-of-distribution objects appearing within images.
翻訳日:2023-03-24 15:04:30 公開日:2023-03-23
# 複数インスタンス学習によるスライド画像分類のための視覚的プロンプトの検討

Exploring Visual Prompts for Whole Slide Image Classification with Multiple Instance Learning ( http://arxiv.org/abs/2303.13122v1 )

ライセンス: Link先を確認
Yi Lin, Zhongchen Zhao, Zhengjie ZHU, Lisheng Wang, Kwang-Ting Cheng, Hao Chen(参考訳) スライド画像全体(WSI)を分類する手段として,Multiple Case Learning (MIL)が人気である。 しかし、既存のアプローチは通常、imagenetのような大規模な自然画像データセットから事前訓練されたモデルを使用してインスタンス機能を生成する。 本稿では,事前学習したモデルから病理画像へのドメイン固有知識変換を学習するための,新しい,シンプルかつ効果的な手法を提案する。 提案手法では,事前学習したデータセットと対象の病理組織学的データセットの違いを識別する上で,事前学習したモデルを支援するために,プロンプトコンポーネントを用いることで,MILモデルの性能が向上する。 本手法は,Camelyon16 と TCGA-NSCLC の2つの公開データセットで検証する。 実験結果から,MILモデルと背骨に対する本手法の大幅な性能向上が示された。 本論文の公開にあたっては,提案手法のソースコードをリリースする。

Multiple instance learning (MIL) has emerged as a popular method for classifying histopathology whole slide images (WSIs). However, existing approaches typically rely on pre-trained models from large natural image datasets, such as ImageNet, to generate instance features, which can be sub-optimal due to the significant differences between natural images and histopathology images that lead to a domain shift. In this paper, we present a novel, simple yet effective method for learning domain-specific knowledge transformation from pre-trained models to histopathology images. Our approach entails using a prompt component to assist the pre-trained model in discerning differences between the pre-trained dataset and the target histopathology dataset, resulting in improved performance of MIL models. We validate our method on two publicly available datasets, Camelyon16 and TCGA-NSCLC. Extensive experimental results demonstrate the significant performance improvement of our method for different MIL models and backbones. Upon publication of this paper, we will release the source code for our method.
翻訳日:2023-03-24 15:04:10 公開日:2023-03-23
# DetOFA: 事前学習したスーパーネットとパスフィルタを用いたオブジェクト検出のための一括学習

DetOFA: Efficient Training of Once-for-All Networks for Object Detection by Using Pre-trained Supernet and Path Filter ( http://arxiv.org/abs/2303.13121v1 )

ライセンス: Link先を確認
Yuiko Sakuma, Masato Ishii, Takuya Narihira(参考訳) オブジェクト検出タスクにおいて,比較的少数のトレーニングデータを用いて,大規模なスーパーネットをトレーニングするという課題に対処する。 具体的には、トランスファーラーニングと探索空間プルーニングを用いた効率的なスーパーネットベースニューラルアーキテクチャサーチ(NAS)手法を提案する。 まず、スーパーネットは、大きなデータセットが利用可能な分類タスクで事前トレーニングされる。 第二に、スーパーネットによって定義された探索空間は、性能が悪いと予測される候補モデルを取り除いてプラニングされる。 幅広い資源制約を乗り越える候補を効果的に除去するため,パスフィルタと呼ばれる性能予測器を特に設計し,類似した資源制約を満足するモデルの相対性能を正確に予測する。 したがって、スーパーネットトレーニングは、最も優れた候補に焦点を当てている。 我々の経路フィルタは資源予算の異なる経路の予測を扱う。 提案手法は1回に1回比較すると,最適ネットワークアーキテクチャの計算コストを30%,63%削減し,Pareto前部(Pascal VOCとCOCOの平均精度0.85点,0.45点)の精度向上を実現した。

We address the challenge of training a large supernet for the object detection task, using a relatively small amount of training data. Specifically, we propose an efficient supernet-based neural architecture search (NAS) method that uses transfer learning and search space pruning. First, the supernet is pre-trained on a classification task, for which large datasets are available. Second, the search space defined by the supernet is pruned by removing candidate models that are predicted to perform poorly. To effectively remove the candidates over a wide range of resource constraints, we particularly design a performance predictor, called path filter, which can accurately predict the relative performance of the models that satisfy similar resource constraints. Hence, supernet training is more focused on the best-performing candidates. Our path filter handles prediction for paths with different resource budgets. Compared to once-for-all, our proposed method reduces the computational cost of the optimal network architecture by 30% and 63%, while yielding better accuracy-floating point operations Pareto front (0.85 and 0.45 points of improvement on average precision for Pascal VOC and COCO, respectively).
翻訳日:2023-03-24 15:03:55 公開日:2023-03-23
# RLOR:運用研究のための深層強化学習の柔軟なフレームワーク

RLOR: A Flexible Framework of Deep Reinforcement Learning for Operation Research ( http://arxiv.org/abs/2303.13117v1 )

ライセンス: Link先を確認
Ching Pui Wan, Tung Li, Jason Min Wang(参考訳) 強化学習は運用研究に応用され、大規模な組合せ最適化問題を解決することに有望であることが示されている。 しかし、既存の研究は特定の問題に対するニューラルネットワークアーキテクチャの開発に焦点を当てている。 これらの研究には、強化学習の最近の進歩と、運用研究問題に対するモデルアーキテクチャのカスタマイズの柔軟性が欠如している。 本研究では,車両経路問題に対するエンド・ツー・エンドの自己回帰モデルを分析し,モデルアーキテクチャの再実装による強化学習の最近の進歩の恩恵を受けることを示す。 特に、注意モデルを再実装し、CleanRLでPPO(Proximal Policy Optimization)でトレーニングし、トレーニング時間の少なくとも8倍のスピードアップを示しました。 本稿では,運用研究のための深層強化学習のための柔軟なフレームワークであるRLORを紹介する。 我々は,運用研究問題に対する深層強化学習モデルを開発する上で,フレキシブルなフレームワークが重要であると考えている。 私たちの作業のコードはhttps://github.com/cpwan/RLOR.comで公開されています。

Reinforcement learning has been applied in operation research and has shown promise in solving large combinatorial optimization problems. However, existing works focus on developing neural network architectures for certain problems. These works lack the flexibility to incorporate recent advances in reinforcement learning, as well as the flexibility of customizing model architectures for operation research problems. In this work, we analyze the end-to-end autoregressive models for vehicle routing problems and show that these models can benefit from the recent advances in reinforcement learning with a careful re-implementation of the model architecture. In particular, we re-implemented the Attention Model and trained it with Proximal Policy Optimization (PPO) in CleanRL, showing at least 8 times speed up in training time. We hereby introduce RLOR, a flexible framework for Deep Reinforcement Learning for Operation Research. We believe that a flexible framework is key to developing deep reinforcement learning models for operation research problems. The code of our work is publicly available at https://github.com/cpwan/RLOR.
翻訳日:2023-03-24 15:03:33 公開日:2023-03-23
# クラス増分学習のための適応正規化

Adaptive Regularization for Class-Incremental Learning ( http://arxiv.org/abs/2303.13113v1 )

ライセンス: Link先を確認
Elif Ceren Gok, Murat Onur Yildirim, Mert Kilickaya, Joaquin Vanschoren(参考訳) クラスインクリメンタルラーニングは、以前に観測されたクラスの精度を維持しながら、新しいカテゴリで深い分類器を更新する。 ニューラルネットワークの重み付けを正則化することは、新しいクラスを学習しながら学習したクラスを忘れることを防ぐ一般的な方法である。 しかし、既存の正則化器は学習セッションを通して一定等級を使い、漸進的な学習で遭遇するタスクの難しさのレベルを反映していない可能性がある。 本研究は,課題の複雑さに応じて動的に正則化強度を調節する授業インクリメンタルラーニングにおける適応正則化の必要性について検討する。 ベイズ最適化に基づく学習タスクごとに最適な正則化量を自動的に決定する手法を提案する。 2つの正規化器による2つのデータセットの実験は、正確で忘れられない視覚的漸進学習を実現するための適応正規化の重要性を示している。

Class-Incremental Learning updates a deep classifier with new categories while maintaining the previously observed class accuracy. Regularizing the neural network weights is a common method to prevent forgetting previously learned classes while learning novel ones. However, existing regularizers use a constant magnitude throughout the learning sessions, which may not reflect the varying levels of difficulty of the tasks encountered during incremental learning. This study investigates the necessity of adaptive regularization in Class-Incremental Learning, which dynamically adjusts the regularization strength according to the complexity of the task at hand. We propose a Bayesian Optimization-based approach to automatically determine the optimal regularization magnitude for each learning task. Our experiments on two datasets via two regularizers demonstrate the importance of adaptive regularization for achieving accurate and less forgetful visual incremental learning.
翻訳日:2023-03-24 15:03:19 公開日:2023-03-23
# リスト復号化を伴う大規模言語モデルの相転移に関する簡単な説明

A Simple Explanation for the Phase Transition in Large Language Models with List Decoding ( http://arxiv.org/abs/2303.13112v1 )

ライセンス: Link先を確認
Cheng-Shang Chang(参考訳) 近年, 大規模言語モデル (LLM) は, 小モデルに存在しない創発的能力を示すことが示されている。 システム性能は、一定の臨界しきい値を超えると大幅に向上する。 本稿では,このような相転移現象の簡単な説明を提供する。 そこで我々は,LLMをシーケンス対シーケンスランダム関数としてモデル化する。 各ステップでインスタント生成を使用する代わりに、各ステップで候補シーケンスのリストを保持し、最後に出力シーケンスの生成を否定するリストデコーダを使用します。 本研究では, LLMがしきい値以下である場合に, 予測される誤候補列数が有界であり, LLMがしきい値以上である場合には指数関数的に増大することを示す。 このような閾値は、伝染病の基本的な複製数と関連している。

Various recent experimental results show that large language models (LLM) exhibit emergent abilities that are not present in small models. System performance is greatly improved after passing a certain critical threshold of scale. In this letter, we provide a simple explanation for such a phase transition phenomenon. For this, we model an LLM as a sequence-to-sequence random function. Instead of using instant generation at each step, we use a list decoder that keeps a list of candidate sequences at each step and defers the generation of the output sequence at the end. We show that there is a critical threshold such that the expected number of erroneous candidate sequences remains bounded when an LLM is below the threshold, and it grows exponentially when an LLM is above the threshold. Such a threshold is related to the basic reproduction number in a contagious disease.
翻訳日:2023-03-24 15:03:06 公開日:2023-03-23
# 容積型医用画像分割のための可変ハイブリッドネットワーク

A Permutable Hybrid Network for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2303.13111v1 )

ライセンス: Link先を確認
Yi Lin, Xiao Fang, Dong Zhang, Kwang-Ting Cheng, Hao Chen(参考訳) 視覚トランスフォーマー(vit)の出現は、3dボリュームベンチマーク、特に3d医療画像セグメンテーションの大幅な進歩をもたらした。 同時に、Multi-Layer Perceptron(MLP)ネットワークは、重い自己保持モジュールを除外したにもかかわらず、ViTに匹敵する結果により、研究者の間で人気を取り戻している。 本稿では,畳み込みニューラルネットワーク (CNN) と MLP の利点を利用する,PHNet という医用画像分割のための可変ハイブリッドネットワークを提案する。 PHNetは2次元CNNと3次元CNNの両方を用いて3次元ボリュームデータの固有等方性問題に対処する。 また, 位置情報を保持しながら長距離依存を得ることにより, 元のmlpを増大させるmlppという, 効率的な多層透過型パーセプトロンモジュールを提案する。 大規模な実験結果によると、PHNetは2つのパブリックデータセット、すなわちCOVID-19-20とSynapseで最先端の手法より優れている。 さらに, PHNet が CNN および MLP の強度に有効であることを示す。 コードは受理後、一般に公開されます。

The advent of Vision Transformer (ViT) has brought substantial advancements in 3D volumetric benchmarks, particularly in 3D medical image segmentation. Concurrently, Multi-Layer Perceptron (MLP) networks have regained popularity among researchers due to their comparable results to ViT, albeit with the exclusion of the heavy self-attention module. This paper introduces a permutable hybrid network for volumetric medical image segmentation, named PHNet, which exploits the advantages of convolution neural network (CNN) and MLP. PHNet addresses the intrinsic isotropy problem of 3D volumetric data by utilizing both 2D and 3D CNN to extract local information. Besides, we propose an efficient Multi-Layer Permute Perceptron module, named MLPP, which enhances the original MLP by obtaining long-range dependence while retaining positional information. Extensive experimental results validate that PHNet outperforms the state-of-the-art methods on two public datasets, namely, COVID-19-20 and Synapse. Moreover, the ablation study demonstrates the effectiveness of PHNet in harnessing the strengths of both CNN and MLP. The code will be accessible to the public upon acceptance.
翻訳日:2023-03-24 15:02:53 公開日:2023-03-23
# 離散ウェーブレットとチェビシェフ多項式を用いた新しいハイブリッド顔認識アルゴリズムによるカラー画像解析の改善

Improvement of Color Image Analysis Using a New Hybrid Face Recognition Algorithm based on Discrete Wavelets and Chebyshev Polynomials ( http://arxiv.org/abs/2303.13158v1 )

ライセンス: Link先を確認
Hassan Mohamed Muhi-Aldeen, Maha Ammar Mustafa, Asma A. Abdulrahman, Jabbar Abed Eleiwy, Fouad S. Tahir and Yurii Khlaponin(参考訳) この研究は、第2および第3種類のチェビシェフ多項式から構築または派生した離散ウェーブレットを使用し、離散第2チェビシェフウェーブレット変換 (dscwt) をフィルタし、2つの効果的なフィルタを導出する。 フィルタ離散第3のチェビシェフウェーブレット変換(fdtcwt)は、カラー画像の解析や、画像に付随するノイズや不純物を除去するプロセスや、撮像される画像を構成する大量のデータのために使用される。 これらのデータは巨大であり、送信中はお互いを扱うのが難しくなる。 しかし、この問題に対処するため、画像圧縮技術が用いられ、得られた読影情報によって画像が失われることはなく、良好な結果が得られた。 Mean Square Error (MSE), Peak Signal Noise Ratio (PSNR), Bit Per Pixel (BPP), and Compression Ratio (CR) Coronavirus is the initial treatment, while the processing stage is done with network training for Convolutional Neural Networks (CNN) with Discrete Second Chebeshev Wavelets Convolutional Neural Network (DSCWCNN) and Discrete Third Chebeshev Wavelets Convolutional Neural Network (DTCWCNN) to create an efficient algorithm for face recognition, and the best results were achieved in accuracy and in the least amount of time. 制作・実装されたカラー画像のサンプルを2枚使用した。 提案した理論は, 高速かつ良好な結果を得たものであり, 以下の表に示す結果が得られた。

This work is unique in the use of discrete wavelets that were built from or derived from Chebyshev polynomials of the second and third kind, filter the Discrete Second Chebyshev Wavelets Transform (DSCWT), and derive two effective filters. The Filter Discrete Third Chebyshev Wavelets Transform (FDTCWT) is used in the process of analyzing color images and removing noise and impurities that accompany the image, as well as because of the large amount of data that makes up the image as it is taken. These data are massive, making it difficult to deal with each other during transmission. However to address this issue, the image compression technique is used, with the image not losing information due to the readings that were obtained, and the results were satisfactory. Mean Square Error (MSE), Peak Signal Noise Ratio (PSNR), Bit Per Pixel (BPP), and Compression Ratio (CR) Coronavirus is the initial treatment, while the processing stage is done with network training for Convolutional Neural Networks (CNN) with Discrete Second Chebeshev Wavelets Convolutional Neural Network (DSCWCNN) and Discrete Third Chebeshev Wavelets Convolutional Neural Network (DTCWCNN) to create an efficient algorithm for face recognition, and the best results were achieved in accuracy and in the least amount of time. Two samples of color images that were made or implemented were used. The proposed theory was obtained with fast and good results; the results are evident shown in the tables below.
翻訳日:2023-03-24 14:57:28 公開日:2023-03-23
# 連続学習のための断熱的リプレイ

Adiabatic replay for continual learning ( http://arxiv.org/abs/2303.13157v1 )

ライセンス: Link先を確認
Alexander Krawczyk and Alexander Gepperth(参考訳) 連続学習(continual learning:cl)に対する従来のリプレイベースのアプローチでは、新しいデータを持つ各学習フェーズに対して、過去のすべての学習知識を表すサンプルのリプレイが必要である。 CL問題において学習知識の量は時間とともに増加するので、生成的再生は、既に知られていることを再学習するだけに、より多くの時間を費やします。 そこで本研究では,新しい学習段階が断熱的であるという(理不尽な)仮定,すなわち既存の知識への小さな追加のみを表すことに由来する,断熱的リプレイ(ar)というリプレイに基づくcl戦略を提案する。 それぞれの新しい学習フェーズは、既存の知識の本体から、新しいデータと似たサンプルだけを選択的に再生するサンプリングプロセスをトリガーする。 完全なリプレイは、データ統計が変化した場合にのみ内部表現を選択的に更新できるGMMによるデータ配信をARが表現するので不要である。 付加物が断熱的である限り、再生されるサンプルの量は、事前に獲得した知識の量に全く依存する必要はない。 VAEを用いた最先端の深層再生よりもARの方が優れていることを実験的に検証した。

Conventional replay-based approaches to continual learning (CL) require, for each learning phase with new data, the replay of samples representing all of the previously learned knowledge in order to avoid catastrophic forgetting. Since the amount of learned knowledge grows over time in CL problems, generative replay spends an increasing amount of time just re-learning what is already known. In this proof-of-concept study, we propose a replay-based CL strategy that we term adiabatic replay (AR), which derives its efficiency from the (reasonable) assumption that each new learning phase is adiabatic, i.e., represents only a small addition to existing knowledge. Each new learning phase triggers a sampling process that selectively replays, from the body of existing knowledge, just such samples that are similar to the new data, in contrast to replaying all of it. Complete replay is not required since AR represents the data distribution by GMMs, which are capable of selectively updating their internal representation only where data statistics have changed. As long as additions are adiabatic, the amount of to-be-replayed samples need not to depend on the amount of previously acquired knowledge at all. We verify experimentally that AR is superior to state-of-the-art deep generative replay using VAEs.
翻訳日:2023-03-24 14:57:05 公開日:2023-03-23
# 1次元格子ゲージ理論における量子多体スカーの中間不安定性

Meson Instability of Quantum Many-body Scars in a 1D Lattice Gauge Theory ( http://arxiv.org/abs/2303.13156v1 )

ライセンス: Link先を確認
Zi-Yong Ge, Yu-Ran Zhang, and Franco Nori(参考訳) スピンレスフェルミオンに結合した1次元$\mathbb{z}_2$格子ゲージ理論の量子多体傷における中間子励起(粒子-粒子境界状態)の安定性について検討する。 物理的ヒルベルト空間の文字列表現を導入することにより、スカー状態 $ |{\Psi_{n,l}}\rangle$ を、同じ文字列数 $n$ と総長さ $l$ を持つすべての弦基底の重ね合わせとして表現する。 格子フェルミオンの弦相関関数は、小さなl$スカー状態である ||{\psi_{n,l}}\rangle$ に対して距離が増加するにつれて指数関数的減衰を保ち、安定中間子の存在を示す。 しかし、大きな l$ の場合、相関関数はパワーロー減衰を示し、中間子不安定性の出現を示唆する。 さらに, このメソニック-非メメソニック交叉は, 量子シミュレータで実験的に実現可能な2つの低絡み合い初期状態から, クエンチダイナミクスによって検出可能であることを示す。 我々の結果は、格子ゲージ理論における量子多体傷の物理学を拡張し、非メソニック状態がエルゴード性破壊を示すことも明らかにした。

We investigate the stability of meson excitations (particle-antiparticle bound states) in quantum many-body scars of a 1D $\mathbb{Z}_2$ lattice gauge theory coupled to spinless fermions. By introducing a string representation of the physical Hilbert space, we express a scar state $ |{\Psi_{n,l}}\rangle$ as a superposition of all string bases with an identical string number $n$ and a total length $l$. The string correlation function of lattice fermions hosts an exponential decay as the distance increases for the small-$l$ scar state $|{\Psi_{n,l}}\rangle$, indicating the existence of stable mesons. However, for large $l$, the correlation function exhibits a power-law decay, signaling the emergence of a meson instability. Furthermore, we show that this mesonic-nonmesonic crossover can be detected by the quench dynamics, starting from two low-entangled initial states, respectively, which are experimentally feasible in quantum simulators. Our results expand the physics of quantum many-body scars in lattice gauge theories, and reveal that the nonmesonic state can also manifest ergodicity breaking.
翻訳日:2023-03-24 14:56:42 公開日:2023-03-23
# 信頼できるAIワイルドフラワーモニタリングプラットフォームの品質要件の定義

Defining Quality Requirements for a Trustworthy AI Wildflower Monitoring Platform ( http://arxiv.org/abs/2303.13151v1 )

ライセンス: Link先を確認
Petra Heck and Gerard Schouten(参考訳) トレーニングされた機械学習モデルから運用可能なaiシステムへと進化するaiソリューションには、マシンラーニングモデルのパフォーマンスだけでなく、多くのことを考慮する必要があります。 プロダクション対応のAIシステムは、高品質な信頼性を持つ必要がある。 しかし、実際どのように判断するか? 従来のソフトウェアでは、ISO25000とその前任者が品質特性の定義と測定に長い間使われてきた。 近年,ISO25000に基づくAIシステムの品質モデルが導入されている。 本稿では,野生の花をモニタリングする深層学習プラットフォームである実生ケーススタディに,そのような品質モデルを適用した。 本稿では,野生の花の識別とカウントのためのディープラーニングプラットフォームの利用,拡張,漸進的に改善する3つの現実シナリオを提案する。 次に、データ、モデル、ソフトウェアの品質要件を定義するために、構造化辞書として品質モデルがどのように使用できるかを示す。 将来的な作業は、信頼できるAIシステムを実装するAIエンジニアリング実践者を支援するために、メトリクス、ツール、ベストプラクティスを使用して品質モデルを拡張することにあります。

For an AI solution to evolve from a trained machine learning model into a production-ready AI system, many more things need to be considered than just the performance of the machine learning model. A production-ready AI system needs to be trustworthy, i.e. of high quality. But how to determine this in practice? For traditional software, ISO25000 and its predecessors have since long time been used to define and measure quality characteristics. Recently, quality models for AI systems, based on ISO25000, have been introduced. This paper applies one such quality model to a real-life case study: a deep learning platform for monitoring wildflowers. The paper presents three realistic scenarios sketching what it means to respectively use, extend and incrementally improve the deep learning platform for wildflower identification and counting. Next, it is shown how the quality model can be used as a structured dictionary to define quality requirements for data, model and software. Future work remains to extend the quality model with metrics, tools and best practices to aid AI engineering practitioners in implementing trustworthy AI systems.
翻訳日:2023-03-24 14:56:19 公開日:2023-03-23
# ジェネリック表現を用いたキャリブレーションアウトオブディストリビューション検出

Calibrated Out-of-Distribution Detection with a Generic Representation ( http://arxiv.org/abs/2303.13148v1 )

ライセンス: Link先を確認
Tomas Vojir, Jan Sochman, Rahaf Aljundi, Jiri Matas(参考訳) 分散検出は、実際のビジョンモデルのデプロイにおいて一般的な問題であり、それを解決することは、安全クリティカルなアプリケーションにおいて必須のビルディングブロックである。 既存のOOD検出ソリューションは、IDデータにのみ訓練された分類モデルのOODロバスト性の向上に重点を置いている。 本研究では,異なるアプローチを採り,汎用的な事前学習表現の活用を提案する。 まず,そのような表現の上に構築された単純な分類器の挙動を調査し,ID訓練された表現と比較して顕著な性能向上を示す。 本稿では,優れた汎用表現を用いることで,優れた性能を実現する新しいOOD手法であるGROODを提案する。 特定の問題にグロッドを適用するには、簡単なトレーニングプロセスのみが必要である。 この方法は単純で、一般的で、効率良く、校正され、数個のハイパーパラメータしか持たない。 この手法は多くのOODベンチマークで最先端の性能を達成し、いくつかのベンチマークでほぼ完璧な性能を達成した。 ソースコードはhttps://github.com/vojirt/grood.comで入手できる。

Out-of-distribution detection is a common issue in deploying vision models in practice and solving it is an essential building block in safety critical applications. Existing OOD detection solutions focus on improving the OOD robustness of a classification model trained exclusively on in-distribution (ID) data. In this work, we take a different approach and propose to leverage generic pre-trained representations. We first investigate the behaviour of simple classifiers built on top of such representations and show striking performance gains compared to the ID trained representations. We propose a novel OOD method, called GROOD, that achieves excellent performance, predicated by the use of a good generic representation. Only a trivial training process is required for adapting GROOD to a particular problem. The method is simple, general, efficient, calibrated and with only a few hyper-parameters. The method achieves state-of-the-art performance on a number of OOD benchmarks, reaching near perfect performance on several of them. The source code is available at https://github.com/vojirt/GROOD.
翻訳日:2023-03-24 14:56:04 公開日:2023-03-23
# オンライン検索は偽ニュースを否定するよりも、学生に真実のニュースを検証させる傾向にある

Online search is more likely to lead students to validate true news than to refute false ones ( http://arxiv.org/abs/2303.13138v1 )

ライセンス: Link先を確認
Azza Bouleimen, Luca Luceri, Felipe Cardoso, Luca Botturi, Martin Hermida, Loredana Addimando, Chiara Beretta, Marzia Galloni and Silvia Giordano(参考訳) 高速インターネットとポータブルスマートデバイスの普及により、人々が情報にアクセスし消費する方法は大きく変化した。 しかし、これは情報過負荷、個人データの漏洩、誤情報拡散など多くの課題をもたらす。 この研究は、インターネット利用者が直面するさまざまなリスクに対して、若者がいかに誤った情報を認識し、扱うかを理解することに焦点を当てている。 261名の学生による実験キャンペーンにおいて,6つの異なるニュース項目を参加者に提示し,提示情報の有効性を評価するためにインターネットを閲覧した。 その結果, オンライン検索は偽ニュースを否定するよりも, 学生が真ニュースを検証しやすくなる可能性が示唆された。 学生は、より広いトピックに関するグローバルなアイデアよりも、特定の情報に関する意見を頻繁に変えることが分かりました。 また,本実験では,ほとんどの参加者が情報収集やニュースへのアクセスにオンラインソースに依存しており,書籍やインターネットブラウジングから情報を得る者は,ニュース項目の正確性を評価する上で最も正確であることが示唆された。 この研究は、若者が情報の真偽を知覚し識別する方法を原則的に理解し、若年層の強みと弱みを特定し、若者向けのデジタル情報リテラシー戦略を構築するのに寄与する。

With the spread of high-speed Internet and portable smart devices, the way people access and consume information has drastically changed. However, this presents many challenges, including information overload, personal data leakage, and misinformation diffusion. Across the spectrum of risks that Internet users can face nowadays, this work focuses on understanding how young people perceive and deal with false information. Within an experimental campaign involving 261 students, we presented to the participants six different news items and invited them to browse the Internet to assess the veracity of the presented information. Our results suggest that online search is more likely to lead students to validate true news than to refute false ones. We found that students change their opinion related to a specific piece of information more often than their global idea about a broader topic. Also, our experiment reflected that the majority of participants rely on online sources to obtain information and access the news, and those getting information from books and Internet browsing are the most accurate in assessing the veracity of a news item. This work provides a principled understanding of how young people perceive and distinguish true and false pieces of information, identifying strengths and weaknesses amidst young subjects and contributing to build tailored digital information literacy strategies for youth.
翻訳日:2023-03-24 14:55:48 公開日:2023-03-23
# FedGH: 一般化グローバルヘッダによる不均一なフェデレーションラーニング

FedGH: Heterogeneous Federated Learning with Generalized Global Header ( http://arxiv.org/abs/2303.13137v1 )

ライセンス: Link先を確認
Liping Yi, Gang Wang, Xiaoguang Liu, Zhuan Shi, Han Yu(参考訳) フェデレーテッド・ラーニング(FL)は、複数のパーティがプライバシ保護方法で共有モデルを協調的にトレーニングできる、新興の機械学習パラダイムである。 既存の水平FL法は一般にFLサーバとクライアントが同じモデル構造を持っていると仮定する。 しかし、システムの不均一性とパーソナライズの必要性により、クライアントが多様な構造を持つモデルを保持することが重要な方向となっている。 既存のモデルヘテロジェンシックflアプローチでは、一般に利用可能なデータセットが必要となり、高い通信および/または計算コストが発生し、パフォーマンスが制限される。 これらの制約に対処するため,フェデレート・グローバル予測ヘッダ(FedGH)アプローチを提案する。 FLサーバにおけるクライアントモデルのための異種抽出器によって抽出された表現を用いて、共有一般化グローバル予測ヘッダーを訓練する通信および計算効率のモデル不均一FLフレームワークである。 訓練されたグローバル予測ヘッダは、異なるクライアントから学習する。 取得したグローバル知識はクライアントに転送され、各クライアントのローカル予測ヘッダに置き換えられる。 我々はFedGHの非凸収束率を導出する。 2つの実世界のデータセットに対する大規模な実験により、FedGHは7つの最先端のパーソナライズされたFLモデルと比較して、平均テスト精度では8.87%(モデル均質FLの場合)と1.83%(モデル均質FLの場合)で最高のパフォーマンスのベースラインを上回り、通信オーバーヘッドの85.53%を節約した。

Federated learning (FL) is an emerging machine learning paradigm that allows multiple parties to train a shared model collaboratively in a privacy-preserving manner. Existing horizontal FL methods generally assume that the FL server and clients hold the same model structure. However, due to system heterogeneity and the need for personalization, enabling clients to hold models with diverse structures has become an important direction. Existing model-heterogeneous FL approaches often require publicly available datasets and incur high communication and/or computational costs, which limit their performances. To address these limitations, we propose the Federated Global prediction Header (FedGH) approach. It is a communication and computation-efficient model-heterogeneous FL framework which trains a shared generalized global prediction header with representations extracted by heterogeneous extractors for clients' models at the FL server. The trained generalized global prediction header learns from different clients. The acquired global knowledge is then transferred to clients to substitute each client's local prediction header. We derive the non-convex convergence rate of FedGH. Extensive experiments on two real-world datasets demonstrate that FedGH achieves significantly more advantageous performance in both model-homogeneous and -heterogeneous FL scenarios compared to seven state-of-the-art personalized FL models, beating the best-performing baseline by up to 8.87% (for model-homogeneous FL) and 1.83% (for model-heterogeneous FL) in terms of average test accuracy, while saving up to 85.53% of communication overhead.
翻訳日:2023-03-24 14:55:26 公開日:2023-03-23
# セグメンテーション混乱学習とコントラスト学習を併用した生成画像インパインティング

Generative Image Inpainting with Segmentation Confusion Adversarial Training and Contrastive Learning ( http://arxiv.org/abs/2303.13133v1 )

ライセンス: Link先を確認
Zhiwen Zuo, Lei Zhao, Ailin Li, Zhizhong Wang, Zhanjie Zhang, Jiafu Chen, Wei Xing, Dongming Lu(参考訳) 本稿では,scat(segmentation confusion adversarial training)とコントラスト学習を用いた画像インペインティングのための新しい学習枠組みを提案する。 SCATは、インペイントジェネレータとセグメンテーションネットワークの間の対角ゲームをプレイし、ピクセルレベルのローカルトレーニング信号を提供し、フリーフォームホールで画像に適応することができる。 SCATと標準的な大域的対角訓練を組み合わせることで,(1)修復画像のグローバルな整合性,(2)修復画像の局所的な微視的テクスチャの詳細,(3)自由な穴による画像の扱いの柔軟性,という3つの利点を同時に示す。 さらに, 識別器の特徴表現空間を基礎的真理画像に近づけて, 劣化画像からさらに遠ざかるようにすることで, 識別モデルの学習を安定させ, 改善するために, テクスチャ的, 意味的コントラスト学習ロスを提案する。 提案するコントラスト損失は、劣化した画像データポイントから特徴表現空間の実際の画像データポイントへ移動するための修復画像をより良くガイドし、より現実的な完成画像を生成する。 2つのベンチマークデータセットに対して広範な実験を行い、質的かつ定量的にモデルの有効性と優越性を実証した。

This paper presents a new adversarial training framework for image inpainting with segmentation confusion adversarial training (SCAT) and contrastive learning. SCAT plays an adversarial game between an inpainting generator and a segmentation network, which provides pixel-level local training signals and can adapt to images with free-form holes. By combining SCAT with standard global adversarial training, the new adversarial training framework exhibits the following three advantages simultaneously: (1) the global consistency of the repaired image, (2) the local fine texture details of the repaired image, and (3) the flexibility of handling images with free-form holes. Moreover, we propose the textural and semantic contrastive learning losses to stabilize and improve our inpainting model's training by exploiting the feature representation space of the discriminator, in which the inpainting images are pulled closer to the ground truth images but pushed farther from the corrupted images. The proposed contrastive losses better guide the repaired images to move from the corrupted image data points to the real image data points in the feature representation space, resulting in more realistic completed images. We conduct extensive experiments on two benchmark datasets, demonstrating our model's effectiveness and superiority both qualitatively and quantitatively.
翻訳日:2023-03-24 14:54:55 公開日:2023-03-23
# 深部画像の一般化のためのマスク画像訓練

Masked Image Training for Generalizable Deep Image Denoising ( http://arxiv.org/abs/2303.13132v1 )

ライセンス: Link先を確認
Haoyu Chen, Jinjin Gu, Yihao Liu, Salma Abdel Magid, Chao Dong, Qiong Wang, Hanspeter Pfister, Lei Zhu(参考訳) イメージをキャプチャして保存する場合、デバイスは必然的にノイズを発生させる。 このノイズを減らすことは、イメージデノイングと呼ばれる重要なタスクである。 深層学習は、特に様々な画像タスクにおける最先端の成果を達成したTransformerベースのモデルの出現によって、画像のデノナイズのためのデファクト手法となった。 しかし、ディープラーニングベースの手法は、しばしば一般化能力の欠如に苦しむ。 例えば、ガウス雑音で訓練された深いモデルは、他の雑音分布でテストした場合、性能が悪い可能性がある。 この問題に対処するために,マスクトレーニングとして知られるデノナイジングネットワークの一般化性能を高める新しい手法を提案する。 本手法では,入力画像のランダム画素をマスキングし,トレーニング中に欠落した情報を再構成する。 また、トレーニングテストの不整合の影響を避けるために、自己注意層の特徴を隠蔽します。 このアプローチは、他のディープラーニングモデルよりも優れた一般化能力を示し、現実世界のシナリオに直接適用できる。 さらに, 解釈可能性分析により, 提案手法の優越性を示す。

When capturing and storing images, devices inevitably introduce noise. Reducing this noise is a critical task called image denoising. Deep learning has become the de facto method for image denoising, especially with the emergence of Transformer-based models that have achieved notable state-of-the-art results on various image tasks. However, deep learning-based methods often suffer from a lack of generalization ability. For example, deep models trained on Gaussian noise may perform poorly when tested on other noise distributions. To address this issue, we present a novel approach to enhance the generalization performance of denoising networks, known as masked training. Our method involves masking random pixels of the input image and reconstructing the missing information during training. We also mask out the features in the self-attention layers to avoid the impact of training-testing inconsistency. Our approach exhibits better generalization ability than other deep learning models and is directly applicable to real-world scenarios. Additionally, our interpretability analysis demonstrates the superiority of our method.
翻訳日:2023-03-24 14:54:29 公開日:2023-03-23
# 混乱する顔の注意:顔識別モデルの確率分布による顔スワッピングの検出

Watch Out for the Confusing Faces: Detecting Face Swapping with the Probability Distribution of Face Identification Models ( http://arxiv.org/abs/2303.13131v1 )

ライセンス: Link先を確認
Yuxuan Duan, Xuhong Zhang, Chuer Yu, Zonghui Wang, Shouling Ji, Wenzhi Chen(参考訳) 近年、顔交換が急速に発展し、驚くべき現実を達成し、フェイクコンテンツに対する懸念が高まっている。 対策として,様々な検出手法が提案され,有望な性能を達成している。 しかし、既存の検出器の多くは、顔交換法や低品質画像の性能を維持するのに苦労している。 一般化問題とは別に、現在の検出アプローチは検出対応マニピュレータによる回避攻撃に対して脆弱であることが示されている。 逆シナリオ下での堅牢性の欠如は、現実世界で顔交換検出を適用する脅威を残している。 本稿では,IdP_FSDと呼ばれる顔識別確率分布に基づく顔交換検出手法を提案する。 idp_fsdは、実世界のアプリケーションで意味のある有限集合に属する交換された顔を検出するために特別に設計された。 従来の一般的な検出手法と比較すると,実顔の身元を特定できるため,偽のサンプルは不要である。 IdP_FSDは、顔交換に関わる2つの顔の同一性は、顔交換の共通性を利用する。 この性質を顔識別モデルの混乱で反映し,出力確率分布の最大値との混乱を測定する。 さらに,adp_fsdで使用される顔識別モデルに対して,注意に基づく微調整手法が提案されている。 広範な実験により, 提案手法は, 異なるベンチマークデータセットと画像品質で高い検出性能を実現するだけでなく, マニピュレータが検出を回避できるバーを増大させることを示した。

Recently, face swapping has been developing rapidly and achieved a surprising reality, raising concerns about fake content. As a countermeasure, various detection approaches have been proposed and achieved promising performance. However, most existing detectors struggle to maintain performance on unseen face swapping methods and low-quality images. Apart from the generalization problem, current detection approaches have been shown vulnerable to evasion attacks crafted by detection-aware manipulators. Lack of robustness under adversary scenarios leaves threats for applying face swapping detection in real world. In this paper, we propose a novel face swapping detection approach based on face identification probability distributions, coined as IdP_FSD, to improve the generalization and robustness. IdP_FSD is specially designed for detecting swapped faces whose identities belong to a finite set, which is meaningful in real-world applications. Compared with previous general detection methods, we make use of the available real faces with concerned identities and require no fake samples for training. IdP_FSD exploits face swapping's common nature that the identity of swapped face combines that of two faces involved in swapping. We reflect this nature with the confusion of a face identification model and measure the confusion with the maximum value of the output probability distribution. What's more, to defend our detector under adversary scenarios, an attention-based finetuning scheme is proposed for the face identification models used in IdP_FSD. Extensive experiments show that the proposed IdP_FSD not only achieves high detection performance on different benchmark datasets and image qualities but also raises the bar for manipulators to evade the detection.
翻訳日:2023-03-24 14:54:14 公開日:2023-03-23
# ゼロg飛行中の光子絡み合い

Photonic entanglement during a zero-g flight ( http://arxiv.org/abs/2303.13183v1 )

ライセンス: Link先を確認
Julius Bittermann, Lukas Bulla, Sebastian Ecker, Sebastian Philipp Neumann, Matthias Fink, Martin Bohmann, Nicolai Friis, Marcus Huber, Rupert Ursin(参考訳) 量子技術は、極端な条件下で基本量子現象をテストできるまで成熟した。 特に、現代の量子情報理論の基礎である絡み合いは、様々な悪い環境で頑健に生成され、検証することができる。 これらの実験をさらに進め、パラボリック飛行中に高品質のベル実験を行い、ベル違反を継続的に観察しながら微小重力から1.8g超重力への移行を行い、ベル-CHSHパラメータは$S=-2.6202$から$2.7323$、平均は$\overline{S} = -2.680$、平均標準偏差は$\overline{\Delta S} = 0.014$である。 この違反は、一様加速と非一様加速の両方の影響を受けない。 この実験は、宇宙ベースのアプリケーションのための現在の量子通信プラットフォームの安定性を実証し、非慣性運動と量子情報の相互作用をテストするための重要な参照ポイントを追加する。

Quantum technologies have matured to the point that we can test fundamental quantum phenomena under extreme conditions. Specifically, entanglement, a cornerstone of modern quantum information theory, can be robustly produced and verified in various adverse environments. We take these tests further and implement a high-quality Bell experiment during a parabolic flight, transitioning from microgravity to hypergravity of 1.8 g while continuously observing Bell violation, with Bell-CHSH parameters between $S=-2.6202$ and $-2.7323$, an average of $\overline{S} = -2.680$, and average standard deviation of $\overline{\Delta S} = 0.014$. This violation is unaffected both by uniform and non-uniform acceleration. This experiment both demonstrates the stability of current quantum communication platforms for space-based applications and adds an important reference point for testing the interplay of non-inertial motion and quantum information.
翻訳日:2023-03-24 14:48:09 公開日:2023-03-23
# cmg-net : エンド・ツー・エンドのコンタクトベース・マルチフィンガー・デクスタース把持ネットワーク

CMG-Net: An End-to-End Contact-Based Multi-Finger Dexterous Grasping Network ( http://arxiv.org/abs/2303.13182v1 )

ライセンス: Link先を確認
Mingze Wei, Yaomin Huang, Zhiyuan Xu, Ning Liu, Zhengping Che, Xinyu Zhang, Chaomin Shen, Feifei Feng, Chun Shan, Jian Tang(参考訳) 本稿では,多指ロボットハンドと操作対象との接触をつかむための新しい表現を提案する。 この表現は予測次元を大幅に削減し、学習プロセスを加速する。 マルチフィンガーグリップポーズとハンド設定を単一ショットポイントクラウドから効率的に予測し,未知の物体を散らかした環境で把握する有効なエンドツーエンドネットワークCMG-Netを提案する。 さらに,5千の散らばったシーン,80のオブジェクトカテゴリ,2000万のアノテーションからなる合成把握データセットを作成する。 我々は,包括的実証研究を行い,把持表現とcmg-netの有効性を実証する。 私たちの研究は、3本指のロボットハンドの最先端を著しく上回っている。 また,合成データを用いてトレーニングしたモデルが実ロボットに非常に有効であることも実証した。

In this paper, we propose a novel representation for grasping using contacts between multi-finger robotic hands and objects to be manipulated. This representation significantly reduces the prediction dimensions and accelerates the learning process. We present an effective end-to-end network, CMG-Net, for grasping unknown objects in a cluttered environment by efficiently predicting multi-finger grasp poses and hand configurations from a single-shot point cloud. Moreover, we create a synthetic grasp dataset that consists of five thousand cluttered scenes, 80 object categories, and 20 million annotations. We perform a comprehensive empirical study and demonstrate the effectiveness of our grasping representation and CMG-Net. Our work significantly outperforms the state-of-the-art for three-finger robotic hands. We also demonstrate that the model trained using synthetic data performs very well for real robots.
翻訳日:2023-03-24 14:47:45 公開日:2023-03-23
# 誤差補正クリフォードゲートと時空効率的なアナログ回転をもつ部分フォールトトレラント量子コンピューティングアーキテクチャ

Partially Fault-tolerant Quantum Computing Architecture with Error-corrected Clifford Gates and Space-time Efficient Analog Rotations ( http://arxiv.org/abs/2303.13181v1 )

ライセンス: Link先を確認
Yutaro Akahoshi, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato, Keisuke Fujii(参考訳) 量子コンピュータは、古典的コンピュータに対するいくつかの計算タスクに劇的な加速をもたらすことが期待されている。 数十から数百の物理量子ビットを持つノイズのある中間スケール量子(NISQ)デバイスは徐々に利用可能になりつつあるが、現時点では有意義なタスクにおいて有用な量子優位性を達成することは難しい。 一方、量子誤り訂正(QEC)符号に基づく完全なフォールトトレラント量子コンピューティング(FTQC)は、高精度な物理量子ビットの要求が極端に大きいため、実現には至っていない。 本研究では,NISQとFTQCのギャップを埋めるための量子コンピューティングアーキテクチャを提案する。 本アーキテクチャは, 格子手術による誤回転ゲートと誤差補正クリフォードゲートに基づく。 従来の蒸留プロトコルを省略し, 直接アナログ回転と小型キュービット要求を達成し, 慎重に設計した状態注入プロトコルにより回転残差を最小化する。 数値シミュレーションに基づく推定では、物理エラー確率$p = 10^{-4}$の10^4$物理量子ビットからなる初期のftqcデバイスでは、約1.72 \times 10^7$ clifford演算と3.75 \times 10^4$任意の回転を64論理量子ビット上で行うことができる。 このような計算は、同じデバイス上の既存のnisqおよびftqcアーキテクチャや、古典的なコンピュータでは実現できない。 我々は,我々の提案とそれに基づく量子アルゴリズムの開発が,将来実用的な量子コンピュータの実現に関する新たな洞察をもたらすことを期待している。

Quantum computers are expected to bring drastic acceleration to several computing tasks against classical computers. Noisy intermediate-scale quantum (NISQ) devices, which have tens to hundreds of noisy physical qubits, are gradually becoming available, but it is still challenging to achieve useful quantum advantages in meaningful tasks at this moment. On the other hand, the full fault-tolerant quantum computing (FTQC) based on the quantum error correction (QEC) code remains far beyond realization due to its extremely large requirement of high-precision physical qubits. In this study, we propose a quantum computing architecture to close the gap between NISQ and FTQC. Our architecture is based on erroneous arbitrary rotation gates and error-corrected Clifford gates implemented by lattice surgery. We omit the typical distillation protocol to achieve direct analog rotations and small qubit requirements, and minimize the remnant errors of the rotations by a carefully-designed state injection protocol. Our estimation based on numerical simulations shows that, for early-FTQC devices that consist of $10^4$ physical qubits with physical error probability $p = 10^{-4}$, we can perform roughly $1.72 \times 10^7$ Clifford operations and $3.75 \times 10^4$ arbitrary rotations on 64 logical qubits. Such computations cannot be realized by the existing NISQ and FTQC architectures on the same device, as well as classical computers. We hope that our proposal and the corresponding development of quantum algorithms based on it bring new insights on realization of practical quantum computers in future.
翻訳日:2023-03-24 14:47:31 公開日:2023-03-23
# 全て接続:時空間予測のための新しいグラフ定式化

It is all Connected: A New Graph Formulation for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2303.13177v1 )

ライセンス: Link先を確認
Lars {\O}degaard Bentsen, Narada Dilp Warakagoda, Roy Stenbro, Paal Engelstad(参考訳) 現代の社会ではセンサが増え続けているため、時空間の時系列予測は、未来に関する情報決定を行うデファクトツールになっている。 ほとんどの時空間予測モデルは、通常、空間的および時間的依存を学習する異なるコンポーネントから構成される。 一般的な手法では、空間的位置間の関係を捉えるためにグラフニューラルネットワーク(GNN)を用いるが、リカレントニューラルネットワーク(RNN)のような別のネットワークは時間的相関を学習する。 記録されたすべてのサンプルをグラフ内の独自のノードとして表現することにより、特定の位置のすべての測定を単一ノードとして表現するのではなく、時間的および空間的情報を同様の方法で符号化する。 この設定では、GNNは時間的依存と空間的依存の両方を直接学習すると同時に、追加の時間的ネットワークの必要性を軽減することができる。 さらに、フレームワークは時間次元に沿って整列した測定を必要とせず、データインプテーションを必要とせずに、不規則な時系列や異なるサンプリング周波数、データの欠落を自然に促進する。 提案手法を評価するために,提案手法は風速予測をケーススタディとみなし,提案手法はトランスフォーマネットワークとLSTMネットワークを時間的更新関数として用いた他の時空間モデルよりも優れた性能を示した。

With an ever-increasing number of sensors in modern society, spatio-temporal time series forecasting has become a de facto tool to make informed decisions about the future. Most spatio-temporal forecasting models typically comprise distinct components that learn spatial and temporal dependencies. A common methodology employs some Graph Neural Network (GNN) to capture relations between spatial locations, while another network, such as a recurrent neural network (RNN), learns temporal correlations. By representing every recorded sample as its own node in a graph, rather than all measurements for a particular location as a single node, temporal and spatial information is encoded in a similar manner. In this setting, GNNs can now directly learn both temporal and spatial dependencies, jointly, while also alleviating the need for additional temporal networks. Furthermore, the framework does not require aligned measurements along the temporal dimension, meaning that it also naturally facilitates irregular time series, different sampling frequencies or missing data, without the need for data imputation. To evaluate the proposed methodology, we consider wind speed forecasting as a case study, where our proposed framework outperformed other spatio-temporal models using GNNs with either Transformer or LSTM networks as temporal update functions.
翻訳日:2023-03-24 14:47:04 公開日:2023-03-23
# 離散ヘルマイトウェーブレット変換に基づく新しいアルゴリズムによるカラー画像圧縮の高速化

Enhancement of theColor Image Compression Using a New Algorithm based on Discrete Hermite Wavelet Transform ( http://arxiv.org/abs/2303.13175v1 )

ライセンス: Link先を確認
Hassan Mohamed Muhi-Aldeen, Asma A. Abdulrahman, Jabbar Abed Eleiwy, Fouad S. Tahir and Yurii Khlaponin(参考訳) インターネットが世界全体を小さな村に変えた理由は、何百万もの画像やビデオを共有できるようになったからだ。 しかし、大量のデータを送受信することが大きな課題であると考えられている。 この問題に対処するために、画像ビットを削減し、圧縮形式でデータを表現するための新しいアルゴリズムが必要となる。 それでも、画像圧縮は大きなファイルや画像を転送するための重要な応用である。 これにより、この分野でタスクを達成し、最高の結果に達するためには、適切な効率的な転送が必要である。 本研究では,色画像の効率と品質を示す離散Hermiteウェーブレット変換(DHWT)に基づく新しいアルゴリズムを提案する。 色画像を圧縮することにより、MATLABにウェーブレットを付加した後、それを近似係数と詳細係数に分割する。 MRA(Multi-Resolution Analyses)では、適切なフィルタが導出され、新しいフィルタをテストしてその操作を実行することで数学的側面が検証される。 行の分解と再構成の過程において、フィルタの反転と行列の列の処理を経たのち、元の行列を、画像のパラメータを測定して、ピーク信号対雑音比(PSNR)、圧縮比(CR)、画素毎ビット(BPP)、平均二乗誤差(MSE)などの結果画像の最高の品質を達成することにより改善する。

The Internet has turned the entire world into a small village;this is because it has made it possible to share millions of images and videos. However, sending and receiving a huge amount of data is considered to be a main challenge. To address this issue, a new algorithm is required to reduce image bits and represent the data in a compressed form. Nevertheless, image compression is an important application for transferring large files and images. This requires appropriate and efficient transfers in this field to achieve the task and reach the best results. In this work, we propose a new algorithm based on discrete Hermite wavelets transformation (DHWT) that shows the efficiency and quality of the color images. By compressing the color image, this method analyzes it and divides it into approximate coefficients and detail coefficients after adding the wavelets into MATLAB. With Multi-Resolution Analyses (MRA), the appropriate filter is derived, and the mathematical aspects prove to be validated by testing a new filter and performing its operation. After the decomposition of the rows and upon the process of the reconstruction, taking the inverse of the filter and dealing with the columns of the matrix, the original matrix is improved by measuring the parameters of the image to achieve the best quality of the resulting image, such as the peak signal-to-noise ratio (PSNR), compression ratio (CR), bits per pixel (BPP), and mean square error (MSE).
翻訳日:2023-03-24 14:46:41 公開日:2023-03-23
# 3D-POP -- マーカーベースモーションキャプチャーを用いた自由移動鳥のマーカーレス2D-3D追跡を容易にする自動アノテーション手法

3D-POP -- An automated annotation approach to facilitate markerless 2D-3D tracking of freely moving birds with marker-based motion capture ( http://arxiv.org/abs/2303.13174v1 )

ライセンス: Link先を確認
Hemal Naik, Alex Hoi Hang Chan, Junran Yang, Mathilde Delacoux, Iain D. Couzin, Fumihiro Kano, M\'at\'e Nagy(参考訳) 機械学習とコンピュータビジョンの最近の進歩は、研究者がマーカーの添付なしに自由に動く動物のポーズや位置を追跡することによって、動物の行動の分野に革命をもたらしている。 しかし、マーカーレスポーズトラッキングのための動物の注釈画像の大規模なデータセット、特に正確な3Dアノテーションを持つ複数の角度から撮影された高解像度画像は、いまだスキャンされていない。 本稿では、モーションキャプチャ(mo-cap)システムを用いて、動物の動きと姿勢(2D, 3D)に関する大量の注釈データを半自動で取得する手法を提案する。 形態的キーポイント(例えば、目、くちばし、尾)の3次元位置を動物に付着したマーカーの位置から抽出する手法は新規である。 この手法を用いて,3.6m×4.2m領域の4つの異なるカメラビューから1から10羽の鳥を自由に移動させるビデオの形式で,約300万フレーム(400万例)の3D-POPのデータセットを得た。 3d-popは、2dと3dの正確なキーポイントアノテーションとバウンディングボックスと個々のidを持つ鳥の最初のデータセットであり、2dから3dのマーカーレスポーズ、軌道追跡、鳥の識別といった問題に対する解決策の開発を容易にする。

Recent advances in machine learning and computer vision are revolutionizing the field of animal behavior by enabling researchers to track the poses and locations of freely moving animals without any marker attachment. However, large datasets of annotated images of animals for markerless pose tracking, especially high-resolution images taken from multiple angles with accurate 3D annotations, are still scant. Here, we propose a method that uses a motion capture (mo-cap) system to obtain a large amount of annotated data on animal movement and posture (2D and 3D) in a semi-automatic manner. Our method is novel in that it extracts the 3D positions of morphological keypoints (e.g eyes, beak, tail) in reference to the positions of markers attached to the animals. Using this method, we obtained, and offer here, a new dataset - 3D-POP with approximately 300k annotated frames (4 million instances) in the form of videos having groups of one to ten freely moving birds from 4 different camera views in a 3.6m x 4.2m area. 3D-POP is the first dataset of flocking birds with accurate keypoint annotations in 2D and 3D along with bounding box and individual identities and will facilitate the development of solutions for problems of 2D to 3D markerless pose, trajectory tracking, and identification in birds.
翻訳日:2023-03-24 14:46:12 公開日:2023-03-23
# AIベースのシステムのためのデザインパターン:多言語文献レビューとパターンリポジトリ

Design Patterns for AI-based Systems: A Multivocal Literature Review and Pattern Repository ( http://arxiv.org/abs/2303.13173v1 )

ライセンス: Link先を確認
Lukas Heiland, Marius Hauser, Justus Bogner(参考訳) 人工知能コンポーネントを持つシステム、いわゆるAIベースのシステムは、最近かなりの注目を集めている。 しかし、多くの組織は、このようなシステムで生産の準備ができている。 ソフトウェアの品質特性を改善し、頻繁に発生する問題に対処する手段として、デザインパターンは実績のあるソリューション青写真を表している。 AIベースのシステムの新しいパターンが出現しつつある一方で、既存のパターンもこの新しいコンテキストに適応している。 本研究の目的は,新しいシステムと適応システムの両方において,aiベースのシステムの設計パターンの概要を提供することである。 パターンを収集し、分類し、研究者や実践者に公開したいと思っています。 そこで我々はまず,AIベースのシステムで使用されるデザインパターンを収集する多言語文献レビュー(MLR)を行った。 その後、生成されたパターンコレクションをWebベースのパターンリポジトリに統合して、ブラウズ可能で見つけやすくしました。 その結果、51のリソース(35の白と16の灰色)を選択し、aiベースのシステムで使用される70のユニークなパターンを抽出した。 その中には34の新たなパターンと36の伝統的なパターンがある。 一般的なパターンカテゴリには、"architecture" (25パターン)、"deployment" (16パターン)、"implementation" (9パターン)、"security & safety" (9パターン)などがある。 4つ以上の言及があるパターンはすでに確立されているように見えるが、ほとんどのパターンは1回または2回しか言及されていない(51パターン)。 この新興分野における我々の研究結果は、研究者がフォローアップ研究の基盤として、そして実践者がAIベースのシステムの設計を伝えるための関連するパターンを発見するために利用することができる。

Systems with artificial intelligence components, so-called AI-based systems, have gained considerable attention recently. However, many organizations have issues with achieving production readiness with such systems. As a means to improve certain software quality attributes and to address frequently occurring problems, design patterns represent proven solution blueprints. While new patterns for AI-based systems are emerging, existing patterns have also been adapted to this new context. The goal of this study is to provide an overview of design patterns for AI-based systems, both new and adapted ones. We want to collect and categorize patterns, and make them accessible for researchers and practitioners. To this end, we first performed a multivocal literature review (MLR) to collect design patterns used with AI-based systems. We then integrated the created pattern collection into a web-based pattern repository to make the patterns browsable and easy to find. As a result, we selected 51 resources (35 white and 16 gray ones), from which we extracted 70 unique patterns used for AI-based systems. Among these are 34 new patterns and 36 traditional ones that have been adapted to this context. Popular pattern categories include "architecture" (25 patterns), "deployment" (16), "implementation" (9), or "security & safety" (9). While some patterns with four or more mentions already seem established, the majority of patterns have only been mentioned once or twice (51 patterns). Our results in this emerging field can be used by researchers as a foundation for follow-up studies and by practitioners to discover relevant patterns for informing the design of AI-based systems.
翻訳日:2023-03-24 14:45:28 公開日:2023-03-23
# 初歩的信念関数論理

An elementary belief function logic ( http://arxiv.org/abs/2303.13168v1 )

ライセンス: Link先を確認
Didier Dubois, Lluis Godo, Henri Prade(参考訳) 非加法的不確実性理論、典型的には可能性論、信念関数、不正確な確率は様相論理と共通する: 可能性と必然性の間の双対性、信念と可能性関数、そして上下の確率の間の双対性は、可能性と必然性の間の双対性を階調環境に拡張する。 可能性理論のオール・オー・ナッシング版は、関係性セマンティクスに頼ることなく、KDモーダル論理のごく小さな断片を使用する最小のエピステミック論理(MEL)によって正確に捉えられることが示されている。 さらに、信念関数の場合も独立に研究され、関係意味論ではあるものの、モーダル論理 S5 を {\L}ukasiewicz 論理を用いて次数に拡張することで信念関数論理が得られた。 本稿では, MEL 上に {\L}ukasiewicz 論理を追加することにより, より単純な信念関数論理を考案できることを示す。 これはシャファー基本確率代入の観点からより自然な意味論を可能にする。

Non-additive uncertainty theories, typically possibility theory, belief functions and imprecise probabilities share a common feature with modal logic: the duality properties between possibility and necessity measures, belief and plausibility functions as well as between upper and lower probabilities extend the duality between possibility and necessity modalities to the graded environment. It has been shown that the all-or-nothing version of possibility theory can be exactly captured by a minimal epistemic logic (MEL) that uses a very small fragment of the KD modal logic, without resorting to relational semantics. Besides, the case of belief functions has been studied independently, and a belief function logic has been obtained by extending the modal logic S5 to graded modalities using {\L}ukasiewicz logic, albeit using relational semantics. This paper shows that a simpler belief function logic can be devised by adding {\L}ukasiewicz logic on top of MEL. It allows for a more natural semantics in terms of Shafer basic probability assignments.
翻訳日:2023-03-24 14:44:55 公開日:2023-03-23
# Take 5: 機能追加による解釈可能な画像分類

Take 5: Interpretable Image Classification with a Handful of Features ( http://arxiv.org/abs/2303.13166v1 )

ライセンス: Link先を確認
Thomas Norrenbrock, Marco Rudolph, Bodo Rosenhahn(参考訳) ディープニューラルネットワークは、ほとんど理解不能な何千もの機能を使って、1つのクラスを識別する。 本稿では,深層ニューラルネットワークにおいて,解釈可能性の計測可能な側面を持つ解釈可能なスパースおよび低次元最終決定層を提案し,細粒度画像分類について実証する。 人間は、その特徴が解釈可能で、1つの決定に使用されるのはごくわずかであるならば、機械学習モデルの判断しか理解できないと主張する。 その場合、最終層はスパースでなければならず、特徴を解釈するために低次元化する必要がある。 スパース低次元決定SLDDモデルを用いたモデルと呼ぶ。 本研究では,SLDDモデルが高次元の高次元決定層よりも局所的・グローバル的に解釈しやすく,競争精度を維持可能であることを示す。 さらに,モデルの特徴の多様性と精度を向上させる損失関数を提案する。 より解釈可能なsddモデルではクラス当たり50の機能のうち5つしか使用できませんが、一般的なベンチマークデータセットで2048の機能を持つベースラインモデルと比較して、97%から100%の精度を維持しています。

Deep Neural Networks use thousands of mostly incomprehensible features to identify a single class, a decision no human can follow. We propose an interpretable sparse and low dimensional final decision layer in a deep neural network with measurable aspects of interpretability and demonstrate it on fine-grained image classification. We argue that a human can only understand the decision of a machine learning model, if the features are interpretable and only very few of them are used for a single decision. For that matter, the final layer has to be sparse and, to make interpreting the features feasible, low dimensional. We call a model with a Sparse Low-Dimensional Decision SLDD-Model. We show that a SLDD-Model is easier to interpret locally and globally than a dense high-dimensional decision layer while being able to maintain competitive accuracy. Additionally, we propose a loss function that improves a model's feature diversity and accuracy. Our more interpretable SLDD-Model only uses 5 out of just 50 features per class, while maintaining 97% to 100% of the accuracy on four common benchmark datasets compared to the baseline model with 2048 features.
翻訳日:2023-03-24 14:44:36 公開日:2023-03-23
# 調和振動子検出器間の相対論的量子通信

Relativistic quantum communication between harmonic oscillator detectors ( http://arxiv.org/abs/2303.13162v1 )

ライセンス: Link先を確認
Alessio Lapponi, Dimitris Moustos, David Edward Bruschi, Stefano Mancini(参考訳) ミンコフスキー時空のスカラー場を介して相互作用する2つの高調波発振器検出器を用いた通信モデルを提案する。 このように、スカラー場は量子チャネル、すなわちボソニック・ガウスチャネルの役割を担っている。 通信チャネルの古典的および量子的容量は、検出器の空間次元が距離に対して無視できると仮定して発見される。 特に、検出器-フィールド相互作用が様々な検出器の周波数と磁場との結合強度に切り替わってからの古典的容量の進化について検討する。 その結果、これらのパラメータの有限値が古典的メッセージの通信を最適化することがわかった。 代わりに、量子メッセージの信頼できる通信は、常に阻害されることが判明した。

We propose a model of communication employing two harmonic oscillator detectors interacting through a scalar field in a background Minkowski spacetime. In this way, the scalar field plays the role of a quantum channel, namely a Bosonic Gaussian channel. The classical and quantum capacities of the communication channel are found, assuming that the detectors' spatial dimensions are negligible compared to their distance. In particular, we study the evolution in time of the classical capacity after the detectors-field interaction is switched on for various detectors' frequencies and coupling strengths with the field. As a result, we find a finite value of these parameters optimizing the communication of classical messages. Instead, a reliable communication of quantum messages turns out to be always inhibited.
翻訳日:2023-03-24 14:44:17 公開日:2023-03-23
# DNNのバックドア・ポジショニング・サンプル検出に周波数にインスパイアされたアプローチ

Don't FREAK Out: A Frequency-Inspired Approach to Detecting Backdoor Poisoned Samples in DNNs ( http://arxiv.org/abs/2303.13211v1 )

ライセンス: Link先を確認
Hasan Abed Al Kader Hammoud, Adel Bibi, Philip H.S. Torr, Bernard Ghanem(参考訳) 本稿では,深層ニューラルネットワーク(dnn)の周波数感度について,清浄試料と有毒試料の比較検討を行う。 この2種類の試料の周波数感度に有意差が認められた。 そこで本研究では,周波数に基づく有毒試料検出アルゴリズムであるFREAKを提案する。 実験の結果, FREAKは, 周波数バックドア攻撃だけでなく, 空間攻撃にも有効であることが示された。 私たちの仕事は、これらの洞察を活用するための第一歩に過ぎません。 我々は,我々の分析と防衛機構が,バックドア・ディフェンスの今後の研究・開発の基礎となると信じている。

In this paper we investigate the frequency sensitivity of Deep Neural Networks (DNNs) when presented with clean samples versus poisoned samples. Our analysis shows significant disparities in frequency sensitivity between these two types of samples. Building on these findings, we propose FREAK, a frequency-based poisoned sample detection algorithm that is simple yet effective. Our experimental results demonstrate the efficacy of FREAK not only against frequency backdoor attacks but also against some spatial attacks. Our work is just the first step in leveraging these insights. We believe that our analysis and proposed defense mechanism will provide a foundation for future research and development of backdoor defenses.
翻訳日:2023-03-24 14:38:30 公開日:2023-03-23
# 視覚関係を詳しく見る - ラベル学習を分離したビデオシーングラフ生成

Taking A Closer Look at Visual Relation: Unbiased Video Scene Graph Generation with Decoupled Label Learning ( http://arxiv.org/abs/2303.13209v1 )

ライセンス: Link先を確認
Wenqing Wang, Yawei Luo, Zhiqing Chen, Tao Jiang, Lei Chen, Yi Yang, Jun Xiao(参考訳) 現在のビデオベースのシーングラフ生成(vidsgg)法は、トレーニングデータに固有の偏りがあるため、表現の少ない述語を予測できないことが判明している。 本稿では,これらの述語を詳細に見て,ほとんどの視覚関係(例えば sit_above)が行動パターン (sit) と空間パターン (above) の両方を伴っているのに対し,分布バイアスはパターンレベルでははるかに深刻であることを示す。 この知見に基づいて,パターンレベルの視点から難解な視覚関係予測に対処するために,分離ラベル学習(dll)パラダイムを提案する。 具体的には、DLLは述語ラベルを分離し、それぞれが行動パターンと空間パターンを学ぶために別々の分類器を採用する。 パターンは組み合わせられ、述語にマップされます。 さらに,頭部述語から尾部述語への非目標知識を同じパターン内の尾部述語に伝達し,尾部の分布を校正する知識レベルラベルデカップリング手法を提案する。 一般的なVidSGGベンチマーク,すなわちVidVRDにおけるDLLの有効性を検証する。 広範な実験により、dllは極めて単純で非常に効果的なソリューションを提供し、最先端のvidsgg性能を達成することが証明された。

Current video-based scene graph generation (VidSGG) methods have been found to perform poorly on predicting predicates that are less represented due to the inherent biased distribution in the training data. In this paper, we take a closer look at the predicates and identify that most visual relations (e.g. sit_above) involve both actional pattern (sit) and spatial pattern (above), while the distribution bias is much less severe at the pattern level. Based on this insight, we propose a decoupled label learning (DLL) paradigm to address the intractable visual relation prediction from the pattern-level perspective. Specifically, DLL decouples the predicate labels and adopts separate classifiers to learn actional and spatial patterns respectively. The patterns are then combined and mapped back to the predicate. Moreover, we propose a knowledge-level label decoupling method to transfer non-target knowledge from head predicates to tail predicates within the same pattern to calibrate the distribution of tail classes. We validate the effectiveness of DLL on the commonly used VidSGG benchmark, i.e. VidVRD. Extensive experiments demonstrate that the DLL offers a remarkably simple but highly effective solution to the long-tailed problem, achieving the state-of-the-art VidSGG performance.
翻訳日:2023-03-24 14:38:21 公開日:2023-03-23
# 深層学習に基づく膝関節症早期発見のための信頼性評価戦略

A Confident Labelling Strategy Based on Deep Learning for Improving Early Detection of Knee OsteoArthritis ( http://arxiv.org/abs/2303.13203v1 )

ライセンス: Link先を確認
Zhe Wang, Aladine Chetouani, Rachid Jennane(参考訳) Knee osteoArthritis (KOA) は高齢者の運動能力低下を引き起こす筋骨格障害である。 医師による診断は、個人的経験と半定量的なKelgren-Lawrence(KL)スコアシステムに依存するため、主観的である。 koaは、畳み込みニューラルネットワーク(cnn)のようなディープラーニング技術を使用するcadシステムによって、診断に成功している。 本稿では,新しいシアーム系ネットワークを提案し,koaの早期検出のためのハイブリッド損失戦略を提案する。 このモデルは、各レベルの特徴抽出のためにグローバル平均プーリング(gap)層の集合を統合することによって、古典的なシャムネットワークを拡張する。 そして、分類性能を向上させるために、各トレーニングバッチを低、中、高信頼のサブセットに分割する新たなトレーニング戦略と、各サンプルに属する新しいラベルごとに特定のハイブリッド損失関数を用いる。 最終損失関数は、後者の損失関数と最適化された重みを組み合わせることで導出される。 実験の結果,提案手法は検出性能を大幅に向上することが示された。

Knee OsteoArthritis (KOA) is a prevalent musculoskeletal disorder that causes decreased mobility in seniors. The diagnosis provided by physicians is subjective, however, as it relies on personal experience and the semi-quantitative Kellgren-Lawrence (KL) scoring system. KOA has been successfully diagnosed by Computer-Aided Diagnostic (CAD) systems that use deep learning techniques like Convolutional Neural Networks (CNN). In this paper, we propose a novel Siamese-based network, and we introduce a new hybrid loss strategy for the early detection of KOA. The model extends the classical Siamese network by integrating a collection of Global Average Pooling (GAP) layers for feature extraction at each level. Then, to improve the classification performance, a novel training strategy that partitions each training batch into low-, medium- and high-confidence subsets, and a specific hybrid loss function are used for each new label attributed to each sample. The final loss function is then derived by combining the latter loss functions with optimized weights. Our test results demonstrate that our proposed approach significantly improves the detection performance.
翻訳日:2023-03-24 14:37:55 公開日:2023-03-23
# First Session Adaptation: クラス増分学習のための強力なリプレイフリーベースライン

First Session Adaptation: A Strong Replay-Free Baseline for Class-Incremental Learning ( http://arxiv.org/abs/2303.13199v1 )

ライセンス: Link先を確認
Aristeidis Panos, Yuriko Kobe, Daniel Olmeda Reino, Rahaf Aljundi, Richard E. Turner(参考訳) 授業増分学習(CIL)では、画像分類システムは各学習セッションで新しいクラスに露出し、段階的に更新する必要がある。 この問題にアプローチする手法は、cilの各セッションで分類ヘッドと特徴抽出体の両方を更新した。 本研究では,既存のcilアプローチの有効性に光を当てる第1セッション適応(fsa)というベースライン手法を開発し,頭部と身体の適応による相対的パフォーマンスの寄与度を評価する。 FSAは、トレーニング済みのニューラルネットワーク本体を最初の学習セッションのみに適応させ、その後修正し、線形判別分析(LDA)に基づくヘッドを適応された本体の上に配置し、CILによる正確な更新を可能にする。 fsaはリプレイフリーであり、前回の継続的学習の例を記憶していない。 実験的にfsaを動機付けるために,まず,22種類の画像分類データセットの多種多様な選択を検討した。 LDAヘッドは良好に動作し、CILのアウト・オブ・ボックスをサポートしています。 また,FiLM(Featurewise Layer Modulation)アダプタは,複数ショット設定において非常に有効であり,ハイショット設定ではフルボディ適応が可能であることも確認した。 第2に,従来文献で使用されていた高精細度CILや小精細度CILなどの各種CIL設定を実証的に検討した。 検討した16項目のうち15項目において,FSAは最先端よりも有意に改善した。 FiLMアダプタを備えたFSAは、特に数ショット設定でパフォーマンスが良い。 これらの結果は, 連続体適応への現在のアプローチが期待通りに機能していないことを示している。 最後に,身体適応の利点を予測可能な非ラベル入力の集合に適用可能な尺度を提案する。

In Class-Incremental Learning (CIL) an image classification system is exposed to new classes in each learning session and must be updated incrementally. Methods approaching this problem have updated both the classification head and the feature extractor body at each session of CIL. In this work, we develop a baseline method, First Session Adaptation (FSA), that sheds light on the efficacy of existing CIL approaches and allows us to assess the relative performance contributions from head and body adaption. FSA adapts a pre-trained neural network body only on the first learning session and fixes it thereafter; a head based on linear discriminant analysis (LDA), is then placed on top of the adapted body, allowing exact updates through CIL. FSA is replay-free i.e.~it does not memorize examples from previous sessions of continual learning. To empirically motivate FSA, we first consider a diverse selection of 22 image-classification datasets, evaluating different heads and body adaptation techniques in high/low-shot offline settings. We find that the LDA head performs well and supports CIL out-of-the-box. We also find that Featurewise Layer Modulation (FiLM) adapters are highly effective in the few-shot setting, and full-body adaption in the high-shot setting. Second, we empirically investigate various CIL settings including high-shot CIL and few-shot CIL, including settings that have previously been used in the literature. We show that FSA significantly improves over the state-of-the-art in 15 of the 16 settings considered. FSA with FiLM adapters is especially performant in the few-shot setting. These results indicate that current approaches to continuous body adaptation are not working as expected. Finally, we propose a measure that can be applied to a set of unlabelled inputs which is predictive of the benefits of body adaptation.
翻訳日:2023-03-24 14:37:36 公開日:2023-03-23
# ポイントクラウド異常検出のための補完的擬似マルチモーダル特徴

Complementary Pseudo Multimodal Feature for Point Cloud Anomaly Detection ( http://arxiv.org/abs/2303.13194v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Weiming Shen(参考訳) ポイントクラウド(PCD)異常検出は、将来性のある研究領域として着実に現れる。 本研究の目的は、手作りPCD記述と強力な事前学習型2Dニューラルネットワークを組み合わせることで、PCD異常検出性能を向上させることである。 そこで本研究では,手作りPCD記述子を用いた局所幾何学情報と,事前学習した2Dニューラルネットワークを用いた擬似2Dモーダルにおける大域的意味情報を組み合わせた補足型擬似擬似マルチモーダル特徴(CPMF)を提案する。 グローバルセマンティクス抽出のために、CPMFは原点PCDをマルチビュー画像を含む擬似2次元モダリティに投影する。 これらの画像は、情報的2Dモダリティ特徴抽出のために、事前訓練された2Dニューラルネットワークに配信される。 PCD異常検出のためのCPMFを得るために、3Dおよび2Dモダリティ特徴を集約する。 大規模な実験では、MVTec3Dベンチマークで95.15%の画像レベルのAU-ROCと92.93%のピクセルレベルのProが2Dと3Dのモダリティの特徴の補完能力とCPMFの有効性を示す。 コードはhttps://github.com/caoyunkang/CPMFで入手できる。

Point cloud (PCD) anomaly detection steadily emerges as a promising research area. This study aims to improve PCD anomaly detection performance by combining handcrafted PCD descriptions with powerful pre-trained 2D neural networks. To this end, this study proposes Complementary Pseudo Multimodal Feature (CPMF) that incorporates local geometrical information in 3D modality using handcrafted PCD descriptors and global semantic information in the generated pseudo 2D modality using pre-trained 2D neural networks. For global semantics extraction, CPMF projects the origin PCD into a pseudo 2D modality containing multi-view images. These images are delivered to pre-trained 2D neural networks for informative 2D modality feature extraction. The 3D and 2D modality features are aggregated to obtain the CPMF for PCD anomaly detection. Extensive experiments demonstrate the complementary capacity between 2D and 3D modality features and the effectiveness of CPMF, with 95.15% image-level AU-ROC and 92.93% pixel-level PRO on the MVTec3D benchmark. Code is available on https://github.com/caoyunkang/CPMF.
翻訳日:2023-03-24 14:37:07 公開日:2023-03-23
# VADER:ビデオアライメントのディフレクションと検索

VADER: Video Alignment Differencing and Retrieval ( http://arxiv.org/abs/2303.13193v1 )

ライセンス: Link先を確認
Alexander Black, Simon Jenni, Tu Bui, Md. Mehrab Tanjim, Stefano Petrangeli, Ritwik Sinha, Viswanathan Swaminathan, John Collomosse(参考訳) 操作されたビデオを介して拡散する誤情報に対抗するために,時空間マッチング,アライメント,および変更要約手法であるVADERを提案する。 VADERは、ロバストなビジュアル記述子と適応的にチャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオ断片を候補ビデオにマッチし、粗く整列する。 トランスベースのアライメントモジュールは、マッチしたビデオ内のクエリフラグメントの時間的ローカライズを洗練する。 時空間コンパレータモジュールは、コンテンツの非編集的変化に起因する残余の時間的不一致やアーティファクトによる変化に不変な、アライメントされたコンテンツ間の操作領域を特定する。 信頼性のあるソースにロバストにマッチしたビデオは、ビデオの証明に基づいて結論を導き、遭遇したコンテンツに関する情報信頼決定を可能にする。

We propose VADER, a spatio-temporal matching, alignment, and change summarization method to help fight misinformation spread via manipulated videos. VADER matches and coarsely aligns partial video fragments to candidate videos using a robust visual descriptor and scalable search over adaptively chunked video content. A transformer-based alignment module then refines the temporal localization of the query fragment within the matched video. A space-time comparator module identifies regions of manipulation between aligned content, invariant to any changes due to any residual temporal misalignments or artifacts arising from non-editorial changes of the content. Robustly matching video to a trusted source enables conclusions to be drawn on video provenance, enabling informed trust decisions on content encountered.
翻訳日:2023-03-24 14:36:49 公開日:2023-03-23
# ディスプレイ価格による広告オークションのメカニズム設計

Mechanism Design for Ad Auctions with Display Prices ( http://arxiv.org/abs/2303.13192v1 )

ライセンス: Link先を確認
Bin Li, Yahui Lei(参考訳) 多くのアプリケーションでは、広告は価格と共に表示され、類似製品やサービス間で直接比較される。 価格表示機能は消費者の決定に影響を与えるだけでなく、広告主の入札行動にも影響を及ぼす。 本稿では,商品のコストと価格の両方を提示するよう広告主に依頼する機構設計の観点から,ディスプレイ価格による広告オークションについて検討する。 我々は,すべてのインセンティブ互換オークションとディスプレイ価格のキャラクタリゼーションを提供し,これを用いて2つのシナリオでオークションをデザインする。 前者のシナリオでは、表示価格が不均一に決定される。 この設定のために、価格プロファイルの実現のために、福祉最大化と収益最大化のオークションを導出する。 後者では、広告主は自分の利益のためにディスプレイ価格を戦略化することができる。 シナリオ内の配分政策の2つのファミリーを調査し、それに応じて均衡価格を同定する。 以上の結果から,ディスプレイ価格は広告オークションのデザインに影響を及ぼし,プラットフォームは広告配信性能を最適化するためにこのような情報を活用することができることがわかった。

In many applications, ads are displayed together with the prices, so as to provide a direct comparison among similar products or services. The price-displaying feature not only influences the consumers' decisions, but also affects the advertisers' bidding behaviors. In this paper, we study ad auctions with display prices from the perspective of mechanism design, in which advertisers are asked to submit both the costs and prices of their products. We provide a characterization for all incentive compatible auctions with display prices, and use it to design auctions under two scenarios. In the former scenario, the display prices are assumed to be exogenously determined. For this setting, we derive the welfare-maximizing and revenue-maximizing auctions for any realization of the price profile. In the latter, advertisers are allowed to strategize display prices in their own interests. We investigate two families of allocation policies within the scenario and identify the equilibrium prices accordingly. Our results reveal that the display prices do affect the design of ad auctions and the platform can leverage such information to optimize the performance of ad delivery.
翻訳日:2023-03-24 14:36:30 公開日:2023-03-23
# 拡張された高ユーティリティパターンマイニング: プログラミングベースのフレームワークとアプリケーション

Extended High Utility Pattern Mining: An Answer Set Programming Based Framework and Applications ( http://arxiv.org/abs/2303.13191v1 )

ライセンス: Link先を確認
Francesco Cauteruccio and Giorgio Terracina(参考訳) データセットから関連するパターンのセットを検出することは、データマイニングにおいて重要な課題である。 パターンの関連性(文献ではユーティリティとも呼ばれる)は主観的な尺度であり、非常に異なる観点から実際に評価することができる。 応答セットプログラミング(asp)のようなルールベースの言語は、制約の形でパターンの有用性を評価するためにユーザが提供する基準を特定するのに適しているように思える。 本稿では,HUPM(High Utility Pattern Mining)の概念を拡張し,特に,従来の文献では考慮されていない実用基準の新しいクラスを実現するための新しいフレームワークを提案する。 また、最近のASPの外部機能拡張が、新しいフレームワークの高速かつ効果的なエンコーディングとテストをサポートすることを示す。 提案手法をビルディングブロックとして活用し,COVID-19患者に対するICUの入院を予測するためのイノベーティブな手法を定義する。 最後に,提案手法の有効性を定量的・定性的視点から実証する実験を行った。 論理プログラミング(tplp)の理論と実践に関する考察

Detecting sets of relevant patterns from a given dataset is an important challenge in data mining. The relevance of a pattern, also called utility in the literature, is a subjective measure and can be actually assessed from very different points of view. Rule-based languages like Answer Set Programming (ASP) seem well suited for specifying user-provided criteria to assess pattern utility in a form of constraints; moreover, declarativity of ASP allows for a very easy switch between several criteria in order to analyze the dataset from different points of view. In this paper, we make steps toward extending the notion of High Utility Pattern Mining (HUPM); in particular we introduce a new framework that allows for new classes of utility criteria not considered in the previous literature. We also show how recent extensions of ASP with external functions can support a fast and effective encoding and testing of the new framework. To demonstrate the potential of the proposed framework, we exploit it as a building block for the definition of an innovative method for predicting ICU admission for COVID-19 patients. Finally, an extensive experimental activity demonstrates both from a quantitative and a qualitative point of view the effectiveness of the proposed approach. Under consideration in Theory and Practice of Logic Programming (TPLP)
翻訳日:2023-03-24 14:36:15 公開日:2023-03-23
# マーチングプリミティブ:符号付き距離関数からの形状の抽象化

Marching-Primitives: Shape Abstraction from Signed Distance Function ( http://arxiv.org/abs/2303.13190v1 )

ライセンス: Link先を確認
Weixiao Liu, Yuwei Wu, Sipu Ruan, Gregory S. Chirikjian(参考訳) 基本的な幾何学的プリミティブを持つ複雑なオブジェクトを表現することは、長い間コンピュータビジョンのトピックであった。 プリミティブベースの表現は、物理シミュレーション、衝突チェック、ロボット操作などの高レベルなタスクにおいてコンパクトさと計算効率の利点を持つ。 符号付き距離関数(SDF)から多角形メッシュを抽出する従来の手法とは異なり,本論文ではマーチング・プリミティブと呼ばれる新しい手法を提案する。 本手法は, 符号距離の異なるレベルを走行しながら, ボクセルの接続性を分析することによって, 幾何的プリミティブを反復的に成長させる。 有効に連結された各利害関係は,確率的に抽出可能なボクセルの範囲内を行進し,基礎となる局所幾何学を捉えるための原始的パラメータを同時に解く。 本手法は合成データと実世界データの両方での性能を評価する。 その結果,提案手法は精度の面では最先端を上回っており,カテゴリやスケールで直接一般化できることがわかった。 コードはhttps://github.com/ChirikjianLab/ Marching-Primitives.gitで公開されている。

Representing complex objects with basic geometric primitives has long been a topic in computer vision. Primitive-based representations have the merits of compactness and computational efficiency in higher-level tasks such as physics simulation, collision checking, and robotic manipulation. Unlike previous works which extract polygonal meshes from a signed distance function (SDF), in this paper, we present a novel method, named Marching-Primitives, to obtain a primitive-based abstraction directly from an SDF. Our method grows geometric primitives (such as superquadrics) iteratively by analyzing the connectivity of voxels while marching at different levels of signed distance. For each valid connected volume of interest, we march on the scope of voxels from which a primitive is able to be extracted in a probabilistic sense and simultaneously solve for the parameters of the primitive to capture the underlying local geometry. We evaluate the performance of our method on both synthetic and real-world datasets. The results show that the proposed method outperforms the state-of-the-art in terms of accuracy, and is directly generalizable among different categories and scales. The code is open-sourced at https://github.com/ChirikjianLab/Marching-Primitives.git.
翻訳日:2023-03-24 14:35:54 公開日:2023-03-23
# ScanERU: 身体的参照理解に基づくインタラクティブな3次元視覚グラウンド

ScanERU: Interactive 3D Visual Grounding based on Embodied Reference Understanding ( http://arxiv.org/abs/2303.13186v1 )

ライセンス: Link先を確認
Ziyang Lu, Yunqiang Pei, Guoqing Wang, Yang Yang, Zheng Wang, Heng Tao Shen(参考訳) 3dポイントクラウドとして表現された3dシーンの特定の領域に自然言語記述をリンクすることを目的とした3dビジュアルグラウンドは、人間とロボットの相互作用にとって非常に基本的なタスクである。 認識エラーは全体的な精度に大きな影響を与え、AIシステムの動作を劣化させる。 これらの効果にもかかわらず, 既存の手法では, 類似した外観を持つ複数の隣接物体の認識精度の低下に悩まされており, 直感的に人間とロボットの相互作用を導入し, 視覚的グラウンドニングの開発を容易にする。 具体的には、Embodied Reference Understanding (ERU)と呼ばれる新しいタスクが最初に設計されている。 次に、このアイデアの有効性を評価するために、ScanERUと呼ばれる新しいデータセットを構築します。 既存のデータセットと違い、私たちのscaneruは、テキスト、現実世界のビジュアル、合成のジェストラル情報との半合成シーン統合を初めてカバーした。 また,注意機構と人体運動に基づくヒューリスティックな枠組みを定式化し,eruの研究を啓蒙する。 実験により,提案手法の優位性,特に複数の同一物体の認識について検証した。 コードとデータセットは公開される準備ができています。

Aiming to link natural language descriptions to specific regions in a 3D scene represented as 3D point clouds, 3D visual grounding is a very fundamental task for human-robot interaction. The recognition errors can significantly impact the overall accuracy and then degrade the operation of AI systems. Despite their effectiveness, existing methods suffer from the difficulty of low recognition accuracy in cases of multiple adjacent objects with similar appearances.To address this issue, this work intuitively introduces the human-robot interaction as a cue to facilitate the development of 3D visual grounding. Specifically, a new task termed Embodied Reference Understanding (ERU) is first designed for this concern. Then a new dataset called ScanERU is constructed to evaluate the effectiveness of this idea. Different from existing datasets, our ScanERU is the first to cover semi-synthetic scene integration with textual, real-world visual, and synthetic gestural information. Additionally, this paper formulates a heuristic framework based on attention mechanisms and human body movements to enlighten the research of ERU. Experimental results demonstrate the superiority of the proposed method, especially in the recognition of multiple identical objects. Our codes and dataset are ready to be available publicly.
翻訳日:2023-03-24 14:35:33 公開日:2023-03-23
# オープンワールドにおけるきめ細かいシーングラフ生成のための視覚入力言語モデル

Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World ( http://arxiv.org/abs/2303.13233v1 )

ライセンス: Link先を確認
Qifan Yu, Juncheng Li, Yu Wu, Siliang Tang, Wei Ji, Yueting Zhuang(参考訳) scene graph generation (sgg) は視覚理解のために画像中の<subject, predicate, object>関係を抽出することを目的としている。 最近の研究はSGGを着実に進歩させてきたが、長い尾の分布の問題に悩まされており、尾の述語は訓練にコストがかかり、注釈付きデータが少ないため区別が難しい。 既存の再分散戦略は、事前のルールを通じてハドリングしようとするが、それでもさまざまなモデルやデータセットには拡張性がない、事前定義された条件に限定されている。 本稿では,多種多様な粒度の述語を低リソースで生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケート促進(CaCao)フレームワークを提案する。 提案したCaCaoはプラグ・アンド・プレイ方式で適用でき、既存のSGGを自動的に強化して長期化問題に取り組むことができる。 そこで本研究では,オープンワールドのシーングラフ生成手法であるEntangled cross-modal prompt approach for open-world predicate scene graph generation (Epic)を導入する。 3つのベンチマークデータセットの総合的な実験により、CaCaoはモデルに依存しない方法で複数のシーングラフ生成モデルの性能を一貫して向上させることが示された。 さらに,open-world predicate predictionの競合性能も達成している。

Scene Graph Generation (SGG) aims to extract <subject, predicate, object> relationships in images for vision understanding. Although recent works have made steady progress on SGG, they still suffer long-tail distribution issues that tail-predicates are more costly to train and hard to distinguish due to a small amount of annotated data compared to frequent predicates. Existing re-balancing strategies try to haddle it via prior rules but are still confined to pre-defined conditions, which are not scalable for various models and datasets. In this paper, we propose a Cross-modal prediCate boosting (CaCao) framework, where a visually-prompted language model is learned to generate diverse fine-grained predicates in a low-resource way. The proposed CaCao can be applied in a plug-and-play fashion and automatically strengthen existing SGG to tackle the long-tailed problem. Based on that, we further introduce a novel Entangled cross-modal prompt approach for open-world predicate scene graph generation (Epic), where models can generalize to unseen predicates in a zero-shot manner. Comprehensive experiments on three benchmark datasets show that CaCao consistently boosts the performance of multiple scene graph generation models in a model-agnostic way. Moreover, our Epic achieves competitive performance on open-world predicate prediction.
翻訳日:2023-03-24 14:29:09 公開日:2023-03-23
# リプシッツネットワークを用いた光リアリスティック3次元シーンスタイライゼーションのための変換放射場

Transforming Radiance Field with Lipschitz Network for Photorealistic 3D Scene Stylization ( http://arxiv.org/abs/2303.13232v1 )

ライセンス: Link先を確認
Zicheng Zhang, Yinglu Liu, Congying Han, Yingwei Pan, Tiande Guo, Ting Yao(参考訳) 近年の3次元シーン表現と新しいビュー合成の進歩は、NeRF(Neural Radiance Fields)の台頭を目撃している。 それでも、新しい視点から視覚的に一貫したフォトリアリスティックなスタイリングシーンを生成することを目的とした、フォトリアリスティックな3DシーンスタイリングタスクにNeRFを利用するのは簡単ではない。 nerfとフォトリアリスティックスタイルトランスファー(pst)を単純に結合すると、スタイリッシュなビュー合成のクロスビューの不整合と劣化が生じる。 リプシッツ写像を用いて事前訓練されたNeRFの外観表現を変換した場合、ソースビュー間の一貫性と光リアリズムは、シームレスに合成に符号化される。 このフレームワークは、任意の2D PSTメソッドをアップグレードし、Lipschitzマッピングを3Dシーン用に調整します。 技術的には、まず3dシーンを再現するためにラミアンスフィールドを事前訓練し、次に2d pstで各ビューのスタイルを2d pstでエミュレートし、プリトレーニングされた外観をスタイリッシュするリプシッツネットワークを学ぶ。 リプシッツ条件がニューラルネットワークの表現性に大きく影響することを考えると、再構築とスタイリゼーションのバランスをとるための適応正規化を考案する。 さらに、LipRFをコスト効率よく最適化するために、漸進的な勾配凝集戦略を導入する。 我々は,フォトリアリスティックな3dスタイライゼーションとオブジェクトの外観編集の両方において,liprfの高品質でロバストな性能を示すために,広範な実験を行った。

Recent advances in 3D scene representation and novel view synthesis have witnessed the rise of Neural Radiance Fields (NeRFs). Nevertheless, it is not trivial to exploit NeRF for the photorealistic 3D scene stylization task, which aims to generate visually consistent and photorealistic stylized scenes from novel views. Simply coupling NeRF with photorealistic style transfer (PST) will result in cross-view inconsistency and degradation of stylized view syntheses. Through a thorough analysis, we demonstrate that this non-trivial task can be simplified in a new light: When transforming the appearance representation of a pre-trained NeRF with Lipschitz mapping, the consistency and photorealism across source views will be seamlessly encoded into the syntheses. That motivates us to build a concise and flexible learning framework namely LipRF, which upgrades arbitrary 2D PST methods with Lipschitz mapping tailored for the 3D scene. Technically, LipRF first pre-trains a radiance field to reconstruct the 3D scene, and then emulates the style on each view by 2D PST as the prior to learn a Lipschitz network to stylize the pre-trained appearance. In view of that Lipschitz condition highly impacts the expressivity of the neural network, we devise an adaptive regularization to balance the reconstruction and stylization. A gradual gradient aggregation strategy is further introduced to optimize LipRF in a cost-efficient manner. We conduct extensive experiments to show the high quality and robust performance of LipRF on both photorealistic 3D stylization and object appearance editing.
翻訳日:2023-03-24 14:28:42 公開日:2023-03-23
# 最悪の場合のパフォーマンス保証を改善するためのニューラルネットワークトレーニングデータセットの強化

Enriching Neural Network Training Dataset to Improve Worst-Case Performance Guarantees ( http://arxiv.org/abs/2303.13228v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Spyros Chatzivasileiadis(参考訳) 機械学習アルゴリズム、特にニューラルネットワーク(NN)は、AC-Optimal Power Flow(AC-OPF)のような非線形関係をかなり正確に近似し、使用用にデプロイされた時に数桁のスピードアップを達成するための貴重なツールである。 電力システムの文献では、NNはトレーニングプロセスの前に生成される固定データセットで訓練されることが多い。 本稿では,トレーニング中のNNトレーニングデータセットの適応により,NN性能が向上し,最悪の場合の違反を大幅に低減できることを示す。 本稿では,重要なデータポイントを持つトレーニングデータセットを識別・強化し,最悪の場合の違反を低減し,最悪の場合のパフォーマンス保証を改善したニューラルネットワークを提供するアルゴリズムを提案する。 39バスから162バスまでの4つのテストパワーシステムにおいて,本アルゴリズムの性能を示す。

Machine learning algorithms, especially Neural Networks (NNs), are a valuable tool used to approximate non-linear relationships, like the AC-Optimal Power Flow (AC-OPF), with considerable accuracy -- and achieving a speedup of several orders of magnitude when deployed for use. Often in power systems literature, the NNs are trained with a fixed dataset generated prior to the training process. In this paper, we show that adapting the NN training dataset during training can improve the NN performance and substantially reduce its worst-case violations. This paper proposes an algorithm that identifies and enriches the training dataset with critical datapoints that reduce the worst-case violations and deliver a neural network with improved worst-case performance guarantees. We demonstrate the performance of our algorithm in four test power systems, ranging from 39-buses to 162-buses.
翻訳日:2023-03-24 14:28:11 公開日:2023-03-23
# 信頼感と自己監督型画像異常局所化

Confidence-Aware and Self-Supervised Image Anomaly Localisation ( http://arxiv.org/abs/2303.13227v1 )

ライセンス: Link先を確認
Johanna P. M\"uller, Matthew Baugh, Jeremy Tan, Mischa Dombrowski, Bernhard Kainz(参考訳) ユニバーサル異常検出は、マシンラーニングと医療画像解析において依然として難しい問題である。 例えば、疫学的な不確実性推定、自動エンコードモデル、あるいは自己監督的な方法で合成異常から、単一の規範的サンプルから期待される分布を学ぶことができる。 自己教師付き異常検出手法の性能は、未知のクラスからの例を用いて決定境界を形成する手法と比較しても劣っている。 しかし、異常露光法はしばしば未知の未知物を識別しない。 本稿では,特徴の局所性制約を緩める確率的推論の近似を支援する,自己教師付き単クラス学習戦略の改善について述べる。 ヒストグラム等化画像を用いた勾配のアップスケーリングは,最近提案された自己超越課題に有益であることを示す。 本手法は,複数のout-of-distribution (ood) 検出モデルに統合されており,本手法が様々なベンチマークデータセットで最先端技術を上回ることを示す。 ソースコードはカンファレンスの日までに公開される予定だ。

Universal anomaly detection still remains a challenging problem in machine learning and medical image analysis. It is possible to learn an expected distribution from a single class of normative samples, e.g., through epistemic uncertainty estimates, auto-encoding models, or from synthetic anomalies in a self-supervised way. The performance of self-supervised anomaly detection approaches is still inferior compared to methods that use examples from known unknown classes to shape the decision boundary. However, outlier exposure methods often do not identify unknown unknowns. Here we discuss an improved self-supervised single-class training strategy that supports the approximation of probabilistic inference with loosen feature locality constraints. We show that up-scaling of gradients with histogram-equalised images is beneficial for recently proposed self-supervision tasks. Our method is integrated into several out-of-distribution (OOD) detection models and we show evidence that our method outperforms the state-of-the-art on various benchmark datasets. Source code will be publicly available by the time of the conference.
翻訳日:2023-03-24 14:27:56 公開日:2023-03-23
# 不完全ラベルを用いた複数ラベル認識のための構造化セマンティック先行探索

Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels ( http://arxiv.org/abs/2303.13223v1 )

ライセンス: Link先を確認
Zixuan Ding, Ao Wang, Hui Chen, Qiang Zhang, Pengzhang Liu, Yongjun Bao, Weipeng Yan, Jungong Han(参考訳) 不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。 近年、視覚言語モデルである \ie, clip~\cite{radford2021clip} で画像とラベルの対応を探求し、アノテーション不足を補う研究が行われている。 有望なパフォーマンスにもかかわらず、彼らは一般にラベルとラベルの対応について価値ある事前を見落としている。 本稿では,semantic prior prompter によるラベル間対応の構造化された意味を導出することにより,不完全なラベルを持つmlrのラベル管理の欠如を解消することを推奨する。 次に、構造化されたセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティックス・ネットワーク(SCPNet)を提案する。 さらに,事前学習の促進を図るために,事前学習法が導入された。 ベンチマークデータセットの総合的な実験と解析により,提案手法が既存の手法を全データセットで大幅に上回っており,提案手法の有効性と優越性が実証されている。 私たちのコードはhttps://github.com/jameslahm/scpnetで利用可能です。

Multi-label recognition (MLR) with incomplete labels is very challenging. Recent works strive to explore the image-to-label correspondence in the vision-language model, \ie, CLIP~\cite{radford2021clip}, to compensate for insufficient annotations. In spite of promising performance, they generally overlook the valuable prior about the label-to-label correspondence. In this paper, we advocate remedying the deficiency of label supervision for the MLR with incomplete labels by deriving a structured semantic prior about the label-to-label correspondence via a semantic prior prompter. We then present a novel Semantic Correspondence Prompt Network (SCPNet), which can thoroughly explore the structured semantic prior. A Prior-Enhanced Self-Supervised Learning method is further introduced to enhance the use of the prior. Comprehensive experiments and analyses on several widely used benchmark datasets show that our method significantly outperforms existing methods on all datasets, well demonstrating the effectiveness and the superiority of our method. Our code will be available at https://github.com/jameslahm/SCPNet.
翻訳日:2023-03-24 14:27:39 公開日:2023-03-23
# Few-shot Object Detection における合成データのパワーの探索

Explore the Power of Synthetic Data on Few-shot Object Detection ( http://arxiv.org/abs/2303.13221v1 )

ライセンス: Link先を確認
Shaobo Lin, Kun Wang, Xingyu Zeng, Rui Zhao(参考訳) Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。 少数のトレーニングサンプルではFSODモデルの性能が制限されている。 近年のテキスト・画像生成モデルは,高品質な画像を生成する上で有望な結果を示している。 これらの合成画像がいかにfsodタスクに適用可能かはまだ未調査のままである。 この研究は、最先端のテキスト対画像生成装置から生成された合成画像がfsodタスクにどのように役立つかを広範囲に研究している。 我々は,(1)fsodのための合成データの使い方という2つの視点に注目した。 2)大規模合成データセットから代表サンプルを見つける方法 合成データを使用するためのコピーペーストベースのパイプラインを設計する。 具体的には、元の生成した画像に塩分オブジェクト検出を施し、塩分マップに基づいて主オブジェクトの切り取りに最小の封止ボックスを使用する。 その後、切り取られたオブジェクトは、ベースデータセットからのイメージにランダムにペーストされる。 また,テキスト対画像生成装置の入力テキストと使用する合成画像数の影響について検討した。 代表的な合成訓練データセットを構築するために,サンプルベースおよびクラスタベースによる選択画像の多様性を最大化する。 しかし, FSODにおける新規カテゴリーの偽陽性率(FP)の深刻な問題は, 合成データを用いては解決できない。 ゼロショット認識モデルであるCLIPをFSODパイプラインに統合し、検出したオブジェクトと予測されたカテゴリのテキストの類似度スコアのしきい値を定義することにより、FPの90%をフィルタすることができる。 PASCAL VOC と MS COCO の大規模実験により,本手法の有効性が検証された。

Few-shot object detection (FSOD) aims to expand an object detector for novel categories given only a few instances for training. The few training samples restrict the performance of FSOD model. Recent text-to-image generation models have shown promising results in generating high-quality images. How applicable these synthetic images are for FSOD tasks remains under-explored. This work extensively studies how synthetic images generated from state-of-the-art text-to-image generators benefit FSOD tasks. We focus on two perspectives: (1) How to use synthetic data for FSOD? (2) How to find representative samples from the large-scale synthetic dataset? We design a copy-paste-based pipeline for using synthetic data. Specifically, saliency object detection is applied to the original generated image, and the minimum enclosing box is used for cropping the main object based on the saliency map. After that, the cropped object is randomly pasted on the image, which comes from the base dataset. We also study the influence of the input text of text-to-image generator and the number of synthetic images used. To construct a representative synthetic training dataset, we maximize the diversity of the selected images via a sample-based and cluster-based method. However, the severe problem of high false positives (FP) ratio of novel categories in FSOD can not be solved by using synthetic data. We propose integrating CLIP, a zero-shot recognition model, into the FSOD pipeline, which can filter 90% of FP by defining a threshold for the similarity score between the detected object and the text of the predicted category. Extensive experiments on PASCAL VOC and MS COCO validate the effectiveness of our method, in which performance gain is up to 21.9% compared to the few-shot baseline.
翻訳日:2023-03-24 14:27:18 公開日:2023-03-23
# アダプタを用いたパラメータ効率のよいスパースレトリバーとリカッタ

Parameter-Efficient Sparse Retrievers and Rerankers using Adapters ( http://arxiv.org/abs/2303.13220v1 )

ライセンス: Link先を確認
Vaishali Pal, Carlos Lassance, Herv\'e D\'ejean, St\'ephane Clinchant(参考訳) アダプタを用いたパラメータ効率の高い転送学習は、完全な微調整の代わりに自然言語処理(nlp)で研究されている。 アダプタはメモリ効率が高く、トランスフォーマー層の間に付加される小さなボトルネック層をトレーニングし、大きな事前学習言語モデル(PLM)を凍結させることで、下流タスクとうまく対応できる。 NLPで有望な結果を示すにもかかわらず、これらの手法はInformation Retrievalでは未探索である。 従来の研究は高密度検索や多言語検索のシナリオでしか実験されていないが、本論文では、IRにおけるアダプタの使用に関する画像を完成させることを目的としている。 まず,スパースレトリバーであるSPLADEのアダプタについて検討する。このアダプタは,ファインタニングによって達成される効率と有効性を維持できるだけでなく,メモリ効率が高く,訓練にも軽量である。 我々は、Adapters-SPLADEがトレーニングパラメータの26%だけを最適化するだけでなく、IRベンチマークデータセット上で、完全に微調整された既存のパラメータ効率の高いIRモデルよりも優れていることを観察した。 次に、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応に対処する。 最後に,リランクと第1ステージランクの知識共有も検討する。 総じて、我々はニューラルIR用アダプタの試験を完了した。

Parameter-Efficient transfer learning with Adapters have been studied in Natural Language Processing (NLP) as an alternative to full fine-tuning. Adapters are memory-efficient and scale well with downstream tasks by training small bottle-neck layers added between transformer layers while keeping the large pretrained language model (PLMs) frozen. In spite of showing promising results in NLP, these methods are under-explored in Information Retrieval. While previous studies have only experimented with dense retriever or in a cross lingual retrieval scenario, in this paper we aim to complete the picture on the use of adapters in IR. First, we study adapters for SPLADE, a sparse retriever, for which adapters not only retain the efficiency and effectiveness otherwise achieved by finetuning, but are memory-efficient and orders of magnitude lighter to train. We observe that Adapters-SPLADE not only optimizes just 2\% of training parameters, but outperforms fully fine-tuned counterpart and existing parameter-efficient dense IR models on IR benchmark datasets. Secondly, we address domain adaptation of neural retrieval thanks to adapters on cross-domain BEIR datasets and TripClick. Finally, we also consider knowledge sharing between rerankers and first stage rankers. Overall, our study complete the examination of adapters for neural IR
翻訳日:2023-03-24 14:26:52 公開日:2023-03-23
# 大規模言語モデルのためのフェアネスガイド付き少数ショットプロンプト

Fairness-guided Few-shot Prompting for Large Language Models ( http://arxiv.org/abs/2303.13217v1 )

ライセンス: Link先を確認
Huan Ma, Changqing Zhang, Yatao Bian, Lemao Liu, Zhirui Zhang, Peilin Zhao, Shu Zhang, Huazhu Fu, Qinghua Hu, Bingzhe Wu(参考訳) 大規模な言語モデルでは、いくつかの入力出力例によって構築されたプロンプトを条件にすることで、これらのモデルを多数の下流タスクに直接適用することが可能である。 しかしながら、以前の研究では、トレーニング例、サンプル順序、プロンプト形式の変化によって、コンテキスト内学習は高い不安定性に苦しむことが示されている。 したがって、適切なプロンプトの構築は、文脈内学習の性能向上に不可欠である。 本稿では,予測バイアスの観点からこの問題を再検討する。 具体的には,ラベルや属性に対する固定プロンプトの予測バイアスを評価するための指標を提案する。 そして、バイアスの高いプロンプトが常に不十分な予測品質につながることを実証的に示す。 そこで本研究では,文脈内学習の性能向上のための最善のプロンプトを同定するために,欲望探索に基づく新しい探索戦略を提案する。 我々は,gpt-3のような最先端の主流モデルを用いて,様々な下流タスクで包括的な実験を行う。 提案手法は,テキスト内学習性能を効果的かつ解釈可能な方法で向上させることができることを示す。

Large language models have demonstrated surprising ability to perform in-context learning, i.e., these models can be directly applied to solve numerous downstream tasks by conditioning on a prompt constructed by a few input-output examples. However, prior research has shown that in-context learning can suffer from high instability due to variations in training examples, example order, and prompt formats. Therefore, the construction of an appropriate prompt is essential for improving the performance of in-context learning. In this paper, we revisit this problem from the view of predictive bias. Specifically, we introduce a metric to evaluate the predictive bias of a fixed prompt against labels or a given attributes. Then we empirically show that prompts with higher bias always lead to unsatisfactory predictive quality. Based on this observation, we propose a novel search strategy based on the greedy search to identify the near-optimal prompt for improving the performance of in-context learning. We perform comprehensive experiments with state-of-the-art mainstream models such as GPT-3 on various downstream tasks. Our results indicate that our method can enhance the model's in-context learning performance in an effective and interpretable manner.
翻訳日:2023-03-24 14:26:30 公開日:2023-03-23
# ai工学の実践に関する事例研究:自律的株式取引システムの開発

A Case Study on AI Engineering Practices: Developing an Autonomous Stock Trading System ( http://arxiv.org/abs/2303.13216v1 )

ライセンス: Link先を確認
Marcel Grote, Justus Bogner(参考訳) 現在、多くのシステムは複雑な問題を解決するために人工知能(AI)を使用している。 これはしばしばシステムの有効性を高めるが、プロダクション対応のAIベースのシステムの開発は難しい作業である。 したがって、システムの品質を確保し、開発プロセスを改善するためには、しっかりとしたAIエンジニアリングプラクティスが必要である。 AIベースのシステムを開発するためのいくつかのプラクティスがすでに提案されているが、これらのプラクティスを適用するための詳細な実践経験は稀である。 本稿では,このような事例研究,すなわち,機械学習機能を利用して株式に投資する自律的株式取引システムの開発を通じて,このギャップに対処することを目的とする。 文献から10のaiエンジニアリングプラクティスを選択し,その適用性と有効性に関するエビデンスを収集する目的で,開発中に体系的に適用した。 構造化フィールドノートを使用して、経験を文書化した。 さらに,開発中に発生した課題の文書化や,それを克服するために適用したソリューションにもフィールドノートを使用しました。 その後,収集したフィールドノートを分析し,各プラクティスが開発をどのように改善したかを評価した。 最後に、我々の証拠を既存の文献と比較した。 ほとんどの適用プラクティスは、さまざまな範囲でシステムを改善しましたが、大きな課題をすべて克服することができました。 質的な結果は、10のAIエンジニアリングプラクティスに関する詳細な説明と、プロジェクトに関連する課題とソリューションを提供する。 ですから私たちの経験は,この分野における新たなエビデンスを豊かにしています。

Today, many systems use artificial intelligence (AI) to solve complex problems. While this often increases system effectiveness, developing a production-ready AI-based system is a difficult task. Thus, solid AI engineering practices are required to ensure the quality of the resulting system and to improve the development process. While several practices have already been proposed for the development of AI-based systems, detailed practical experiences of applying these practices are rare. In this paper, we aim to address this gap by collecting such experiences during a case study, namely the development of an autonomous stock trading system that uses machine learning functionality to invest in stocks. We selected 10 AI engineering practices from the literature and systematically applied them during development, with the goal to collect evidence about their applicability and effectiveness. Using structured field notes, we documented our experiences. Furthermore, we also used field notes to document challenges that occurred during the development, and the solutions we applied to overcome them. Afterwards, we analyzed the collected field notes, and evaluated how each practice improved the development. Lastly, we compared our evidence with existing literature. Most applied practices improved our system, albeit to varying extent, and we were able to overcome all major challenges. The qualitative results provide detailed accounts about 10 AI engineering practices, as well as challenges and solutions associated with such a project. Our experiences therefore enrich the emerging body of evidence in this field, which may be especially helpful for practitioner teams new to AI engineering.
翻訳日:2023-03-24 14:26:13 公開日:2023-03-23
# チャネルワイズ変換による特徴蒸留のためのシンプルで汎用的なフレームワーク

A Simple and Generic Framework for Feature Distillation via Channel-wise Transformation ( http://arxiv.org/abs/2303.13212v1 )

ライセンス: Link先を確認
Ziwei Liu, Yongtao Wang, Xiaojie Chu(参考訳) 知識蒸留は、大きな教師モデルから小さな学生モデルに模倣して知識を伝達する一般的な手法である。 しかし,教師と生徒間で特徴マップを直接調整することで,生徒に過度に厳格な制約を課すことができるため,学生モデルの性能は低下する。 上記の特徴の不一致問題を軽減するため,既存の研究は教師と生徒の特徴マップをピクセルワイドな変換で空間的に整列させることに重点を置いている。 本稿では,教師と生徒の特徴マップをチャネル次元に沿って整列させることが,特徴的不一致問題への対処に有効であることを新たに発見する。 具体的には,教師モデルと教師モデルの特徴を整合させるために,学習可能な非線形チャネル回り変換を提案する。 そこで,我々はさらに,蒸留損失とタスク固有損失のバランスをとるためのハイパーパラメータを1つだけ備えた,シンプルで汎用的な機能蒸留フレームワークを提案する。 Extensive experimental results show that our method achieves significant performance improvements in various computer vision tasks including image classification (+3.28% top-1 accuracy for MobileNetV1 on ImageNet-1K), object detection (+3.9% bbox mAP for ResNet50-based Faster-RCNN on MS COCO), instance segmentation (+2.8% Mask mAP for ResNet50-based Mask-RCNN), and semantic segmentation (+4.66% mIoU for ResNet18-based PSPNet in semantic segmentation on Cityscapes), which demonstrates the effectiveness and the versatility of the proposed method. コードは公開される予定だ。

Knowledge distillation is a popular technique for transferring the knowledge from a large teacher model to a smaller student model by mimicking. However, distillation by directly aligning the feature maps between teacher and student may enforce overly strict constraints on the student thus degrade the performance of the student model. To alleviate the above feature misalignment issue, existing works mainly focus on spatially aligning the feature maps of the teacher and the student, with pixel-wise transformation. In this paper, we newly find that aligning the feature maps between teacher and student along the channel-wise dimension is also effective for addressing the feature misalignment issue. Specifically, we propose a learnable nonlinear channel-wise transformation to align the features of the student and the teacher model. Based on it, we further propose a simple and generic framework for feature distillation, with only one hyper-parameter to balance the distillation loss and the task specific loss. Extensive experimental results show that our method achieves significant performance improvements in various computer vision tasks including image classification (+3.28% top-1 accuracy for MobileNetV1 on ImageNet-1K), object detection (+3.9% bbox mAP for ResNet50-based Faster-RCNN on MS COCO), instance segmentation (+2.8% Mask mAP for ResNet50-based Mask-RCNN), and semantic segmentation (+4.66% mIoU for ResNet18-based PSPNet in semantic segmentation on Cityscapes), which demonstrates the effectiveness and the versatility of the proposed method. The code will be made publicly available.
翻訳日:2023-03-24 14:25:51 公開日:2023-03-23
# Disguise without Disruption: 実用性を維持する顔認識

Disguise without Disruption: Utility-Preserving Face De-Identification ( http://arxiv.org/abs/2303.13269v1 )

ライセンス: Link先を確認
Zikui Cai, Zhongpai Gao, Benjamin Planche, Meng Zheng, Terrence Chen, M. Salman Asif, Ziyan Wu(参考訳) カメラやスマートセンサーの普及に伴い、人類は指数的な速度でデータを生成している。 このトロブ情報へのアクセスは、しばしばまだ理解されていないユースケース(例えば医療現場におけるAI)をカバーすることで、新しい世代のディープラーニングツールに役立てることができる。 しかし、熱心なデータ科学者はまず、これらの未処理データセットに存在する個人のプライバシーを満足する保証を提供するべきである。 これは顔を描いた画像やビデオにとって特に重要であり、生体情報はほとんどの識別方法の標的となっている。 このようなイメージを識別する様々な方法が提案されているが、下流のタスクに関係のある他の非識別の顔属性を悪用することが多い。 本稿では,変化したデータのユーザビリティを確保しつつ,顔画像をシームレスに識別する新しいアルゴリズムであるDisguiseを提案する。 先行技術とは異なり、ソリューションはディファレンシャルプライバシとアンサンブル学習研究ドメインの両方に基礎を置いている。 提案手法は,難読化と非可逆性を最大化するために変動機構によって合成され,表現されたアイデンティティを偽のものと抽出・スワップする。 提案手法を複数のデータセット上で広範囲に評価し,先行技術w.r.t.の様々な下流タスクよりも高い非識別率と一貫性を示す。

With the increasing ubiquity of cameras and smart sensors, humanity is generating data at an exponential rate. Access to this trove of information, often covering yet-underrepresented use-cases (e.g., AI in medical settings) could fuel a new generation of deep-learning tools. However, eager data scientists should first provide satisfying guarantees w.r.t. the privacy of individuals present in these untapped datasets. This is especially important for images or videos depicting faces, as their biometric information is the target of most identification methods. While a variety of solutions have been proposed to de-identify such images, they often corrupt other non-identifying facial attributes that would be relevant for downstream tasks. In this paper, we propose Disguise, a novel algorithm to seamlessly de-identify facial images while ensuring the usability of the altered data. Unlike prior arts, we ground our solution in both differential privacy and ensemble-learning research domains. Our method extracts and swaps depicted identities with fake ones, synthesized via variational mechanisms to maximize obfuscation and non-invertibility; while leveraging the supervision from a mixture-of-experts to disentangle and preserve other utility attributes. We extensively evaluate our method on multiple datasets, demonstrating higher de-identification rate and superior consistency than prior art w.r.t. various downstream tasks.
翻訳日:2023-03-24 14:19:50 公開日:2023-03-23
# 双極子ボース・アインシュタイン凝縮体の渦

Vortices in dipolar Bose-Einstein condensates ( http://arxiv.org/abs/2303.13263v1 )

ライセンス: Link先を確認
Thomas Bland and Giacomo Lamporesi and Manfred J. Mark and Francesca Ferlaino(参考訳) 量子化された渦は超流動の要点であり、新しい超流動系で観測可能な最初の特徴としてしばしば求められている。 ボース・アインシュタイン凝縮体における渦の最近の実験的観察(第18報, 1453-1458(2022))に続いて, 平均場外効果が安定に不可欠である3次元支配双極系における渦特性を徹底的に研究し, トラップ形状と磁場傾斜角の相互作用について検討した。

Quantized vortices are the hallmark of superfluidity, and are often sought out as the first observable feature in new superfluid systems. Following the recent experimental observation of vortices in Bose-Einstein condensates comprised of atoms with inherent long-range dipole-dipole interactions [Nat. Phys. 18, 1453-1458 (2022)], we thoroughly investigate vortex properties in the three-dimensional dominantly dipolar regime, where beyond-mean-field effects are crucial for stability, and investigate the interplay between trap geometry and magnetic field tilt angle.
翻訳日:2023-03-24 14:19:27 公開日:2023-03-23
# リニアアクティベーション機能を有するリカレントニューラルネットワークにおけるノイズの影響

Noise impact on recurrent neural network with linear activation function ( http://arxiv.org/abs/2303.13262v1 )

ライセンス: Link先を確認
V.M. Moskvitin, N. Semenova(参考訳) 近年、ニューラルネットワークの分野では、ニューロンとそれらの接続が物理的に実現されるハードウェアの実装に興味を持つ研究者がますます増えている。 ANNの物理的実装は、ノイズの影響を根本的に変える。 ハードウェア ANN の場合、様々な特性を持つ内部ノイズ源が多数存在する。 本研究の目的は,エコー状態ネットワーク(esn)の例に基づく再帰的annの内部雑音伝搬の特異性について検討し,これらのノイズを抑制する方法を明らかにし,ある種の雑音に対するネットワークの安定性を正当化することである。 本稿では,無相関な加法的および乗法的白色ガウス雑音の存在下でのESNの分析を行う。 本稿では,傾斜係数が異なる線形活性化機能を有する人工ニューロンについて考察する。 1つのノイズニューロンのみを研究することから、入力信号とメモリ特性がESN内のノイズの蓄積にどのように影響するかを考えることで、問題を複雑化する。 また,結合行列の主タイプが雑音の蓄積に与える影響についても検討した。 したがって、そのような行列として、一様行列と「ブルーリング」係数と呼ばれる係数の異なる対角行列を取る。 ESN出力信号の分散と信号-雑音比の一般的な見方は1つのニューロンに類似していることが判明した。 ノイズは、大きな"ブルーリング"係数を持つ対角的な貯水池接続行列を持つESNでは蓄積されない。 特に非相関乗法ノイズが問題となる。

In recent years, more and more researchers in the field of neural networks are interested in creating hardware implementations where neurons and the connection between them are realized physically. The physical implementation of ANN fundamentally changes the features of noise influence. In the case hardware ANNs, there are many internal sources of noise with different properties. The purpose of this paper is to study the peculiarities of internal noise propagation in recurrent ANN on the example of echo state network (ESN), to reveal ways to suppress such noises and to justify the stability of networks to some types of noises. In this paper we analyse ESN in presence of uncorrelated additive and multiplicative white Gaussian noise. Here we consider the case when artificial neurons have linear activation function with different slope coefficients. Starting from studying only one noisy neuron we complicate the problem by considering how the input signal and the memory property affect the accumulation of noise in ESN. In addition, we consider the influence of the main types of coupling matrices on the accumulation of noise. So, as such matrices, we take a uniform matrix and a diagonal-like matrices with different coefficients called "blurring" coefficient. We have found that the general view of variance and signal-to-noise ratio of ESN output signal is similar to only one neuron. The noise is less accumulated in ESN with diagonal reservoir connection matrix with large "blurring" coefficient. Especially it concerns uncorrelated multiplicative noise.
翻訳日:2023-03-24 14:19:15 公開日:2023-03-23
# データセットレベルアプリケーションのためのBag-of-Prototypes表現

A Bag-of-Prototypes Representation for Dataset-Level Applications ( http://arxiv.org/abs/2303.13251v1 )

ライセンス: Link先を確認
Weijie Tu, Weijian Deng, Tom Gedeon and Liang Zheng(参考訳) 本研究は,2つのデータセットレベルのタスクに対するデータセットベクトル化について検討する。 前者はトレーニングセットが対象ドメインにどの程度適しているかを測定し、後者はテストセットが学習モデルにどの程度適しているかを研究する。 2つのタスクの中心は、データセット間の基盤となる関係を測定することである。 これにより、データセットベクトル間の距離がデータセットとデータセットの類似性を反映できるように、可能な限り多くの識別データセット情報を保存できる望ましいデータセットベクトル化スキームが必要である。 そこで本研究では,パッチ記述子からなるイメージレベルバッグを,セマンティックプロトタイプからなるデータセットレベルバッグに拡張する,プロトタイプのバッグ(BoP)データセット表現を提案する。 具体的には、参照データセットからクラスタ化されたKプロトタイプからなるコードブックを開発する。 符号化されるデータセットが与えられると、その画像の特徴をコードブック内のあるプロトタイプに定量化し、k次元のヒストグラムを得る。 データセットラベルへのアクセスを前提とせずに、BoP表現はデータセットの意味分布の豊富な特徴を提供する。 さらに、データセット間の類似度を測定するため、BoP表現はJensen-Shannon分散とよく協力する。 非常に単純ではあるが、BoPは2つのデータセットレベルのタスクに対する一連のベンチマークにおける既存の表現に対して、常に優位性を示している。

This work investigates dataset vectorization for two dataset-level tasks: assessing training set suitability and test set difficulty. The former measures how suitable a training set is for a target domain, while the latter studies how challenging a test set is for a learned model. Central to the two tasks is measuring the underlying relationship between datasets. This needs a desirable dataset vectorization scheme, which should preserve as much discriminative dataset information as possible so that the distance between the resulting dataset vectors can reflect dataset-to-dataset similarity. To this end, we propose a bag-of-prototypes (BoP) dataset representation that extends the image-level bag consisting of patch descriptors to dataset-level bag consisting of semantic prototypes. Specifically, we develop a codebook consisting of K prototypes clustered from a reference dataset. Given a dataset to be encoded, we quantize each of its image features to a certain prototype in the codebook and obtain a K-dimensional histogram. Without assuming access to dataset labels, the BoP representation provides a rich characterization of the dataset semantic distribution. Furthermore, BoP representations cooperate well with Jensen-Shannon divergence for measuring dataset-to-dataset similarity. Although very simple, BoP consistently shows its advantage over existing representations on a series of benchmarks for two dataset-level tasks.
翻訳日:2023-03-24 14:18:52 公開日:2023-03-23
# 雑音中規模量子コンピュータによる粒子軌道再構成

Particle track reconstruction with noisy intermediate-scale quantum computers ( http://arxiv.org/abs/2303.13249v1 )

ライセンス: Link先を確認
Tim Schw\"agerl, Cigdem Issever, Karl Jansen, Teng Jian Khoo, Stefan K\"uhn, Cenk T\"uys\"uz, Hannsj\"org Weber(参考訳) 荷電粒子の軌道の再構成は、現在および将来の衝突実験にとって重要な計算課題である。 量子コンピューティングの急速な進歩を考えると、高エネルギー物理学におけるこの問題に対するその可能性を探究することが不可欠である。 この問題は二次二分最適化 (qubo) として定式化でき、変分量子固有ソルバ (vqe) アルゴリズムを用いて解くことができる。 本研究は,QUBOを,現在又は短期的に利用可能なハードウェアに適合する小型のQUBOに分割する効果を評価する。 次に、量子デバイスとIBM量子コンピュータを模倣したノイズモデルを用いて、小型サブQUBOにおけるVQEの性能を理想的なシミュレーションで検討した。 この研究は、VQEが粒子追跡に使用できるという原理の証明となり、VQEの最適化にもっと適するように、VQEの修正を調査した。

The reconstruction of trajectories of charged particles is a key computational challenge for current and future collider experiments. Considering the rapid progress in quantum computing, it is crucial to explore its potential for this and other problems in high-energy physics. The problem can be formulated as a quadratic unconstrained binary optimization (QUBO) and solved using the variational quantum eigensolver (VQE) algorithm. In this work the effects of dividing the QUBO into smaller sub-QUBOs that fit on the hardware available currently or in the near term are assessed. Then, the performance of the VQE on small sub-QUBOs is studied in an ideal simulation, using a noise model mimicking a quantum device and on IBM quantum computers. This work serves as a proof of principle that the VQE could be used for particle tracking and investigates modifications of the VQE to make it more suitable for combinatorial optimization.
翻訳日:2023-03-24 14:18:33 公開日:2023-03-23
# croc: 密集した視覚的表現学習のためのクロスビューオンラインクラスタリング

CrOC: Cross-View Online Clustering for Dense Visual Representation Learning ( http://arxiv.org/abs/2303.13245v1 )

ライセンス: Link先を確認
Thomas Stegm\"uller, Tim Lebailly, Behzad Bozorgtabar, Tinne Tuytelaars, Jean-Philippe Thiran(参考訳) ラベルなしで密集した視覚表現を学ぶことは困難な作業であり、むしろシーン中心のデータからである。 本稿では,オンラインクラスタリング機構(CrOC)を用いて,ビューのセマンティクスを発見し,セグメンテーションするクロスビュー一貫性目標を提案する。 手作りの事前処理がなければ、結果の方法はより一般化でき、面倒な前処理ステップを必要としない。 より重要なことに、クラスタリングアルゴリズムは両ビューの特徴を結合して動作し、両ビューで表現されないコンテンツの問題と、一方のビューから他方へのオブジェクトのあいまいなマッチングをエレガントに回避する。 様々なデータセット上の線形および教師なしセグメンテーション転送タスクと、同様にビデオオブジェクトセグメンテーションに優れた性能を示す。 私たちのコードと事前訓練されたモデルはhttps://github.com/stegmuel/CrOC.comで公開されています。

Learning dense visual representations without labels is an arduous task and more so from scene-centric data. We propose to tackle this challenging problem by proposing a Cross-view consistency objective with an Online Clustering mechanism (CrOC) to discover and segment the semantics of the views. In the absence of hand-crafted priors, the resulting method is more generalizable and does not require a cumbersome pre-processing step. More importantly, the clustering algorithm conjointly operates on the features of both views, thereby elegantly bypassing the issue of content not represented in both views and the ambiguous matching of objects from one crop to the other. We demonstrate excellent performance on linear and unsupervised segmentation transfer tasks on various datasets and similarly for video object segmentation. Our code and pre-trained models are publicly available at https://github.com/stegmuel/CrOC.
翻訳日:2023-03-24 14:18:17 公開日:2023-03-23
# フォトニックGKP状態との自由電子相互作用:普遍制御と量子誤り訂正

Free-electron interactions with photonic GKP states: universal control and quantum error correction ( http://arxiv.org/abs/2303.13244v1 )

ライセンス: Link先を確認
Gefen Baranes, Shiran Even-Haim, Ron Ruimy, Alexey Gorlach, Raphael Dahan, Asaf A. Diringer, Shay Hacohen-Gourgy, and Ido Kaminer(参考訳) 自由電子と光子のコヒーレント相互作用は、GKP(Gottesman-Kitaev-Preskill)量子ビットの形で連続可変フォトニック量子状態の普遍的な制御に利用できることを示す。 具体的には、電子エネルギーコムはフォトニック状態の非破壊的な測定を可能にし、任意のゲートを誘導することができる。 さらに、複数のフォトニックモードと相互作用する単一の電子は、グリーンベルガー=ホルン=ザイリンガー状態やGKPのクラスター状態のような非常に絡み合った状態を生成することができる。

We show that the coherent interaction between free electrons and photons can be used for universal control of continuous-variable photonic quantum states in the form of Gottesman-Kitaev-Preskill (GKP) qubits. Specifically, we find that electron energy combs enable non-destructive measurements of the photonic state and can induce arbitrary gates. Moreover, a single electron interacting with multiple photonic modes can create highly entangled states such as Greenberger-Horne-Zeilinger states and cluster states of GKPs.
翻訳日:2023-03-24 14:18:03 公開日:2023-03-23
# ランダムハミルトニアンの典型的なマクロ的長時間挙動

Typical Macroscopic Long-Time Behavior for Random Hamiltonians ( http://arxiv.org/abs/2303.13242v1 )

ライセンス: Link先を確認
Stefan Teufel, Roderich Tumulka, Cornelia Vogel(参考訳) 我々は、一元的に発展する純粋状態である$\psi_t$ の閉マクロ量子系を考えるとともに、異なるマクロ状態がヒルベルト空間の相互直交部分空間 $\mathcal{h}_\nu$ (macro space) に対応し、それぞれが大きな次元を持つことを当然と仮定する。 我々は、$\psi_t$の進化がマクロ的にどのように見えるか、特に$\mathcal{H}_\nu$のどれだけが$\mathcal{H}_\nu$にあるかという問題に関する以前の研究を拡張した。 従来の境界は、典型的な$\psi_0$ および/または $t$ に対する \emph{absolute} の誤差であり、任意のハミルトニアンに対して有効である; 現在、私たちは、より厳密な境界を意味する \emph{relative} の誤差の境界を提供する。 特に、$H$ の固有ベクトルがこの基底で非局所化される。 我々の主な数学的結果は、一般化正規典型(長時間の振る舞いの一種)と動的典型(初期マクロ空間から$\psi_0$のアンサンブル内での類似性)の2つの現象を検証した。 それらはルデルソンとヴェルシニンによるランダム行列に対する非ギャップ非局在化の結果を証明する拡張に基づいている。

We consider a closed macroscopic quantum system in a pure state $\psi_t$ evolving unitarily and take for granted that different macro states correspond to mutually orthogonal subspaces $\mathcal{H}_\nu$ (macro spaces) of Hilbert space, each of which has large dimension. We extend previous work on the question what the evolution of $\psi_t$ looks like macroscopically, specifically on how much of $\psi_t$ lies in each $\mathcal{H}_\nu$. Previous bounds concerned the \emph{absolute} error for typical $\psi_0$ and/or $t$ and are valid for arbitrary Hamiltonians $H$; now, we provide bounds on the \emph{relative} error, which means much tighter bounds, with probability close to 1 by modeling $H$ as a random matrix, more precisely as a random band matrix (i.e., where only entries near the main diagonal are significantly nonzero) in a basis aligned with the macro spaces. We exploit particularly that the eigenvectors of $H$ are delocalized in this basis. Our main mathematical results confirm the two phenomena of generalized normal typicality (a type of long-time behavior) and dynamical typicality (a type of similarity within the ensemble of $\psi_0$ from an initial macro space). They are based on an extension we prove of a no-gaps delocalization result for random matrices by Rudelson and Vershynin.
翻訳日:2023-03-24 14:17:54 公開日:2023-03-23
# 軌道ロボットの近似3次元モデルによる6次元物体位置推定

6D Object Pose Estimation from Approximate 3D Models for Orbital Robotics ( http://arxiv.org/abs/2303.13241v1 )

ライセンス: Link先を確認
Maximilian Ulmer, Maximilian Durner, Martin Sundermeyer, Manuel Stoiber, and Rudolph Triebel(参考訳) そこで本稿では,物体の3次元形状を3次元モデルとしてのみ与えた単一の画像から,物体の6次元ポーズを推定する新しい手法を提案する。 これを実現するために,各画素の3dモデル座標を回帰する密度の高い2d-3d対応予測器を用いる。 また,3次元座標に加えて画素座標誤差を推定し,誤りとなる可能性のある対応を破棄する。 これにより、オブジェクトの複数の6次元ポーズ仮説を生成でき、それを高効率な領域ベースアプローチで反復的に洗練することができる。 また、各仮説の確率を推定し、最も可能性の高いものを選択することができる、新しい画素単位の後方定式化も導入する。 実験で示したように、我々のアプローチは、過剰露出、高コントラスト、低信号対雑音比といった極端な視覚条件を扱うことができる。 これにより、軌道上のロボット応用のために転がる衛星の姿勢を推定する、特に困難なタスクにおいて強力な技術となる。 提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。

We present a novel technique to estimate the 6D pose of objects from single images where the 3D geometry of the object is only given approximately and not as a precise 3D model. To achieve this, we employ a dense 2D-to-3D correspondence predictor that regresses 3D model coordinates for every pixel. In addition to the 3D coordinates, our model also estimates the pixel-wise coordinate error to discard correspondences that are likely wrong. This allows us to generate multiple 6D pose hypotheses of the object, which we then refine iteratively using a highly efficient region-based approach. We also introduce a novel pixel-wise posterior formulation by which we can estimate the probability for each hypothesis and select the most likely one. As we show in experiments, our approach is capable of dealing with extreme visual conditions including overexposure, high contrast, or low signal-to-noise ratio. This makes it a powerful technique for the particularly challenging task of estimating the pose of tumbling satellites for in-orbit robotic applications. Our method achieves state-of-the-art performance on the SPEED+ dataset and has won the SPEC2021 post-mortem competition.
翻訳日:2023-03-24 14:17:20 公開日:2023-03-23
# マルチパーティライト2レベル原子系における大域量子不協和とフォン・ノイマンエントロピー

Global quantum discord and von Neumann entropy in multipartite two-level atomic systems ( http://arxiv.org/abs/2303.13234v1 )

ライセンス: Link先を確認
M. Ibrahim, M. Usman, Khalid Khan(参考訳) 我々は、単一モードフォック場と相互作用する多粒子二層原子系の大域量子不協和とフォン・ノイマンエントロピーを計算した。 私たちはTavis-Cummingモデルを使用します。 このようなシステムにおいて,量子相関と量子絡み合いが時間とともにどのように進化するかを考察した。 量子システムは当初混合状態で作成され、異なるパラメータはシステムの情報処理にどのように影響するかを見るために変化する。 大域量子不協和とフォン・ノイマンエントロピーの力学特性は古典的相関と非古典的相関の相互作用を示す。 このモデルにおける光子は、大域的量子ディスコドとフォン・ノイマンのエントロピーを補助する重要な役割を担っており、大域的量子ディスコドとフォン・ノイマンエントロピーに対する場の影響は、原子と場状態の両方が絡み合っていることを示す系の時間発展に存在することを観測した。 グローバル量子不協和は、システム内の光子の数を非線型的に支援する。 グローバル量子不協和とフォン・ノイマンエントロピーは系の力学において互いに線形な振る舞いを示す。 大域量子不協和とフォン・ノイマンエントロピーの力学に対する内在的デコヒーレンスの影響も研究されている。 我々は、システム上の大きな光子数の結果を推定した。 我々は,システムの大きさの変化が大域量子不協和とフォン・ノイマンエントロピーの最大値に与える影響について検討し,この挙動のスケーリング係数を推定した。

We have computed the global quantum discord and von Neumann entropy of multipartite two-level atomic systems interacting with a single-mode Fock field. We use Tavis-Cumming model. We have explored how quantum correlations and quantum entanglement evolve with time in such systems. The quantum system is prepared initially in a mixed state and different parameters are varied to see how they affect the information processing in the system. The dynamical character of the global quantum discord and von Neumann entropy show an interplay between classical and non-classical correlations. Photons in this model play an important role to assist the global quantum discord and von Neumann entropy and we observed that the effects of the field on the global quantum discord and von Neumann entropy reside in the time evolution of the system indicating that both atom and field states have become entangled. The global quantum discord is assisted in a non-linear fashion with the number of photons in the system. The global quantum discord and von Neumann entropy show linear behavior with each other in the dynamics of the system. The effects of intrinsic decoherence on the dynamics of the global quantum discord and von Neumann entropy are also studied. We have extrapolated the results for a large photon number on the system. We have studied the effect of the change in the size of the system on the maximum value of global quantum discord and von Neumann entropy and we have estimated the scaling coefficients for this behavior.
翻訳日:2023-03-24 14:16:59 公開日:2023-03-23
# バイオメトリック品質評価アルゴリズムの評価に関する一考察

Considerations on the Evaluation of Biometric Quality Assessment Algorithms ( http://arxiv.org/abs/2303.13294v1 )

ライセンス: Link先を確認
Torsten Schlett, Christian Rathgeb, Juan Tapia, Christoph Busch(参考訳) 品質評価アルゴリズムを用いて生体認証のための生体試料の有用性を推定することができる。 曲線の「誤差対ディスク特性」(EDC)プロットと「部分曲線」(pAUC)値は、一般に研究者によってそのような品質評価アルゴリズムの予測性能を評価するために用いられる。 EDC曲線は、"False Non Match Rate"(FNMR)、品質評価アルゴリズム、生体認証システム、生体サンプルペアに対応する比較セット、開始誤差に対応するスコア閾値などのエラータイプに依存する。 EDC曲線を計算するために、関連するサンプルの最低品質スコアに基づいて段階的に比較を破棄し、残りの比較に対して誤差を算出する。 さらに、pAUC値を計算するために、廃棄分数制限または範囲を選択する必要があり、それによって品質評価アルゴリズムを定量的にランク付けすることができる。 本稿では,この品質評価アルゴリズムの評価について,一般edc特性,難解な誤差限度とソフトアッパー誤差限度に基づくpauc値の解釈性の向上,離散ランキングではなく相対値の使用,ステップワイズ対線形曲線補間,[0,100]整数領域における品質スコアの正規化など,様々な詳細を考察し,解析する。 また, pAUC の分数制限と開始誤差にまたがる pAUC の値に基づいて, pAUC の量的品質評価アルゴリズムのランク付けの安定性を解析し, より高い分数制限が望ましいと結論付けた。 顔画像品質評価シナリオにおける合成データと実データの両方を用いて分析を行い,edc評価における一般モダリティ非依存的な結論に注目した。

Quality assessment algorithms can be used to estimate the utility of a biometric sample for the purpose of biometric recognition. "Error versus Discard Characteristic" (EDC) plots, and "partial Area Under Curve" (pAUC) values of curves therein, are generally used by researchers to evaluate the predictive performance of such quality assessment algorithms. An EDC curve depends on an error type such as the "False Non Match Rate" (FNMR), a quality assessment algorithm, a biometric recognition system, a set of comparisons each corresponding to a biometric sample pair, and a comparison score threshold corresponding to a starting error. To compute an EDC curve, comparisons are progressively discarded based on the associated samples' lowest quality scores, and the error is computed for the remaining comparisons. Additionally, a discard fraction limit or range must be selected to compute pAUC values, which can then be used to quantitatively rank quality assessment algorithms. This paper discusses and analyses various details for this kind of quality assessment algorithm evaluation, including general EDC properties, interpretability improvements for pAUC values based on a hard lower error limit and a soft upper error limit, the use of relative instead of discrete rankings, stepwise vs. linear curve interpolation, and normalisation of quality scores to a [0, 100] integer range. We also analyse the stability of quantitative quality assessment algorithm rankings based on pAUC values across varying pAUC discard fraction limits and starting errors, concluding that higher pAUC discard fraction limits should be preferred. The analyses are conducted both with synthetic data and with real data for a face image quality assessment scenario, with a focus on general modality-independent conclusions for EDC evaluations.
翻訳日:2023-03-24 14:10:10 公開日:2023-03-23
# LABRAD-OR:ダイナミックオペレーティングルームにおける正確なバイモーダル推論のための軽量メモリシーングラフ

LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal Reasoning in Dynamic Operating Rooms ( http://arxiv.org/abs/2303.13293v1 )

ライセンス: Link先を確認
Ege \"Ozsoy, Tobias Czempiel, Felix Holm, Chantal Pellegrini, Nassir Navab(参考訳) 現代の外科手術は複雑でダイナミックな環境で行われ、医療スタッフ、患者、機器の相互作用が変化し続ける。 手術室(OR)の全体的モデリングは、手術チームのパフォーマンスを最適化し、患者の成果を改善するための新しい手術技術の開発を支援することができるため、難しいが重要な課題である。 手術シーンを意味的シーングラフ (SGG) として包括的に表現し, 実体はノードとして表現され, それら間の関係はエッジとして表現される。 我々は,より正確で一貫性のある全体論的あるいはモデリングのための時間情報の利用を初めて提案する。 具体的には,過去の時間ステップのシーングラフが現在の予測を導く時間表現として機能するメモリシーングラフを紹介する。 我々は、私たちの軽量メモリシーングラフの時間情報をポイントクラウドや画像からの視覚情報とインテリジェントに融合するエンドツーエンドアーキテクチャを設計する。 4d-orデータセットにおける本手法を評価し,時間的統合によりより正確かつ一貫した結果が得られ,マクロf1 では 0.88 の新たな sota が得られた。 本研究は,手術履歴全体をメモリシーングラフで表現するための経路を開放し,ORの全体的理解を改善する。 シーングラフをメモリ表現として導入することで、多くの時間的理解タスクに有用なツールを提供することができる。

Modern surgeries are performed in complex and dynamic settings, including ever-changing interactions between medical staff, patients, and equipment. The holistic modeling of the operating room (OR) is, therefore, a challenging but essential task, with the potential to optimize the performance of surgical teams and aid in developing new surgical technologies to improve patient outcomes. The holistic representation of surgical scenes as semantic scene graphs (SGG), where entities are represented as nodes and relations between them as edges, is a promising direction for fine-grained semantic OR understanding. We propose, for the first time, the use of temporal information for more accurate and consistent holistic OR modeling. Specifically, we introduce memory scene graphs, where the scene graphs of previous time steps act as the temporal representation guiding the current prediction. We design an end-to-end architecture that intelligently fuses the temporal information of our lightweight memory scene graphs with the visual information from point clouds and images. We evaluate our method on the 4D-OR dataset and demonstrate that integrating temporality leads to more accurate and consistent results achieving an +5% increase and a new SOTA of 0.88 in macro F1. This work opens the path for representing the entire surgery history with memory scene graphs and improves the holistic understanding in the OR. Introducing scene graphs as memory representations can offer a valuable tool for many temporal understanding tasks.
翻訳日:2023-03-24 14:09:36 公開日:2023-03-23
# 部分点クラウド登録のための教師なし深い確率的アプローチ

Unsupervised Deep Probabilistic Approach for Partial Point Cloud Registration ( http://arxiv.org/abs/2303.13290v1 )

ライセンス: Link先を確認
Guofeng Mei and Hao Tang and Xiaoshui Huang and Weijie Wang and Juan Liu and Jian Zhang and Luc Van Gool and Qiang Wu(参考訳) deep point cloudの登録方法は、部分的なオーバーラップやラベル付きデータに依存する問題に直面している。 これらの問題に対処するため,我々は部分的重なりを持つ点群に対する教師なしの深い確率的登録フレームワークudpregを提案する。 具体的には,まず点雲からガウス混合モデル(gmms)の後方確率分布を学習するネットワークを採用する。 部分点雲の登録を扱うために,GMMの混合重みの制約の下で分布レベルの対応を予測するためにシンクホーンアルゴリズムを適用した。 教師なし学習を実現するために,自己整合性,相互整合性,局所的コントラスト性の3つの分散一貫性に基づく損失を設計する。 自己整合性損失はユークリッド空間と特徴空間のGMMが同一の後続分布を共有することを奨励することによって定式化される。 交差一貫性損失は、同じクラスタに属する2つの点雲の点がクラスタセントロイドを共有しているという事実に由来する。 クロス一貫性損失により、ネットワークは2つの整列点雲の変換不変な後続分布を柔軟に学習することができる。 局所的コントラスト損失は、ネットワークが識別的局所特徴を抽出することを促進する。 UDPRegは3DMatch/3DLoMatchとModelNet/ModelLoNetベンチマークの競合性能を実現しています。

Deep point cloud registration methods face challenges to partial overlaps and rely on labeled data. To address these issues, we propose UDPReg, an unsupervised deep probabilistic registration framework for point clouds with partial overlaps. Specifically, we first adopt a network to learn posterior probability distributions of Gaussian mixture models (GMMs) from point clouds. To handle partial point cloud registration, we apply the Sinkhorn algorithm to predict the distribution-level correspondences under the constraint of the mixing weights of GMMs. To enable unsupervised learning, we design three distribution consistency-based losses: self-consistency, cross-consistency, and local contrastive. The self-consistency loss is formulated by encouraging GMMs in Euclidean and feature spaces to share identical posterior distributions. The cross-consistency loss derives from the fact that the points of two partially overlapping point clouds belonging to the same clusters share the cluster centroids. The cross-consistency loss allows the network to flexibly learn a transformation-invariant posterior distribution of two aligned point clouds. The local contrastive loss facilitates the network to extract discriminative local features. Our UDPReg achieves competitive performance on the 3DMatch/3DLoMatch and ModelNet/ModelLoNet benchmarks.
翻訳日:2023-03-24 14:09:07 公開日:2023-03-23
# GETT-QA:知識グラフ質問応答のためのグラフ埋め込みベースのT2T変換器

GETT-QA: Graph Embedding based T2T Transformer for Knowledge Graph Question Answering ( http://arxiv.org/abs/2303.13284v1 )

ライセンス: Link先を確認
Debayan Banerjee, Pranav Ajit Nair, Ricardo Usbeck, Chris Biemann(参考訳) 本稿では, GETT-QA というエンドツーエンドの知識グラフ質問応答システムを提案する。 GETT-QAは、人気のあるテキストからテキストまでの事前訓練言語モデルであるT5を使用している。 このモデルは自然言語を入力とし、意図したSPARQLクエリのよりシンプルな形式を生成する。 単純な形式では、モデルは直接エンティティと関係IDを生成しない。 代わりに、対応するエンティティと関係ラベルを生成する。 ラベルは、その後のステップでkgエンティティとリレーションシップidに接地される。 結果をさらに改善するため、各エンティティに対してKG埋め込みの切り離されたバージョンを作成するようモデルに指示する。 切断されたkg埋め込みは、曖昧さの目的をより細かく探索することができる。 その結果,T5 は損失関数の変化を伴わずに絡み合った KG 埋め込みを学習でき,KGQA 性能が向上することがわかった。 その結果, LC-QuAD 2.0 と SimpleQuestions-Wikidata のデータセットを Wikidata 上の エンドツーエンド KGQA 上に構築した。

In this work, we present an end-to-end Knowledge Graph Question Answering (KGQA) system named GETT-QA. GETT-QA uses T5, a popular text-to-text pre-trained language model. The model takes a question in natural language as input and produces a simpler form of the intended SPARQL query. In the simpler form, the model does not directly produce entity and relation IDs. Instead, it produces corresponding entity and relation labels. The labels are grounded to KG entity and relation IDs in a subsequent step. To further improve the results, we instruct the model to produce a truncated version of the KG embedding for each entity. The truncated KG embedding enables a finer search for disambiguation purposes. We find that T5 is able to learn the truncated KG embeddings without any change of loss function, improving KGQA performance. As a result, we report strong results for LC-QuAD 2.0 and SimpleQuestions-Wikidata datasets on end-to-end KGQA over Wikidata.
翻訳日:2023-03-24 14:08:45 公開日:2023-03-23
# 知識誘導コンテキスト最適化による視覚言語プロンプトチューニング

Visual-Language Prompt Tuning with Knowledge-guided Context Optimization ( http://arxiv.org/abs/2303.13283v1 )

ライセンス: Link先を確認
Hantao Yao, Rui Zhang, Changsheng Xu(参考訳) プロンプトチューニングは、タスク関連のテキストトークンを用いて、事前訓練された視覚言語モデル(VLM)を下流タスクに適応させる効果的な方法である。 代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。 しかし、特定のテキスト知識は、強力な一般化能力を持つ本質的なテキスト知識を忘れてしまうため、目に見えないクラスへのより悪い一般化である。 そこで本研究では,学習可能なプロンプトの一般化能力を向上させるための新しい知識誘導コンテキスト最適化(kgcoop)を提案する。 KgCoOpの重要な洞察は、学習可能なプロンプトと手作りのプロンプトとの相違を減らすことで、本質的な知識を忘れることが軽減されるということである。 特に、KgCoOpは、学習プロンプトによって生成されたテキスト埋め込みと手作りプロンプトとの差を最小限にする。 最後に、対照的な損失にKgCoOpを追加することで、見えないタスクと見えないタスクの両方に差別的なプロンプトを与えることができる。 いくつかのベンチマークを網羅的に評価したところ、提案した知識誘導コンテキスト最適化はプロンプトチューニングの効率的な方法であることがわかった。

Prompt tuning is an effective way to adapt the pre-trained visual-language model (VLM) to the downstream task using task-related textual tokens. Representative CoOp-based work combines the learnable textual tokens with the class tokens to obtain specific textual knowledge. However, the specific textual knowledge is the worse generalization to the unseen classes because it forgets the essential general textual knowledge having a strong generalization ability. To tackle this issue, we introduce a novel Knowledge-guided Context Optimization (KgCoOp) to enhance the generalization ability of the learnable prompt for unseen classes. The key insight of KgCoOp is that forgetting about essential knowledge can be alleviated by reducing the discrepancy between the learnable prompt and the hand-crafted prompt. Especially, KgCoOp minimizes the discrepancy between the textual embeddings generated by learned prompts and the hand-crafted prompts. Finally, adding the KgCoOp upon the contrastive loss can make a discriminative prompt for both seen and unseen tasks. Extensive evaluation of several benchmarks demonstrates that the proposed Knowledge-guided Context Optimization is an efficient method for prompt tuning, \emph{i.e.,} achieves better performance with less training time.
翻訳日:2023-03-24 14:08:31 公開日:2023-03-23
# 改良された異方性ガウスフィルタ

Improved Anisotropic Gaussian Filters ( http://arxiv.org/abs/2303.13278v1 )

ライセンス: Link先を確認
Alex Keilmann, Michael Godehardt, Ali Moghiseh, Claudia Redenbach, Katja Schladitz(参考訳) 伸長異方性ガウスフィルタは繊維の配向推定に使用される。 計算トモグラフィ画像が騒々しく、大まかに解決され、低コントラストの場合には、仮想2次元スライスでのみ効率が良くても選択の方法である。 しかし、異方性ガウスフィルタの小さな不正確さは、向き推定に引き継がれることがある。 そこで本研究では,2次元異方性ガウスフィルタの修正アルゴリズムを提案する。 ファイババンドルの合成画像に適用すると、ノイズに対してより正確でロバストである。 最後に, シート成形物の実画像に適用し, 本手法の有効性を実証する。

Elongated anisotropic Gaussian filters are used for the orientation estimation of fibers. In cases where computed tomography images are noisy, roughly resolved, and of low contrast, they are the method of choice even if being efficient only in virtual 2D slices. However, minor inaccuracies in the anisotropic Gaussian filters can carry over to the orientation estimation. Therefore, we propose a modified algorithm for 2D anisotropic Gaussian filters and show that this improves their precision. Applied to synthetic images of fiber bundles, it is more accurate and robust to noise. Finally, we demonstrate the effectiveness of our approach by applying it to real-world images of sheet molding compounds.
翻訳日:2023-03-24 14:08:08 公開日:2023-03-23
# SINE: 先導編集フィールドを用いたセマンティック画像ベースNeRF編集

SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field ( http://arxiv.org/abs/2303.13277v1 )

ライセンス: Link先を確認
Chong Bao, Yinda Zhang, Bangbang Yang, Tianxing Fan, Zesong Yang, Hujun Bao, Guofeng Zhang and Zhaopeng Cui(参考訳) Despite the great success in 2D editing using user-friendly tools, such as Photoshop, semantic strokes, or even text prompts, similar capabilities in 3D areas are still limited, either relying on 3D modeling skills or allowing editing within only a few categories.In this paper, we present a novel semantic-driven NeRF editing approach, which enables users to edit a neural radiance field with a single image, and faithfully delivers edited novel views with high fidelity and multi-view consistency.To achieve this goal, we propose a prior-guided editing field to encode fine-grained geometric and texture editing in 3D space, and develop a series of techniques to aid the editing process, including cyclic constraints with a proxy mesh to facilitate geometric supervision, a color compositing mechanism to stabilize semantic-driven texture editing, and a feature-cluster-based regularization to preserve the irrelevant content unchanged.Extensive experiments and editing examples on both real-world and synthetic data demonstrate that our method achieves photo-realistic 3D editing using only a single edited image, pushing the bound of semantic-driven editing in 3D real-world scenes. 私たちのプロジェクトwebページ: https://zju3dv.github.io/sine/

Despite the great success in 2D editing using user-friendly tools, such as Photoshop, semantic strokes, or even text prompts, similar capabilities in 3D areas are still limited, either relying on 3D modeling skills or allowing editing within only a few categories.In this paper, we present a novel semantic-driven NeRF editing approach, which enables users to edit a neural radiance field with a single image, and faithfully delivers edited novel views with high fidelity and multi-view consistency.To achieve this goal, we propose a prior-guided editing field to encode fine-grained geometric and texture editing in 3D space, and develop a series of techniques to aid the editing process, including cyclic constraints with a proxy mesh to facilitate geometric supervision, a color compositing mechanism to stabilize semantic-driven texture editing, and a feature-cluster-based regularization to preserve the irrelevant content unchanged.Extensive experiments and editing examples on both real-world and synthetic data demonstrate that our method achieves photo-realistic 3D editing using only a single edited image, pushing the bound of semantic-driven editing in 3D real-world scenes. Our project webpage: https://zju3dv.github.io/sine/.
翻訳日:2023-03-24 14:07:57 公開日:2023-03-23
# 自由電子偏光子遮断に基づく普遍的および超高速量子計算

Universal and ultrafast quantum computation based on free-electron-polariton blockade ( http://arxiv.org/abs/2303.13275v1 )

ライセンス: Link先を確認
Aviv Karnieli, Shai Tsesses, Renwen Yu, Nicholas Rivera, Ady Arie, Ido Kaminer and Shanhui Fan(参考訳) 量子エミッタを電磁キャビティモードに結合するキャビティ量子電磁力学(英語版)(QED)は、量子センサ、メモリ、ネットワークを実装するための強力なプラットフォームである。 しかし、ゲートの忠実度と実行時間との根本的なトレードオフとスケーラビリティの制限により、量子計算における空洞QEDの使用は他のアーキテクチャに取って代わられた。 ここでは空飛ぶクビットとして働く自由荷電粒子である空洞QEDに新しい要素を導入する。 本稿では, 自由電子を具体例として, 超高速, 決定論的, 普遍的な離散変数量子計算を空洞QEDアーキテクチャで実現し, スケーラビリティを向上できることを示す。 本提案は自由電子とキャビティポラリトンとの共振相互作用における新しい励起阻止機構にかかっている。 この非線形相互作用は、現在の光子ベースのキャビティqedゲートに比べて数桁の速さで、広い波長性を持ち、ユニティに近いフィデリティを示すことができる。 さらに,Jaynes-Cummingsモデルのような光物質結合や,Kerr型多体系のような光子-光子相互作用により,任意の空洞非線形性を示す。 キャビティ-QED量子計算の有望な進歩に加えて、我々は高絡み合ったフォトニックグラフ状態の超高速かつ決定論的生成への道を開き、キャビティ-QEDを含む他の量子技術にも適用できる。

Cavity quantum electrodynamics (QED), wherein a quantum emitter is coupled to electromagnetic cavity modes, is a powerful platform for implementing quantum sensors, memories, and networks. However, due to the fundamental tradeoff between gate fidelity and execution time, as well as limited scalability, the use of cavity-QED for quantum computation was overtaken by other architectures. Here, we introduce a new element into cavity-QED - a free charged particle, acting as a flying qubit. Using free electrons as a specific example, we demonstrate that our approach enables ultrafast, deterministic and universal discrete-variable quantum computation in a cavity-QED-based architecture, with potentially improved scalability. Our proposal hinges on a novel excitation blockade mechanism in a resonant interaction between a free-electron and a cavity polariton. This nonlinear interaction is faster by several orders of magnitude with respect to current photon-based cavity-QED gates, enjoys wide tunability and can demonstrate fidelities close to unity. Furthermore, our scheme is ubiquitous to any cavity nonlinearity, either due to light-matter coupling as in the Jaynes-Cummings model or due to photon-photon interactions as in a Kerr-type many-body system. In addition to promising advancements in cavity-QED quantum computation, our approach paves the way towards ultrafast and deterministic generation of highly-entangled photonic graph states and is applicable to other quantum technologies involving cavity-QED.
翻訳日:2023-03-24 14:07:42 公開日:2023-03-23
# TAPS3D: Pseudo Supervision によるテキストガイド3Dテクスチャ形状生成

TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision ( http://arxiv.org/abs/2303.13273v1 )

ライセンス: Link先を確認
Jiacheng Wei, Hao Wang, Jiashi Feng, Guosheng Lin, Kim-Hui Yap(参考訳) 本稿では,テキスト記述から制御可能な3次元テクスチャ形状を生成するオープンな研究課題について検討する。 以前の作品では、グランド・トゥルート・キャプションのラベリングや広範囲の最適化時間が必要であった。 そこで本研究では,テキスト誘導型3次元形状生成器を擬似キャプションで学習するための新しいフレームワークtaps3dを提案する。 具体的には、レンダリングされた2D画像に基づいて、CLIP語彙から関連する単語を検索し、テンプレートを用いて擬似キャプションを構築する。 構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。 さらに, きめ細かいテクスチャを作成し, 形状の多様性を高めるために, 低レベルの画像正規化を導入し, 偽レンダリング画像が実際のものと一致できるようにする。 推論フェーズにおいて,提案モデルでは,任意のテキストから3次元テクスチャ形状を生成することができる。 提案する各コンポーネントを解析し,高忠実度3Dテクスチャおよびテキスト関連形状の生成におけるフレームワークの有効性を示す。

In this paper, we investigate an open research task of generating controllable 3D textured shapes from the given textual descriptions. Previous works either require ground truth caption labeling or extensive optimization time. To resolve these issues, we present a novel framework, TAPS3D, to train a text-guided 3D shape generator with pseudo captions. Specifically, based on rendered 2D images, we retrieve relevant words from the CLIP vocabulary and construct pseudo captions using templates. Our constructed captions provide high-level semantic supervision for generated 3D shapes. Further, in order to produce fine-grained textures and increase geometry diversity, we propose to adopt low-level image regularization to enable fake-rendered images to align with the real ones. During the inference phase, our proposed model can generate 3D textured shapes from the given text without any additional optimization. We conduct extensive experiments to analyze each of our proposed components and show the efficacy of our framework in generating high-fidelity 3D textured and text-relevant shapes.
翻訳日:2023-03-24 14:07:14 公開日:2023-03-23
# マルチスケールネットワークとセルフアテンション機構を用いたフレームレベルマルチラベル演奏検出

Frame-Level Multi-Label Playing Technique Detection Using Multi-Scale Network and Self-Attention Mechanism ( http://arxiv.org/abs/2303.13272v1 )

ライセンス: Link先を確認
Dichucheng Li, Mingjin Che, Wenwu Meng, Yulun Wu, Yi Yu, Fan Xia, Wei Li(参考訳) 楽器演奏技術(IPT)は、音楽プレゼンテーションの重要な要素である。 IPT検出のための既存の研究の多くは、モノフォニックな音楽信号のみに関するものであるが、重なり合うICTや混合ICTを持つ多声楽器の独奏曲において、ICTを検出するためにはほとんど行われていない。 本稿では,これをフレームレベルのマルチラベル分類問題として定式化し,中国の弦楽器Guzhengに適用する。 我々は、guzheng recordings と onset, offset, pitch, ipt annotations を含む新しいデータセット guzheng\_tech99 を作成する。 異なるiptはその長さによって大きく異なるため,マルチスケールネットワークとセルフアテンションを用いてこの問題を解決する新しい手法を提案する。 マルチスケールネットワークは、異なるスケールから特徴を抽出し、粗いスケールで特徴マップに適用する自己認識機構により、長距離特徴抽出をさらに強化する。 提案手法は, IPT検出の有効性を示唆し, 既存の成果よりも高い性能を示す。

Instrument playing technique (IPT) is a key element of musical presentation. However, most of the existing works for IPT detection only concern monophonic music signals, yet little has been done to detect IPTs in polyphonic instrumental solo pieces with overlapping IPTs or mixed IPTs. In this paper, we formulate it as a frame-level multi-label classification problem and apply it to Guzheng, a Chinese plucked string instrument. We create a new dataset, Guzheng\_Tech99, containing Guzheng recordings and onset, offset, pitch, IPT annotations of each note. Because different IPTs vary a lot in their lengths, we propose a new method to solve this problem using multi-scale network and self-attention. The multi-scale network extracts features from different scales, and the self-attention mechanism applied to the feature maps at the coarsest scale further enhances the long-range feature extraction. Our approach outperforms existing works by a large margin, indicating its effectiveness in IPT detection.
翻訳日:2023-03-24 14:06:56 公開日:2023-03-23
# 複雑対話型タスクにおけるヒューマンパフォーマンス評価のための計算ベンチマークとしてのディープジェネレーティブマルチエージェント模倣モデル--フットボールを事例として

Deep Generative Multi-Agent Imitation Model as a Computational Benchmark for Evaluating Human Performance in Complex Interactive Tasks: A Case Study in Football ( http://arxiv.org/abs/2303.13323v1 )

ライセンス: Link先を確認
Chaoyi Gu, Varuna De Silva(参考訳) 人間のパフォーマンスを評価することは、エンジニアリングやスポーツなど、多くのアプリケーションで共通のニーズである。 複雑で対話的なタスクを完遂する際の人的パフォーマンスを評価する際、最も一般的な方法は、その文脈で効率的であることが証明されたメトリックを使うこと、または主観的測定技術を使用することである。 しかし、静的なメトリクスはそのようなタスクに関連するすべての複雑なコンテキストを捉えられず、主観的な測定にバイアスが存在するため、これはエラーになりがちで信頼できないプロセスになり得る。 本研究の目的は,データ駆動型AIエージェントを計算ベンチマークとして作成し,複数の人間や文脈要因を含む困難なタスクを解く上で,人間のパフォーマンスを評価することである。 我々は、サッカーのパフォーマンス分析の文脈でこれを実証する。 本研究では,条件付き変動リカレントニューラルネットワーク(vrnn)モデルに基づく生成モデルを,大規模プレーヤとボールトラッキングデータセット上でトレーニングする。 トレーニングされたモデルは、2つのチーム間のインタラクションを模倣し、各チームのパフォーマンスを予測するために使用されます。 次に、トレーニングされた条件付きVRNNモデルを使用して、チームのパフォーマンスを評価する。 プレミアリーグフットボールデータセットの実験結果から,本手法がフットボール分析に用いられている最先端の静的指標に有用であることを示す。

Evaluating the performance of human is a common need across many applications, such as in engineering and sports. When evaluating human performance in completing complex and interactive tasks, the most common way is to use a metric having been proved efficient for that context, or to use subjective measurement techniques. However, this can be an error prone and unreliable process since static metrics cannot capture all the complex contexts associated with such tasks and biases exist in subjective measurement. The objective of our research is to create data-driven AI agents as computational benchmarks to evaluate human performance in solving difficult tasks involving multiple humans and contextual factors. We demonstrate this within the context of football performance analysis. We train a generative model based on Conditional Variational Recurrent Neural Network (VRNN) Model on a large player and ball tracking dataset. The trained model is used to imitate the interactions between two teams and predict the performance from each team. Then the trained Conditional VRNN Model is used as a benchmark to evaluate team performance. The experimental results on Premier League football dataset demonstrates the usefulness of our method to existing state-of-the-art static metric used in football analytics.
翻訳日:2023-03-24 14:01:04 公開日:2023-03-23
# QDP:ロボットの衣服操作のための準静的および動的マニピュレーションプリミティブを逐次最適化する学習

QDP: Learning to Sequentially Optimise Quasi-Static and Dynamic Manipulation Primitives for Robotic Cloth Manipulation ( http://arxiv.org/abs/2303.13320v1 )

ライセンス: Link先を確認
David Blanco-Mulero, Gokhan Alcan, Fares J. Abu-Dakka, Ville Kyrki(参考訳) 定義済みの操作プリミティブは布の操作に広く使われている。 しかし、その硬さや密度などの布質特性は、これらのプリミティブの性能に大きな影響を及ぼす可能性がある。 既存の解はピック位置と位置のパラメータ化に取り組んでいるが、準静的および動的操作プリミティブの速度や軌道などの要因の影響は無視されている。 これらのパラメータの適切な値を選択することは、ハウスホルドの布地に存在する材料の範囲に対処するために重要である。 この課題に対処するために,準静的および動的操作プリミティブのピック位置と位置位置に加えて,運動速度などのパラメータを最適化する準動的パラメータ可能法(qdp)を提案する。 本研究では,逐次強化学習の枠組みを利用して,プリミティブを構成するパラメータを逐次的に分離する。 本手法の有効性を評価するため,シミュレーションおよび実世界実験において,ロボットアームによる布の折り畳み作業に注目する。 シミュレーションの結果,プリミティブの最適パラメータを決定することにより,サブ最適パラメータに比べて性能が20%向上することが示された。 実世界の結果は、異なる質量、剛性、形状、大きさの布に対する操作プリミティブの速度と高さを変更する利点を示す。 追加資料、ビデオ、コードはhttps://sites.google.com/view/qdp-srl.comで見ることができる。

Pre-defined manipulation primitives are widely used for cloth manipulation. However, cloth properties such as its stiffness or density can highly impact the performance of these primitives. Although existing solutions have tackled the parameterisation of pick and place locations, the effect of factors such as the velocity or trajectory of quasi-static and dynamic manipulation primitives has been neglected. Choosing appropriate values for these parameters is crucial to cope with the range of materials present in house-hold cloth objects. To address this challenge, we introduce the Quasi-Dynamic Parameterisable (QDP) method, which optimises parameters such as the motion velocity in addition to the pick and place positions of quasi-static and dynamic manipulation primitives. In this work, we leverage the framework of Sequential Reinforcement Learning to decouple sequentially the parameters that compose the primitives. To evaluate the effectiveness of the method we focus on the task of cloth unfolding with a robotic arm in simulation and real-world experiments. Our results in simulation show that by deciding the optimal parameters for the primitives the performance can improve by 20% compared to sub-optimal ones. Real-world results demonstrate the advantage of modifying the velocity and height of manipulation primitives for cloths with different mass, stiffness, shape and size. Supplementary material, videos, and code, can be found at https://sites.google.com/view/qdp-srl.
翻訳日:2023-03-24 14:00:45 公開日:2023-03-23
# swissbert: スイスにおける多言語言語モデル

SwissBERT: The Multilingual Language Model for Switzerland ( http://arxiv.org/abs/2303.13310v1 )

ライセンス: Link先を確認
Jannis Vamvas and Johannes Gra\"en and Rico Sennrich(参考訳) スイス関連テキストの処理に特化したマスク付き言語モデルであるSwissBERTを提案する。 SwissBERTは事前訓練されたモデルで、スイス(ドイツ語、フランス語、イタリア語、ロマンシュ語)の国語で書かれたニュース記事に適用しました。 我々はスイスに関連する自然言語理解タスクについてSwissBERTを評価し、特に現代ニュース処理やロマンシュ・グリシュン処理において、これらのタスクにおける過去のモデルを上回る傾向にあることを示した。 SwissBERTは言語アダプターを使用しているため、将来の作業でスイスドイツ語の方言に拡張することができる。 モデルとオープンソースコードはhttps://github.com/ZurichNLP/swissbert.comで公開されています。

We present SwissBERT, a masked language model created specifically for processing Switzerland-related text. SwissBERT is a pre-trained model that we adapted to news articles written in the national languages of Switzerland -- German, French, Italian, and Romansh. We evaluate SwissBERT on natural language understanding tasks related to Switzerland and find that it tends to outperform previous models on these tasks, especially when processing contemporary news and/or Romansh Grischun. Since SwissBERT uses language adapters, it may be extended to Swiss German dialects in future work. The model and our open-source code are publicly released at https://github.com/ZurichNLP/swissbert.
翻訳日:2023-03-24 14:00:08 公開日:2023-03-23
# 時間周波数領域における光分数フーリエ変換の実験実装

Experimental implementation of the optical fractional Fourier transform in the time-frequency domain ( http://arxiv.org/abs/2303.13305v1 )

ライセンス: Link先を確認
Bartosz Niewelt, Marcin Jastrz\k{e}bski, Stanis{\l}aw Kurzyna, Jan Nowosielski, Wojciech Wasilewski, Mateusz Mazelanik, Micha{\l} Parniak(参考訳) 位相空間の任意の角度の回転に対応する物理学の基本演算である分数フーリエ変換(frft)は、ノイズ低減のためのデジタル信号処理において必須のツールである。 時間周波数自由度における光信号の処理は、デジタル化のステップをバイパスし、量子通信や古典通信、センシング、計算において多くのプロトコルを強化する機会を提供する。 本稿では,処理能力を有する原子量子光学メモリシステムを用いて,時間周波数領域における分数フーリエ変換を実験的に実現する。 本手法は,プログラム可能なインターリーブスペクトルと時間位相を付与することで動作を行う。 ショットノイズ制限ホモダイン検出器を用いてchroncyclic wigner関数を解析してfrftを検証した。 この結果から,時間モードソート,処理,超解パラメータ推定の実現が期待できる。

The fractional Fourier transform (FrFT), a fundamental operation in physics that corresponds to a rotation of phase space by any angle, is also an indispensable tool employed in digital signal processing for noise reduction. Processing of optical signals in their time-frequency degree of freedom bypasses the digitization step and presents an opportunity to enhance many protocols in quantum and classical communication, sensing and computing. In this letter, we present the experimental realization of the fractional Fourier transform in the time-frequency domain using an atomic quantum-optical memory system with processing capabilities. Our scheme performs the operation by imposing programmable interleaved spectral and temporal phases. We have verified the FrFT by analyses of chroncyclic Wigner functions measured via a shot-noise limited homodyne detector. Our results hold prospects for achieving temporal-mode sorting, processing and super-resolved parameter estimation.
翻訳日:2023-03-24 13:59:58 公開日:2023-03-23
# $\mathbb{C}^{p^\alpha}\otimes \mathbb{C}^{p^\alpha}$における一般化ベル状態の集合の局所的ユニタリ同値の決定方法

How to determine the local unitary equivalence of sets of generalized Bell states in $\mathbb{C}^{p^\alpha}\otimes \mathbb{C}^{p^\alpha}$ ( http://arxiv.org/abs/2303.13304v1 )

ライセンス: Link先を確認
Cai-Hong Wang, Jiang-Tao Yuan, Ying-Hui Yang and Yuan-Hong Tao(参考訳) この研究の目的は、二部量子系 $\mathbb{C}^{p^\alpha}\otimes \mathbb{C}^{p^\alpha}$$$$$\alpha$ is a prime number and $\alpha$ is a positive integer において、一般化されたベル状態(GBS)の集合のLU等価性を決定する方法を示すことである。 与えられた GBS 集合 $\mathcal{M}$ に対して、$\mathcal{M}$ と LU に等しいすべての GBS 集合を求めると、別の GBS 集合が $\mathcal{M}$ に LU に等しいかどうかを比較して決定できる。 この目的を達成するために、2つのGBS集合のLU同値性を対応する一般化されたパウリ行列(GPM)集合のユニタリ共役同値(UC同値)に還元し、2-GPM集合 UC が特別な 2-GPM 集合 $\{ X^{p^\gamma}, Z^{p^\beta} \}$$$0\leq \beta, \gamma <\alpha$ と等価であることを示す。 一般に、2つの一般 GPM 集合の UC 等価性(英語版)(UC-equivalence)、すなわち、特定の GPM 集合にすべての GPM 集合 UC 等価かつユニタリ同値(U-等価)を与えるプログラムを提供し、それから2つの任意の GBS 集合の LU 等価性(英語版)(LU-equivalence)を決定する。

Classification is a common method to study quantum entanglement,and local unitary equivalence (LU-equivalence) is an effective classification tool.The purpose of this work is show how to determine the LU-equivalence of sets of generalized Bell states (GBSs) in a bipartite quantum system $\mathbb{C}^{p^\alpha}\otimes \mathbb{C}^{p^\alpha}$ ($p$ is a prime number and $\alpha$ is a positive integer). The idea is that, for a given GBS set $\mathcal{M}$,try to find all the GBS sets that are LU-equivalent to $\mathcal{M}$, then we can determine whether another GBS set is LU-equivalent to $\mathcal{M}$ by comparison. In order to accomplish this intention,we first reduce the LU-equivalence of two GBS sets to the unitary conjugate equivalence (UC-equivalence) of the corresponding generalized Pauli matrix (GPM) sets.Then we show the necessary and sufficient conditions for a 2-GPM set UC-equivalent to a special 2-GPM set $\{ X^{p^\gamma}, Z^{p^\beta} \}$ ($0\leq \beta, \gamma <\alpha$). The general case, that is, the UC-equivalence of two general GPM sets,follows by the particular case.Moreover, these results are programmable, that is, we provide programs that can give all GPM sets UC-equivalent and unitary equivalent (U-equivalent) to a given GPM set,and then the LU-equivalence of two arbitrary GBS sets can be determined.To illustrate the role of the programs, we show a complete LU-equivalent classification of 4-GBS sets in the system $\mathbb{C}^{4}\otimes \mathbb{C}^{4}$.
翻訳日:2023-03-24 13:59:46 公開日:2023-03-23
# 非マルコフ浴における絡み合いのダイナミクスの解明

Unravelling the dynamics of entanglement in a non-Markovian bath ( http://arxiv.org/abs/2303.13301v1 )

ライセンス: Link先を確認
Sayan Roy and Christian Otto and Rapha\"el Menu and Giovanna Morigi(参考訳) 振動子の線形鎖に結合した2つの量子ビット間の量子相関のダイナミクスを解析する。 クォービットは、連鎖の振動によって構成される非マルコフ貯水池の存在下で、効果的な開系力学を行う。 このモデルは、鎖が最初に熱状態にあるとき、解析的な解が得られる。 分離可能な状態から始まる量子ビットの収束のダイナミクスについて検討し、連鎖スペクトルがギャップを持つと仮定する。 スペクトルギャップに対する量子鎖結合の強さに依存する3つの関連するレジームを同定した。 これらは (i) 量子ビットが漸近的に絡み合っている弱結合状態 (二)収束が崩壊し、指数関数的に減衰した振幅で復活する強結合体制 (iii)鎖の熱励起によりコンカージェンスが急速に消失する熱減衰機構。 いずれの場合も、絡み合いが発生した場合、これは有限時間経過後に起こる。 この時間スケールは量子ビット距離に指数関数的に依存し、鎖のスペクトル特性によって決定される。 一方、エンタングル化不可逆崩壊は鎖とのカップリングによって引き起こされる散逸効果によるもので、鎖とキュービットの間の結合強度によって制御される。 本研究では,オープンシステムの量子コヒーレントダイナミクスを実現する環境の資源を明らかにする。

We analyse the dynamics of quantum correlations between two qubits coupled to a linear chain of oscillators. The qubits undergo an effective open-system dynamics in the presence of a non-Markovian reservoir, constituted by the chain's vibrations. The model is amenable to an analytical solution when the chain is initially in a thermal state. We study the dynamics of the qubits concurrence starting from a separable state and assuming that the chain spectrum is gapped. We identify three relevant regimes that depend on the strength of the qubit-chain coupling in relation to the spectral gap. These are (i) the weak coupling regime, where the qubits are entangled at the asymptotics; (ii) the strong coupling regime, where the concurrence can exhibit collapses followed by revivals with exponentially attenuated amplitude; and (iii) the thermal damping regime, where the concurrence rapidly vanishes due to the chain's thermal excitation. In all cases, if entanglement is generated, this occurs after a finite time has elapsed. This time scale depends exponentially on the qubits distance and is determined by the spectral properties of the chain. Entanglement irreversible decay, on the other hand, is due to the dissipative effect induced by the coupling with the chain and is controlled by the coupling strength between the chain and qubits. This study identifies the resources of an environment for realising quantum coherent dynamics of open systems.
翻訳日:2023-03-24 13:58:57 公開日:2023-03-23
# イノベーションのスローダウン:新しい技術概念における概念創造の減速と独創性の低下

Innovation Slowdown: Decelerating Concept Creation and Declining Originality in New Technological Concepts ( http://arxiv.org/abs/2303.13300v1 )

ライセンス: Link先を確認
Serhad Sarica, Jianxi Luo(参考訳) デザインの再利用、再結合、新しい概念を作るための先行概念の合成による新しい技術概念の作成は、時間の経過とともに概念空間の指数関数的な成長につながる可能性がある。 しかし,特許文書から400万以上の概念からなる大規模技術セマンティックネットワークを統計的に分析した結果,概念形成のペースの持続的減速と,新たに作成された概念の独創性低下の証拠が得られた。 これらの傾向は、人類の知能の限界が、先行技術が拡大する領域を超えて革新することに起因する可能性がある。 イノベーションを維持するため、我々は、学習、創造、評価を含むイノベーションプロセスの様々な側面を拡大できる創造的人工知能の開発と実装を推奨する。

The creation of new technological concepts through design reuses, recombination, and synthesis of prior concepts to create new ones may lead to exponential growth of the concept space over time. However, our statistical analysis of a large-scale technology semantic network consisting of over four million concepts from patent texts found evidence of a persistent deceleration in the pace of concept creation and a decline in the originality of newly created concepts. These trends may be attributed to the limitations of human intelligence in innovating beyond an expanding space of prior art. To sustain innovation, we recommend the development and implementation of creative artificial intelligence that can augment various aspects of the innovation process, including learning, creation, and evaluation.
翻訳日:2023-03-24 13:58:37 公開日:2023-03-23
# 診断問題の再考:訓練対象としての説明的合意

Reckoning with the Disagreement Problem: Explanation Consensus as a Training Objective ( http://arxiv.org/abs/2303.13299v1 )

ライセンス: Link先を確認
Avi Schwarzschild, Max Cembalest, Karthik Rao, Keegan Hines, John Dickerson(参考訳) ニューラルネットワークがハイテイクな設定で重要な決定を下すにつれて、その振る舞いを理解し、信頼できる方法で監視し、説明することが不可欠である。 一般的に使用されるタイプの説明器はpost hoc feature attributionであり、入力の各特徴にモデルの出力に対する影響に対応するスコアを与える方法のファミリーである。 このファミリーの実践上の大きな制限は、どの機能が他のどの機能よりも重要であるかについて意見が一致しないことである。 本稿では,この不一致問題を念頭に置いてモデルをトレーニングする方法を提案する。 我々は,説明者間の特徴帰属差を測定する追加用語である,正確性に対応する標準用語と並行して,pear (post hoc explainer agreement regularization) 損失項を導入することでこれを行う。 我々は,この損失項を用いてモデルを訓練し,未発見データに対する説明コンセンサスを改善した3つのデータセットを観察し,損失項で使用されるもの以外の説明者間のコンセンサスを改善した。 コンセンサスの改善とモデル性能のトレードオフを検討する。 最後に,本手法が特徴帰属説明に与える影響について検討する。

As neural networks increasingly make critical decisions in high-stakes settings, monitoring and explaining their behavior in an understandable and trustworthy manner is a necessity. One commonly used type of explainer is post hoc feature attribution, a family of methods for giving each feature in an input a score corresponding to its influence on a model's output. A major limitation of this family of explainers in practice is that they can disagree on which features are more important than others. Our contribution in this paper is a method of training models with this disagreement problem in mind. We do this by introducing a Post hoc Explainer Agreement Regularization (PEAR) loss term alongside the standard term corresponding to accuracy, an additional term that measures the difference in feature attribution between a pair of explainers. We observe on three datasets that we can train a model with this loss term to improve explanation consensus on unseen data, and see improved consensus between explainers other than those used in the loss term. We examine the trade-off between improved consensus and model performance. And finally, we study the influence our method has on feature attribution explanations.
翻訳日:2023-03-24 13:58:23 公開日:2023-03-23
# ドメイン凸ゲームによる一般化の改善

Improving Generalization with Domain Convex Game ( http://arxiv.org/abs/2303.13297v1 )

ライセンス: Link先を確認
Fangrui Lv, Jian Liang, Shuang Li, Jinming Zhang, Di Liu(参考訳) ドメイン一般化(DG)は、複数のソースドメインを持つモデルを学習することで、ディープニューラルネットワークの低次一般化能力を緩和する傾向がある。 dgに対する古典的な解決策はドメイン拡張であり、ソースドメインの多様化は分散の一般化に繋がるという考えが一般的である。 しかし、これらの主張は数学的ではなく直感的に理解されている。 実験により,モデル一般化と領域の多様性の相関は厳密には正ではなく,ドメイン拡張の有効性が制限されることが実証的に明らかになった。 この研究は、このストランドの有効性を保証し、さらに高めることを目的としている。 そこで本稿では,ドメイン間の凸ゲームとして再キャストするDGの新しい視点を提案する。 まず,超モジュラリティに基づく正規化項を精巧に設計することにより,各多角化領域にモデル一般化を奨励する。 一方、低品質なサンプルを除去するためにサンプルフィルタを構築し、潜在的に有害な情報の影響を避ける。 本フレームワークは,DGの形式解析,ヒューリスティック解析,および有理性と有効性を示す広範な実験の新たな道筋を示す。

Domain generalization (DG) tends to alleviate the poor generalization capability of deep neural networks by learning model with multiple source domains. A classical solution to DG is domain augmentation, the common belief of which is that diversifying source domains will be conducive to the out-of-distribution generalization. However, these claims are understood intuitively, rather than mathematically. Our explorations empirically reveal that the correlation between model generalization and the diversity of domains may be not strictly positive, which limits the effectiveness of domain augmentation. This work therefore aim to guarantee and further enhance the validity of this strand. To this end, we propose a new perspective on DG that recasts it as a convex game between domains. We first encourage each diversified domain to enhance model generalization by elaborately designing a regularization term based on supermodularity. Meanwhile, a sample filter is constructed to eliminate low-quality samples, thereby avoiding the impact of potentially harmful information. Our framework presents a new avenue for the formal analysis of DG, heuristic analysis and extensive experiments demonstrate the rationality and effectiveness.
翻訳日:2023-03-24 13:58:04 公開日:2023-03-23
# POTTER:効率的なヒューマンメッシュ回復のためのプール注意変換器

POTTER: Pooling Attention Transformer for Efficient Human Mesh Recovery ( http://arxiv.org/abs/2303.13357v1 )

ライセンス: Link先を確認
Ce Zheng, Xianpeng Liu, Guo-Jun Qi, Chen Chen(参考訳) トランスフォーマーアーキテクチャは、モノクル画像からのヒューマンメッシュリカバリ(HMR)におけるSOTA性能を達成した。 しかし、パフォーマンスの向上は、実質的なメモリと計算オーバーヘッドの犠牲になった。 現実世界のアプリケーションでは、正確なヒューマンメッシュを再構築する軽量で効率的なモデルが必要である。 本稿では,単一画像からのHMRタスクに対して,Pooling aTtention TransformER (POTTER) という純粋トランスアーキテクチャを提案する。 従来のアテンションモジュールがメモリで計算コストが高いことを察知し,性能を犠牲にすることなくメモリと計算コストを大幅に削減できる効率的なプールアテンションモジュールを提案する。 さらに,hmrタスクに高分解能(hr)ストリームを統合することで,新しいトランスフォーマティブアーキテクチャを設計する。 hrストリームからの高解像度のローカルおよびグローバル機能は、より正確なヒューマンメッシュの回復に利用できる。 我々のPOTTERは,Multiply-Accumulate Operations on the Human3.6M(PA-MPJPE)および3DPW(全3指標)データセットの7%と14%しか必要とせず,SOTA法のMETROよりも優れている。 プロジェクトwebページはhttps://zczcwh.github.io/potter_page。

Transformer architectures have achieved SOTA performance on the human mesh recovery (HMR) from monocular images. However, the performance gain has come at the cost of substantial memory and computational overhead. A lightweight and efficient model to reconstruct accurate human mesh is needed for real-world applications. In this paper, we propose a pure transformer architecture named POoling aTtention TransformER (POTTER) for the HMR task from single images. Observing that the conventional attention module is memory and computationally expensive, we propose an efficient pooling attention module, which significantly reduces the memory and computational cost without sacrificing performance. Furthermore, we design a new transformer architecture by integrating a High-Resolution (HR) stream for the HMR task. The high-resolution local and global features from the HR stream can be utilized for recovering more accurate human mesh. Our POTTER outperforms the SOTA method METRO by only requiring 7% of total parameters and 14% of the Multiply-Accumulate Operations on the Human3.6M (PA-MPJPE metric) and 3DPW (all three metrics) datasets. The project webpage is https://zczcwh.github.io/potter_page.
翻訳日:2023-03-24 13:50:52 公開日:2023-03-23
# 多エージェントパスフィニングと物理シミュレーションによる移動物体間の複雑な非包括的操作計画

Planning for Complex Non-prehensile Manipulation Among Movable Objects by Interleaving Multi-Agent Pathfinding and Physics-Based Simulation ( http://arxiv.org/abs/2303.13352v1 )

ライセンス: Link先を確認
Dhruv Mauria Saxena and Maxim Likhachev(参考訳) 重いクラッタにおける現実世界の操作問題は、ロボットが環境内の物体との潜在的な接触を推論する必要がある。 我々は,対象物を棚から取り出すためのピック・アンド・プレイススタイルのタスクに焦点を合わせ,そのタスクを解決するために,移動可能なオブジェクトを並べ替える必要がある。 特に、私たちの動機は、ロボットが推論し、複数のオブジェクトが同時にロボットによって動かされ、オブジェクトが傾いたり、互いに傾いたり、あるいはトッププルとなる複雑なロボット-オブジェクト-オブジェクト間インタラクションにつながる、非理解的な再配置アクションを検討することです。 これをサポートするため、これらの相互作用ダイナミクスをシミュレーションするために物理ベースのシミュレータをクエリし、計画中の動作評価を非常に高価にする。 プランナーをトラクタブルにするために、移動物体間の操作領域とマルチエージェントパスフィニングの接続を確立し、この問題をM4Mアルゴリズムが反復する2つのフェーズに分解する。 まず,移動物体の構成を理由とするマルチエージェント計画問題を解くが,物理モデルでは前もってシミュレートしない。 次に、物理に基づくシミュレーターを用いて、可動物体の可能な構成を探索しないアームモーション計画問題を解く。 シミュレーションと実世界の実験をpr2ロボットで行い、関連するベースラインアルゴリズムと比較する。 この結果から,M4Mは複雑な3Dインタラクションを発生し,競合性能のベースラインの少なくとも2倍の問題を解くことがわかった。

Real-world manipulation problems in heavy clutter require robots to reason about potential contacts with objects in the environment. We focus on pick-and-place style tasks to retrieve a target object from a shelf where some `movable' objects must be rearranged in order to solve the task. In particular, our motivation is to allow the robot to reason over and consider non-prehensile rearrangement actions that lead to complex robot-object and object-object interactions where multiple objects might be moved by the robot simultaneously, and objects might tilt, lean on each other, or topple. To support this, we query a physics-based simulator to forward simulate these interaction dynamics which makes action evaluation during planning computationally very expensive. To make the planner tractable, we establish a connection between the domain of Manipulation Among Movable Objects and Multi-Agent Pathfinding that lets us decompose the problem into two phases our M4M algorithm iterates over. First we solve a multi-agent planning problem that reasons about the configurations of movable objects but does not forward simulate a physics model. Next, an arm motion planning problem is solved that uses a physics-based simulator but does not search over possible configurations of movable objects. We run simulated and real-world experiments with the PR2 robot and compare against relevant baseline algorithms. Our results highlight that M4M generates complex 3D interactions, and solves at least twice as many problems as the baselines with competitive performance.
翻訳日:2023-03-24 13:50:32 公開日:2023-03-23
# DBLP-QuAD:DBLP Scholarly Knowledge Graph上の質問応答データセット

DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph ( http://arxiv.org/abs/2303.13351v1 )

ライセンス: Link先を確認
Debayan Banerjee, Sushil Awale, Ricardo Usbeck, Chris Biemann(参考訳) 本研究では,DBLP学術知識グラフ(KG)上で質問応答データセットを作成する。 dblpは、2200万以上の著者が出版した440万以上の出版物をインデックス化する主要なコンピュータサイエンス出版物の書誌情報のオンラインリファレンスである。 我々のデータセットは1万の質問応答対と対応するSPARQLクエリで構成されており、DBLP KG上で実行して正しい回答を取得することができる。 DBLP-QuADは学術的な質問応答データセットとしては最大である。

In this work we create a question answering dataset over the DBLP scholarly knowledge graph (KG). DBLP is an on-line reference for bibliographic information on major computer science publications that indexes over 4.4 million publications published by more than 2.2 million authors. Our dataset consists of 10,000 question answer pairs with the corresponding SPARQL queries which can be executed over the DBLP KG to fetch the correct answer. DBLP-QuAD is the largest scholarly question answering dataset.
翻訳日:2023-03-24 13:50:03 公開日:2023-03-23
# テキストコンテキストサイズの増加は医用画像とテキストのマッチングを促進する

Increasing Textual Context Size Boosts Medical Image-Text Matching ( http://arxiv.org/abs/2303.13340v1 )

ライセンス: Link先を確認
Idan Glassberg, Tom Hope(参考訳) この短い技術的報告は、医用画像テキストマッチングタスクにおいて、技術結果の状態を出力する単純なテクニックを実証する。 一般的な画像テキストマッチングモデルであるOpenAIのCLIPの使用を分析し、CLIPの限られたテキスト入力サイズが、長いテキストコンテキストのエンコードが必要な医療領域の下流のパフォーマンスに悪影響を及ぼすことを観察する。 そこで我々は,テキストキャプションをエンコードするシンプルなスライディングウィンドウ技術を用いて,ClipMDを訓練・リリースする。 ClipMDは2つの医用画像テキストデータセットでテストされ、他の画像テキストマッチングモデルと比較された。 その結果、ClipMDは両方のデータセット上の他のモデルよりも大きなマージンで優れていることがわかった。 コードと事前訓練されたモデルを公開しています。

This short technical report demonstrates a simple technique that yields state of the art results in medical image-text matching tasks. We analyze the use of OpenAI's CLIP, a general image-text matching model, and observe that CLIP's limited textual input size has negative impact on downstream performance in the medical domain where encoding longer textual contexts is often required. We thus train and release ClipMD, which is trained with a simple sliding window technique to encode textual captions. ClipMD was tested on two medical image-text datasets and compared with other image-text matching models. The results show that ClipMD outperforms other models on both datasets by a large margin. We make our code and pretrained model publicly available.
翻訳日:2023-03-24 13:49:54 公開日:2023-03-23
# 音声合成のための音声拡散モデル:生成AIにおける音声合成と音声強調に関する調査

Audio Diffusion Model for Speech Synthesis: A Survey on Text To Speech and Speech Enhancement in Generative AI ( http://arxiv.org/abs/2303.13336v1 )

ライセンス: Link先を確認
Chenshuang Zhang and Chaoning Zhang and Sheng Zheng and Mengchun Zhang and Maryam Qamar and Sung-Ho Bae and In So Kweon(参考訳) 生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。 拡散モデルが最もポピュラーな生成モデルとして、テキストから音声への変換と音声強調という2つの活動的なタスクを試みている。 本研究は、拡散に基づく音声合成の最近の進歩を欠いた既存の調査や、複数の分野における拡散モデルの適用の全体像を強調する調査を補完する音声拡散モデルに関する調査を行う。 具体的には、まず、音声と拡散モデルの背景を簡潔に紹介する。 テキストから音声へのタスクについては,拡散モデルが採用される段階(音響モデル,ボコーダ,エンドツーエンドフレームワーク)に基づいて3つのカテゴリに分割する。 さらに、入力音声に特定の信号を取り除いたり加えたりすることで、様々な音声強調タスクを分類する。 本調査では,実験結果と議論の比較についても述べる。

Generative AI has demonstrated impressive performance in various fields, among which speech synthesis is an interesting direction. With the diffusion model as the most popular generative model, numerous works have attempted two active tasks: text to speech and speech enhancement. This work conducts a survey on audio diffusion model, which is complementary to existing surveys that either lack the recent progress of diffusion-based speech synthesis or highlight an overall picture of applying diffusion model in multiple fields. Specifically, this work first briefly introduces the background of audio and diffusion model. As for the text-to-speech task, we divide the methods into three categories based on the stage where diffusion model is adopted: acoustic model, vocoder and end-to-end framework. Moreover, we categorize various speech enhancement tasks by either certain signals are removed or added into the input speech. Comparisons of experimental results and discussions are also covered in this survey.
翻訳日:2023-03-24 13:49:39 公開日:2023-03-23
# 無限距離相互作用を持つスピン系における架橋閉および散逸離散時間結晶

Bridging closed and dissipative discrete time crystals in spin systems with infinite-range interactions ( http://arxiv.org/abs/2303.13334v1 )

ライセンス: Link先を確認
Jayson G. Cosme, Jim Skulte, Ludwig Mathey(参考訳) 無限距離相互作用を持つ周期駆動スピン系における時間結晶の出現における散逸の役割を解明する。 位相図をゼロから無限強度まで様々な散逸強度にマッピングすることにより、時間結晶が存在する位相図の面積は、散逸強度とともに成長するが、ほとんどの時間結晶が不安定になる最適点までしか成長しないことを示した。 閉鎖系と散逸系の両方における時間結晶相のシグネチャを適切な条件下で発見する。 しかし、散逸時間結晶はドライブのランダムノイズに対してより堅牢であることが示され、初期状態の選択によって弱くしか影響されない。 本稿では,完全な量子力学的記述の中で,スピン数と相互作用強度に関して,有限サイズの挙動と時間結晶の寿命のスケーリングを示す。

We elucidate the role of dissipation on the emergence of time crystals in a periodically driven spin system with infinite-range interactions. By mapping out the phase diagrams for varying dissipation strengths, ranging from zero to infinitely strong, we demonstrate that the area in the phase diagram, where a time crystal exists, grows with the dissipation strength, but only up to an optimal point, beyond which most of the time crystals become unstable. We find signatures of time crystalline phases in both closed-system and dissipative regimes under the right conditions. However, the dissipative time crystals are shown to be more robust against random noise in the drive, and are only weakly affected by the choice of initial state. We present the finite-size behaviour and the scaling of the lifetime of the time crystals with respect to the number of spins and the interactions strength, within a fully quantum mechanical description.
翻訳日:2023-03-24 13:49:27 公開日:2023-03-23
# 変異型オートエンコーダを用いた画像圧縮による癌病理組織検査の臨床的意義

Clinically Relevant Latent Space Embedding of Cancer Histopathology Slides through Variational Autoencoder Based Image Compression ( http://arxiv.org/abs/2303.13332v1 )

ライセンス: Link先を確認
Mohammad Sadegh Nasr, Amir Hajighasemi, Paul Koomey, Parisa Boodaghi Malidarreh, Michael Robben, Jillur Rahman Saurav, Helen H. Shang, Manfred Huber, Jacob M. Luber(参考訳) 本稿では, 臨床検査の精度を維持しつつ, 文献で報告されたSOTAよりも優れた1:512の圧縮比でがん病理スライドを圧縮・圧縮できる変分オートエンコーダ(VAE)ベースのトレーニング手法を提案する。 CIFAR10のような一般的なコンピュータビジョンデータセットを用いて圧縮手法を検証し、この画像特性ががん画像データにどのような圧縮比をもたらすかを検討した。 圧縮潜在空間からの埋め込みを生成・可視化し,データの臨床的解釈にどのように役立つか,将来はそのような潜在埋め込みが臨床画像データの探索の促進にどのように役立つかを示す。

In this paper, we introduce a Variational Autoencoder (VAE) based training approach that can compress and decompress cancer pathology slides at a compression ratio of 1:512, which is better than the previously reported state of the art (SOTA) in the literature, while still maintaining accuracy in clinical validation tasks. The compression approach was tested on more common computer vision datasets such as CIFAR10, and we explore which image characteristics enable this compression ratio on cancer imaging data but not generic images. We generate and visualize embeddings from the compressed latent space and demonstrate how they are useful for clinical interpretation of data, and how in the future such latent embeddings can be used to accelerate search of clinical imaging data.
翻訳日:2023-03-24 13:49:13 公開日:2023-03-23
# Logistic Regression Equivalence: 人口全体でのロジスティック回帰モデルの比較フレームワーク

Logistic Regression Equivalence: A Framework for Comparing Logistic Regression Models Across Populations ( http://arxiv.org/abs/2303.13330v1 )

ライセンス: Link先を確認
Guy Ashiri-Prossner, Yuval Benjamini(参考訳) 本稿では,サブ人口間の適合ロジスティック回帰モデルの違いを評価する方法について論じる。 私たちのモチベーションは、性別に基づくサブ人口が別々のモデルを必要としない場合、学習障害のコンピュータ診断を研究することである。 この文脈では、集団間の差のない仮説の意義テストは、大きな分散とより小さなサンプルがヌルを消さない確率を増加させるので、逆のインセンティブを与える可能性がある。 本研究は, 個体群差に対する既定寛容レベルの同値試験が, 推論の精度を高めることを論じる。 本研究では,各テストがモデルの異なる側面,すなわち回帰係数における現象の符号化方法,サンプル対数比における個々の予測,平均二乗予測誤差における総合的精度などに対処する等価性テストのカスケードセットを開発する。 各等価テストに対して、等価閾値を設定するための戦略を提案する。 大きなサンプル近似はシミュレーションを用いて検証される。 診断データには等価および非等価モデルの例を示す。

In this paper we discuss how to evaluate the differences between fitted logistic regression models across sub-populations. Our motivating example is in studying computerized diagnosis for learning disabilities, where sub-populations based on gender may or may not require separate models. In this context, significance tests for hypotheses of no difference between populations may provide perverse incentives, as larger variances and smaller samples increase the probability of not-rejecting the null. We argue that equivalence testing for a prespecified tolerance level on population differences incentivizes accuracy in the inference. We develop a cascading set of equivalence tests, in which each test addresses a different aspect of the model: the way the phenomenon is coded in the regression coefficients, the individual predictions in the per example log odds ratio and the overall accuracy in the mean square prediction error. For each equivalence test, we propose a strategy for setting the equivalence thresholds. The large-sample approximations are validated using simulations. For diagnosis data, we show examples for equivalent and non-equivalent models.
翻訳日:2023-03-24 13:48:59 公開日:2023-03-23
# グラフによる分散型対人訓練

Decentralized Adversarial Training over Graphs ( http://arxiv.org/abs/2303.13326v1 )

ライセンス: Link先を確認
Ying Cao, Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) 機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。 現存するほとんどの研究は、単独学習者の行動に焦点を当てている。 比較して、この研究は、個々のエージェントが空間にまたがる様々な強度レベルの摂動を受けるグラフ上の敵対的トレーニングを研究する。 リンクエージェントによる相互作用や、グラフ上で可能な攻撃モデルの異質性は、グループの協調力の観点から堅牢性を高めるのに役立つと期待されている。 拡散学習のmin-max定式化を用いて,マルチエージェントシステムのための分散逆学習フレームワークを開発する。 本研究では,凸環境および非凸環境における提案手法の収束特性を解析し,敵攻撃に対する強靭性を示す。

The vulnerability of machine learning models to adversarial attacks has been attracting considerable attention in recent years. Most existing studies focus on the behavior of stand-alone single-agent learners. In comparison, this work studies adversarial training over graphs, where individual agents are subjected to perturbations of varied strength levels across space. It is expected that interactions by linked agents, and the heterogeneity of the attack models that are possible over the graph, can help enhance robustness in view of the coordination power of the group. Using a min-max formulation of diffusion learning, we develop a decentralized adversarial training framework for multi-agent systems. We analyze the convergence properties of the proposed scheme for both convex and non-convex environments, and illustrate the enhanced robustness to adversarial attacks.
翻訳日:2023-03-24 13:48:40 公開日:2023-03-23
# DARE-GRAM : 逆グラム行列の調整による教師なし領域適応回帰

DARE-GRAM : Unsupervised Domain Adaptation Regression by Aligning Inverse Gram Matrices ( http://arxiv.org/abs/2303.13325v1 )

ライセンス: Link先を確認
Ismail Nejjar and Qin Wang and Olga Fink(参考訳) unsupervised domain adaptation regression(dar)は、ラベル付きソースデータセットとラベルなしのターゲットデータセットとのドメインギャップを、回帰問題のために橋渡しすることを目的としている。 最近の研究は主に、ソースとターゲットの機能の相違を最小限にすることで、深い機能エンコーダの学習にフォーカスしている。 本研究では,DAR問題に対して,線形回帰器に対する閉形式正規最小平方~(OLS)解を深い領域適応文脈で解析することにより,異なる視点を示す。 元の特徴埋め込み空間を整列するのではなく,OLS溶液中の存在と特徴相関を捉えるグラム行列の能力によって動機付けられた特徴の逆グラム行列を整列させることを提案する。 具体的には、2つのドメインの擬逆グラム行列によって生成される選択部分空間のスケールと角度を調整するために、擬逆低ランク特性を利用する単純なDAR法を提案する。 提案手法を3つの領域適応回帰ベンチマークで評価する。 実験により,本手法が最先端性能を実現することを示す。 私たちのコードはhttps://github.com/ismailnejjar/DARE-GRAMで利用可能です。

Unsupervised Domain Adaptation Regression (DAR) aims to bridge the domain gap between a labeled source dataset and an unlabelled target dataset for regression problems. Recent works mostly focus on learning a deep feature encoder by minimizing the discrepancy between source and target features. In this work, we present a different perspective for the DAR problem by analyzing the closed-form ordinary least square~(OLS) solution to the linear regressor in the deep domain adaptation context. Rather than aligning the original feature embedding space, we propose to align the inverse Gram matrix of the features, which is motivated by its presence in the OLS solution and the Gram matrix's ability to capture the feature correlations. Specifically, we propose a simple yet effective DAR method which leverages the pseudo-inverse low-rank property to align the scale and angle in a selected subspace generated by the pseudo-inverse Gram matrix of the two domains. We evaluate our method on three domain adaptation regression benchmarks. Experimental results demonstrate that our method achieves state-of-the-art performance. Our code is available at https://github.com/ismailnejjar/DARE-GRAM.
翻訳日:2023-03-24 13:48:29 公開日:2023-03-23
# テキストからテキストへの合成ゼロショットドメイン転送

Compositional Zero-Shot Domain Transfer with Text-to-Text Models ( http://arxiv.org/abs/2303.13386v1 )

ライセンス: Link先を確認
Fangyu Liu, Qianchu Liu, Shruthi Bannur, Fernando P\'erez-Garc\'ia, Naoto Usuyama, Sheng Zhang, Tristan Naumann, Aditya Nori, Hoifung Poon, Javier Alvarez-Valle, Ozan Oktay, Stephanie L. Hyland(参考訳) ラベル不足は専門領域におけるタスクパフォーマンス向上のボトルネックとなる。 ゼロショットドメイン転送のための新しい合成転写学習フレームワーク(DoT5ドメイン合成ゼロショットT5)を提案する。 ドメイン内のラベルにアクセスすることなく、DoT5はドメイン知識(ドメイン内自由テキストのMLMから)とタスク知識(より容易に利用可能な汎用ドメインデータのタスクトレーニングから)をマルチタスクで共同で学習する。 タスクトレーニングの伝達性を改善するため,NLGUという戦略を設計し,ドメイン内ラベルデータ生成のためのNLGとラベル予測のためのNLUを同時にトレーニングする。 バイオメディカルドメインと放射線学のリソースリーンサブドメインでDoT5を評価し,NLI,テキスト要約,埋め込み学習に着目した。 DoT5はマルチタスク学習による合成伝達学習の有効性を示す。 特にDoT5は、現在のSOTAを7以上の絶対点の精度でゼロショット転送で上回る。 本研究は,ドメイン内の専門知識を必要とする難解なNLI事例の解決能力を示すケーススタディでDoT5を検証した。

Label scarcity is a bottleneck for improving task performance in specialised domains. We propose a novel compositional transfer learning framework (DoT5 - domain compositional zero-shot T5) for zero-shot domain transfer. Without access to in-domain labels, DoT5 jointly learns domain knowledge (from MLM of unlabelled in-domain free text) and task knowledge (from task training on more readily available general-domain data) in a multi-task manner. To improve the transferability of task training, we design a strategy named NLGU: we simultaneously train NLG for in-domain label-to-data generation which enables data augmentation for self-finetuning and NLU for label prediction. We evaluate DoT5 on the biomedical domain and the resource-lean subdomain of radiology, focusing on NLI, text summarisation and embedding learning. DoT5 demonstrates the effectiveness of compositional transfer learning through multi-task learning. In particular, DoT5 outperforms the current SOTA in zero-shot transfer by over 7 absolute points in accuracy on RadNLI. We validate DoT5 with ablations and a case study demonstrating its ability to solve challenging NLI examples requiring in-domain expertise.
翻訳日:2023-03-24 13:43:20 公開日:2023-03-23
# 移動物体間の操作計画:どの物体がどこに行くか、どの順序でどのように動くか

Planning for Manipulation among Movable Objects: Deciding Which Objects Go Where, in What Order, and How ( http://arxiv.org/abs/2303.13385v1 )

ライセンス: Link先を確認
Dhruv Saxena and Maxim Likhachev(参考訳) 私たちは、ロボットによって並べ替えられ、スライド、傾いたり、傾いたり、トッププルしたりできる可動体の中で、3dワークスペースを散らかしたり閉じ込めたりするロボット操作タスクに興味があります。 最近提案されたアルゴリズムであるM4Mは、どのオブジェクトを移動する必要があるかを決定し、この問題のマルチエージェントパスフィニングMAPFの抽象化を解く。 そして、ロボットがこれらの再配置をどのように実現するかのアクションを計算するために、無理解のプッシュプランナーと、そのアクションが問題のエンコードされた物理学上の制約を満たすかどうかをチェックするための剛体物理学シミュレータを利用する。 しかし、m4mは計画中に見つかった正しいプッシュをゆるやかにコミットし、複数のオブジェクトを並べ替える必要がある場合、プッシュの順序付けを理由としない。 さらに、M4Mは異なる再配置とプッシュにつながる他のMAPFソリューションを推論しない。 本稿では,M4M と Enhanced-M4M (E-M4M) を拡張し,シーンの並べ替えが必要な移動体に対するプッシュの順序を探索する,グラフ検索に基づく体系的な解法を提案する。 計算複雑性の増大を回避し, e-m4mで解決可能な問題の空間を議論し, 実ロボットとシミュレーションの両方において, 従来のm4mアルゴリズムと, 複雑なシーンを扱う際の他の最先端の代替案を, 実験的に上回っていることを示すアルゴリズム最適化を紹介する。

We are interested in pick-and-place style robot manipulation tasks in cluttered and confined 3D workspaces among movable objects that may be rearranged by the robot and may slide, tilt, lean or topple. A recently proposed algorithm, M4M, determines which objects need to be moved and where by solving a Multi-Agent Pathfinding MAPF abstraction of this problem. It then utilises a nonprehensile push planner to compute actions for how the robot might realise these rearrangements and a rigid body physics simulator to check whether the actions satisfy physics constraints encoded in the problem. However, M4M greedily commits to valid pushes found during planning, and does not reason about orderings over pushes if multiple objects need to be rearranged. Furthermore, M4M does not reason about other possible MAPF solutions that lead to different rearrangements and pushes. In this paper, we extend M4M and present Enhanced-M4M (E-M4M) -- a systematic graph search-based solver that searches over orderings of pushes for movable objects that need to be rearranged and different possible rearrangements of the scene. We introduce several algorithmic optimisations to circumvent the increased computational complexity, discuss the space of problems solvable by E-M4M and show that experimentally, both on the real robot and in simulation, it significantly outperforms the original M4M algorithm, as well as other state-of-the-art alternatives when dealing with complex scenes.
翻訳日:2023-03-24 13:43:01 公開日:2023-03-23
# 画像テキストマッチングのためのプラグアンドプレイレギュレータ

Plug-and-Play Regulators for Image-Text Matching ( http://arxiv.org/abs/2303.13371v1 )

ライセンス: Link先を確認
Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu(参考訳) 細粒度対応と視覚・視覚アライメントの活用は、画像とテキストのマッチングにおいて大きな可能性を秘めている。 一般に、近年のアプローチではまず、潜在領域と単語の相互作用を捉え、次に全てのアライメントを統合することで最終的な類似性を得る。 しかし、それらの多くは、複雑なアーキテクチャや追加情報を備えたワンタイムフォワードアソシエーションやアグリゲーション戦略を採用し、ネットワークフィードバックの規制能力を無視している。 本稿では,メッセージ出力を効率よく符号化し,コンテキストを自動生成し,モーダル表現を集約する,シンプルかつ極めて効果的な2つのレギュレータを開発する。 具体的には 一 よりフレキシブルな対応をつかむために、適応的注意要因を伴って、段階的に横断的注意ユニットを促進するリカレント対応レギュレータ(RCR) (ii)再帰凝集調節器(rar)は、繰り返し凝集重みを調整し、重要アライメントと希薄な非重要アライメントをますます強調する。 さらに、RCRとRARがプラグイン・アンド・プレイであることは興味深い。両者は相互モーダルな相互作用に基づいて多くのフレームワークに組み込むことができ、大きなメリットを得ることができる。 MSCOCOとFlickr30Kデータセットの大規模な実験により、複数のモデルで印象的で一貫したR@1ゲインが得られ、提案手法の一般的な有効性と一般化能力が確認された。 コードおよび事前トレーニングされたモデルは、https://github.com/Paranioar/RCAR.comで利用可能である。

Exploiting fine-grained correspondence and visual-semantic alignments has shown great potential in image-text matching. Generally, recent approaches first employ a cross-modal attention unit to capture latent region-word interactions, and then integrate all the alignments to obtain the final similarity. However, most of them adopt one-time forward association or aggregation strategies with complex architectures or additional information, while ignoring the regulation ability of network feedback. In this paper, we develop two simple but quite effective regulators which efficiently encode the message output to automatically contextualize and aggregate cross-modal representations. Specifically, we propose (i) a Recurrent Correspondence Regulator (RCR) which facilitates the cross-modal attention unit progressively with adaptive attention factors to capture more flexible correspondence, and (ii) a Recurrent Aggregation Regulator (RAR) which adjusts the aggregation weights repeatedly to increasingly emphasize important alignments and dilute unimportant ones. Besides, it is interesting that RCR and RAR are plug-and-play: both of them can be incorporated into many frameworks based on cross-modal interaction to obtain significant benefits, and their cooperation achieves further improvements. Extensive experiments on MSCOCO and Flickr30K datasets validate that they can bring an impressive and consistent R@1 gain on multiple models, confirming the general effectiveness and generalization ability of the proposed methods. Code and pre-trained models are available at: https://github.com/Paranioar/RCAR.
翻訳日:2023-03-24 13:41:00 公開日:2023-03-23
# c_{3v}$ symmetry qutrit spin-1 中心のデコヒーレンス・緩和理論における電荷とスピンノイズの相互作用

Interplay between charge and spin noise in the near-surface theory of decoherence and relaxation of $C_{3v}$ symmetry qutrit spin-1 centers ( http://arxiv.org/abs/2303.13370v1 )

ライセンス: Link先を確認
Denis R. Candido and Michael E. Flatt\'e(参考訳) 量子センサとして一般的に使用される結晶表面近傍の固体欠陥クォートは、電荷と磁場のノイズから脱コヒーレンスと緩和を行う。 完全理論は、欠陥の点群対称性によって許されるすべてのハミルトン項を含むデコヒーレンスと緩和のための形式主義を必要とする。 この形式は、ダイヤモンド、ケイ素、または類似のホストにおけるスピン-1欠陥の$c_{3v}$対称性を示し、リンドブラッド力学方程式に依存し、電荷とスピンノイズの緩和とデコヒーレンスへの相対的寄与と、欠陥スピンの深さと共鳴周波数に依存する。 この計算は、sangtawesin $\textit{et al. の実験的な測定と一致する。 フィス(phys)。 rev. x $\textbf{9}$, 031052 (2019) は、予期せぬ電荷ノイズの重要性を示している。

Decoherence and relaxation of solid-state defect qutrits near a crystal surface, where they are commonly used as quantum sensors, originates from charge and magnetic field noise. A complete theory requires a formalism for decoherence and relaxation that includes all Hamiltonian terms allowed by the defect's point-group symmetry. This formalism, presented here for the $C_{3v}$ symmetry of a spin-1 defect in a diamond, silicon cardide, or similar host, relies on a Lindblad dynamical equation and clarifies the relative contributions of charge and spin noise to relaxation and decoherence, along with their dependence on the defect spin's depth and resonant frequencies. The calculations agree with the experimental measurements of Sangtawesin $\textit{et al.}$, Phys. Rev. X $\textbf{9}$, 031052 (2019) and point to an unexpected importance of charge noise.
翻訳日:2023-03-24 13:40:32 公開日:2023-03-23
# FS-Real: 実世界のクロスデバイスフェデレーションラーニングを目指して

FS-Real: Towards Real-World Cross-Device Federated Learning ( http://arxiv.org/abs/2303.13363v1 )

ライセンス: Link先を確認
Daoyuan Chen, Dawei Gao, Yuexiang Xie, Xuchen Pan, Zitao Li, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) Federated Learning(FL)は、ローカルデータをアップロードせずに、分散クライアントと協調して高品質なモデルをトレーニングすることを目的としている。 しかし、fl研究と実世界のシナリオの間には依然としてかなりのギャップがあり、主に異種デバイスの特徴とその規模が原因である。 既存の研究の多くは、異種デバイスが現実世界のシナリオで多様性や多様性にマッチしない同質デバイスを用いて評価を行っている。 さらに、リソースの制限や複雑なソフトウェアスタックのため、異種デバイスで大規模に研究開発を行うことも困難である。 これらの2つの重要な要因は、FLのトレーニング力学と最終性能に直接影響し、FLアルゴリズムの有効性と使用性は不明確である。 本稿では,このギャップを埋めるために,実世界横断デバイスFL,FS-Realのための効率的かつスケーラブルなプロトタイピングシステムを提案する。 異種デバイスランタイムをサポートし、並列性と堅牢性を強化したFLサーバを備え、パーソナライズ、通信圧縮、非同期アグリゲーションといった高度なFLユーティリティ機能の実装と拡張を提供する。 fs-realのユーザビリティと効率性を示すために,様々なデバイス分布を用いた広範囲な実験を行い,異種デバイスと様々なスケールの効果を定量化し分析し,さらに実世界のflシナリオに関する洞察と議論を提供する。 我々のシステムは、より現実世界のFL研究と多様なデバイスやスケールを含む幅広い応用の道を開くのに役立つ。

Federated Learning (FL) aims to train high-quality models in collaboration with distributed clients while not uploading their local data, which attracts increasing attention in both academia and industry. However, there is still a considerable gap between the flourishing FL research and real-world scenarios, mainly caused by the characteristics of heterogeneous devices and its scales. Most existing works conduct evaluations with homogeneous devices, which are mismatched with the diversity and variability of heterogeneous devices in real-world scenarios. Moreover, it is challenging to conduct research and development at scale with heterogeneous devices due to limited resources and complex software stacks. These two key factors are important yet underexplored in FL research as they directly impact the FL training dynamics and final performance, making the effectiveness and usability of FL algorithms unclear. To bridge the gap, in this paper, we propose an efficient and scalable prototyping system for real-world cross-device FL, FS-Real. It supports heterogeneous device runtime, contains parallelism and robustness enhanced FL server, and provides implementations and extensibility for advanced FL utility features such as personalization, communication compression and asynchronous aggregation. To demonstrate the usability and efficiency of FS-Real, we conduct extensive experiments with various device distributions, quantify and analyze the effect of the heterogeneous device and various scales, and further provide insights and open discussions about real-world FL scenarios. Our system is released to help to pave the way for further real-world FL research and broad applications involving diverse devices and scales.
翻訳日:2023-03-24 13:39:58 公開日:2023-03-23
# スピン量子ビット応用のためのゲートレイアウトのシミュレーション支援による設計ポテンシャル

Tailoring potentials by simulation-aided design of gate layouts for spin qubit applications ( http://arxiv.org/abs/2303.13358v1 )

ライセンス: Link先を確認
Inga Seidler, Malte Neul, Eugen Kammerloher, Matthias K\"unne, Andreas Schmidbauer, Laura Diebel, Arne Ludwig, Julian Ritzmann, Andreas D. Wieck, Dominique Bougeard, Hendrik Bluhm and Lars R. Schreiber(参考訳) スピン量子ビットデバイスのゲートレイアウトは、通常、以前の成功したデバイスから適応される。 量子ビット数とデバイスの複雑さが増加するにつれて、新しいデバイスレイアウトのモデル化と収率と性能の最適化が必要となる。 半導体産業のシミュレーションツールは、より小さな構造サイズと電子数に適応する必要がある。 本稿では, ゲート電圧, ヘテロ構造, 貯水池, およびソースドレインバイアスを考慮した新しいスピン量子ビットデバイスレイアウトを静電気的にモデル化するための一般的な手法を提案する。 特定のポテンシャルによって示される各パラメータの影響について検討する。 トランスポート測定により,2つの設計実装の潜在的景観を間接的に調査することにより,モデルを検証する。 このシミュレーションを用いて, 設計領域の同定と, 製造プロセスの影響と解像度の限界に対するロバストネスの最適化を行う。

Gate-layouts of spin qubit devices are commonly adapted from previous successful devices. As qubit numbers and the device complexity increase, modelling new device layouts and optimizing for yield and performance becomes necessary. Simulation tools from advanced semiconductor industry need to be adapted for smaller structure sizes and electron numbers. Here, we present a general approach for electrostatically modelling new spin qubit device layouts, considering gate voltages, heterostructures, reservoirs and an applied source-drain bias. Exemplified by a specific potential, we study the influence of each parameter. We verify our model by indirectly probing the potential landscape of two design implementations through transport measurements. We use the simulations to identify critical design areas and optimize for robustness with regard to influence and resolution limits of the fabrication process.
翻訳日:2023-03-24 13:39:30 公開日:2023-03-23
# 非コラプス測定を持つ量子論

A Quantum Theory with Non-collapsing Measurements ( http://arxiv.org/abs/2303.13411v1 )

ライセンス: Link先を確認
Vincenzo Fiorentino, Stefan Weigert(参考訳) 量子論の崩壊のないバージョンは、射影仮説の役割を研究するために導入された。 量子状態の更新を行わない「パッシブ」測定を仮定するが、測定結果はボルンの規則に従って確率的に発生する。 ヒルベルト空間の設定のような量子論の他の定義的な特徴はすべて保持される。 結果として生じる量子様理論は1種類のダイナミクス、すなわちユニタリ進化しか持たない。 パッシブ量子論は標準的な量子論と多くの特徴を共有している。 これには準備的不確実性関係、未知の量子状態が動的にクローンできないこと、シグナルが存在しないことなどが含まれる。 しかし、プロトコルが後測定状態に関わると、大きな違いが現れる。 例えば、崩壊のない環境では、トモグラフィ的に完全なオブザーバサ・シングル・システムの集合をパッシブに測定することでシステムの状態を再構築するアンサンブルは不要である。 事実上、状態は観測可能な量となり、理論のオントロジーとその計算力の両方に意味を持つ。 同時に、この理論は局所的なトモグラフィーではなく、パッシブ測定は複合系においてベル型相関を生成しない。

A collapse-free version of quantum theory is introduced to study the role of the projection postulate. We assume "passive" measurements that do not update quantum states while measurement outcomes still occur probabilistically, in accordance with Born's rule. All other defining features of quantum theory, such as the Hilbert space setting, are retained. The resulting quantum-like theory has only one type of dynamics, namely unitary evolution. Passive quantum theory shares many features with standard quantum theory. These include preparational uncertainty relations, the impossibility to dynamically clone unknown quantum states and the absence of signalling. However, striking differences emerge when protocols involve post-measurement states. For example, in the collapse-free setting, no ensemble is needed to reconstruct the state of a system by passively measuring a tomographically complete set of observables - a single system will do. Effectively, the state becomes an observable quantity, with implications for both the ontology of the theory and its computational power. At the same time, the theory is not locally tomographic and passive measurements do not create Bell-type correlations in composite systems.
翻訳日:2023-03-24 13:34:05 公開日:2023-03-23
# パラフレージングはai生成テキストの検出器を回避しますが、検索は効果的な防御です

Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense ( http://arxiv.org/abs/2303.13408v1 )

ライセンス: Link先を確認
Kalpesh Krishna, Yixiao Song, Marzena Karpinska, John Wieting, Mohit Iyyer(参考訳) 悪意のあるユースケース(偽コンテンツ生成や学術的盗作など)に対する大規模言語モデルの展開を検出するため、最近、透かしや統計的不規則性を通じてAI生成テキストを特定するためのいくつかのアプローチが提案されている。 ai生成テキストのパラフレーズに対して、これらの検出アルゴリズムはどの程度堅牢か? これらの検出をストレステストするために、まず11Bパラメータパラフレーズ生成モデル(DIPPER)をトレーニングし、パラフレーズ項を任意に周辺テキスト(例えばユーザ記述プロンプト)をコンテキストとして活用する。 DIPPERはまた、スカラーノブを使用して語彙の多様性とパラフレーズの並べ替え量を制御している。 3つの大きな言語モデル(GPT3.5-davinci-003)とDIPPERで生成されたパラフレーズテキストは、透かし、GPTZero、TectGPT、OpenAIのテキスト分類器を含むいくつかの検出器を回避した。 例えば、DIPPERは入力のセマンティクスを適切に変更することなく、検出精度を70.3%から4.6%(一定の偽陽性率で1%)に下げる。 本稿では,AI生成したテキスト検出とパラフレーズ攻撃の堅牢性を高めるために,意味論的に類似した世代を検索し,言語モデルAPIプロバイダがメンテナンスしなければならない,シンプルな防御手法を提案する。 候補テキストが与えられた場合,提案アルゴリズムは以前にAPIが生成したシーケンスのデータベースを検索し,特定のしきい値内で候補テキストと一致するシーケンスを探す。 我々は、微調整されたT5-XXLモデルから1500万世代分のデータベースを使用して、我々の防衛を実証的に検証し、異なる設定で言い換えられた世代の80%から97%を検出でき、人間の書き起こしシーケンスの1%をAI生成と分類できることがわかった。 将来の研究のために、コード、モデル、データをオープンソースにします。

To detect the deployment of large language models for malicious use cases (e.g., fake content creation or academic plagiarism), several approaches have recently been proposed for identifying AI-generated text via watermarks or statistical irregularities. How robust are these detection algorithms to paraphrases of AI-generated text? To stress test these detectors, we first train an 11B parameter paraphrase generation model (DIPPER) that can paraphrase paragraphs, optionally leveraging surrounding text (e.g., user-written prompts) as context. DIPPER also uses scalar knobs to control the amount of lexical diversity and reordering in the paraphrases. Paraphrasing text generated by three large language models (including GPT3.5-davinci-003) with DIPPER successfully evades several detectors, including watermarking, GPTZero, DetectGPT, and OpenAI's text classifier. For example, DIPPER drops the detection accuracy of DetectGPT from 70.3% to 4.6% (at a constant false positive rate of 1%), without appreciably modifying the input semantics. To increase the robustness of AI-generated text detection to paraphrase attacks, we introduce a simple defense that relies on retrieving semantically-similar generations and must be maintained by a language model API provider. Given a candidate text, our algorithm searches a database of sequences previously generated by the API, looking for sequences that match the candidate text within a certain threshold. We empirically verify our defense using a database of 15M generations from a fine-tuned T5-XXL model and find that it can detect 80% to 97% of paraphrased generations across different settings, while only classifying 1% of human-written sequences as AI-generated. We will open source our code, model and data for future research.
翻訳日:2023-03-24 13:33:48 公開日:2023-03-23
# 深層マルチアームバンドを用いたアダプティブエンドポイント

Adaptive Endpointing with Deep Contextual Multi-armed Bandits ( http://arxiv.org/abs/2303.13407v1 )

ライセンス: Link先を確認
Do June Min, Andreas Stolcke, Anirudh Raju, Colin Vaz, Di He, Venkatesh Ravichandran, Viet Anh Trinh(参考訳) 現在のエンドポイント(EP)ソリューションは、モデルにフィードバックを組み込むことができず、オンライン設定で改善する、教師付きフレームワークで学習する。 また、エンドポイントモデルの最適な構成を見つけるためにコストのかかるグリッド検索を利用するのが一般的です。 本稿では,ハイパーパラメータグリッド探索を回避しつつ,発話レベルの音声特徴をオンライン環境で選択した最適なエンドポイント構成を選択する効率的な方法を提案する。 本手法では、真理ラベルは必要とせず、注釈付きラベルを必要とせず、報酬信号からのオンライン学習のみを用いる。 具体的には、ニューラルネットワークの表現力とトンプソンモデリングアルゴリズムの動作探索の振る舞いを組み合わせた、深層文脈のマルチアームバンディットに基づくアプローチを提案する。 当社のアプローチをいくつかのベースラインと比較し,低レイテンシを維持しながら早期のカットオフエラーの低減に成功していることを示す。

Current endpointing (EP) solutions learn in a supervised framework, which does not allow the model to incorporate feedback and improve in an online setting. Also, it is a common practice to utilize costly grid-search to find the best configuration for an endpointing model. In this paper, we aim to provide a solution for adaptive endpointing by proposing an efficient method for choosing an optimal endpointing configuration given utterance-level audio features in an online setting, while avoiding hyperparameter grid-search. Our method does not require ground truth labels, and only uses online learning from reward signals without requiring annotated labels. Specifically, we propose a deep contextual multi-armed bandit-based approach, which combines the representational power of neural networks with the action exploration behavior of Thompson modeling algorithms. We compare our approach to several baselines, and show that our deep bandit models also succeed in reducing early cutoff errors while maintaining low latency.
翻訳日:2023-03-24 13:33:13 公開日:2023-03-23
# SC-MIL: 病理学における不均衡分類のためのコントラスト多重学習

SC-MIL: Supervised Contrastive Multiple Instance Learning for Imbalanced Classification in Pathology ( http://arxiv.org/abs/2303.13405v1 )

ライセンス: Link先を確認
Dinkar Juyal, Siddhant Shingi, Syed Ashar Javed, Harshith Padigela, Chintan Shah, Anand Sampat, Archit Khosla, John Abel, Amaro Taylor-Weiner(参考訳) 複数インスタンス学習(MIL)モデルは、バイオマーカーの予測や、ギガピクセルサイズの画像からリスク階層化に広く用いられている。 医療画像における機械学習の問題はしばしばまれな疾患を扱うため、これらのモデルがラベルの不均衡な環境で働くことが重要である。 さらに、これらの不均衡は、モデルが現実世界にデプロイされたときに、アウト・オブ・ディストリビューション(OOD)データセットで起こり得る。 機能分離と分類学習がラベル不均衡データセットの判断境界の改善に繋がるという考えを活用する。 そこで本研究では,教師付きコントラスト学習と複数インスタンス学習(SC-MIL)の統合について検討する。 具体的には,バッグレベルの表現学習から最適分類子学習へ段階的に移行するラベル不均衡の存在下での協調学習型ミルフレームワークを提案する。 非小細胞肺癌の亜型化と腎細胞癌の亜型化という,癌病理学におけるよく研究されている2つの問題に対する異なる不均衡設定による実験を行った。 SC-MILは、複数の不均衡な設定にまたがって、ID(In-distriion)とOODホールドアウトセットの両方で、他の技術よりも大きく、一貫した改善を提供する。

Multiple Instance learning (MIL) models have been extensively used in pathology to predict biomarkers and risk-stratify patients from gigapixel-sized images. Machine learning problems in medical imaging often deal with rare diseases, making it important for these models to work in a label-imbalanced setting. Furthermore, these imbalances can occur in out-of-distribution (OOD) datasets when the models are deployed in the real-world. We leverage the idea that decoupling feature and classifier learning can lead to improved decision boundaries for label imbalanced datasets. To this end, we investigate the integration of supervised contrastive learning with multiple instance learning (SC-MIL). Specifically, we propose a joint-training MIL framework in the presence of label imbalance that progressively transitions from learning bag-level representations to optimal classifier learning. We perform experiments with different imbalance settings for two well-studied problems in cancer pathology: subtyping of non-small cell lung cancer and subtyping of renal cell carcinoma. SC-MIL provides large and consistent improvements over other techniques on both in-distribution (ID) and OOD held-out sets across multiple imbalanced settings.
翻訳日:2023-03-24 13:32:45 公開日:2023-03-23
# ハイパースペクトル画像復調用MSFA周波数対応変圧器

MSFA-Frequency-Aware Transformer for Hyperspectral Images Demosaicing ( http://arxiv.org/abs/2303.13404v1 )

ライセンス: Link先を確認
Haijin Zeng, Kai Feng, Shaoguang Huang, Jiezhang Cao, Yongyong Chen, Hongyan Zhang, Hiep Luong, Wilfried Philips(参考訳) マルチスペクトルフィルタアレイ(msfa)を使用するハイパースペクトルイメージングシステムは、各画素のスペクトル成分を1つだけキャプチャする。 ハイパースペクトル復調は測定されていない成分の回収に使用される。 深層学習手法はこの分野で有望であることを示す一方で、非局所的な依存関係のモデリングの制限、周期的なアーティファクトと結びつく可能性のある周期的なMSFAパターンの考慮の欠如、高周波の詳細の回復の困難など、いくつかの課題に悩まされている。 これらの課題に対処するため,MSFA対応トランスフォーマネットワーク (FDM-Net) を新たに提案する。 FDM-Netは、新しいMSFA対応マルチヘッド自己アテンション機構(MaFormer)とフィルタベースのフーリエゼロパディング法を統合し、高い通過成分をより困難かつ比較的容易に再構成する。 Maformerの利点は、データに存在するMSFA情報と非ローカル依存関係を活用することができることである。 さらに,MSFA情報の転送や回復困難な周波数成分のトレーニングの強化のために,共同空間と周波数損失を導入する。 実験の結果、FDM-Netは6dB PSNRで最先端の手法より優れており、高忠実度の詳細を再構築することに成功した。

Hyperspectral imaging systems that use multispectral filter arrays (MSFA) capture only one spectral component in each pixel. Hyperspectral demosaicing is used to recover the non-measured components. While deep learning methods have shown promise in this area, they still suffer from several challenges, including limited modeling of non-local dependencies, lack of consideration of the periodic MSFA pattern that could be linked to periodic artifacts, and difficulty in recovering high-frequency details. To address these challenges, this paper proposes a novel de-mosaicing framework, the MSFA-frequency-aware Transformer network (FDM-Net). FDM-Net integrates a novel MSFA-frequency-aware multi-head self-attention mechanism (MaFormer) and a filter-based Fourier zero-padding method to reconstruct high pass components with greater difficulty and low pass components with relative ease, separately. The advantage of Maformer is that it can leverage the MSFA information and non-local dependencies present in the data. Additionally, we introduce a joint spatial and frequency loss to transfer MSFA information and enhance training on frequency components that are hard to recover. Our experimental results demonstrate that FDM-Net outperforms state-of-the-art methods with 6dB PSNR, and reconstructs high-fidelity details successfully.
翻訳日:2023-03-24 13:32:06 公開日:2023-03-23
# 対向ロバストネスの最適化と最適化

Optimization and Optimizers for Adversarial Robustness ( http://arxiv.org/abs/2303.13401v1 )

ライセンス: Link先を確認
Hengyue Liang, Buyun Liang, Le Peng, Ying Cui, Tim Mitchell and Ju Sun(参考訳) 逆摂動に対するディープラーニングモデルの経験的ロバスト性評価(re)は、非自明な制約付き最適化問題を解くことを伴う。 実際にそれらを解決するのによく使われる既存の数値アルゴリズムは、主に射影勾配に依存し、主に$\ell_1$、$\ell_2$、$\ell_\infty$距離でモデル化された摂動を扱う。 本稿では,汎用制約最適化解法であるPyGRANSOとConstraint Folding(PWCF)を融合した新しいアルゴリズムフレームワークを提案する。 信頼性に関しては、PWCFはソリューションの品質を評価するための定常度測定と実現可能性テストのソリューションを提供する。 一般に、PWCFは既存の射影勾配法に到達できない摂動モデルを扱うことができ、主な要件は、ほぼ至るところで微分可能な距離メートル法である。 PWCFや他の既存の数値アルゴリズムを利用して、損失、摂動モデル、最適化アルゴリズムの様々な組み合わせを用いて、これらの最適化問題の解法における異なるパターンを更に探求する。 次に,これらのパターンが現在のロバストネス評価や対人訓練に与える影響について論じる。

Empirical robustness evaluation (RE) of deep learning models against adversarial perturbations entails solving nontrivial constrained optimization problems. Existing numerical algorithms that are commonly used to solve them in practice predominantly rely on projected gradient, and mostly handle perturbations modeled by the $\ell_1$, $\ell_2$ and $\ell_\infty$ distances. In this paper, we introduce a novel algorithmic framework that blends a general-purpose constrained-optimization solver PyGRANSO with Constraint Folding (PWCF), which can add more reliability and generality to the state-of-the-art RE packages, e.g., AutoAttack. Regarding reliability, PWCF provides solutions with stationarity measures and feasibility tests to assess the solution quality. For generality, PWCF can handle perturbation models that are typically inaccessible to the existing projected gradient methods; the main requirement is the distance metric to be almost everywhere differentiable. Taking advantage of PWCF and other existing numerical algorithms, we further explore the distinct patterns in the solutions found for solving these optimization problems using various combinations of losses, perturbation models, and optimization algorithms. We then discuss the implications of these patterns on the current robustness evaluation and adversarial training.
翻訳日:2023-03-24 13:31:28 公開日:2023-03-23
# 教師なし対話セグメンテーションのためのマルチグラニュラリティインタラクションシミュレーション

Multi-granularity Interaction Simulation for Unsupervised Interactive Segmentation ( http://arxiv.org/abs/2303.13399v1 )

ライセンス: Link先を確認
Kehan Li, Yian Zhao, Zhennan Wang, Zesen Cheng, Peng Jin, Xiangyang Ji, Li Yuan, Chang Liu, Jie Chen(参考訳) インタラクティブセグメンテーションは、画像編集や医用画像分析など、多くの分野にヒューマンコンピュータインタラクションを導入するオブジェクトの手がかりを提供することで、必要に応じてセグメンテーションを可能にする。 通常、大規模で拡張可能なピクセルレベルのアノテーションは、手動でラベル付けされたオブジェクトマスクとオブジェクト指向の相互作用によって深層モデルのトレーニングに費やされる。 本研究では,非教師付きパラダイムを用いて,意味に一貫性のある多種多様な領域探索をシミュレーションすることで,情報的相互作用を実現できることを示す。 具体的には,マルチグラニュラリティ・インタラクション・シミュレーション (MIS) アプローチを導入し,教師なしの対話的セグメンテーションに期待できる方向を開く。 近年の自己監視モデルが生成する高品質な密集した特徴について考察し,類似した特徴を有するパッチや領域を徐々にマージし,より広範囲な領域を形成することを提案する。 これらの提案をランダムにサンプリングし、それらに基づいて可能な相互作用をシミュレートすることにより、複数の粒度で有意義な相互作用を提供し、モデルに相互作用を理解することを教える。 我々のMISは、非深層学習における教師なしの手法よりも優れており、アノテーションのない従来の深層学習手法と同等である。

Interactive segmentation enables users to segment as needed by providing cues of objects, which introduces human-computer interaction for many fields, such as image editing and medical image analysis. Typically, massive and expansive pixel-level annotations are spent to train deep models by object-oriented interactions with manually labeled object masks. In this work, we reveal that informative interactions can be made by simulation with semantic-consistent yet diverse region exploration in an unsupervised paradigm. Concretely, we introduce a Multi-granularity Interaction Simulation (MIS) approach to open up a promising direction for unsupervised interactive segmentation. Drawing on the high-quality dense features produced by recent self-supervised models, we propose to gradually merge patches or regions with similar features to form more extensive regions and thus, every merged region serves as a semantic-meaningful multi-granularity proposal. By randomly sampling these proposals and simulating possible interactions based on them, we provide meaningful interaction at multiple granularities to teach the model to understand interactions. Our MIS significantly outperforms non-deep learning unsupervised methods and is even comparable with some previous deep-supervised methods without any annotation.
翻訳日:2023-03-24 13:31:07 公開日:2023-03-23
# DDT:ビデオからのヒューマンメッシュ回復のための拡散駆動型トランスフォーマーベースのフレームワーク

DDT: A Diffusion-Driven Transformer-based Framework for Human Mesh Recovery from a Video ( http://arxiv.org/abs/2303.13397v1 )

ライセンス: Link先を確認
Ce Zheng, Guo-Jun Qi, Chen Chen(参考訳) human mesh recovery(hmr)は、ゲーム、人間とコンピュータのインタラクション、仮想現実など、さまざまな現実のアプリケーションに対して、豊富な人体情報を提供する。 単一の画像ベースの手法と比較して、ビデオベースの手法は、時間的情報を利用して人体の動きの先行を取り入れることで、パフォーマンスをさらに向上させることができる。 しかし、VIBEのような多対多のアプローチは、動きの滑らかさと時間的矛盾に悩まされている。 TCMRやMPS-Netのような多くの対1のアプローチは将来のフレームに依存している。 これらの課題に対処するために、ビデオベースのHMRのためのDDT(Diffusion-Driven Transformer-based framework)を紹介した。 DDTは入力シーケンスから特定の動きパターンをデコードし、動きの滑らかさと時間的一貫性を高めるように設計されている。 多数対多のアプローチとして、私たちのDDTデコーダは、すべてのフレームのヒューマンメッシュを出力します。 広範に使われているデータセット(Human3.6M, MPI-INF-3DHP, 3DPW)を用いて, DDTの有効性と有効性を示す実験を行った。

Human mesh recovery (HMR) provides rich human body information for various real-world applications such as gaming, human-computer interaction, and virtual reality. Compared to single image-based methods, video-based methods can utilize temporal information to further improve performance by incorporating human body motion priors. However, many-to-many approaches such as VIBE suffer from motion smoothness and temporal inconsistency. While many-to-one approaches such as TCMR and MPS-Net rely on the future frames, which is non-causal and time inefficient during inference. To address these challenges, a novel Diffusion-Driven Transformer-based framework (DDT) for video-based HMR is presented. DDT is designed to decode specific motion patterns from the input sequence, enhancing motion smoothness and temporal consistency. As a many-to-many approach, the decoder of our DDT outputs the human mesh of all the frames, making DDT more viable for real-world applications where time efficiency is crucial and a causal model is desired. Extensive experiments are conducted on the widely used datasets (Human3.6M, MPI-INF-3DHP, and 3DPW), which demonstrated the effectiveness and efficiency of our DDT.
翻訳日:2023-03-24 13:30:45 公開日:2023-03-23
# ゼロセグメントラベルを用いたゼロ誘導セグメンテーション

Zero-guidance Segmentation Using Zero Segment Labels ( http://arxiv.org/abs/2303.13396v1 )

ライセンス: Link先を確認
Pitchaporn Rewatbowornwong, Nattanat Chatthee, Ekapol Chuangsuwanich, Supasorn Suwajanakorn(参考訳) CLIPは新しくてエキサイティングな共同ビジョン言語アプリケーションを実現した。ひとつはオープン語彙セグメンテーションで、任意のテキストクエリの任意のセグメントを特定できる。 本研究では,テキストクエリや事前定義されたクラスでユーザ誘導なしに意味セグメントを見つけ出し,自然言語で自動的にラベル付けすることができるか質問する。 そこで本研究では,DINOとCLIPという2つの事前学習されたジェネラリストモデルを利用したゼロガイダンスセグメンテーションと第1ベースラインを提案する。 一般的なアイデアは、まず画像を小さなオーバーセグメントに分割し、クリップのビジュアル言語空間にエンコードし、テキストラベルに変換し、意味的に類似したセグメントをマージすることだ。 しかし、重要な課題は、視覚セグメントを、グローバルなコンテキスト情報とローカルなコンテキスト情報のバランスをとるセグメント固有の埋め込みにエンコードする方法だ。 私たちの主な貢献は、CLIP内のアテンション層を分析することによって、2つのコンテキストのバランスをとる新しいアテンションマスキング技術です。 この新しいタスクの評価のための指標もいくつか紹介する。 CLIPの生来の知識により、美術館の観衆の間でモナ・リザの絵を正確に見つけることができる。 プロジェクトページ: https://zero-guide-seg.github.io/

CLIP has enabled new and exciting joint vision-language applications, one of which is open-vocabulary segmentation, which can locate any segment given an arbitrary text query. In our research, we ask whether it is possible to discover semantic segments without any user guidance in the form of text queries or predefined classes, and label them using natural language automatically? We propose a novel problem zero-guidance segmentation and the first baseline that leverages two pre-trained generalist models, DINO and CLIP, to solve this problem without any fine-tuning or segmentation dataset. The general idea is to first segment an image into small over-segments, encode them into CLIP's visual-language space, translate them into text labels, and merge semantically similar segments together. The key challenge, however, is how to encode a visual segment into a segment-specific embedding that balances global and local context information, both useful for recognition. Our main contribution is a novel attention-masking technique that balances the two contexts by analyzing the attention layers inside CLIP. We also introduce several metrics for the evaluation of this new task. With CLIP's innate knowledge, our method can precisely locate the Mona Lisa painting among a museum crowd. Project page: https://zero-guide-seg.github.io/.
翻訳日:2023-03-24 13:30:20 公開日:2023-03-23
# xplainer:x線観測からゼロショット診断へ

Xplainer: From X-Ray Observations to Explainable Zero-Shot Diagnosis ( http://arxiv.org/abs/2303.13391v1 )

ライセンス: Link先を確認
Chantal Pellegrini, Matthias Keicher, Ege \"Ozsoy, Petra Jiraskova, Rickmer Braren, Nassir Navab(参考訳) 医療画像からの診断自動予測は臨床的意思決定を支援する貴重な資源である。 しかし、そのようなシステムは、通常、医療領域では不足することが多い大量の注釈付きデータに基づいて訓練される必要がある。 ゼロショット法は、ラベル付きデータに頼ることなく、異なる臨床所見を持つ新しい設定への柔軟な適応を可能にすることで、この問題に対処する。 さらに, 臨床ワークフローに自動診断を統合するためには, 方法が透明で説明しやすいこと, 医療専門家の信頼度を高め, 正確性検証を容易にすることが必要である。 本稿では,臨床現場におけるゼロショット診断のための新しいフレームワークであるXplainerを紹介する。 Xplainerは、比較視覚言語モデルの分類記述アプローチを多言語診断タスクに適用する。 具体的には、診断を直接予測する代わりに、放射線技師がX線スキャンで探す記述的観察の存在をモデルに分類し、診断の可能性を推定するために記述子確率を使用する。 最終的な診断予測は、基礎となる記述子の予測に基づいて直接行われるため、このモデルは設計によって説明可能である。 胸部X線データセットであるCheXpertとChestX-ray14のXplainerを評価し,ゼロショット診断の性能と説明性の向上に有効であることを示した。 以上の結果から,Xplainerは意思決定プロセスのより詳細な理解を提供し,臨床診断に有用なツールであることが示唆された。

Automated diagnosis prediction from medical images is a valuable resource to support clinical decision-making. However, such systems usually need to be trained on large amounts of annotated data, which often is scarce in the medical domain. Zero-shot methods address this challenge by allowing a flexible adaption to new settings with different clinical findings without relying on labeled data. Further, to integrate automated diagnosis in the clinical workflow, methods should be transparent and explainable, increasing medical professionals' trust and facilitating correctness verification. In this work, we introduce Xplainer, a novel framework for explainable zero-shot diagnosis in the clinical setting. Xplainer adapts the classification-by-description approach of contrastive vision-language models to the multi-label medical diagnosis task. Specifically, instead of directly predicting a diagnosis, we prompt the model to classify the existence of descriptive observations, which a radiologist would look for on an X-Ray scan, and use the descriptor probabilities to estimate the likelihood of a diagnosis. Our model is explainable by design, as the final diagnosis prediction is directly based on the prediction of the underlying descriptors. We evaluate Xplainer on two chest X-ray datasets, CheXpert and ChestX-ray14, and demonstrate its effectiveness in improving the performance and explainability of zero-shot diagnosis. Our results suggest that Xplainer provides a more detailed understanding of the decision-making process and can be a valuable tool for clinical diagnosis.
翻訳日:2023-03-24 13:29:56 公開日:2023-03-23
# set-the-scene: 制御可能なnerfシーン生成のためのグローバルローカルトレーニング

Set-the-Scene: Global-Local Training for Generating Controllable NeRF Scenes ( http://arxiv.org/abs/2303.13450v1 )

ライセンス: Link先を確認
Dana Cohen-Bar, Elad Richardson, Gal Metzer, Raja Giryes, Daniel Cohen-Or(参考訳) テキスト誘導画像生成の最近の進歩は、テキストからの3D合成の分野において顕著な進歩をもたらした。 テキストから直接ニューラルレイディアンス場(NeRF)を最適化することにより、最近の手法は顕著な結果をもたらすことができる。 しかし、これらの手法はシーン全体を表現しているため、それぞれの物体の位置や外観の制御に制限がある。 これは、シーン内のオブジェクトの精製や操作を必要とするシナリオにおいて大きな問題となる可能性がある。 この欠点を補うために,オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。 プロキシは生成されたシーンにおけるオブジェクトの配置を表し、オプションで粗い幾何学を定義する。 このアプローチの鍵は、各オブジェクトを独立したNeRFとして表現することです。 それぞれのNeRFをそれ自身で最適化することと、フルシーンの一部とを交互に行います。 これにより、各オブジェクトの完全な表現を学習し、スタイルと照明が一致した調和したシーンを作成することができる。 プロキシを使用することで,各独立したオブジェクトの配置調整やシーンからのオブジェクトの削除,オブジェクトの洗練など,さまざまな編集オプションが可能になる。 その結果,Set-the-Sceneはシーン合成と操作の強力なソリューションであり,制御可能なテキストから3D合成において重要なギャップを埋めていることがわかった。

Recent breakthroughs in text-guided image generation have led to remarkable progress in the field of 3D synthesis from text. By optimizing neural radiance fields (NeRF) directly from text, recent methods are able to produce remarkable results. Yet, these methods are limited in their control of each object's placement or appearance, as they represent the scene as a whole. This can be a major issue in scenarios that require refining or manipulating objects in the scene. To remedy this deficit, we propose a novel GlobalLocal training framework for synthesizing a 3D scene using object proxies. A proxy represents the object's placement in the generated scene and optionally defines its coarse geometry. The key to our approach is to represent each object as an independent NeRF. We alternate between optimizing each NeRF on its own and as part of the full scene. Thus, a complete representation of each object can be learned, while also creating a harmonious scene with style and lighting match. We show that using proxies allows a wide variety of editing options, such as adjusting the placement of each independent object, removing objects from a scene, or refining an object. Our results show that Set-the-Scene offers a powerful solution for scene synthesis and manipulation, filling a crucial gap in controllable text-to-3D synthesis.
翻訳日:2023-03-24 13:24:30 公開日:2023-03-23
# CLIP for All Things Zero-Shot Sketch-based Image Retrieval, Fine-Grained or not

CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or Not ( http://arxiv.org/abs/2303.13440v1 )

ライセンス: Link先を確認
Aneeshan Sain, Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Subhadeep Koley, Tao Xiang, Yi-Zhe Song(参考訳) 本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)にCLIPを利用する。 私たちは、ファンデーションモデルにおける最近の進歩と、彼らが提供していると思われる非並列の一般化能力に大きく影響を受けています。 我々は、このシナジーをいかに最適に達成するかという新しいデザインを、カテゴリー設定ときめ細かい設定("all")の両方のために提案した。 私たちのソリューションの核心は、迅速な学習セットアップです。 まず、スケッチ固有のプロンプトをファクタリングすることで、すでにカテゴリレベルのZS-SBIRシステムがあり、すべての先行芸術をオーバーシュートし(24.8%)、CLIPとZS-SBIRのシナジーを研究する上で大きな証拠となります。 しかし、細かな設定に移行するのは難しく、このシナジーを深く掘り下げる必要がある。 そのため、この問題のきめ細かいマッチング性に取り組むために、2つの具体的な設計を考え出した。 (i)スケッチと写真の相対的な分離がカテゴリ間で均一であることを保証するための追加の正規化損失。金本位制の三重項損失はそうではない。 (ii)スケッチとフォトのペア間のインスタンスレベルの構造的対応を確立するための巧妙なパッチシャッフル技術。 これらの設計により、我々は以前の最先端よりも26.9%の領域での大幅な性能向上を再び観察する。 提案されているクリップとプロンプト学習のパラダイムは、データ不足が大きな課題である他のスケッチ関連のタスク(zs-sbirに限らず)に取り組む上で、大きな可能性を秘めています。 コードとモデルは利用可能になる。

In this paper, we leverage CLIP for zero-shot sketch based image retrieval (ZS-SBIR). We are largely inspired by recent advances on foundation models and the unparalleled generalisation ability they seem to offer, but for the first time tailor it to benefit the sketch community. We put forward novel designs on how best to achieve this synergy, for both the category setting and the fine-grained setting ("all"). At the very core of our solution is a prompt learning setup. First we show just via factoring in sketch-specific prompts, we already have a category-level ZS-SBIR system that overshoots all prior arts, by a large margin (24.8%) - a great testimony on studying the CLIP and ZS-SBIR synergy. Moving onto the fine-grained setup is however trickier, and requires a deeper dive into this synergy. For that, we come up with two specific designs to tackle the fine-grained matching nature of the problem: (i) an additional regularisation loss to ensure the relative separation between sketches and photos is uniform across categories, which is not the case for the gold standard standalone triplet loss, and (ii) a clever patch shuffling technique to help establishing instance-level structural correspondences between sketch-photo pairs. With these designs, we again observe significant performance gains in the region of 26.9% over previous state-of-the-art. The take-home message, if any, is the proposed CLIP and prompt learning paradigm carries great promise in tackling other sketch-related tasks (not limited to ZS-SBIR) where data scarcity remains a great challenge. Code and models will be made available.
翻訳日:2023-03-24 13:24:08 公開日:2023-03-23
# Text2Video-Zero:テキスト間拡散モデルはゼロショットビデオジェネレータ

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators ( http://arxiv.org/abs/2303.13439v1 )

ライセンス: Link先を確認
Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, Humphrey Shi(参考訳) 最近のテキスト・ビデオ生成手法は、計算量の重いトレーニングに依存し、大規模なビデオデータセットを必要とする。 本稿では,ゼロショットテキスト対ビデオ生成の新しいタスクを紹介し,既存のテキスト対画像合成手法(例えば安定拡散)のパワーを活用し,ビデオ領域に適した低コストな手法を提案する。 私たちの重要な変更は i) 生成されたフレームの潜時符号をモーションダイナミクスで豊かにすることにより、グローバルシーンとバックグラウンドタイムの一貫性を維持する。 二 第1フレーム上の各フレームの新たなクロスフレームアテンションを用いてフレームレベルの自己注意をプログラムし、前景オブジェクトのコンテキスト、外観、アイデンティティを保持する。 実験によると、これはオーバーヘッドが低く、高品質で一貫したビデオ生成につながる。 さらに,本手法はテキストからビデオへの合成に留まらず,条件付きおよびコンテンツ特化ビデオ生成,およびvideo instruct-pix2pix,すなわち命令指示付きビデオ編集にも適用できる。 実験結果が示すように,本手法は映像データの追加訓練を受けていないにもかかわらず,近年の手法と相性が良い場合が多い。 私たちのコードは、https://github.com/Picsart-AI-Research/Text2Video-Zero でオープンソース化されます。

Recent text-to-video generation approaches rely on computationally heavy training and require large-scale video datasets. In this paper, we introduce a new task of zero-shot text-to-video generation and propose a low-cost approach (without any training or optimization) by leveraging the power of existing text-to-image synthesis methods (e.g., Stable Diffusion), making them suitable for the video domain. Our key modifications include (i) enriching the latent codes of the generated frames with motion dynamics to keep the global scene and the background time consistent; and (ii) reprogramming frame-level self-attention using a new cross-frame attention of each frame on the first frame, to preserve the context, appearance, and identity of the foreground object. Experiments show that this leads to low overhead, yet high-quality and remarkably consistent video generation. Moreover, our approach is not limited to text-to-video synthesis but is also applicable to other tasks such as conditional and content-specialized video generation, and Video Instruct-Pix2Pix, i.e., instruction-guided video editing. As experiments show, our method performs comparably or sometimes better than recent approaches, despite not being trained on additional video data. Our code will be open sourced at: https://github.com/Picsart-AI-Research/Text2Video-Zero .
翻訳日:2023-03-24 13:23:38 公開日:2023-03-23
# 教師なしドメイン適応のためのパッチミクス変換器:ゲーム視点

Patch-Mix Transformer for Unsupervised Domain Adaptation: A Game Perspective ( http://arxiv.org/abs/2303.13434v1 )

ライセンス: Link先を確認
Jinjing Zhu, Haotian Bai, Lin Wang(参考訳) ビジョントランスフォーマー(ViT)を活用して、非教師なしドメイン適応(UDA)課題に挑戦する試みが最近行われた。 それらは通常、直接ドメインアライメントのためにViTのクロスアテンションを採用する。 しかし, クロスアテンションの性能は, 対象サンプルの擬似ラベルの品質に大きく依存しているため, ドメインギャップが大きくなると効果が低下する。 本稿では,PMTransと呼ばれる中間領域にソースとターゲットドメインをブリッジするモデルを用いて,ゲーム理論の観点からこの問題を解決する。 具体的には、ゲーム理論モデルに基づいて両方のドメインからパッチをサンプリングすることで、中間領域、すなわち確率分布を効果的に構築する、PatchMixと呼ばれる新しいViTベースのモジュールを提案する。 このようにして、ソースとターゲットドメインからのパッチを混合してクロスエントロピー(CE)を最大化し、機能とラベル空間の2つの半教師付きミックスアップ損失を利用して最小化する。 そこで我々は,UDAの処理を特徴抽出器,分類器,およびPatchMixを含む3人のプレイヤーでmin-max CEゲームとして解釈し,ナッシュ平衡を求める。 さらに,vitのアテンションマップを利用して,各パッチのラベルを重要度で再強調することで,よりドメイン識別的な特徴表現を得ることができる。 我々は4つのベンチマークデータセットについて広範な実験を行い、その結果、pmtrans は vit ベースの sota メソッドと cnn ベースの sota メソッドを、office-home では +3.6%、office-31 では +1.4%、domainnet では +17.7% を大きく上回った。

Endeavors have been recently made to leverage the vision transformer (ViT) for the challenging unsupervised domain adaptation (UDA) task. They typically adopt the cross-attention in ViT for direct domain alignment. However, as the performance of cross-attention highly relies on the quality of pseudo labels for targeted samples, it becomes less effective when the domain gap becomes large. We solve this problem from a game theory's perspective with the proposed model dubbed as PMTrans, which bridges source and target domains with an intermediate domain. Specifically, we propose a novel ViT-based module called PatchMix that effectively builds up the intermediate domain, i.e., probability distribution, by learning to sample patches from both domains based on the game-theoretical models. This way, it learns to mix the patches from the source and target domains to maximize the cross entropy (CE), while exploiting two semi-supervised mixup losses in the feature and label spaces to minimize it. As such, we interpret the process of UDA as a min-max CE game with three players, including the feature extractor, classifier, and PatchMix, to find the Nash Equilibria. Moreover, we leverage attention maps from ViT to re-weight the label of each patch by its importance, making it possible to obtain more domain-discriminative feature representations. We conduct extensive experiments on four benchmark datasets, and the results show that PMTrans significantly surpasses the ViT-based and CNN-based SoTA methods by +3.6% on Office-Home, +1.4% on Office-31, and +17.7% on DomainNet, respectively.
翻訳日:2023-03-24 13:23:14 公開日:2023-03-23
# 予算上の医学拡散:医療画像生成のためのテキストインバージョン

Medical diffusion on a budget: textual inversion for medical image generation ( http://arxiv.org/abs/2303.13430v1 )

ライセンス: Link先を確認
Bram de Wilde, Anindo Saha, Richard P.G. ten Broek, Henkjan Huisman(参考訳) 近年の効率性,アクセシビリティ,品質の進歩により,テキストから画像への拡散モデルが大いに人気を集めている。 コンシューマグレードのgpuを使用してこれらのシステムで推論を行うことはますます可能になっていますが、スクラッチからトレーニングするには大きなデータセットと重要な計算リソースが必要になるのです。 医療画像生成の場合、法的および倫理的な懸念から、テキストレポートを含む大規模で公開可能なデータセットの可用性は限られている。 プライベートデータセット上で拡散モデルをトレーニングすることはこの問題に対処するかもしれないが、必要な計算資源を欠いている機関にとって必ずしも実現可能とは限らない。 この研究は、もともと自然画像に基づいて訓練された訓練済み安定拡散モデルが、テキストインバージョンによるテキスト埋め込みをトレーニングすることにより、様々な医療画像に適応できることを実証する。 そこで本研究では、3つの医学的モダリティから100個のサンプルからなる医療データセットを用いて実験を行った。 埋め込みは数時間で訓練され、画像生成における診断関連性は維持された。 実験はいくつかの目的を達成するために設計された。 まず、テキスト反転のトレーニングと推論プロセスを微調整し、より大きな埋め込みとより多くの例が必要であることを明らかにした。 第2に,mri上の前立腺癌検出のための診断精度(auc)を0.78から0.80に2-%向上させることで,本手法の有効性を確認した。 第3に, 健康状態と疾患状態の補間, 複数の病態の複合化, エンベディングフレキシビリティ, 疾患外観の制御などによるシミュレーションを行った。 最後に、この研究で訓練された埋め込みは(1MB未満)小さく、プライバシーの懸念を減らした医療データの共有を容易にする。

Diffusion-based models for text-to-image generation have gained immense popularity due to recent advancements in efficiency, accessibility, and quality. Although it is becoming increasingly feasible to perform inference with these systems using consumer-grade GPUs, training them from scratch still requires access to large datasets and significant computational resources. In the case of medical image generation, the availability of large, publicly accessible datasets that include text reports is limited due to legal and ethical concerns. While training a diffusion model on a private dataset may address this issue, it is not always feasible for institutions lacking the necessary computational resources. This work demonstrates that pre-trained Stable Diffusion models, originally trained on natural images, can be adapted to various medical imaging modalities by training text embeddings with textual inversion. In this study, we conducted experiments using medical datasets comprising only 100 samples from three medical modalities. Embeddings were trained in a matter of hours, while still retaining diagnostic relevance in image generation. Experiments were designed to achieve several objectives. Firstly, we fine-tuned the training and inference processes of textual inversion, revealing that larger embeddings and more examples are required. Secondly, we validated our approach by demonstrating a 2\% increase in the diagnostic accuracy (AUC) for detecting prostate cancer on MRI, which is a challenging multi-modal imaging modality, from 0.78 to 0.80. Thirdly, we performed simulations by interpolating between healthy and diseased states, combining multiple pathologies, and inpainting to show embedding flexibility and control of disease appearance. Finally, the embeddings trained in this study are small (less than 1 MB), which facilitates easy sharing of medical data with reduced privacy concerns.
翻訳日:2023-03-24 13:22:43 公開日:2023-03-23
# 最大偏差推定のための干渉粒子ランゲヴィンアルゴリズム

Interacting Particle Langevin Algorithm for Maximum Marginal Likelihood Estimation ( http://arxiv.org/abs/2303.13429v1 )

ライセンス: Link先を確認
\"O. Deniz Akyildiz, Francesca Romana Crucinio, Mark Girolami, Tim Johnston, Sotirios Sabanis(参考訳) 本稿では,潜在変数モデルのパラメータを最適化する限界最大推定法(MLE)を実装した相互作用粒子系のクラスについて検討する。 そこで我々は, 粒子数を最適化の古典的設定において逆温度パラメータとして作用する, 拡張状態空間上のランジュバン拡散と見なすことのできる連続時間相互作用粒子系を提案する。 ランジュバン拡散を用いて,粒子系における粒子数,アルゴリズムの反復数,時間離散化解析におけるステップサイズパラメータの観点から,最大限度推定器の最適化誤差に対する非漸近濃度境界を証明した。

We study a class of interacting particle systems for implementing a marginal maximum likelihood estimation (MLE) procedure to optimize over the parameters of a latent variable model. To do so, we propose a continuous-time interacting particle system which can be seen as a Langevin diffusion over an extended state space, where the number of particles acts as the inverse temperature parameter in classical settings for optimisation. Using Langevin diffusions, we prove nonasymptotic concentration bounds for the optimisation error of the maximum marginal likelihood estimator in terms of the number of particles in the particle system, the number of iterations of the algorithm, and the step-size parameter for the time discretisation analysis.
翻訳日:2023-03-24 13:22:16 公開日:2023-03-23
# これ全部 1キュービット? 局所回路切断方式の境界

All this for one qubit? Bounds on local circuit cutting schemes ( http://arxiv.org/abs/2303.13422v1 )

ライセンス: Link先を確認
Simon C. Marshall, Jordi Tura and Vedran Dunjko(参考訳) 少数の量子ビットは、有利な量子コンピューティングの短期展開における主要な制約の1つである。 この制約を緩和するため、大規模な量子計算をより小さな計算に分割する手法が開発されている。 この研究は、しばしば回路編みまたは分割と呼ばれるが、一般には回路切断(CC)と呼ぶ。 既存の研究の多くは、より効率的な回路切断スキームの開発に焦点を合わせており、理論上最適なスキームが達成できる限界に疑問を呈している。 まず、入力状態と測定値が固定され、知られている状態と、入力状態と測定値の完全なベースで作業するために与えられた切断を必要とする状態と測定値の2つの異なる状態に分割して境界を開発する。 第一に、bpp$\stackrel{?} を解くための回路切断量に対する任意のアプローチの効率性に限界が対処していることは容易にわかる。 }{=}$BQP。 したがって、我々はより単純な質問に限定し、既存のすべての回路切断スキームを含む技術的制約である、‘textit{locally-acting} 回路切断スキームが何を達成できるかを問う。 最初のケースでは、回路の残りの部分から1量子ビットでも効率的に分割できる局所的に作用する回路切断方式の存在は、BPP$=$BQPを意味することを示す。 第2のケースでは、無条件で非効率性を示すより一般的な結果が得られる。 また、各回路切断方式は、単位チャネルのみを適用するだけでは機能しないことを示す。

Small numbers of qubits are one of the primary constraints on the near-term deployment of advantageous quantum computing. To mitigate this constraint, techniques have been developed to break up a large quantum computation into smaller computations. While this work is sometimes called circuit knitting or divide and quantum we generically refer to it as circuit cutting (CC). Much of the existing work has focused on the development of more efficient circuit cutting schemes, leaving open questions on the limits of what theoretically optimal schemes can achieve. We develop bounds by breaking up possible approaches into two distinct regimes: the first, where the input state and measurement are fixed and known, and the second, which requires a given cutting to work for a complete basis of input states and measurements. For the first case, it is easy to see that bounds addressing the efficiency of any approaches to circuit cutting amount to resolving BPP$\stackrel{?}{=}$BQP. We therefore restrict ourselves to a simpler question, asking what \textit{locally-acting} circuit cutting schemes can achieve, a technical restriction which still includes all existing circuit cutting schemes. In our first case we show that the existence of a locally-acting circuit cutting scheme which could efficiently partition even a single qubit from the rest of a circuit would imply BPP$=$BQP. In our second case, we obtain more general results, showing inefficiency unconditionally. We also show that any (local or otherwise) circuit cutting scheme cannot function by only applying unital channels.
翻訳日:2023-03-24 13:22:04 公開日:2023-03-23
# GiveMeLabeledIssues: オープンソースの課題推薦システム

GiveMeLabeledIssues: An Open Source Issue Recommendation System ( http://arxiv.org/abs/2303.13418v1 )

ライセンス: Link先を確認
Joseph Vargovich, Fabio Santos, Jacob Penney, Marco A. Gerosa, Igor Steinmacher(参考訳) 開発者はしばしば、オープンソースソフトウェア(OSS)プロジェクトの課題追跡システムをナビゲートして、適切なタスクを見つけるのに苦労します。 適切なイシューラベリングはタスクの選択を支援するが、現在のツールは、そのタイプ(バグ、質問、よいイシュー、機能など)に応じてイシューを分類することに限定されている。 対照的に,本稿では,プロジェクトリポジトリをマイニングし,解決に必要なスキルに基づいて問題をラベル付けするツール(givemelabeledissues)を提案する。 ソリューションに関わるAPIのドメイン(UI、テスト、データベース(DB)など)を活用しています。 ) 必要なスキルの代理として。 GiveMeLabeledIssuesは開発者のスキルとタスクのマッチングを容易にし、プロジェクトのメンテナの負担を軽減する。 このツールは、問題に関わるAPIドメインを予測する際に、83.9%の精度を得た。 レプリケーションパッケージには、ツールの実行と新しいプロジェクトを含む指示が含まれている。 デモビデオはhttps://www.youtube.com/watch? v=ic2quue7i8

Developers often struggle to navigate an Open Source Software (OSS) project's issue-tracking system and find a suitable task. Proper issue labeling can aid task selection, but current tools are limited to classifying the issues according to their type (e.g., bug, question, good first issue, feature, etc.). In contrast, this paper presents a tool (GiveMeLabeledIssues) that mines project repositories and labels issues based on the skills required to solve them. We leverage the domain of the APIs involved in the solution (e.g., User Interface (UI), Test, Databases (DB), etc.) as a proxy for the required skills. GiveMeLabeledIssues facilitates matching developers' skills to tasks, reducing the burden on project maintainers. The tool obtained a precision of 83.9% when predicting the API domains involved in the issues. The replication package contains instructions on executing the tool and including new projects. A demo video is available at https://www.youtube.com/watch?v=ic2quUue7i8
翻訳日:2023-03-24 13:21:37 公開日:2023-03-23
# 運動的不確実性関係のためのSLDフィッシャー情報

SLD Fisher information for kinetic uncertainty relations ( http://arxiv.org/abs/2303.13417v1 )

ライセンス: Link先を確認
Satoshi Nakajima and Yasuhiro Utsumi(参考訳) 我々は、GKSL量子マスター方程式で記述されたオープン量子系の運動不確実性関係(KUR)に対する対称対数微分(SLD)フィッシャー情報について、詳細なバランス条件を伴わずに検討する。 Vu-Saito (Phys. Lett. 128, 140602 (2022)) によって導かれる量子的不確実性関係では、時間的再スケーリングパラメータを持つ量子軌道の確率のフィッシャー情報が重要な役割を果たす。 この漁師情報は、sldフィッシャー情報によって上限されている。 有限時間および任意の初期状態に対して、簡潔に結合した一階常微分方程式を与え、時間に関する二重積分によって与えられるsldフィッシャー情報を計算する。 また、量子軌道のフィッシャー情報の単純な下限も導出する。 SLDフィッシャー情報は,マンデルスタム-タム関係(長谷川,arXiv:2203.12421v4]に基づく速度限界にも現れる。 ジャンプ作用素がハミルトニアン系の固有状態を接続するとき、バーズ角は、古典的なものと対照的に、短時間で力学活性の平方根によって上界であることが示される。

We investigate a symmetric logarithmic derivative (SLD) Fisher information for kinetic uncertainty relations (KURs) of open quantum systems described by the GKSL quantum master equation with and without the detailed balance condition. In a quantum kinetic uncertainty relation derived by Vu-Saito [Phys. Rev. Lett. 128, 140602 (2022)], the Fisher information of probability of quantum trajectory with a time-rescaling parameter plays an essential role. This Fisher information is upper bounded by the SLD Fisher information. For a finite time and arbitrary initial state, we give concise coupled first-order ordinary differential equations to calculate the SLD Fisher information given by a double integral concerning time. We also derive a simple lower bound of the Fisher information of quantum trajectory. The SLD Fisher information also appears in the speed limit based on the Mandelstam-Tamm relation [Hasegawa, arXiv:2203.12421v4]. When the jump operators connect eigenstates of the system Hamiltonian, we show that the Bures angle is upper bounded by the square root of the dynamical activity at short times, which contrasts with the classical counterpart.
翻訳日:2023-03-24 13:21:19 公開日:2023-03-23
# 空間領域と周波数領域におけるコントラスト表現の学習による低光度画像強調

Low-Light Image Enhancement by Learning Contrastive Representations in Spatial and Frequency Domains ( http://arxiv.org/abs/2303.13412v1 )

ライセンス: Link先を確認
Yi Huang, Xiaoguang Tu, Gui Fu, Tingting Liu, Bokai Liu, Ming Yang, Ziliang Feng(参考訳) 低照度条件下で撮影された画像は視認性が低下し、画質が低下し、下流タスクのパフォーマンスが低下する。 様々な低照度条件下での正常画像の復元が可能な一般化特徴をCNNベースの手法で学習することは困難である。 本稿では,コントラスト学習を照明補正ネットワークに取り入れ,抽象表現を学習し,表現空間における様々な低照度条件を識別し,ネットワークの一般化可能性を高めることを目的とする。 光条件が画像の周波数成分を変化させる可能性があることを考慮し、空間領域と周波数領域の両方で表現を学習し比較し、コントラスト学習を最大限に活用する。 提案手法は LOL と LOL-V2 のデータセットを用いて評価し,提案手法が他の最先端技術と比較して質的,定量的な結果が得られることを示した。

Images taken under low-light conditions tend to suffer from poor visibility, which can decrease image quality and even reduce the performance of the downstream tasks. It is hard for a CNN-based method to learn generalized features that can recover normal images from the ones under various unknow low-light conditions. In this paper, we propose to incorporate the contrastive learning into an illumination correction network to learn abstract representations to distinguish various low-light conditions in the representation space, with the purpose of enhancing the generalizability of the network. Considering that light conditions can change the frequency components of the images, the representations are learned and compared in both spatial and frequency domains to make full advantage of the contrastive learning. The proposed method is evaluated on LOL and LOL-V2 datasets, the results show that the proposed method achieves better qualitative and quantitative results compared with other state-of-the-arts.
翻訳日:2023-03-24 13:20:58 公開日:2023-03-23
# Egocentric Audio-Visual Object Localization

Egocentric Audio-Visual Object Localization ( http://arxiv.org/abs/2303.13471v1 )

ライセンス: Link先を確認
Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu(参考訳) 人間は自然に周囲を知覚し、一対一の視点で音と視界を統一する。 同様に、機械は、エゴセントリックな視点から多感覚入力で学習することで、人間の知性に近づきつつある。 本稿では,エゴセントリックな音像定位課題について検討し,その課題を考察する。 1) ファースト・パーソン・レコーディングには,短時間であっても,一般的に自我が存在している。 2) 装着者が注意を移しながら、外見の音成分を作成できる。 最初の問題に対処するために,エゴモーションを明示的に処理する幾何学的時間的アグリゲーションモジュールを提案する。 エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することで緩和される。 さらに,第2の課題に取り組むために,ケースケード機能拡張モジュールを提案する。 視覚的に指示された音声表現を分離することで、クロスモーダル局在のロバスト性を向上させる。 トレーニング中、自然に利用可能なオーディオと視覚の時間同期を ``free'' 自己スーパービジョンとして活用し、コストのかかるラベル付けを回避する。 また、評価のためにEpic Sounding Objectデータセットを注釈し、作成します。 広範囲にわたる実験により,エゴセントリックビデオにおける最先端のローカライズ性能を実現し,多様な視聴覚シーンに一般化できることを示した。

Humans naturally perceive surrounding scenes by unifying sound and sight in a first-person view. Likewise, machines are advanced to approach human intelligence by learning with multisensory inputs from an egocentric perspective. In this paper, we explore the challenging egocentric audio-visual object localization task and observe that 1) egomotion commonly exists in first-person recordings, even within a short duration; 2) The out-of-view sound components can be created while wearers shift their attention. To address the first problem, we propose a geometry-aware temporal aggregation module to handle the egomotion explicitly. The effect of egomotion is mitigated by estimating the temporal geometry transformation and exploiting it to update visual representations. Moreover, we propose a cascaded feature enhancement module to tackle the second issue. It improves cross-modal localization robustness by disentangling visually-indicated audio representation. During training, we take advantage of the naturally available audio-visual temporal synchronization as the ``free'' self-supervision to avoid costly labeling. We also annotate and create the Epic Sounding Object dataset for evaluation purposes. Extensive experiments show that our method achieves state-of-the-art localization performance in egocentric videos and can be generalized to diverse audio-visual scenes.
翻訳日:2023-03-24 13:13:39 公開日:2023-03-23
# 原子空洞系に基づくリアルタイム読み出し型量子回転センサ

Quantum rotation sensor with real-time readout based on an atom-cavity system ( http://arxiv.org/abs/2303.13468v1 )

ライセンス: Link先を確認
Jim Skulte, Jayson G. Cosme, Ludwig Mathey(参考訳) 原子キャビティプラットフォームを用いて、回転中性原子の有効ゲージ位相と超ラジカル相転移を組み合わせて、高感度で高速な量子回転センサを構築することを提案する。 ボース=アインシュタイン凝縮体のよく制御された配列の原子は、光学キャビティの単一の光モードに結合される。 キャビティからの光子放出は、慣性航法において重要な回転周波数の変化を示す。 位相境界の解析式を導出し、半古典的手法を用いて位相図を数値的にマッピングし、回転に対する光子放出の依存性を提供する。 さらに,センサをバイアス回転で操作し,密閉領域を拡大し,センサの感度を高めることを提案する。

Using an atom-cavity platform, we propose to combine the effective gauge phase of rotated neutral atoms and the superradiant phase transition to build a highly sensitive and fast quantum rotation sensor. The atoms in a well-controlled array of Bose-Einstein condensates are coupled to a single light mode of an optical cavity. The photon emission from the cavity indicates changes in the rotation frequency in real time, which is crucial for inertial navigation. We derive an analytical expression for the phase boundaries and use a semi-classical method to map out the phase diagram numerically, which provides the dependence of the photon emission on the rotation. We further suggest to operate the sensor with a bias rotation, and to enlarge the enclosed area, to enhance the sensitivity of the sensor.
翻訳日:2023-03-24 13:13:19 公開日:2023-03-23
# 量子幾何学によるユニタリ学習の一般化

Generalization with quantum geometry for learning unitaries ( http://arxiv.org/abs/2303.13462v1 )

ライセンス: Link先を確認
Tobias Haug, M.S. Kim(参考訳) 一般化とは、量子機械学習モデルがトレーニングデータから学習することで、新しいデータを正確に予測する能力である。 本稿では,モデルが一般化できる時期を決定するために,dqfim(data quantum fisher information metric)を導入する。 ユニタリーの変分学習では、DQFIMは回路パラメータの量を定量化し、トレーニングと一般化に要するトレーニングデータを定量化する。 DQFIMを適用して、一定数のトレーニング状態とパラメータの多項式数が一般化に十分である場合を説明する。 さらに、トレーニングデータから対称性を取り除くことにより、一般化を改善できる。 最後に、異なるデータ分布からトレーニングデータとテストデータを描画する分布外一般化が、同じ分布を使用するよりも優れていることを示す。 我々の研究は、量子機械学習の一般化を改善するための新しいアプローチを開く。

Generalization is the ability of quantum machine learning models to make accurate predictions on new data by learning from training data. Here, we introduce the data quantum Fisher information metric (DQFIM) to determine when a model can generalize. For variational learning of unitaries, the DQFIM quantifies the amount of circuit parameters and training data needed to successfully train and generalize. We apply the DQFIM to explain when a constant number of training states and polynomial number of parameters are sufficient for generalization. Further, we can improve generalization by removing symmetries from training data. Finally, we show that out-of-distribution generalization, where training and testing data are drawn from different data distributions, can be better than using the same distribution. Our work opens up new approaches to improve generalization in quantum machine learning.
翻訳日:2023-03-24 13:12:18 公開日:2023-03-23
# 等価および拡張ニューラルネットワークの最適化ダイナミクス

Optimization Dynamics of Equivariant and Augmented Neural Networks ( http://arxiv.org/abs/2303.13458v1 )

ライセンス: Link先を確認
Axel Flinth and Fredrik Ohlsson(参考訳) 対称データに基づく多層パーセプトロンの最適化について検討する。 我々は、アーキテクチャの制約戦略を、拡張の使用戦略と同等に扱う戦略と比較する。 損失と非線形性に関する自然な仮定の下では、同変定常点の集合は2つの戦略と同一であり、同変層の集合は拡張モデルの勾配流れの下で不変であることを示した。 最後に,同変モデルでは安定ではあるが,拡張訓練では定常点が不安定であることを示す。

We investigate the optimization of multilayer perceptrons on symmetric data. We compare the strategy of constraining the architecture to be equivariant to that of using augmentation. We show that, under natural assumptions on the loss and non-linearities, the sets of equivariant stationary points are identical for the two strategies, and that the set of equivariant layers is invariant under the gradient flow for augmented models. Finally, we show that stationary points may be unstable for augmented training although they are stable for the equivariant models
翻訳日:2023-03-24 13:12:06 公開日:2023-03-23
# CoBIT: 対照的な双方向画像テキスト生成モデル

CoBIT: A Contrastive Bi-directional Image-Text Generation Model ( http://arxiv.org/abs/2303.13455v1 )

ライセンス: Link先を確認
Haoxuan You, Mandy Guo, Zhecan Wang, Kai-Wei Chang, Jason Baldridge, Jiahui Yu(参考訳) ビジョンと言語分野は、事前訓練された基礎モデルの拡散を目撃している。 既存のほとんどのメソッドは、CLIPのようなコントラスト目的、PaLIのような画像からテキストへの生成目的、Partiのようなテキストから画像への生成目的と独立に事前訓練されている。 しかし、3つの目的は同じデータ、画像とテキストのペアで事前学習することができ、相互に直感的に補完し、コントラストはグローバルなアライメント能力を提供し、生成はきめ細かな理解を与える。 本研究では,3つの事前学習目標を1つのフレームワークに統合するコントラスト双方向画像テキスト生成モデル(CoBIT)を提案する。 具体的には、cobitは画像unicoder、テキストunicoder、クロスモーダルデコーダからなる新しいunicoder-デコーダ構造を採用している。 イメージ/テキストユニコーダは、異なるタスクにおけるエンコーディングとデコーディングを切り替えることができ、画像からテキストまでの世代とテキストから画像への世代の両方に利益をもたらす柔軟性と知識の共有を可能にする。 CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。 例えば、ゼロショットイメージネット分類では82.7%、ゼロショットテキスト画像生成では9.37 FIDスコア、ゼロショットキャプションでは44.8 CIDErである。

The field of vision and language has witnessed a proliferation of pre-trained foundation models. Most existing methods are independently pre-trained with contrastive objective like CLIP, image-to-text generative objective like PaLI, or text-to-image generative objective like Parti. However, the three objectives can be pre-trained on the same data, image-text pairs, and intuitively they complement each other as contrasting provides global alignment capacity and generation grants fine-grained understanding. In this work, we present a Contrastive Bi-directional Image-Text generation model (CoBIT), which attempts to unify the three pre-training objectives in one framework. Specifically, CoBIT employs a novel unicoder-decoder structure, consisting of an image unicoder, a text unicoder and a cross-modal decoder. The image/text unicoders can switch between encoding and decoding in different tasks, enabling flexibility and shared knowledge that benefits both image-to-text and text-to-image generations. CoBIT achieves superior performance in image understanding, image-text understanding (Retrieval, Captioning, VQA, SNLI-VE) and text-based content creation, particularly in zero-shot scenarios. For instance, 82.7% in zero-shot ImageNet classification, 9.37 FID score in zero-shot text-to-image generation and 44.8 CIDEr in zero-shot captioning.
翻訳日:2023-03-24 13:11:56 公開日:2023-03-23
# 新型コロナウイルス時代の人間の行動:ビッグデータから学ぶ

Human Behavior in the Time of COVID-19: Learning from Big Data ( http://arxiv.org/abs/2303.13452v1 )

ライセンス: Link先を確認
Hanjia Lyu, Arsal Imtiaz, Yufei Zhao, Jiebo Luo(参考訳) 世界保健機関(who)が2020年3月に新型コロナウイルスをパンデミックと認定して以来、2022年10月時点で6億人が感染が確認され、600万人以上が死亡した。 新型コロナウイルスのパンデミックと人間の行動の関係は複雑である。 一方、人間の行動は病気の広がりを形作ることが知られている。 一方、パンデミックは、ほとんどあらゆる面で人間の行動に影響を与え、変化さえしている。 自然言語処理、コンピュータビジョン、音声信号処理、頻繁なパターンマイニング、機械学習といったビッグデータ技術を用いて、人間の行動と新型コロナウイルス(covid-19)パンデミックの複雑な相互作用を総合的に理解している。 本研究では,ビッグデータ技術を用いて,新型コロナウイルスのパンデミック時の人間の行動を研究する既存の研究の概要を紹介する。 特に、これらの研究は、ビッグデータを用いてそれぞれ人間の行動を測定し、モデル化し、活用する3つのグループに分類する。 関連するタスク、データ、およびメソッドを、それに応じて要約する。 新型コロナウイルス(covid-19)パンデミック(covid-19)と今後の世界的な大惨事との戦い方に関するさらなる洞察を提供するため、さらに課題と潜在的な機会について論じる。

Since the World Health Organization (WHO) characterized COVID-19 as a pandemic in March 2020, there have been over 600 million confirmed cases of COVID-19 and more than six million deaths as of October 2022. The relationship between the COVID-19 pandemic and human behavior is complicated. On one hand, human behavior is found to shape the spread of the disease. On the other hand, the pandemic has impacted and even changed human behavior in almost every aspect. To provide a holistic understanding of the complex interplay between human behavior and the COVID-19 pandemic, researchers have been employing big data techniques such as natural language processing, computer vision, audio signal processing, frequent pattern mining, and machine learning. In this study, we present an overview of the existing studies on using big data techniques to study human behavior in the time of the COVID-19 pandemic. In particular, we categorize these studies into three groups - using big data to measure, model, and leverage human behavior, respectively. The related tasks, data, and methods are summarized accordingly. To provide more insights into how to fight the COVID-19 pandemic and future global catastrophes, we further discuss challenges and potential opportunities.
翻訳日:2023-03-24 13:11:31 公開日:2023-03-23
# 臨床データウェアハウスにおける文書の偽名化のための自然言語処理アルゴリズムの開発と検証

Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse ( http://arxiv.org/abs/2303.13451v1 )

ライセンス: Link先を確認
Xavier Tannier, Perceval Wajsb\"urt, Alice Calliger, Basile Dura, Alexandre Mouchet, Martin Hilka, Romain Bey(参考訳) 本研究の目的は,患者のプライバシを確保しつつ,研究目的でデータにアクセスできるようにするため,臨床報告の非特定という重要な課題に対処することである。 本研究は,本領域におけるツールと資源の共有に直面する困難を浮き彫りにし,臨床データウェアハウスからテキスト文書を体系的に偽名化する際の大パリ大学病院(AP-HP)の経験を紹介する。 われわれは,12種類の識別エンティティに基づいて臨床文書のコーパスを注釈付けし,深層学習モデルと手動ルールを融合したハイブリッドシステムを構築した。 その結果,F1スコアは0.99であった。 我々は、データセットのサイズ、ドキュメントタイプ、言語モデル、ルールの追加など、そのようなタスクに関わる取り組みをより深く理解するための実装選択と実験について論じる。 3つのClause BSDライセンスの下でガイドラインとコードを共有しています。

The objective of this study is to address the critical issue of de-identification of clinical reports in order to allow access to data for research purposes, while ensuring patient privacy. The study highlights the difficulties faced in sharing tools and resources in this domain and presents the experience of the Greater Paris University Hospitals (AP-HP) in implementing a systematic pseudonymization of text documents from its Clinical Data Warehouse. We annotated a corpus of clinical documents according to 12 types of identifying entities, and built a hybrid system, merging the results of a deep learning model as well as manual rules. Our results show an overall performance of 0.99 of F1-score. We discuss implementation choices and present experiments to better understand the effort involved in such a task, including dataset size, document types, language models, or rule addition. We share guidelines and code under a 3-Clause BSD license.
翻訳日:2023-03-24 13:11:11 公開日:2023-03-23
# 注意! in-attentive agentの動的認識論的論理モデル

Attention! Dynamic Epistemic Logic Models of (In)attentive Agents ( http://arxiv.org/abs/2303.13494v1 )

ライセンス: Link先を確認
Gaia Belardinelli and Thomas Bolander(参考訳) 注意は、私たちが観察する情報を制限し、選択する重要な認知能力である。 Bolander et al. (2016) による以前の研究は、エージェントが完全に注意されるか、全く注意を払わない動的てんかん論理(DEL)に基づく注意モデルを提案する。 不注意なエージェントが何も起こらないという現実的な特徴を導入する一方で、モデルは最も重要な注意の側面、すなわち選択性を表すものではない。 本稿では,原子式の部分集合に注意を払う一般化を提案する。 提案的注意のための対応する論理を導入し,その公理化が健全かつ完全であることを示す。 その後、我々は、何も起こらないと仮定する代わりに、彼らが出席できなかったものの特定の真理値(意図しない原子に関するある種の先例)にデフォルトとなる不注意なエージェントを説明するためにフレームワークを拡張した。 この特徴は、意図しない失明現象をより認知的に妥当な表現を可能にし、エージェントは目立たずで予期せぬ出来事に出席できなかったために偽の信念に終止符を打つ。 モデルのどちらのバージョンも、いくつかの明確なエッジ原則に基づいて、適切なDELイベントモデルを通じて注意に基づく学習を定義する。 このようなイベントモデルのサイズは、エージェント数と原子数の両方で指数関数的に増加するが、我々は、イベントモデルを記述するための新しい論理言語を導入し、この言語を使うことで、我々のイベントモデルはエージェント数と原子数で線形に表現できることを示す。 さらに、この言語を使ったイベントモデルの表現は、前述のエッジ原則の直接的な形式化によって実現されます。

Attention is the crucial cognitive ability that limits and selects what information we observe. Previous work by Bolander et al. (2016) proposes a model of attention based on dynamic epistemic logic (DEL) where agents are either fully attentive or not attentive at all. While introducing the realistic feature that inattentive agents believe nothing happens, the model does not represent the most essential aspect of attention: its selectivity. Here, we propose a generalization that allows for paying attention to subsets of atomic formulas. We introduce the corresponding logic for propositional attention, and show its axiomatization to be sound and complete. We then extend the framework to account for inattentive agents that, instead of assuming nothing happens, may default to a specific truth-value of what they failed to attend to (a sort of prior concerning the unattended atoms). This feature allows for a more cognitively plausible representation of the inattentional blindness phenomenon, where agents end up with false beliefs due to their failure to attend to conspicuous but unexpected events. Both versions of the model define attention-based learning through appropriate DEL event models based on a few and clear edge principles. While the size of such event models grow exponentially both with the number of agents and the number of atoms, we introduce a new logical language for describing event models syntactically and show that using this language our event models can be represented linearly in the number of agents and atoms. Furthermore, representing our event models using this language is achieved by a straightforward formalisation of the aforementioned edge principles.
翻訳日:2023-03-24 13:05:39 公開日:2023-03-23
# 実証による強化学習と計画の促進:調査

Boosting Reinforcement Learning and Planning with Demonstrations: A Survey ( http://arxiv.org/abs/2303.13489v1 )

ライセンス: Link先を確認
Tongzhou Mu, Hao Su(参考訳) 強化学習は近年大きな成功を収めているが、このような試行錯誤学習は複雑な環境では実用的でも非効率的でもある。 一方、デモンストレーションを使用することで、エージェントは探索を通じて最善の行動を見つけることなく、専門家の知識の恩恵を受けることができる。 本研究では,逐次的意思決定におけるデモンストレーションの利用の利点,学習に基づく意思決定パラダイム(学習モデルにおける強化学習と計画)におけるデモンストレーションの適用方法,様々なシナリオにおけるデモンストレーションの収集方法について検討する。 さらに,最近提案されたマニスキルロボット学習ベンチマークにおいて,実演を生成・活用するための実践的パイプラインを例示する。

Although reinforcement learning has seen tremendous success recently, this kind of trial-and-error learning can be impractical or inefficient in complex environments. The use of demonstrations, on the other hand, enables agents to benefit from expert knowledge rather than having to discover the best action to take through exploration. In this survey, we discuss the advantages of using demonstrations in sequential decision making, various ways to apply demonstrations in learning-based decision making paradigms (for example, reinforcement learning and planning in the learned models), and how to collect the demonstrations in various scenarios. Additionally, we exemplify a practical pipeline for generating and utilizing demonstrations in the recently proposed ManiSkill robot learning benchmark.
翻訳日:2023-03-24 13:05:11 公開日:2023-03-23
# ns3d:3次元物体のニューロシンボリック接地と関係

NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations ( http://arxiv.org/abs/2303.13483v1 )

ライセンス: Link先を確認
Joy Hsu, Jiayuan Mao, Jiajun Wu(参考訳) 3dシーンにおけるオブジェクトの性質と関係の接地は、視覚的な接地対話や具体的操作など、幅広い人工知能タスクの前提条件である。 しかし、3D領域の可変性は2つの根本的な課題を引き起こす。 1)ラベリングの費用及び 2) 3次元接地言語の複雑さ。 したがって、モデルの本質的なデシラタは、データ効率が良く、目に見えない意味を持つ異なるデータ分布やタスクに一般化され、地上の複雑な言語意味論(ビューポイントアンカリングやマルチオブジェクト参照など)も必要である。 これらの課題に対処するため,我々は3次元接地のためのニューロシンボリックフレームワークns3dを提案する。 NS3Dは言語を階層構造を持つプログラムに変換する。 プログラムの異なる機能モジュールはニューラルネットワークとして実装される。 特にns3dは、複雑な3dシーンにおける非曖昧なオブジェクトの鍵となる2つ以上のオブジェクト間の関係を効果的に推論する機能モジュールを導入することで、以前の神経シンボリックな視覚推論方法を拡張している。 モジュラーとコンポジションアーキテクチャにより、ns3dは3d参照式理解ベンチマークである referit3d view-dependence task で最先端の結果を得ることができる。 重要なことに、NS3Dはデータ効率と一般化の設定における性能を著しく向上させ、目に見えない3D質問応答タスクへのゼロショット転送を示す。

Grounding object properties and relations in 3D scenes is a prerequisite for a wide range of artificial intelligence tasks, such as visually grounded dialogues and embodied manipulation. However, the variability of the 3D domain induces two fundamental challenges: 1) the expense of labeling and 2) the complexity of 3D grounded language. Hence, essential desiderata for models are to be data-efficient, generalize to different data distributions and tasks with unseen semantic forms, as well as ground complex language semantics (e.g., view-point anchoring and multi-object reference). To address these challenges, we propose NS3D, a neuro-symbolic framework for 3D grounding. NS3D translates language into programs with hierarchical structures by leveraging large language-to-code models. Different functional modules in the programs are implemented as neural networks. Notably, NS3D extends prior neuro-symbolic visual reasoning methods by introducing functional modules that effectively reason about high-arity relations (i.e., relations among more than two objects), key in disambiguating objects in complex 3D scenes. Modular and compositional architecture enables NS3D to achieve state-of-the-art results on the ReferIt3D view-dependence task, a 3D referring expression comprehension benchmark. Importantly, NS3D shows significantly improved performance on settings of data-efficiency and generalization, and demonstrate zero-shot transfer to an unseen 3D question-answering task.
翻訳日:2023-03-24 13:04:59 公開日:2023-03-23
# TactoFind: オブジェクト検索のための触覚のみのシステム

TactoFind: A Tactile Only System for Object Retrieval ( http://arxiv.org/abs/2303.13482v1 )

ライセンス: Link先を確認
Sameer Pai, Tao Chen, Megha Tippur, Edward Adelson, Abhishek Gupta, Pulkit Agrawal(参考訳) 視覚センシングが欠如し,物体形状が事前に不明な場合や,引き出しから物体を取り出す場合など,物体が自由に移動できる場合の物体検索の問題点について検討した。 成功したソリューションには、自由オブジェクトをローカライズし、特定のオブジェクトインスタンスを特定し、タッチフィードバックだけで特定したオブジェクトを把握する必要がある。 カメラがシーン全体を観察できる視覚とは異なり、タッチセンサーは局所的であり、マニピュレータに接触しているシーンの一部のみを観察する。 さらに、タッチセンサによる情報収集は、シーン自体を乱す可能性のあるタッチ面に力を加える必要がある。 したがって、タッチによる推論には、時間とともに注意深く探究し、情報の統合が必要です。 本稿では,指先触覚センサによる触覚フィードバックを,視覚的フィードバックを伴わずに,新たな物体の局所化,識別,把握を行うシステムを提案する。 ビデオはhttps://taochenshh.github.io/projects/tactofindで閲覧できる。

We study the problem of object retrieval in scenarios where visual sensing is absent, object shapes are unknown beforehand and objects can move freely, like grabbing objects out of a drawer. Successful solutions require localizing free objects, identifying specific object instances, and then grasping the identified objects, only using touch feedback. Unlike vision, where cameras can observe the entire scene, touch sensors are local and only observe parts of the scene that are in contact with the manipulator. Moreover, information gathering via touch sensors necessitates applying forces on the touched surface which may disturb the scene itself. Reasoning with touch, therefore, requires careful exploration and integration of information over time -- a challenge we tackle. We present a system capable of using sparse tactile feedback from fingertip touch sensors on a dexterous hand to localize, identify and grasp novel objects without any visual feedback. Videos are available at https://taochenshh.github.io/projects/tactofind.
翻訳日:2023-03-24 13:04:31 公開日:2023-03-23
# 暗黙空間変換を用いた事前自由カテゴリレベルポーズ推定

Prior-free Category-level Pose Estimation with Implicit Space Transformation ( http://arxiv.org/abs/2303.13479v1 )

ライセンス: Link先を確認
Jianhui Liu, Yukang Chen, Xiaoqing Ye, Xiaojuan Qi(参考訳) カテゴリーレベルの6Dポーズ推定は、特定のカテゴリから見えないオブジェクトのポーズとサイズを予測することを目的としている。 カテゴリ固有の3D事前(すなわち3Dテンプレート)を与えられたオブジェクトインスタンスに明示的に適応する事前変形のおかげで、事前ベースの手法は大きな成功を収め、主要な研究ストリームとなった。 しかし、カテゴリー固有の先行データを取得するには、大量の3Dモデルを集める必要がある。 これは、事前手法を効果的にするために、事前が必要かどうかを調査する動機となる。 我々の実証研究は、3Dの先行技術自体がハイパフォーマンスの功績ではないことを示している。 これは、世界空間の3dモデル(正準空間とも呼ばれる)によって監視されるカメラと世界座標を調整するものである。 これらの観測に触発されて、カメラ空間の機能を世界空間に変換し、3D先行を頼らずに暗黙的に対応を構築するための、単純な事前自由な暗黙空間変換ネットワーク、IST-Netを導入する。 さらに,カメラと世界空間のエンハンサーを設計し,それぞれにポーズ感性情報と幾何学的制約を付加する。 単純なことだが、IST-NetはREAL275データセット上で最高の推論速度で最先端のパフォーマンスを達成する最初の先行フリーメソッドとなる。 私たちのコードとモデルは公開されます。

Category-level 6D pose estimation aims to predict the poses and sizes of unseen objects from a specific category. Thanks to prior deformation, which explicitly adapts a category-specific 3D prior (i.e., a 3D template) to a given object instance, prior-based methods attained great success and have become a major research stream. However, obtaining category-specific priors requires collecting a large amount of 3D models, which is labor-consuming and often not accessible in practice. This motivates us to investigate whether priors are necessary to make prior-based methods effective. Our empirical study shows that the 3D prior itself is not the credit to the high performance. The keypoint actually is the explicit deformation process, which aligns camera and world coordinates supervised by world-space 3D models (also called canonical space). Inspired by these observation, we introduce a simple prior-free implicit space transformation network, namely IST-Net, to transform camera-space features to world-space counterparts and build correspondence between them in an implicit manner without relying on 3D priors. Besides, we design camera- and world-space enhancers to enrich the features with pose-sensitive information and geometrical constraints, respectively. Albeit simple, IST-Net becomes the first prior-free method that achieves state-of-the-art performance, with top inference speed on the REAL275 dataset. Our code and models will be publicly available.
翻訳日:2023-03-24 13:04:13 公開日:2023-03-23
# 断熱限界に満たないschr\"{o}dinger方程式の解の安定性について

On the stability of solutions to Schr\"{o}dinger's equation short of the adiabatic limit ( http://arxiv.org/abs/2303.13478v1 )

ライセンス: Link先を確認
Jacob Bringewatt, Michael Jarret, T. C. Mooney(参考訳) 我々は、断熱極限より短い時間スケールで適用される断熱定理を証明した。 我々の証明は、摂動下でのシュロディンガー方程式の解の安定性を解析する。 我々は摂動のクロスサブスペース効果を直接特徴付けるが、これは摂動作用素ノルムによって示唆されるよりもかなり少ない。 This stability has numerous consequences: we can (1) find timescales where the solution of Schrodinger's equation converges to the ground state of a block, (2) lower bound the convergence to the global ground state by demonstrating convergence to some other known quantum state, (3) guarantee faster convergence than the standard adiabatic theorem when the ground state of the perturbed Hamiltonian ($H$) is close to that of the unperturbed $H$, and (4) bound tunneling effects in terms of the global spectral gap when $H$ is ``stoquastic'' (a $Z$-matrix). この結果は、標準断熱定理によって保証されるよりも収束が速い量子アニーリングプロトコルに適用できる。 我々の上界と下界は、断熱限界に満たない時間スケールでは、部分空間のダイナミクスが大域的なダイナミクスに支配できることを示している。 したがって、特定の対象状態への収束は、それ以外は局所ダイナミクスの結果として理解することができる。

We prove an adiabatic theorem that applies at timescales short of the adiabatic limit. Our proof analyzes the stability of solutions to Schrodinger's equation under perturbation. We directly characterize cross-subspace effects of perturbation, which are typically significantly less than suggested by the perturbation's operator norm. This stability has numerous consequences: we can (1) find timescales where the solution of Schrodinger's equation converges to the ground state of a block, (2) lower bound the convergence to the global ground state by demonstrating convergence to some other known quantum state, (3) guarantee faster convergence than the standard adiabatic theorem when the ground state of the perturbed Hamiltonian ($H$) is close to that of the unperturbed $H$, and (4) bound tunneling effects in terms of the global spectral gap when $H$ is ``stoquastic'' (a $Z$-matrix). Our results apply to quantum annealing protocols with faster convergence than usually guaranteed by a standard adiabatic theorem. Our upper and lower bounds demonstrate that at timescales short of the adiabatic limit, subspace dynamics can dominate over global dynamics. Thus, we see that convergence to particular target states can be understood as the result of otherwise local dynamics.
翻訳日:2023-03-24 13:03:48 公開日:2023-03-23
# TransPoser: ジョイントオブジェクト形状とポース推定のための最適化器

TransPoser: Transformer as an Optimizer for Joint Object Shape and Pose Estimation ( http://arxiv.org/abs/2303.13477v1 )

ライセンス: Link先を確認
Yuta Yoshitake, Mai Nishimura, Shohei Nobuhara, Ko Nishino(参考訳) 連続観察されたRGB-D画像から剛体物体の形状と姿勢の結合推定法を提案する。 複雑な非線形最適化に依存する過去のアプローチとは対照的に、形状とポーズを効率的に推定するニューラルネットワーク最適化として定式化することを提案する。 本稿では,2次元画像空間における効率的な誤差計算を行うために,カメラ視点と視野方向が与えられた物体の深度画像を直接出力するニューラルネットワークDeep Directional Distance Function(DeepDDF)を紹介する。 結合推定自体をTransPoserと呼ぶTransformerとして定式化する。 トークン化と多面的注意を最大限に活用し,成長する観測群を順次処理し,学習した運動量で形状とポーズを効率的に更新する。 合成および実データによる実験結果から,DeepDDFはカテゴリレベルのオブジェクト形状表現として高い精度を達成し,TransPoserは関節形状とポーズ推定を効率的に行うことを示す。

We propose a novel method for joint estimation of shape and pose of rigid objects from their sequentially observed RGB-D images. In sharp contrast to past approaches that rely on complex non-linear optimization, we propose to formulate it as a neural optimization that learns to efficiently estimate the shape and pose. We introduce Deep Directional Distance Function (DeepDDF), a neural network that directly outputs the depth image of an object given the camera viewpoint and viewing direction, for efficient error computation in 2D image space. We formulate the joint estimation itself as a Transformer which we refer to as TransPoser. We fully leverage the tokenization and multi-head attention to sequentially process the growing set of observations and to efficiently update the shape and pose with a learned momentum, respectively. Experimental results on synthetic and real data show that DeepDDF achieves high accuracy as a category-level object shape representation and TransPoser achieves state-of-the-art accuracy efficiently for joint shape and pose estimation.
翻訳日:2023-03-24 13:03:28 公開日:2023-03-23
# ディジタル量子コンピュータにおける状態の多体密度の計算

Calculating the many-body density of states on a digital quantum computer ( http://arxiv.org/abs/2303.13476v1 )

ライセンス: Link先を確認
Alessandro Summer, Cecilia Chiaracane, Mark T. Mitchison, and John Goold(参考訳) 量子統計力学は多体系の微視的記述から熱力学的情報を抽出することができる。 重要なステップは状態の密度の計算であり、そこから分割関数と全ての有限温度平衡熱力学量を計算することができる。 本研究では,カーネル多項式法に触発されたディジタル量子コンピュータ上で状態密度の推定を行う量子アルゴリズムを考案し,実装する。 古典的には、カーネル多項式法はチェビシェフ多項式展開を通じてスペクトル関数をサンプリングすることができる。 本アルゴリズムは,確率的トレース評価のためのランダム状態準備と制御ユニタリ演算子を組み合わせた量子ハードウェア上の拡張モーメントを計算する。 我々は,量子H1-1トラップイオンチップ上での非可積分ハミルトニアン状態の密度を18量子ビットの制御レジスタに対して推定する。 これは、量子ハードウェア上の多体系の熱特性の最先端の計算であるだけでなく、前例のないスケールで多ビットレジスタの制御されたユニタリ進化を利用する。

Quantum statistical mechanics allows us to extract thermodynamic information from a microscopic description of a many-body system. A key step is the calculation of the density of states, from which the partition function and all finite-temperature equilibrium thermodynamic quantities can be calculated. In this work, we devise and implement a quantum algorithm to perform an estimation of the density of states on a digital quantum computer which is inspired by the kernel polynomial method. Classically, the kernel polynomial method allows to sample spectral functions via a Chebyshev polynomial expansion. Our algorithm computes moments of the expansion on quantum hardware using a combination of random state preparation for stochastic trace evaluation and a controlled unitary operator. We use our algorithm to estimate the density of states of a non-integrable Hamiltonian on the Quantinuum H1-1 trapped ion chip for a controlled register of 18 qubits. This not only represents a state-of-the-art calculation of thermal properties of a many-body system on quantum hardware, but also exploits the controlled unitary evolution of a many-qubit register on an unprecedented scale.
翻訳日:2023-03-24 13:03:09 公開日:2023-03-23
# 裏でプロットする: 学習可能なゲームエンジンを目指して

Plotting Behind the Scenes: Towards Learnable Game Engines ( http://arxiv.org/abs/2303.13472v1 )

ライセンス: Link先を確認
Willi Menapace, Aliaksandr Siarohin, St\'ephane Lathuili\`ere, Panos Achlioptas, Vladislav Golyanik, Elisa Ricci, Sergey Tulyakov(参考訳) ゲームエンジンはコンピュータグラフィックスの強力なツールである。 彼らの力は開発に莫大なコストがかかる。 本稿では,モノクロアノテートビデオのみからゲームエンジンライクなニューラルモデルを学習するためのフレームワークを提案する。 学習可能なゲームエンジン(LGE)は、シーン、オブジェクト、エージェントの状態を保持し、制御可能な視点から環境をレンダリングする。 ゲームエンジンと同様に、ゲームのロジックと基礎となる物理ルールをモデル化し、ユーザーがハイレベルとローレベルの両方のアクションシーケンスを指定してゲームをプレイできるようにする。 最も魅惑的なことに、我々のlgeは監督のモードを解き放ち、そこではゲームは舞台裏でプロットし、言語と望ましい状態の形でエージェントのハイレベルなアクションと目標を指定する。 これは、我々のアニメーションモデルによってカプセル化された"ゲームAI"を学習し、高いレベルの制約を使ってシーンをナビゲートし、敵と対戦し、ポイントを獲得するための戦略を考案するために必要です。 このようなゲームAIを学ぶための鍵は、この研究で収集された、大きく多様なテキストコーパスの活用であり、ゲーム内の詳細なアクションを記述し、アニメーションモデルをトレーニングするために使用される。 生成した環境とそのエージェントをレンダリングするために、合成モデルで使用される合成NeRF表現を用いる。 今後の研究を進めるために,新たに収集,注釈,校正を行った大規模テニスおよびマインクラフトデータセットを提案する。 本手法は,既存のニューラルゲームシミュレータのレンダリング品質を著しく上回っている。 さらに、私たちのlgeは、現在の最先端の技術の能力を超えて、アプリケーションをアンロックしています。 私たちのフレームワーク、データ、モデルはhttps://learnable-game-engines.github.io/lge-websiteで利用可能です。

Game engines are powerful tools in computer graphics. Their power comes at the immense cost of their development. In this work, we present a framework to train game-engine-like neural models, solely from monocular annotated videos. The result-a Learnable Game Engine (LGE)-maintains states of the scene, objects and agents in it, and enables rendering the environment from a controllable viewpoint. Similarly to a game engine, it models the logic of the game and the underlying rules of physics, to make it possible for a user to play the game by specifying both high- and low-level action sequences. Most captivatingly, our LGE unlocks the director's mode, where the game is played by plotting behind the scenes, specifying high-level actions and goals for the agents in the form of language and desired states. This requires learning "game AI", encapsulated by our animation model, to navigate the scene using high-level constraints, play against an adversary, devise the strategy to win a point. The key to learning such game AI is the exploitation of a large and diverse text corpus, collected in this work, describing detailed actions in a game and used to train our animation model. To render the resulting state of the environment and its agents, we use a compositional NeRF representation used in our synthesis model. To foster future research, we present newly collected, annotated and calibrated large-scale Tennis and Minecraft datasets. Our method significantly outperforms existing neural video game simulators in terms of rendering quality. Besides, our LGEs unlock applications beyond capabilities of the current state of the art. Our framework, data, and models are available at https://learnable-game-engines.github.io/lge-website.
翻訳日:2023-03-24 13:02:31 公開日:2023-03-23
# dreambooth3d: 主題駆動テキストから3d生成

DreamBooth3D: Subject-Driven Text-to-3D Generation ( http://arxiv.org/abs/2303.13508v1 )

ライセンス: Link先を確認
Amit Raj, Srinivas Kaza, Ben Poole, Michael Niemeyer, Nataniel Ruiz, Ben Mildenhall, Shiran Zada, Kfir Aberman, Michael Rubinstein, Jonathan Barron, Yuanzhen Li, Varun Jampani(参考訳) そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。 提案手法は,テキスト・ツー・イメージ・モデル(DreamBooth)とテキスト・ツー・3D生成(DreamFusion)を併用する。 対象の入力視点に過剰なパーソナライズされたテキストから画像へのモデルが原因で,これらの手法を素直に組み合わせると,満足のいく主題固有の3dアセットが得られないことがわかった。 我々は、3段階の最適化戦略によってこれを克服し、ニューラルネットワークの放射能場の3次元的一貫性と、テキストから画像へのモデルのパーソナライズ能力を同時に活用する。 提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。

We present DreamBooth3D, an approach to personalize text-to-3D generative models from as few as 3-6 casually captured images of a subject. Our approach combines recent advances in personalizing text-to-image models (DreamBooth) with text-to-3D generation (DreamFusion). We find that naively combining these methods fails to yield satisfactory subject-specific 3D assets due to personalized text-to-image models overfitting to the input viewpoints of the subject. We overcome this through a 3-stage optimization strategy where we jointly leverage the 3D consistency of neural radiance fields together with the personalization capability of text-to-image models. Our method can produce high-quality, subject-specific 3D assets with text-driven modifications such as novel poses, colors and attributes that are not seen in any of the input images of the subject.
翻訳日:2023-03-24 12:55:50 公開日:2023-03-23
# ニューラルスケーリングの量子化モデル

The Quantization Model of Neural Scaling ( http://arxiv.org/abs/2303.13506v1 )

ライセンス: Link先を確認
Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark(参考訳) ニューラルスケーリング法則の$\textit{Quantization Model}$を提案し、モデルとデータサイズによる損失の観測されたパワー則と、スケールによる新しい機能の突然の出現について説明する。 我々はこのモデルを $\textit{Quantization hypothesis}$ と呼び、学習されたネットワーク能力は離散的なチャンク(\textit{quanta}$)に量子化されます。 使用頻度を減少させるために量子が学習されると、使用頻度における電力法則が観測された損失のスケーリングを説明する。 この予測をおもちゃのデータセット上で検証し,大規模言語モデルにおけるスケーリング曲線の分解について検討する。 言語モデル内部を用いて多種多様なモデル機能(量子)を自動発見し、自然文の予測における対応するサブプロブレムの分布が、我々の理論から予測されるニューラルスケーリング指数から予測されるパワー法と互換性があることを仮証する。

We propose the $\textit{Quantization Model}$ of neural scaling laws, explaining both the observed power law dropoff of loss with model and data size, and also the sudden emergence of new capabilities with scale. We derive this model from what we call the $\textit{Quantization Hypothesis}$, where learned network capabilities are quantized into discrete chunks ($\textit{quanta}$). We show that when quanta are learned in order of decreasing use frequency, then a power law in use frequencies explains observed power law scaling of loss. We validate this prediction on toy datasets, then study how scaling curves decompose for large language models. Using language model internals, we auto-discover diverse model capabilities (quanta) and find tentative evidence that the distribution over corresponding subproblems in the prediction of natural text is compatible with the power law predicted from the neural scaling exponent as predicted from our theory.
翻訳日:2023-03-24 12:55:34 公開日:2023-03-23
# 行動認識の新しいベンチマークを用いた時空間表現学習の大規模研究

A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action Recognition ( http://arxiv.org/abs/2303.13505v1 )

ライセンス: Link先を確認
Andong Deng, Taojiannan Yang, Chen Chen(参考訳) ベンチマーク(データセットの適合)を構築する目標は、公正な評価のための統一されたプロトコルを提供することで、特定の領域の進化を促進することである。 それでも,既存の行動認識プロトコルでは,いくつかの制限により部分的な評価が可能であることを指摘する。 時空間表現学習の有効性を総合的に調査するため,ビデオ行動認識における新しいベンチマークであるBEARを導入する。 BEARは5つのカテゴリ(異常、ジェスチャー、毎日、スポーツ、インストラクショナル)に分類される18のビデオデータセットのコレクションで、さまざまな現実世界のアプリケーションをカバーする。 BEARでは,教師付き学習と自己指導型学習の両方で事前学習した6つの時空間モデルについて,徹底的に評価した。 また、標準的な微調整、少数ショット微調整、教師なしドメイン適応による転送性能を報告する。 我々の観察では、現在の最先端技術は現実世界のアプリケーションに近いデータセットで高い性能を確実に保証できないことを示唆しており、BEARが公正かつ挑戦的な評価ベンチマークとして機能し、次世代の時空間学習者構築に関する洞察を得ることができることを願っている。 私たちのデータセット、コード、モデルは、https://github.com/AndongDeng/BEARでリリースされます。

The goal of building a benchmark (suite of datasets) is to provide a unified protocol for fair evaluation and thus facilitate the evolution of a specific area. Nonetheless, we point out that existing protocols of action recognition could yield partial evaluations due to several limitations. To comprehensively probe the effectiveness of spatiotemporal representation learning, we introduce BEAR, a new BEnchmark on video Action Recognition. BEAR is a collection of 18 video datasets grouped into 5 categories (anomaly, gesture, daily, sports, and instructional), which covers a diverse set of real-world applications. With BEAR, we thoroughly evaluate 6 common spatiotemporal models pre-trained by both supervised and self-supervised learning. We also report transfer performance via standard finetuning, few-shot finetuning, and unsupervised domain adaptation. Our observation suggests that current state-of-the-art cannot solidly guarantee high performance on datasets close to real-world applications, and we hope BEAR can serve as a fair and challenging evaluation benchmark to gain insights on building next-generation spatiotemporal learners. Our dataset, code, and models are released at: https://github.com/AndongDeng/BEAR
翻訳日:2023-03-24 12:55:14 公開日:2023-03-23
# ReBotNet: リアルタイムビデオの高速化

ReBotNet: Fast Real-time Video Enhancement ( http://arxiv.org/abs/2303.13504v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Rahul Garg, Andeep Toor, Xin Tong, Weijuan Xi, Andreas Lugmayr, Vishal M. Patel, Anne Menini(参考訳) ほとんどのビデオ復元ネットワークは遅く、高い計算負荷があり、リアルタイムビデオ拡張には使用できない。 本研究では,リアルタイムビデオ通話やビデオストリームといった実用的なユースケースに対して,リアルタイムビデオエンハンスメントを行うための効率的かつ高速なフレームワークを設計する。 提案手法はrecurrent bottleneck mixer network (rebotnet) と呼ばれ,デュアルブランチフレームワークを採用している。 第1のブランチは、convnextベースのエンコーダを使用して入力フレームを空間的および時間的次元に沿ってトークン化し、これらの抽象トークンをボトルネックミキサーを用いて処理することにより、時空間的特徴を学習する。 時間的一貫性をさらに向上するため、第2のブランチでは、個々のフレームから抽出されたトークンに直接ミキサーを用いる。 その後、共通のデコーダが機能を2つのブランチにマージして拡張フレームを予測する。 さらに,ラストフレームの予測を活用し,時間的一貫性を向上しつつ,現在のフレームを効率的に強化するリカレントトレーニング手法を提案する。 提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオをエミュレートする2つの新しいデータセットをキュレートし,ReBotNetがより少ない計算,メモリ要求の削減,高速な推論時間で既存のアプローチより優れている複数のデータセットに対して,広範な結果を示す。

Most video restoration networks are slow, have high computational load, and can't be used for real-time video enhancement. In this work, we design an efficient and fast framework to perform real-time video enhancement for practical use-cases like live video calls and video streams. Our proposed method, called Recurrent Bottleneck Mixer Network (ReBotNet), employs a dual-branch framework. The first branch learns spatio-temporal features by tokenizing the input frames along the spatial and temporal dimensions using a ConvNext-based encoder and processing these abstract tokens using a bottleneck mixer. To further improve temporal consistency, the second branch employs a mixer directly on tokens extracted from individual frames. A common decoder then merges the features form the two branches to predict the enhanced frame. In addition, we propose a recurrent training approach where the last frame's prediction is leveraged to efficiently enhance the current frame while improving temporal consistency. To evaluate our method, we curate two new datasets that emulate real-world video call and streaming scenarios, and show extensive results on multiple datasets where ReBotNet outperforms existing approaches with lower computations, reduced memory requirements, and faster inference time.
翻訳日:2023-03-24 12:54:55 公開日:2023-03-23
# 旗多様体上の弦平均化とその応用

Chordal Averaging on Flag Manifolds and Its Applications ( http://arxiv.org/abs/2303.13501v1 )

ライセンス: Link先を確認
Nathan Mankovich and Tolga Birdal(参考訳) 本稿では,旗多様体上の点の集合のフラッグ平均とフラッグメディアンをコード計量で計算する新しい証明可能収束アルゴリズムを提案する。 フラッグ多様体は、次元が増加するベクトル空間のネストされた部分空間の列であるフラッグからなる数学的空間である。 フラッグ多様体はStiefel や Grassmanian など、既知の行列群の広い範囲のスーパーセットであり、多種多様なコンピュータビジョン問題に有用な一般的な対象である。 1次フラグ統計の計算の課題に取り組むため、まず問題をスティーフェル多様体に制約された補助変数を含む問題に変換する。 stiefel多様体は直交フレームの空間であり、stiefel-manifold optimizationの数値安定性と効率を活用すれば、フラグ平均を効果的に計算することができる。 一連の実験により, 主成分分析と同様に, グラスマン法と回転平均法における本手法の能力を示す。

This paper presents a new, provably-convergent algorithm for computing the flag-mean and flag-median of a set of points on a flag manifold under the chordal metric. The flag manifold is a mathematical space consisting of flags, which are sequences of nested subspaces of a vector space that increase in dimension. The flag manifold is a superset of a wide range of known matrix groups, including Stiefel and Grassmanians, making it a general object that is useful in a wide variety computer vision problems. To tackle the challenge of computing first order flag statistics, we first transform the problem into one that involves auxiliary variables constrained to the Stiefel manifold. The Stiefel manifold is a space of orthogonal frames, and leveraging the numerical stability and efficiency of Stiefel-manifold optimization enables us to compute the flag-mean effectively. Through a series of experiments, we show the competence of our method in Grassmann and rotation averaging, as well as principal component analysis.
翻訳日:2023-03-24 12:54:29 公開日:2023-03-23
# 特徴歪みと単純さバイアスを用いたモデル適応の検討

A Closer Look at Model Adaptation using Feature Distortion and Simplicity Bias ( http://arxiv.org/abs/2303.13500v1 )

ライセンス: Link先を確認
Puja Trivedi, Danai Koutra, Jayaraman J. Thiagarajan(参考訳) 事前学習モデルの表現性の向上は、安全かつ効果的な転送学習を可能にする適応プロトコルの設計への関心を高めている。 従来のリニアプロビング (lp) とファインチューニング (ft) の戦略を超越して, 特徴歪みを効果的に制御できるプロトコル, 即ち, 特徴の更新に失敗し, 分散一般化 (ood) が改善されることが知られている。 この歪みを制限するために、まず線形プローブを学習し、次にこの初期化をFTに使用するLP+FTプロトコルが提案された。 しかし,本論文では,適応プロトコル (lp, ft, lp+ft) が様々な安全性目標(キャリブレーション, ロバスト性など)で評価された場合, 特徴歪みに対する補完的視点がプロトコルの挙動を説明する上で有用であることを示す。 そこで本稿では,SBが高機能化においていくつかの課題を解決していることから,深層ニューラルネットワークが単純な特徴に依存しているという,SB(Protocol to Simple bias)に対するプロトコルの受容性について検討する。 合成データセットを用いて,既存のプロトコルのSBへの感受性を示す。 LP+FTの強い有効性を考えると、SBを緩和し、その後のFTのより優れた初期化を導出する修正線形プローブを提案する。 提案するlp+ft変種による制御されたsbの低減効果と,3つの適応データセットにおけるood一般化と安全性の向上効果を検証した。

Advances in the expressivity of pretrained models have increased interest in the design of adaptation protocols which enable safe and effective transfer learning. Going beyond conventional linear probing (LP) and fine tuning (FT) strategies, protocols that can effectively control feature distortion, i.e., the failure to update features orthogonal to the in-distribution, have been found to achieve improved out-of-distribution generalization (OOD). In order to limit this distortion, the LP+FT protocol, which first learns a linear probe and then uses this initialization for subsequent FT, was proposed. However, in this paper, we find when adaptation protocols (LP, FT, LP+FT) are also evaluated on a variety of safety objectives (e.g., calibration, robustness, etc.), a complementary perspective to feature distortion is helpful to explain protocol behavior. To this end, we study the susceptibility of protocols to simplicity bias (SB), i.e. the well-known propensity of deep neural networks to rely upon simple features, as SB has recently been shown to underlie several problems in robust generalization. Using a synthetic dataset, we demonstrate the susceptibility of existing protocols to SB. Given the strong effectiveness of LP+FT, we then propose modified linear probes that help mitigate SB, and lead to better initializations for subsequent FT. We verify the effectiveness of the proposed LP+FT variants for decreasing SB in a controlled setting, and their ability to improve OOD generalization and safety on three adaptation datasets.
翻訳日:2023-03-24 12:54:13 公開日:2023-03-23
# 多粒子非ガウススピン状態におけるベル相関の検出

Detecting Bell correlations in multipartite non-Gaussian spin states ( http://arxiv.org/abs/2303.13499v1 )

ライセンス: Link先を確認
Jiajie Guo, Jordi Tura, Qiongyi He, Matteo Fadel(参考訳) 我々は,多部システムにおけるベル相関を研究するためのツールボックスを拡張し,多体相関器を含む変分不変ベル不等式(PIBI)を導入する。 まず,任意の粒子数に対して有効となる最大3体または4体の相関子を持つ20種類のピビスを提示する。 既知の不等式と比較すると、これらは高いノイズロバスト、または非ガウススピン状態におけるベル相関を検出する能力を示す。 次に,数方向のみの集団スピン測定を必要とするという意味において,実用的実験的な実装であるpibiの探索に焦点をあてる。 この目的のために、この探索問題を、所望の形式のピビスを探すのに必要な制約を埋め込んだ半定値プログラムとして定式化する。

We expand the toolbox for studying Bell correlations in multipartite systems by introducing permutationally invariant Bell inequalities (PIBIs) involving few-body correlators. First, we present around twenty families of PIBIs with up to three- or four-body correlators, that are valid for arbitrary number of particles. Compared to known inequalities, these show higher noise robustenss, or the capability to detect Bell correlations in highly non-Gaussian spin states. We then focus on finding PIBIs that are of practical experimental implementation, in the sense that the associated operators require collective spin measurements along only a few directions. To this end, we formulate this search problem as a semidefinite program that embeds the constraints required to look for PIBIs of the desired form.
翻訳日:2023-03-24 12:53:43 公開日:2023-03-23
# TriPlaneNet:EG3Dインバージョンのためのエンコーダ

TriPlaneNet: An Encoder for EG3D Inversion ( http://arxiv.org/abs/2303.13497v1 )

ライセンス: Link先を確認
Ananta R. Bhattarai, Matthias Nie{\ss}ner, Artem Sevastopolsky(参考訳) 近年, 頭部の高分解能・高忠実な生成モデルへの多くのアプローチが提案されており, 新規な視認性レンダリングの可能性も指摘されている。 同時に、既存の画像やビデオの再レンダリングや修正を可能にするために、逆問題を解決する必要がある。 2D GANインバージョンのための普遍的最適化ベースの手法の成功にもかかわらず、3D GANに適用された手法は、3D一貫性のあるレンダリングを作成できない可能性がある。 StyleGAN用に開発されたような高速エンコーダベースの技術は、アイデンティティ保存の欠如により、魅力が低下する可能性がある。 本研究では,EG3D生成モデルに導入された3面表現を直接利用することにより,両者のギャップを埋めるリアルタイム手法を提案する。 特に、潜伏符号に対するフィードフォワード畳み込みエンコーダを構築し、三平面数値オフセットの完全畳み込み予測器で拡張する。 我々の研究で示されているように、レンダリングは最適化に基づく手法と品質が似ており、新しいビューのベースラインを著しく上回っている。 経験的に証明すると、これは、エンコーダベースのトレーニング可能なアプローチを用いて、ganパラメータ空間ではなく、三平面空間で直接動作した結果である。

Recent progress in NeRF-based GANs has introduced a number of approaches for high-resolution and high-fidelity generative modeling of human heads with a possibility for novel view rendering. At the same time, one must solve an inverse problem to be able to re-render or modify an existing image or video. Despite the success of universal optimization-based methods for 2D GAN inversion, those, applied to 3D GANs, may fail to produce 3D-consistent renderings. Fast encoder-based techniques, such as those developed for StyleGAN, may also be less appealing due to the lack of identity preservation. In our work, we introduce a real-time method that bridges the gap between the two approaches by directly utilizing the tri-plane representation introduced for EG3D generative model. In particular, we build upon a feed-forward convolutional encoder for the latent code and extend it with a fully-convolutional predictor of tri-plane numerical offsets. As shown in our work, the renderings are similar in quality to optimization-based techniques and significantly outperform the baselines for novel view. As we empirically prove, this is a consequence of directly operating in the tri-plane space, not in the GAN parameter space, while making use of an encoder-based trainable approach.
翻訳日:2023-03-24 12:53:29 公開日:2023-03-23
# 億規模のプレトレーニングにおけるMAEプレトレーニングの有効性

The effectiveness of MAE pre-pretraining for billion-scale pretraining ( http://arxiv.org/abs/2303.13496v1 )

ライセンス: Link先を確認
Mannat Singh, Quentin Duval, Kalyan Vasudev Alwala, Haoqi Fan, Vaibhav Aggarwal, Aaron Adcock, Armand Joulin, Piotr Doll\'ar, Christoph Feichtenhofer, Ross Girshick, Rohit Girdhar, Ishan Misra(参考訳) 本稿では,コンピュータビジョンで視覚認識タスクに使用される標準プリトレイン・テン・フィニチューンパラダイムを再考する。 通常、最先端の基礎モデルは何十億もの画像を持つ大規模な(弱く)教師付きデータセットを使用して事前訓練される。 我々は,モデルの初期化に自己教師付きmae技術を用いた,簡易な事前トレーニングステージを新たに導入する。 maeはモデルのサイズでしかスケールできないことが示されていますが、トレーニングデータセットのサイズに合わせてもスケールすることが分かっています。 したがって、maeベースの事前トレーニングは、モデルとデータサイズの両方でスケールし、基礎モデルのトレーニングに適用できます。 事前トレーニングは、モデルスケール(数百万から数十億のパラメータ)とデータセットサイズ(数百万から数十億のイメージ)にわたって、モデル収束と下流転送のパフォーマンスを一貫して改善します。 画像分類,映像認識,物体検出,低ショット分類,ゼロショット認識にまたがる10種類の視覚認識タスクにおける事前学習の有効性を計測した。 我々の最大のモデルは、iNaturalist-18(91.3%)、1-shot ImageNet-1k(62.1%)、およびFood-101(96.0%)のゼロショット転送に関する新しい最先端結果を達成する。 本研究は,数十億枚の画像を用いたWebスケール事前学習においても,モデル初期化が重要な役割を担っていることを明らかにした。

This paper revisits the standard pretrain-then-finetune paradigm used in computer vision for visual recognition tasks. Typically, state-of-the-art foundation models are pretrained using large scale (weakly) supervised datasets with billions of images. We introduce an additional pre-pretraining stage that is simple and uses the self-supervised MAE technique to initialize the model. While MAE has only been shown to scale with the size of models, we find that it scales with the size of the training dataset as well. Thus, our MAE-based pre-pretraining scales with both model and data size making it applicable for training foundation models. Pre-pretraining consistently improves both the model convergence and the downstream transfer performance across a range of model scales (millions to billions of parameters), and dataset sizes (millions to billions of images). We measure the effectiveness of pre-pretraining on 10 different visual recognition tasks spanning image classification, video recognition, object detection, low-shot classification and zero-shot recognition. Our largest model achieves new state-of-the-art results on iNaturalist-18 (91.3%), 1-shot ImageNet-1k (62.1%), and zero-shot transfer on Food-101 (96.0%). Our study reveals that model initialization plays a significant role, even for web-scale pretraining with billions of images.
翻訳日:2023-03-24 12:53:08 公開日:2023-03-23
# ReVersion: 画像からの拡散に基づく関係インバージョン

ReVersion: Diffusion-Based Relation Inversion from Images ( http://arxiv.org/abs/2303.13495v1 )

ライセンス: Link先を確認
Ziqi Huang, Tianxing Wu, Yuming Jiang, Kelvin C.K. Chan, Ziwei Liu(参考訳) 拡散モデルは、その生成能力で人気が高まる。 近年,exemplar画像からの拡散モデルを反転させることで,カスタマイズした画像を生成する必要性が高まっている。 しかし、既存の反転法は主に物体の出現を捉えることに焦点を当てている。 視覚の世界におけるもう一つの重要な柱であるオブジェクト関係を逆転する方法は、まだ解明されていない。 本研究では,関係反転タスクのリバージョンを提案する。このタスクは,例示画像から特定の関係(「関係プロンプト」として表現される)を学習することを目的としている。 具体的には、凍結学習されたテキストから画像への拡散モデルから関係プロンプトを学習する。 学習された関係プロンプトは、新しいオブジェクト、背景、スタイルで関係特有のイメージを生成するために適用できる。 私たちの重要な洞察は、"preposition prior" - 実世界の関係プロンプトは、基底前置詞のセットでスパースに活性化される。 具体的には、関係学習の2つの重要な特性を課す新しい関係学習手法を提案する。 1) 関係プロンプトは,前置詞によって強制されるオブジェクト間のインタラクションをキャプチャする必要がある。 2) 関係プロンプトは,オブジェクトの外観から切り離されるべきである。 さらに,低レベルの外観(テクスチャ,色など)におけるハイレベルなインタラクションを強調するために,関係・焦点重要度サンプリングを考案する。 本稿では,この課題を総合的に評価するために,多種多様な類似画像を提供するReVersion Benchmarkを提案する。 広範囲の視覚的関係において,既存手法に対するアプローチの優位性を検証した。

Diffusion models gain increasing popularity for their generative capabilities. Recently, there have been surging needs to generate customized images by inverting diffusion models from exemplar images. However, existing inversion methods mainly focus on capturing object appearances. How to invert object relations, another important pillar in the visual world, remains unexplored. In this work, we propose ReVersion for the Relation Inversion task, which aims to learn a specific relation (represented as "relation prompt") from exemplar images. Specifically, we learn a relation prompt from a frozen pre-trained text-to-image diffusion model. The learned relation prompt can then be applied to generate relation-specific images with new objects, backgrounds, and styles. Our key insight is the "preposition prior" - real-world relation prompts can be sparsely activated upon a set of basis prepositional words. Specifically, we propose a novel relation-steering contrastive learning scheme to impose two critical properties of the relation prompt: 1) The relation prompt should capture the interaction between objects, enforced by the preposition prior. 2) The relation prompt should be disentangled away from object appearances. We further devise relation-focal importance sampling to emphasize high-level interactions over low-level appearances (e.g., texture, color). To comprehensively evaluate this new task, we contribute ReVersion Benchmark, which provides various exemplar images with diverse relations. Extensive experiments validate the superiority of our approach over existing methods across a wide range of visual relations.
翻訳日:2023-03-24 12:52:44 公開日:2023-03-23
# 授業ビデオにおけるタスク構造の学習と検証

Learning and Verification of Task Structure in Instructional Videos ( http://arxiv.org/abs/2303.13519v1 )

ライセンス: Link先を確認
Medhini Narasimhan, Licheng Yu, Sean Bell, Ning Zhang, Trevor Darrell(参考訳) オンラインで利用できる膨大な数の指導ビデオを考えると、ビデオから多段階のタスクモデルを学ぶことは魅力的な目標だ。 本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。 我々は,教師付きビデオからランダムにマスキングされたステップに対して,弱教師付きテキストラベルを予測するという,シンプルで効果的な目的の VideoTaskformer を事前訓練する。 ステップ表現をローカルに学習する以前の作業と比較して、我々のアプローチは、周囲のタスク全体をコンテキストとして利用して、それらをグローバルに学習する。 これらの学習した表現から、未確認の動画が所定のタスクを正しく実行するかどうかを検証し、また、所定のステップの後にどのステップを取るかを予測することができる。 命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。 また、長期予測ベンチマークを導入し、所定のステップから長期的な将来のステップを予測することを目標としている。 提案手法は,これらのタスクに対する以前のベースラインよりも優れており,これらのタスクは,ステップ表現の質を測定する上で,コミュニティにとって貴重な手段になるだろうと考えている。 さらに,既存の3つのベンチマーク -- 手続きアクティビティ認識,ステップ分類,ステップ予測 -- でvideotaskformerを評価し,提案手法が既存のベースラインを上回っており,新たな最先端性能を実現していることを示す。

Given the enormous number of instructional videos available online, learning a diverse array of multi-step task models from videos is an appealing goal. We introduce a new pre-trained video model, VideoTaskformer, focused on representing the semantics and structure of instructional videos. We pre-train VideoTaskformer using a simple and effective objective: predicting weakly supervised textual labels for steps that are randomly masked out from an instructional video (masked step modeling). Compared to prior work which learns step representations locally, our approach involves learning them globally, leveraging video of the entire surrounding task as context. From these learned representations, we can verify if an unseen video correctly executes a given task, as well as forecast which steps are likely to be taken after a given step. We introduce two new benchmarks for detecting mistakes in instructional videos, to verify if there is an anomalous step and if steps are executed in the right order. We also introduce a long-term forecasting benchmark, where the goal is to predict long-range future steps from a given step. Our method outperforms previous baselines on these tasks, and we believe the tasks will be a valuable way for the community to measure the quality of step representations. Additionally, we evaluate VideoTaskformer on 3 existing benchmarks -- procedural activity recognition, step classification, and step forecasting -- and demonstrate on each that our method outperforms existing baselines and achieves new state-of-the-art performance.
翻訳日:2023-03-24 12:47:05 公開日:2023-03-23
# 開語彙検出のための特徴アライメント改善のための3つの方法

Three ways to improve feature alignment for open vocabulary detection ( http://arxiv.org/abs/2303.13518v1 )

ライセンス: Link先を確認
Relja Arandjelovi\'c, Alex Andonian, Arthur Mensch, Olivier J. H\'enaff, Jean-Baptiste Alayrac, Andrew Zisserman(参考訳) ゼロショットオープンボキャブラリ検出における中核的な問題は、視覚的特徴とテキスト的特徴の整合性である。 以前のアプローチでは、フィーチャーピラミッドと検出ヘッドをスクラッチからトレーニングし、事前トレーニング中に確立された視覚テキストの機能アライメントを壊し、言語モデルが目に見えないクラスを忘れないようにしている。 これらの問題を緩和する3つの方法を提案する。 まず、単純なスキームを使用してテキスト埋め込みを強化し、トレーニング中に見られる少数のクラスへの過剰フィットを防ぐと同時に、メモリと計算を同時に節約する。 第二に、特徴ピラミッドネットワークと検出ヘッドは、トレーニング可能なゲートショートカットを含むように変更され、視覚テキストの特徴アライメントが促進され、検出トレーニングの開始時にそれを保証する。 最後に、自己学習アプローチは、より大きな画像テキストペアコーパスを活用するために使用され、人間の注釈付きバウンディングボックスのないクラスにおける検出性能を向上させる。 LVISベンチマークのゼロショットバージョンでは,3つの手法が評価され,それぞれが明確かつ有意義な利点を示している。 我々の最終ネットワークは、mAP-allメトリックの新たな最先端を実現し、mAP-rareの競合性能とCOCOおよびObjects365への優れた転送性能を示す。

The core problem in zero-shot open vocabulary detection is how to align visual and text features, so that the detector performs well on unseen classes. Previous approaches train the feature pyramid and detection head from scratch, which breaks the vision-text feature alignment established during pretraining, and struggles to prevent the language model from forgetting unseen classes. We propose three methods to alleviate these issues. Firstly, a simple scheme is used to augment the text embeddings which prevents overfitting to a small number of classes seen during training, while simultaneously saving memory and computation. Secondly, the feature pyramid network and the detection head are modified to include trainable gated shortcuts, which encourages vision-text feature alignment and guarantees it at the start of detection training. Finally, a self-training approach is used to leverage a larger corpus of image-text pairs thus improving detection performance on classes with no human annotated bounding boxes. Our three methods are evaluated on the zero-shot version of the LVIS benchmark, each of them showing clear and significant benefits. Our final network achieves the new stateof-the-art on the mAP-all metric and demonstrates competitive performance for mAP-rare, as well as superior transfer to COCO and Objects365.
翻訳日:2023-03-24 12:46:39 公開日:2023-03-23
# テキスト・画像拡散モデルにおけるアブラッティング概念

Ablating Concepts in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.13516v1 )

ライセンス: Link先を確認
Nupur Kumari, Bingliang Zhang, Sheng-Yu Wang, Eli Shechtman, Richard Zhang, Jun-Yan Zhu(参考訳) 大規模テキストから画像への拡散モデルは、強力な合成能力を持つ高忠実度画像を生成することができる。 しかし、これらのモデルは、典型的には膨大な量のインターネットデータに基づいて訓練され、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。 また、様々なライブアーティストのスタイルを再現したり、正確なトレーニングサンプルを記憶したりもしている。 モデルをスクラッチからトレーニングすることなく、そのような著作権付き概念やイメージをどうやって除去できるのか? この目的を達成するために, 事前学習モデルにおける概念のアブレーション, すなわち, 目標概念の生成を防止できる効率的な手法を提案する。 提案アルゴリズムは,画像の分布を対象のスタイル,例えばテキストのプロンプトと一致させることを学習し,アンカーの概念に対応する分布に対応する。 これにより、テキスト条件によってモデルがターゲット概念を生成することを防止する。 実験により,本手法はモデルに密接に関連する概念を保ちながら,アブレーションの概念の生成を効果的に防止できることを示した。

Large-scale text-to-image diffusion models can generate high-fidelity images with powerful compositional ability. However, these models are typically trained on an enormous amount of Internet data, often containing copyrighted material, licensed images, and personal photos. Furthermore, they have been found to replicate the style of various living artists or memorize exact training samples. How can we remove such copyrighted concepts or images without retraining the model from scratch? To achieve this goal, we propose an efficient method of ablating concepts in the pretrained model, i.e., preventing the generation of a target concept. Our algorithm learns to match the image distribution for a target style, instance, or text prompt we wish to ablate to the distribution corresponding to an anchor concept. This prevents the model from generating target concepts given its text condition. Extensive experiments show that our method can successfully prevent the generation of the ablated concept while preserving closely related concepts in the model.
翻訳日:2023-03-24 12:46:16 公開日:2023-03-23
# 永続性自然:非有界3次元世界の生成モデル

Persistent Nature: A Generative Model of Unbounded 3D Worlds ( http://arxiv.org/abs/2303.13515v1 )

ライセンス: Link先を確認
Lucy Chai, Richard Tucker, Zhengqi Li, Phillip Isola, Noah Snavely(参考訳) より現実的な画質にもかかわらず、最近の3D画像生成モデルは、制限されたカメラモーションで、一定範囲の3Dボリュームで動作することが多い。 本研究では,無条件自然シーンを無条件に合成し,永続的な3dワールドモデルを維持しながら任意に大きなカメラ動作を可能にするタスクについて検討する。 我々のシーン表現は、任意のカメラポーズから3Dデコーダとボリュームレンダリング、パノラマスカイドームを描画できる拡張可能な平面的なシーンレイアウトグリッドで構成されている。 この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。 本手法は,3次元景観を通した長距離飛行のシミュレーションを可能にするとともに,グローバルなシーンの一貫性を保ちながら,例えば開始点に戻ると,シーンの同じビューが得られる。 提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,自動回帰型3次元予測モデルとは対照的に,永続的でカメラに依存しない世界表現をサポートする。 プロジェクトページ: https://chail.github.io/persistent-nature/

Despite increasingly realistic image quality, recent 3D image generative models often operate on 3D volumes of fixed extent with limited camera motions. We investigate the task of unconditionally synthesizing unbounded nature scenes, enabling arbitrarily large camera motion while maintaining a persistent 3D world model. Our scene representation consists of an extendable, planar scene layout grid, which can be rendered from arbitrary camera poses via a 3D decoder and volume rendering, and a panoramic skydome. Based on this representation, we learn a generative world model solely from single-view internet photos. Our method enables simulating long flights through 3D landscapes, while maintaining global scene consistency--for instance, returning to the starting point yields the same view of the scene. Our approach enables scene extrapolation beyond the fixed bounds of current 3D generative models, while also supporting a persistent, camera-independent world representation that stands in contrast to auto-regressive 3D prediction models. Our project page: https://chail.github.io/persistent-nature/.
翻訳日:2023-03-24 12:45:59 公開日:2023-03-23
# SAOR:シングルビューArticulated Object Restruction

SAOR: Single-View Articulated Object Reconstruction ( http://arxiv.org/abs/2303.13514v1 )

ライセンス: Link先を確認
Mehmet Ayg\"un and Oisin Mac Aodha(参考訳) 本稿では,野生で撮影された1枚の画像から,明瞭な物体の3次元形状,テクスチャ,視点を推定する新しい手法であるsaorを紹介する。 事前に定義されたカテゴリ固有の3Dテンプレートや調整された3Dスケルトンに依存する従来のアプローチとは異なり、SAORは3Dオブジェクトの形状を事前に必要とせずに、スケルトンフリーのパーツベースモデルで単一ビューイメージコレクションから形状を明瞭化することを学ぶ。 そこで本研究では,不規則な物体形状の変形と調音を利用するクロスインスタンス整合損失を提案する。 これは、トレーニング中の視点の多様性を高めるために、新しいシルエットベースのサンプリングメカニズムによって助けられる。 本手法では,トレーニング中に既成のネットワークから推定対象シルエットと相対深度マップのみが必要となる。 単一のビュー画像が与えられた推論時に、明示的なメッシュ表現を効率よく出力する。 既存の課題と比較して,四足動物の質的・定量的評価が向上した。

We introduce SAOR, a novel approach for estimating the 3D shape, texture, and viewpoint of an articulated object from a single image captured in the wild. Unlike prior approaches that rely on pre-defined category-specific 3D templates or tailored 3D skeletons, SAOR learns to articulate shapes from single-view image collections with a skeleton-free part-based model without requiring any 3D object shape priors. To prevent ill-posed solutions, we propose a cross-instance consistency loss that exploits disentangled object shape deformation and articulation. This is helped by a new silhouette-based sampling mechanism to enhance viewpoint diversity during training. Our method only requires estimated object silhouettes and relative depth maps from off-the-shelf pre-trained networks during training. At inference time, given a single-view image, it efficiently outputs an explicit mesh representation. We obtain improved qualitative and quantitative results on challenging quadruped animals compared to relevant existing work.
翻訳日:2023-03-24 12:45:41 公開日:2023-03-23
# トポロジカル芝鎖におけるマヨナ-マグノン相互作用

Majorana-Magnon Interactions in Topological Shiba Chains ( http://arxiv.org/abs/2303.13513v1 )

ライセンス: Link先を確認
Pei-Xin Shen, Vivien Perrin, Mircea Trif, Pascal Simon(参考訳) 超伝導体表面に堆積する磁気不純物の連鎖は、マヨラナゼロモードをサポートし、トポロジカル量子コンピューティングの約束を持つトポロジカル芝バンドを形成することができる。 しかし、これらのゼロモードを精査するほとんどの実験は、局所的な性質のみを捕捉する輸送計測に依存する。 本稿では,磁気不純物の固有ダイナミクスを利用して,その非局所的な性質にアクセスすることを提案する。 線形応答理論を用いて、外部$ac$の磁場の存在下での一様マグノンモードのダイナミクスと、シバ電子とのカップリングを決定する。 このモードは、原子の鎖全体に広がり、基底状態のパリティとともにインプリントされ、さらに、マヨラナモードと鎖の末端に位置する自明なゼロモードを区別できることを実証する。 本手法は,マヨラナ零モードの走査型トンネル顕微鏡法に代わる非侵襲的な手法である。 逆に、マグノンはトポロジカルシバ鎖におけるマヨラナゼロモードの操作を容易にすることができる。

A chain of magnetic impurities deposited on the surface of a superconductor can form a topological Shiba band that supports Majorana zero modes and hold a promise for topological quantum computing. Yet, most experiments scrutinizing these zero modes rely on transport measurements, which only capture local properties. Here we propose to leverage the intrinsic dynamics of the magnetic impurities to access their non-local character. We use linear response theory to determine the dynamics of the uniform magnonic mode in the presence of external $ac$ magnetic fields and the coupling to the Shiba electrons. We demonstrate that this mode, which spreads over the entire chain of atoms, becomes imprinted with the parity of the ground state and, moreover, can discriminate between Majorana and trivial zero modes located at the end of the chain. Our approach offers a non-invasive alternative to the scanning tunnelling microscopy techniques used to probe Majorana zero modes. Conversely, the magnons could facilitate the manipulation of Majorana zero modes in topological Shiba chains.
翻訳日:2023-03-24 12:45:26 公開日:2023-03-23
# 人間フィードバックによるファジィタスクの解決に向けて:MineRL BASALT 2022コンペティションを振り返って

Towards Solving Fuzzy Tasks with Human Feedback: A Retrospective of the MineRL BASALT 2022 Competition ( http://arxiv.org/abs/2303.13512v1 )

ライセンス: Link先を確認
Stephanie Milani, Anssi Kanervisto, Karolis Ramanauskas, Sander Schulhoff, Brandon Houghton, Sharada Mohanty, Byron Galbraith, Ke Chen, Yan Song, Tianze Zhou, Bingquan Yu, He Liu, Kai Guan, Yujing Hu, Tangjie Lv, Federico Malato, Florian Leopold, Amogh Raut, Ville Hautam\"aki, Andrew Melnik, Shu Ishida, Jo\~ao F. Henriques, Robert Klassert, Walter Laurito, Ellen Novoseller, Vinicius G. Goecks, Nicholas Waytowich, David Watkins, Josh Miller, Rohin Shah(参考訳) 人間のフィードバックからファインチューニング基礎モデルの方向性を研究するために,我々はNeurIPS 2022でMineRL BASALT Competition on Fine-Tuning from Human Feedbackを開催した。 BASALTチャレンジでは、Minecraftの難易度の高い報酬関数でタスクを解くアルゴリズムを開発するために、チームに競争するよう求めている。 この競争を通じて,人間のフィードバックをチャネルとして利用して望ましい行動を学ぶアルゴリズムの開発を促進することを目的とした。 競合について説明し、トップソリューションの概要を提供する。 最後に、競争の影響と今後の改善の方向性について論じる。

To facilitate research in the direction of fine-tuning foundation models from human feedback, we held the MineRL BASALT Competition on Fine-Tuning from Human Feedback at NeurIPS 2022. The BASALT challenge asks teams to compete to develop algorithms to solve tasks with hard-to-specify reward functions in Minecraft. Through this competition, we aimed to promote the development of algorithms that use human feedback as channels to learn the desired behavior. We describe the competition and provide an overview of the top solutions. We conclude by discussing the impact of the competition and future directions for improvement.
翻訳日:2023-03-24 12:45:09 公開日:2023-03-23
# カラースタイル伝達のためのニューラルプリセット

Neural Preset for Color Style Transfer ( http://arxiv.org/abs/2303.13511v1 )

ライセンス: Link先を確認
Zhanghan Ke, Yuhao Liu, Lei Zhu, Nanxuan Zhao, Rynson W.H. Lau(参考訳) 本稿では,視覚アーチファクトや膨大なメモリ要求,スロースタイルスイッチング速度など,既存のカラースタイル転送方法の制限に対処するためのニューラルプリセット手法を提案する。 我々の手法は2つのコア設計に基づいている。 まず,画像適応色マッピングマトリクスを介して各画素に対して一貫して動作し,アーティファクトを回避し,少ないメモリフットプリントで高解像度入力をサポートする決定論的ニューラルネットワークマッピング(dncm)を提案する。 次に,カラー正規化とスタイライゼーションにタスクを分割し,カラースタイルをプリセットとして抽出し,正規化入力画像で再利用することで,効率的なスタイル切り替えを実現する2段階パイプラインを開発した。 ペアワイズデータセットが利用できないため、自己教師型戦略を用いてNeural Presetをトレーニングする方法を解説する。 既存の手法に対するニューラル・プリセットの様々な利点は包括的評価によって示される。 さらに,本モデルでは,低照度画像強調,水中画像補正,デハージング,画像調和など,微調整の必要なく複数のアプリケーションを自然にサポートできることが示されている。

In this paper, we present a Neural Preset technique to address the limitations of existing color style transfer methods, including visual artifacts, vast memory requirement, and slow style switching speed. Our method is based on two core designs. First, we propose Deterministic Neural Color Mapping (DNCM) to consistently operate on each pixel via an image-adaptive color mapping matrix, avoiding artifacts and supporting high-resolution inputs with a small memory footprint. Second, we develop a two-stage pipeline by dividing the task into color normalization and stylization, which allows efficient style switching by extracting color styles as presets and reusing them on normalized input images. Due to the unavailability of pairwise datasets, we describe how to train Neural Preset via a self-supervised strategy. Various advantages of Neural Preset over existing methods are demonstrated through comprehensive evaluations. Besides, we show that our trained model can naturally support multiple applications without fine-tuning, including low-light image enhancement, underwater image correction, image dehazing, and image harmonization.
翻訳日:2023-03-24 12:44:57 公開日:2023-03-23
# MV-JAR:擬似ボクセルJigsawとLiDARによる自己監督型事前訓練の再構築

MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training ( http://arxiv.org/abs/2303.13510v1 )

ライセンス: Link先を確認
Runsen Xu, Tai Wang, Wenwei Zhang, Runjian Chen, Jinkun Cao, Jiangmiao Pang, Dahua Lin(参考訳) 本稿では,LiDARをベースとした自己教師型事前学習のためのMasked Voxel Jigsaw and Reconstruction (MV-JAR)手法と,Waymoデータセット上のデータ効率のよい3Dオブジェクト検出ベンチマークについて述べる。 下流3次元物体検出器におけるボクセル点階層に着想を得て,シーン内のボクセル分布とボクセル内の局所点分布を考慮したマスキングおよび再構成戦略を設計する。 逆Furthest-Voxel-Sampling法を用いて、LiDAR点の不均一分布に対処し、上記の分布をモデル化する2つの手法を組み合わせたMV-JARを提案する。 実験の結果,従来のデータ効率実験の限界が明らかとなり,各LiDARシークエンスから異なるデータ比率で微調整スプリットを均一にサンプリングした。 そこで本研究では,様々な微調整分割のためのシーンシーケンスをサンプリングし,適切なモデル収束を保証し,事前学習手法をより正確に評価する新しいベンチマークを提案する。 WaymoベンチマークとKITTIデータセットの実験では、MV-JARはさまざまなデータスケールにわたる3D検出性能を一貫して改善し、スクラッチからのトレーニングに比べて最大6.3%のmAPHを実現している。 コードとベンチマークはhttps://github.com/SmartBot-PJLab/MV-JAR で公開される。

This paper introduces the Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training and a carefully designed data-efficient 3D object detection benchmark on the Waymo dataset. Inspired by the scene-voxel-point hierarchy in downstream 3D object detectors, we design masking and reconstruction strategies accounting for voxel distributions in the scene and local point distributions within the voxel. We employ a Reversed-Furthest-Voxel-Sampling strategy to address the uneven distribution of LiDAR points and propose MV-JAR, which combines two techniques for modeling the aforementioned distributions, resulting in superior performance. Our experiments reveal limitations in previous data-efficient experiments, which uniformly sample fine-tuning splits with varying data proportions from each LiDAR sequence, leading to similar data diversity across splits. To address this, we propose a new benchmark that samples scene sequences for diverse fine-tuning splits, ensuring adequate model convergence and providing a more accurate evaluation of pre-training methods. Experiments on our Waymo benchmark and the KITTI dataset demonstrate that MV-JAR consistently and significantly improves 3D detection performance across various data scales, achieving up to a 6.3% increase in mAPH compared to training from scratch. Codes and the benchmark will be available at https://github.com/SmartBot-PJLab/MV-JAR .
翻訳日:2023-03-24 12:44:37 公開日:2023-03-23
# 位置ガイド型ポイントクラウド・パノプティブ・セグメンテーション・トランス

Position-Guided Point Cloud Panoptic Segmentation Transformer ( http://arxiv.org/abs/2303.13509v1 )

ライセンス: Link先を確認
Zeqi Xiao, Wenwei Zhang, Tai Wang, Chen Change Loy, Dahua Lin, Jiangmiao Pang(参考訳) Detection TRansformer (DETR) は、学習可能なクエリのグループを使用して視覚を統一するトレンドを開始した。 この作業は、LiDARベースのポイントクラウドセグメンテーションにこの魅力的なパラダイムを適用し、シンプルだが効果的なベースラインを得ることから始まります。 ナイーブ適応は公平な結果が得られるが、インスタンスセグメンテーション性能は以前の作品よりも顕著に劣る。 詳細を掘り下げてみると、スパースポイント雲のインスタンスはシーン全体に対して比較的小さく、しばしば類似した形状を持つが、画像領域では珍しいセグメンテーションの特徴的な外観を欠いていることが分かる。 3Dのインスタンスが位置情報によって特徴付けられることを考えると、セグメンテーションプロセスのガイドとなる頑健なMixed-parameterized Positional Embedding (MPE) のモデル化と設計において、それらの役割を強調している。 バックボーン機能に組み込まれ、後にマスク予測とクエリ更新プロセスを反復的にガイドし、位置認識セグメンテーション(pa-seg)とマスキング焦点アテンション(mfa)につながる。 これらの設計はすべて、クエリを特定のリージョンに適応させ、さまざまなインスタンスを識別する。 position-guided Point cloud Panoptic segmentation transFormer (P3Former) と名付けられたこの手法は、SemanticKITTIベンチマークとnuScenesベンチマークでそれぞれ3.4%と1.2%のPQをそれぞれ上回っている。 ソースコードとモデルはhttps://github.com/SmartBot-PJLab/P3Formerで入手できる。

DEtection TRansformer (DETR) started a trend that uses a group of learnable queries for unified visual perception. This work begins by applying this appealing paradigm to LiDAR-based point cloud segmentation and obtains a simple yet effective baseline. Although the naive adaptation obtains fair results, the instance segmentation performance is noticeably inferior to previous works. By diving into the details, we observe that instances in the sparse point clouds are relatively small to the whole scene and often have similar geometry but lack distinctive appearance for segmentation, which are rare in the image domain. Considering instances in 3D are more featured by their positional information, we emphasize their roles during the modeling and design a robust Mixed-parameterized Positional Embedding (MPE) to guide the segmentation process. It is embedded into backbone features and later guides the mask prediction and query update processes iteratively, leading to Position-Aware Segmentation (PA-Seg) and Masked Focal Attention (MFA). All these designs impel the queries to attend to specific regions and identify various instances. The method, named Position-guided Point cloud Panoptic segmentation transFormer (P3Former), outperforms previous state-of-the-art methods by 3.4% and 1.2% PQ on SemanticKITTI and nuScenes benchmark, respectively. The source code and models are available at https://github.com/SmartBot-PJLab/P3Former .
翻訳日:2023-03-24 12:44:08 公開日:2023-03-23
# dyadicインタラクション設定における複数の適切な顔反応生成:何、なぜ、どのように?

Multiple Appropriate Facial Reaction Generation in Dyadic Interaction Settings: What, Why and How? ( http://arxiv.org/abs/2302.06514v4 )

ライセンス: Link先を確認
Siyang Song, Micol Spitale, Yiming Luo, Batuhan Bal, Hatice Gunes(参考訳) Stimulus Organism Response (SOR) 理論によれば、人間の行動反応はすべて、受信した刺激を処理し、適切な反応を生成するコンテキストによって刺激される。 これは、ある入力刺激の特定の文脈において、人は内部の状態や他の文脈要因に応じて異なる反応をすることができることを意味する。 同様に、ディヤド相互作用では、人間は言語的および非言語的手がかりを使ってコミュニケーションし、リスナーの非言語的反応の幅広いスペクトルが特定の話者の行動に反応するのに適切である。 すでに、与えられた入力に対して適切な反応を自動的に生成する問題を調査する作業体が存在する。 しかしながら、ダイアド相互作用の文脈で複数の適切な反応を自動生成し、客観的尺度を用いてそれらの反応の適切性を評価する試みは行われなかった。 本稿は, 論文の中で初めて顔多元反応生成(fMARG)タスクを定義し, 生成した反応の適切性を評価するための新たな客観的評価指標を提案する。 その後、複数の適切な顔反応を予測、生成、評価するための枠組みを導入する。

According to the Stimulus Organism Response (SOR) theory, all human behavioral reactions are stimulated by context, where people will process the received stimulus and produce an appropriate reaction. This implies that in a specific context for a given input stimulus, a person can react differently according to their internal state and other contextual factors. Analogously, in dyadic interactions, humans communicate using verbal and nonverbal cues, where a broad spectrum of listeners' non-verbal reactions might be appropriate for responding to a specific speaker behaviour. There already exists a body of work that investigated the problem of automatically generating an appropriate reaction for a given input. However, none attempted to automatically generate multiple appropriate reactions in the context of dyadic interactions and evaluate the appropriateness of those reactions using objective measures. This paper starts by defining the facial Multiple Appropriate Reaction Generation (fMARG) task for the first time in the literature and proposes a new set of objective evaluation metrics to evaluate the appropriateness of the generated reactions. The paper subsequently introduces a framework to predict, generate, and evaluate multiple appropriate facial reactions.
翻訳日:2023-03-24 10:54:42 公開日:2023-03-23
# Kupczynski の文脈局所因果確率モデルはベルの定理によって制約される

Kupczynski's Contextual Locally Causal Probabilistic Models are constrained by Bell's theorem ( http://arxiv.org/abs/2208.09930v4 )

ライセンス: Link先を確認
Richard D. Gill and Justo Pastor Lambare(参考訳) マリアン・クプシンスキーは一連の論文で、ベルの定理は測定器を記述する文脈的設定依存パラメータを正しく考慮すれば回避できると主張した。 これは事実ではないことを示す。 初期の出現にもかかわらず、クプシンキの文脈的局所因果確率モデルの概念は数学的にはベル局所隠れ変数モデルの特別な場合である。 したがって、たとえ彼が提案した方法で文脈性を考慮するとしても、ベル-CHSHの不等式は導出可能である。 量子力学と局所実在論(クプチンスキーの主張による概念の拡大を含む)は互いに相容れない。 さらなる検査の結果、クプチンスキーは実際に検出の抜け穴に落ちていることがわかった。 2015年以降、ベル・チェシュの不等式に違反する多くの抜け穴のない実験が行われており、そのような実験の他の不完全さにもかかわらず、クプチンスキーの局所実在論への脱出ルートは入手できない。

In a sequence of papers, Marian Kupczynski has argued that Bell's theorem can be circumvented if one takes correct account of contextual setting-dependent parameters describing measuring instruments. We show that this is not true. Despite first appearances, Kupczynksi's concept of a contextual locally causal probabilistic model is mathematically a special case of a Bell local hidden variables model. Thus, even if one takes account of contextuality in the way he suggests, the Bell-CHSH inequality can still be derived. Violation thereof by quantum mechanics cannot be easily explained away: quantum mechanics and local realism (including Kupczynski's claimed enlargement of the concept) are not compatible with one another. Further inspection shows that Kupczynski is actually falling back on the detection loophole. Since 2015, numerous loophole-free experiments have been performed, in which the Bell-CHSH inequality is violated, so despite any other possible imperfections of such experiments, Kupczynski's escape route for local realism is not available
翻訳日:2023-03-24 10:54:21 公開日:2023-03-23
# 共有量子シークレットの回収と再構築

Revocation and Reconstruction of Shared Quantum Secrets ( http://arxiv.org/abs/2112.15556v5 )

ライセンス: Link先を確認
Prakash Mudholkar, Chiranjeevi Vanarasa, Indranil Chakrabarty and Srinathan Kannan(参考訳) 量子シークレット共有では、量子シークレットと古典シークレットの両方を量子リソースと共有できる。 本稿では,ディーラーと2人の株主が共有する量子秘密の取り消し問題について,三者シナリオで検討する。 既存のシークレット共有プロトコルでは、ディーラーがすべての株主が半正直であることを知ったら、シークレットを回収する手段はない。 この作業では、不正な株主を扱っているわけではない。 量子秘密共有プロトコルでは、半正直で不正ではない株主を明示的に扱います。 当社のプロトコルは,すべての株主や受託者が半正真正銘である最悪の状況において,秘密を戻すための戦略を設計することで,この問題を解決する上で大きな進歩を遂げます。 提案する戦略では、ディーラーは秘密の量子共有も保有しており、共有が完了した後も秘密を戻す権限をディーラーに与える。 しかし、このプロトコルは、取り消しプロセスと共に、株主が正直である場合の正常な再構成を保証する。 この利点はディーラー側で追加の1キュービットの費用がかかるため、1ディーラーと2シェアホルダーのシナリオから始めるには4キュービットのリソースが必要である。 この記事では、プロトコルの説明だけでなく、4ビットの絡み合った状態の助けを借りて、プロトコルが動作している例を示します。 また、プロトコルが成功する入力状態のパラメータの範囲を明示的に把握した。

In Quantum secret sharing we can share both quantum and classical secrets with a quantum resource. In this article we study the problem of revocation of quantum secret shared by the dealer with two shareholders in a three party scenario. In the existing secret sharing protocols there are no means by which the dealer can retrieve back the secret once he/she finds all the share holders to be semi-honest. In this work, we are not dealing with shareholders who are dishonest. We state clearly that in our quantum secret sharing protocol, we explicitly deal with shareholders who are semi-honest and not dishonest. Our protocol makes a significant advancement in solving this problem by designing strategy in bringing back the secret in the worst possible situation when all the shareholders/receivers are semi-honest. In our proposed strategy the dealer also possesses a quantum share of the secret which empowers the dealer to bring back the secret even after sharing is done. However the protocol along with the revocation process also ensures the normal reconstruction at the share holder's location when they are honest. This advantage comes with the expense of extra one qubit on dealer's side and consequently we require a four qubit resource to start with for 1-dealer and 2-share holder's scenario. Here in this article we not only give the description of our protocol but also give an example where our protocol is working with the help of a four qubit entangled state. We also explicitly found out the range of parameter for the input state for which the protocol will be successful.
翻訳日:2023-03-24 10:54:04 公開日:2023-03-23
# 航空交通管理における遅延緩和

Delay Mitigation in Air Traffic Flow Management ( http://arxiv.org/abs/2002.03806v3 )

ライセンス: Link先を確認
Mehran Makhtoumi(参考訳) ATFMの遅延を軽減するために、戦略領域と戦術領域に分類できる様々なアプローチが提案されている。 戦略手法は主に空港のスロット割り当てと戦術領域に関するものであり、戦略飛行計画が既に満たされているときのみ遅延が戦術レベルでのみ明らかになるため、ATFMの遅延緩和には大きな効果が得られていない地上と空の保持から再配置行動まで、いくつかのソリューションが利用可能である。 この問題に取り組み、対処するには、戦略的なスケジュールと戦術的なスケジュールを同期できるアルゴリズムが必要である。 このギャップを埋めるために,本論文では,システムのロバスト性を高めることによりATFM遅延軽減につながる戦略的および戦術的操作同期に寄与する可能性のある,公平なバッファスケジューリングの概念を提案する。 目的は、ATFMの遅延を軽減し、利害関係者の福祉を増大させる最適な公平かつ効率的なバッファ選択を得ることである。 それぞれの適切な効率的なアプローチには、戦略的バッファスケジューリングの包括的理解が必要です。 本研究は,コスト,遅延,公正のトレードオフの異なるスケジュールを取得するための公平性対策の適用可能性を検討するため,最適化問題の初期人口として考慮すべき最適バッファ時間を生成するための遅延コストとフライトバッファモデルを提案する。

To mitigate ATFM delay, different approaches have been proposed so far which can be categorized into strategic and tactical domains. The strategical techniques mainly concern airport slot allocation and for the tactical domain, the ATFM function has several solutions available that range from the ground and air holding to rerouting actions, which have not gained significant efficiency in ATFM delay mitigation due to the fact that delays become apparent only on the tactical level when the strategic flight plan has been filled already. To tackle and address this problem there is a need for an algorithm that can synchronize strategical and tactical schedules. To fill this gap, in this paper the concept of fair buffer scheduling is proposed which can potentially contribute to strategical and tactical operations synchronization that would result in ATFM delay mitigation by increasing the system's robustness. The objective is to obtain an optimum fair and efficient buffer choice that mitigates ATFM delay and increases the stakeholders' welfare. Each appropriate and efficient approach requires a comprehensive understanding of the strategical buffer scheduling. This study presents a delay cost and flight buffer model that could be used for generating optimal buffer times to be considered as the initial population for the optimization problem to investigate the viability of employing fairness measures to obtain schedules with different trade-offs between cost, delay, and fairness.
翻訳日:2023-03-24 10:53:41 公開日:2023-03-23
# グラフ上のランダム逆問題:分散オンライン学習

Random Inverse Problems Over Graphs: Decentralized Online Learning ( http://arxiv.org/abs/2303.11789v2 )

ライセンス: Link先を確認
Tao Li and Xiwei Zhang(参考訳) 本稿では,グラフ上の実時間観測によるランダム逆問題の枠組みを確立し,Hilbert空間における分散パラメータ推定とカーネルHilbert空間の再生成における最小二乗問題(RKHS-LMS)を統一するオンラインデータストリームに基づく分散オンライン学習アルゴリズムを提案する。 アルゴリズム収束を、l2-バウンドマルティンゲール差分項を持つヒルベルト空間におけるランダムな時間変化差分方程式の漸近安定性に変換し、l2-漸近安定性理論を発展させる。 ネットワークグラフが連結であり、フォワード作用素の列が励起条件の無限次元時空間持続性を満たすならば、全てのノードの見積もりは平均二乗であり、ほぼ確実に一致している。 rkhsの分散学習問題をグラフ上のランダムな逆問題に等価に転送することにより、非定常および非独立なオンラインデータストリームに基づくrkhsにおける分散オンライン学習アルゴリズムを提案し、ランダム入力データによって誘導される演算子が励起条件の無限次元時空間持続性を満たす場合、アルゴリズムが平均2乗でほぼ確実に一貫性があることを証明する。

We establish a framework of random inverse problems with real-time observations over graphs, and present a decentralized online learning algorithm based on online data streams, which unifies the distributed parameter estimation in Hilbert space and the least mean square problem in reproducing kernel Hilbert space (RKHS-LMS). We transform the algorithm convergence into the asymptotic stability of randomly time-varying difference equations in Hilbert space with L2-bounded martingale difference terms and develop the L2 -asymptotic stability theory. It is shown that if the network graph is connected and the sequence of forward operators satisfies the infinitedimensional spatio-temporal persistence of excitation condition, then the estimates of all nodes are mean square and almost surely strongly consistent. By equivalently transferring the distributed learning problem in RKHS to the random inverse problem over graphs, we propose a decentralized online learning algorithm in RKHS based on non-stationary and non-independent online data streams, and prove that the algorithm is mean square and almost surely strongly consistent if the operators induced by the random input data satisfy the infinite-dimensional spatio-temporal persistence of excitation condition.
翻訳日:2023-03-24 10:52:12 公開日:2023-03-23
# I2Edit:対話によるマルチターンインタラクティブ画像編集を目指して

I2Edit: Towards Multi-turn Interactive Image Editing via Dialogue ( http://arxiv.org/abs/2303.11108v2 )

ライセンス: Link先を確認
Xing Cui, Zekun Li, Peipei Li, Yibo Hu, Hailin Shi, Zhaofeng He(参考訳) 制御可能な顔画像編集にはかなりの研究努力が続けられているが、ユーザが動的に要求を調整するためにシステムと対話できる望ましいインタラクティブな設定は、十分に検討されていない。 本稿では,対話による顔画像編集に焦点を当て,実世界の対話的顔画像編集シナリオにおける画像編集品質と対話性を評価するためのベンチマークデータセットであるMulti-turn Interactive Image Editing (I2Edit)を導入する。 データセットはCelebA-HQデータセット上に構築され、ユーザ編集要求に対応するマルチターンダイアログでアノテートされる。 I2Editは必要に応じて難しい 1)動的に更新されたユーザ要件を追跡し,それに従って画像を編集する。 2) ユーザとのコミュニケーションに適した自然言語応答を生成する。 これらの課題に対処するために,対話モジュールと画像編集モジュールからなるフレームワークを提案する。 前者は、ユーザの編集要求を追跡し、対応する表示応答を生成し、後者は、追跡されたユーザの編集要求に基づいて条件付けられた画像を編集する。 マルチターンインタラクションを単一ターンインタラクションのシーケンスとして単純に扱う従来の作業とは対照的に,現在のシングルターンではなく,対話履歴全体からユーザ編集要求を抽出する。 抽出されたグローバルなユーザ編集要件により、入力された生画像を直接編集して、エラーの蓄積や、忘れる問題への属性付けを回避できる。 I2Editデータセットの大規模な定量的および定性的実験は、従来のシングルターン方式よりも提案したフレームワークの利点を実証する。 われわれの新しいデータセットは、現実世界の複雑なインタラクティブな画像編集の探求を促進する貴重なリソースになると考えている。 コードとデータは公開されます。

Although there have been considerable research efforts on controllable facial image editing, the desirable interactive setting where the users can interact with the system to adjust their requirements dynamically hasn't been well explored. This paper focuses on facial image editing via dialogue and introduces a new benchmark dataset, Multi-turn Interactive Image Editing (I2Edit), for evaluating image editing quality and interaction ability in real-world interactive facial editing scenarios. The dataset is constructed upon the CelebA-HQ dataset with images annotated with a multi-turn dialogue that corresponds to the user editing requirements. I2Edit is challenging, as it needs to 1) track the dynamically updated user requirements and edit the images accordingly, as well as 2) generate the appropriate natural language response to communicate with the user. To address these challenges, we propose a framework consisting of a dialogue module and an image editing module. The former is for user edit requirements tracking and generating the corresponding indicative responses, while the latter edits the images conditioned on the tracked user edit requirements. In contrast to previous works that simply treat multi-turn interaction as a sequence of single-turn interactions, we extract the user edit requirements from the whole dialogue history instead of the current single turn. The extracted global user edit requirements enable us to directly edit the input raw image to avoid error accumulation and attribute forgetting issues. Extensive quantitative and qualitative experiments on the I2Edit dataset demonstrate the advantage of our proposed framework over the previous single-turn methods. We believe our new dataset could serve as a valuable resource to push forward the exploration of real-world, complex interactive image editing. Code and data will be made public.
翻訳日:2023-03-24 10:51:46 公開日:2023-03-23
# ポイントクラウドを用いた3dシーングラフ生成のための再訪トランスフォーマー

Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation ( http://arxiv.org/abs/2303.11048v2 )

ライセンス: Link先を確認
Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma(参考訳) 本稿では,3次元シーングラフ生成のための意味グラフ変換器(SGT)を提案する。 このタスクは、クラウドポイントベースのシーンをセマンティックな構造グラフに解析することを目的としている。 グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報を伝播するしかなかった。 対照的に、SGTでは3Dシーングラフ生成タスクに適した2種類のTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。 具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。 さらに,分類的テキストラベルと視覚的オブジェクト知識を活用する意味注入層を提案する。 我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の絶対的な改善を35.9%達成し、最先端の複雑なシーンでサブセットを80.4%向上させた。 さらに,SGTの長期・ゼロショットシナリオにおける優位性を示す。 コードとモデルをリリースします。

In this paper, we propose the semantic graph Transformer (SGT) for 3D scene graph generation. The task aims to parse a cloud point-based scene into a semantic structural graph, with the core challenge of modeling the complex global structure. Existing methods based on graph convolutional networks (GCNs) suffer from the over-smoothing dilemma and could only propagate information from limited neighboring nodes. In contrast, our SGT uses Transformer layers as the base building block to allow global information passing, with two types of proposed Transformer layers tailored for the 3D scene graph generation task. Specifically, we introduce the graph embedding layer to best utilize the global information in graph edges while maintaining comparable computation costs. Additionally, we propose the semantic injection layer to leverage categorical text labels and visual object knowledge. We benchmark our SGT on the established 3DSSG benchmark and achieve a 35.9% absolute improvement in relationship prediction's R@50 and an 80.4% boost on the subset with complex scenes over the state-of-the-art. Our analyses further show SGT's superiority in the long-tailed and zero-shot scenarios. We will release the code and model.
翻訳日:2023-03-24 10:51:20 公開日:2023-03-23
# $\text{MOD}_m^n$ と $\text{EXACT}_{k,l}^n$ の正確な量子クエリ複雑性について

On the exact quantum query complexity of $\text{MOD}_m^n$ and $\text{EXACT}_{k,l}^n$ ( http://arxiv.org/abs/2303.10935v3 )

ライセンス: Link先を確認
Zekun Ye(参考訳) このクエリモデルは、古典的および量子コンピューティングのコミュニティに大きな関心を集めている。 通常、量子の利点は、従来のアルゴリズムに比べてクエリーの複雑さが良い量子アルゴリズムを示すことによって示される。 量子クエリーアルゴリズムは、量子アルゴリズムの開発において重要な役割を果たす。 例えば、deutsch-jozsaアルゴリズムは古典的決定論的アルゴリズムよりも指数関数的な量子効果を示した。 重要な複雑性尺度として、厳密な量子クエリ複雑性は、量子アルゴリズムを用いて特定の問題を解決するのに必要なクエリの最小数を記述する。 本稿では、以下の2つの$n$-bit対称関数 $\text{MOD}_m^n:\{0,1\}^n \rightarrow \{0,...,m-1\}$と$\text{EXACT}_{k,l}^n:\{0,1\}^n \rightarrow \{0,1\}$の正確な量子クエリ複雑性を、$\text{MOD}_m^n(x) = |x| \bmod m$と$ \text{EXACT}_{k,l}^n(x) = 1$ iff $|x| \in \{k,l\}$と定義する。 結果は以下の通りである。 i)$\text{mod}_m^n$を計算するための最適な量子アルゴリズムを示し、$\lceil n(1-\frac{1}{m}) \rceil$を1 < m \le n$とする。 これは、cornelissen, mande, ozols and de wolf (2021) によって提案された予想を定めている。 このアルゴリズムに基づいて、$\{0,1\}^n$ から有限集合 $x$ への写像が $n$ 以下であるような対称関数の幅広いクラスにおける正確な量子クエリの複雑さを示す。 ii) $l-k \ge 2$ の場合、$k=0$ または $k=1,l=n-1$ に対して$\text{exact}_{k,l}^n$ を計算する最適な量子クエリアルゴリズムを与える。 ambainis, iraids, nagaj (2017) によって提案された予想を部分的に解決する。

The query model has generated considerable interest in both classical and quantum computing communities. Typically, quantum advantages are demonstrated by showcasing a quantum algorithm with a better query complexity compared to its classical counterpart. Exact quantum query algorithms play a pivotal role in developing quantum algorithms. For example, the Deutsch-Jozsa algorithm demonstrated exponential quantum advantages over classical deterministic algorithms. As an important complexity measure, exact quantum query complexity describes the minimum number of queries required to solve a specific problem exactly using a quantum algorithm. In this paper, we consider the exact quantum query complexity of the following two $n$-bit symmetric functions $\text{MOD}_m^n:\{0,1\}^n \rightarrow \{0,...,m-1\}$ and $\text{EXACT}_{k,l}^n:\{0,1\}^n \rightarrow \{0,1\}$, which are defined as $\text{MOD}_m^n(x) = |x| \bmod m$ and $ \text{EXACT}_{k,l}^n(x) = 1$ iff $|x| \in \{k,l\}$, where $|x|$ is the number of $1$'s in $x$. Our results are as follows: i) We present an optimal quantum algorithm for computing $\text{MOD}_m^n$, achieving a query complexity of $\lceil n(1-\frac{1}{m}) \rceil$ for $1 < m \le n$. This settles a conjecture proposed by Cornelissen, Mande, Ozols and de Wolf (2021). Based on this algorithm, we show the exact quantum query complexity of a broad class of symmetric functions that map $\{0,1\}^n$ to a finite set $X$ is less than $n$. ii) When $l-k \ge 2$, we give an optimal exact quantum query algorithm to compute $\text{EXACT}_{k,l}^n$ for the case $k=0$ or $k=1,l=n-1$. This resolves the conjecture proposed by Ambainis, Iraids and Nagaj (2017) partially.
翻訳日:2023-03-24 10:50:44 公開日:2023-03-23
# 弱教師付きテキストインスタンスセグメンテーション

Weakly-Supervised Text Instance Segmentation ( http://arxiv.org/abs/2303.10848v2 )

ライセンス: Link先を確認
Xinyan Zu, Haiyang Yu, Bin Li, Xiangyang Xue(参考訳) テキストセグメンテーションは多くの下流アプリケーションで難しい視覚タスクである。 現在のテキストセグメンテーションにはピクセルレベルのアノテーションが必要で、人的労力のコストが高く、アプリケーションシナリオに制限がある。 本稿では,テキスト認識とテキストセグメンテーションを橋渡しすることで,弱教師付きテキストインスタンスセグメンテーションを行う最初の試みを行う。 この知見は、テキスト認識手法が各テキストインスタンスの正確な注意位置を提供し、注意位置がテキスト適応精錬ヘッド(TAR)とテキストセグメンテーションヘッドの両方にフィードできるということである。 具体的には、提案するtarは、注意位置において2段階の反復的改良操作を行い、対応するテキストインスタンスの正確な境界に適合させて擬似ラベルを生成する。 一方、テキストセグメンテーションヘッドは、上記擬似ラベルによって管理されるセグメンテーションマスクを予測するために、粗い注意位置を取る。 また,入力テキスト画像の拡張版としてセグメンテーション結果を扱い,視覚表現を改善し,認識とセグメンテーションの両方の性能をさらに向上させることにより,マスク提示型コントラスト学習をデザインする。 実験の結果,提案手法はicdar13-fst(18.95$\%$ improvement)およびtextseg(17.80$\%$ improvement)ベンチマークにおいて,弱教師付きインスタンスセグメンテーション法を大幅に上回ることがわかった。

Text segmentation is a challenging vision task with many downstream applications. Current text segmentation methods require pixel-level annotations, which are expensive in the cost of human labor and limited in application scenarios. In this paper, we take the first attempt to perform weakly-supervised text instance segmentation by bridging text recognition and text segmentation. The insight is that text recognition methods provide precise attention position of each text instance, and the attention location can feed to both a text adaptive refinement head (TAR) and a text segmentation head. Specifically, the proposed TAR generates pseudo labels by performing two-stage iterative refinement operations on the attention location to fit the accurate boundaries of the corresponding text instance. Meanwhile, the text segmentation head takes the rough attention location to predict segmentation masks which are supervised by the aforementioned pseudo labels. In addition, we design a mask-augmented contrastive learning by treating our segmentation result as an augmented version of the input text image, thus improving the visual representation and further enhancing the performance of both recognition and segmentation. The experimental results demonstrate that the proposed method significantly outperforms weakly-supervised instance segmentation methods on ICDAR13-FST (18.95$\%$ improvement) and TextSeg (17.80$\%$ improvement) benchmarks.
翻訳日:2023-03-24 10:49:53 公開日:2023-03-23
# Defocus Clue による完全自己監督深度推定

Fully Self-Supervised Depth Estimation from Defocus Clue ( http://arxiv.org/abs/2303.10752v3 )

ライセンス: Link先を確認
Haozhe Si, Bin Zhao, Dong Wang, Yunpeng Gao, Mulin Chen, Zhigang Wang, Xuelong Li(参考訳) 画像におけるデフォーカスパターンとデフォーカスパターンの関係をモデル化したdepth-from-defocus (DFD)は、深さ推定において有望な性能を示した。 近年,複数の自己監督作業が精度の高い地中精度の確保の困難さを克服しようと試みている。 しかし、実際のシナリオではキャプチャできないオールインフォーカス(AIF)イメージに依存している。 このような制限はDFD法の適用を妨げる。 この問題に対処するため,我々は疎focalスタックから深さを推定する完全自己教師付きフレームワークを提案する。 我々は,この枠組みが深度とAIF画像の基盤構造の必要性を回避し,優れた予測を得られることを示し,DFDの理論的成功と実世界におけるその応用とのギャップを埋めることを示す。 特に,提案する (i)DFDタスクのより現実的な設定で、深度やAIF画像の接地構造は利用できない。 (II)困難条件下での深度とAIF画像の信頼性の高い予測を提供する新しい自己超越フレームワーク。 提案フレームワークは、ニューラルネットワークを用いて深度とAIF画像の予測を行い、光学モデルを用いて予測の検証と精査を行う。 我々は、レンダリングされたfocalスタックと実際のfocalスタックを備えた3つのベンチマークデータセットで、フレームワークを検証する。 定性的および定量的評価は,本手法が自己教師型DFDタスクの強力なベースラインを提供することを示している。

Depth-from-defocus (DFD), modeling the relationship between depth and defocus pattern in images, has demonstrated promising performance in depth estimation. Recently, several self-supervised works try to overcome the difficulties in acquiring accurate depth ground-truth. However, they depend on the all-in-focus (AIF) images, which cannot be captured in real-world scenarios. Such limitation discourages the applications of DFD methods. To tackle this issue, we propose a completely self-supervised framework that estimates depth purely from a sparse focal stack. We show that our framework circumvents the needs for the depth and AIF image ground-truth, and receives superior predictions, thus closing the gap between the theoretical success of DFD works and their applications in the real world. In particular, we propose (i) a more realistic setting for DFD tasks, where no depth or AIF image ground-truth is available; (ii) a novel self-supervision framework that provides reliable predictions of depth and AIF image under the challenging setting. The proposed framework uses a neural model to predict the depth and AIF image, and utilizes an optical model to validate and refine the prediction. We verify our framework on three benchmark datasets with rendered focal stacks and real focal stacks. Qualitative and quantitative evaluations show that our method provides a strong baseline for self-supervised DFD tasks.
翻訳日:2023-03-24 10:49:29 公開日:2023-03-23
# DiffMIC:医療画像分類のためのデュアルガイド拡散ネットワーク

DiffMIC: Dual-Guidance Diffusion Network for Medical Image Classification ( http://arxiv.org/abs/2303.10610v2 )

ライセンス: Link先を確認
Yijun Yang, Huazhu Fu, Angelica I. Aviles-Rivero, Carola-Bibiane Sch\"onlieb, Lei Zhu(参考訳) 拡散確率モデルは最近、生成的画像モデリングにおいて顕著な性能を示し、コンピュータビジョンコミュニティで大きな注目を集めている。 しかしながら、多くの拡散に基づく研究が生成タスクに焦点をあてているが、一般的な医用画像分類に拡散モデルを適用した研究はほとんどない。 本稿では,医用画像における予期せぬノイズや摂動を除去し,ロバストに意味表現を捉えることで,一般医用画像分類に対応する最初の拡散ベースモデル(diffmic)を提案する。 この目的を達成するために,各拡散ステップを複数の粒度で条件付けし,段階的な局所的注意力を向上させる2条件誘導戦略を考案する。 さらに,拡散前進過程における最大平均離散度正規化を強制することにより,各粒度の相互情報を学習することを提案する。 超音波画像における胎盤成熟度評価,皮膚病変分類,眼底画像を用いた糖尿病網膜症評価の3つの医用分類課題におけるdiffmicの有用性について検討した。 実験の結果,DiffMICは最先端手法よりも高い性能を示し,提案モデルの普遍性と有効性を示した。 私たちのコードはhttps://github.com/scott-yjyang/DiffMIC.comで公開されます。

Diffusion Probabilistic Models have recently shown remarkable performance in generative image modeling, attracting significant attention in the computer vision community. However, while a substantial amount of diffusion-based research has focused on generative tasks, few studies have applied diffusion models to general medical image classification. In this paper, we propose the first diffusion-based model (named DiffMIC) to address general medical image classification by eliminating unexpected noise and perturbations in medical images and robustly capturing semantic representation. To achieve this goal, we devise a dual conditional guidance strategy that conditions each diffusion step with multiple granularities to improve step-wise regional attention. Furthermore, we propose learning the mutual information in each granularity by enforcing Maximum-Mean Discrepancy regularization during the diffusion forward process. We evaluate the effectiveness of our DiffMIC on three medical classification tasks with different image modalities, including placental maturity grading on ultrasound images, skin lesion classification using dermatoscopic images, and diabetic retinopathy grading using fundus images. Our experimental results demonstrate that DiffMIC outperforms state-of-the-art methods by a significant margin, indicating the universality and effectiveness of the proposed model. Our code will be publicly available at https://github.com/scott-yjyang/DiffMIC.
翻訳日:2023-03-24 10:49:05 公開日:2023-03-23
# 第5回愛着行動分析コンペティションにおける大規模事前学習モデルを用いたマルチモーダル顔行動単位検出

Multi-modal Facial Action Unit Detection with Large Pre-trained Models for the 5th Competition on Affective Behavior Analysis in-the-wild ( http://arxiv.org/abs/2303.10590v2 )

ライセンス: Link先を確認
Yufeng Yin, Minh Tran, Di Chang, Xinrui Wang, Mohammad Soleymani(参考訳) 顔面行動単位検出は表情分析において重要な課題として現れており、口唇の締め付けや頬の上げなど、特定の定義済みの客観的な表情を検出することを目的としている。 本稿では,ABAW (Affective Behavior Analysis in-wild) 2023 Competition for AU Detectionについて述べる。 本研究では,大規模事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔行動単位検出のためのマルチモーダル手法を提案する。 視覚的特徴抽出のための高品質な詳細を提供するために,超解像度と顔アライメントをトレーニングデータに適用し,潜在的な性能向上を示す。 第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。

Facial action unit detection has emerged as an important task within facial expression analysis, aimed at detecting specific pre-defined, objective facial expressions, such as lip tightening and cheek raising. This paper presents our submission to the Affective Behavior Analysis in-the-wild (ABAW) 2023 Competition for AU detection. We propose a multi-modal method for facial action unit detection with visual, acoustic, and lexical features extracted from the large pre-trained models. To provide high-quality details for visual feature extraction, we apply super-resolution and face alignment to the training data and show potential performance gain. Our approach achieves the F1 score of 52.3% on the official validation set of the 5th ABAW Challenge.
翻訳日:2023-03-24 10:48:40 公開日:2023-03-23
# cvt-slr:可変アライメントを用いた手話認識のためのコントラスト的視覚テキスト変換

CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment ( http://arxiv.org/abs/2303.05725v3 )

ライセンス: Link先を確認
Jiangbin Zheng, Yile Wang, Cheng Tan, Siyuan Li, Ge Wang, Jun Xia, Yidong Chen, Stan Z. Li(参考訳) 手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。 近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。 ほとんどのslrは事前訓練されたビジュアルモジュールを採用し、2つのメインストリームソリューションを開発する。 マルチストリームアーキテクチャはマルチキューの視覚的特徴を拡張し、現在のSOTA性能を得るが、複雑な設計を必要とし、潜在的なノイズをもたらす可能性がある。 あるいは、視覚とテキスト間の明示的なクロスモーダルアライメントを用いた先進的なシングルキューslrフレームワークはシンプルで効果的であり、マルチキューフレームワークと競合する可能性がある。 本研究では,SLR(CVT-SLR)に対して,視覚的・言語的モダリティの事前知識を十分に探求するための,新しいコントラッシブ・テキスト変換を提案する。 単一キューのクロスモーダルアライメントフレームワークをベースとして,事前学習した文脈知識に対して,完全な事前学習言語モジュールを導入しながら可変オートエンコーダ(VAE)を提案する。 VAEは、従来のコンテキストモジュールとしての事前訓練されたコンテキスト知識の恩恵を受けながら、視覚的およびテキスト的モダリティを暗黙的に調整する。 一方、整合性制約を明確に拡張するために、対照的なクロスモーダルアライメントアルゴリズムが設計されている。 公開データセット(PHOENIX-2014およびPHOENIX-2014T)の大規模な実験により,提案したCVT-SLRは既存の単一キュー法より一貫して優れ,SOTAマルチキュー法よりも優れていた。

Sign language recognition (SLR) is a weakly supervised task that annotates sign videos as textual glosses. Recent studies show that insufficient training caused by the lack of large-scale available sign datasets becomes the main bottleneck for SLR. Most SLR works thereby adopt pretrained visual modules and develop two mainstream solutions. The multi-stream architectures extend multi-cue visual features, yielding the current SOTA performances but requiring complex designs and might introduce potential noise. Alternatively, the advanced single-cue SLR frameworks using explicit cross-modal alignment between visual and textual modalities are simple and effective, potentially competitive with the multi-cue framework. In this work, we propose a novel contrastive visual-textual transformation for SLR, CVT-SLR, to fully explore the pretrained knowledge of both the visual and language modalities. Based on the single-cue cross-modal alignment framework, we propose a variational autoencoder (VAE) for pretrained contextual knowledge while introducing the complete pretrained language module. The VAE implicitly aligns visual and textual modalities while benefiting from pretrained contextual knowledge as the traditional contextual module. Meanwhile, a contrastive cross-modal alignment algorithm is designed to explicitly enhance the consistency constraints. Extensive experiments on public datasets (PHOENIX-2014 and PHOENIX-2014T) demonstrate that our proposed CVT-SLR consistently outperforms existing single-cue methods and even outperforms SOTA multi-cue methods.
翻訳日:2023-03-24 10:48:27 公開日:2023-03-23
# 自己監督型視覚前訓練のための相関画像モデリング

Correlational Image Modeling for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2303.12670v2 )

ライセンス: Link先を確認
Wei Li, Jiahao Xie, Chen Change Loy(参考訳) 自己教師付き視覚前訓練に対する新規かつ驚くほど効果的なアプローチである相関画像モデリング(cim)を提案する。 入力画像(コンテキスト)から画像領域(exemplars)をランダムに抽出し、exemplarsとコンテキスト間の相関マップを予測します。 3つの重要な設計は、非自明で有意義な自己スーパーバイザリータスクとして相関画像モデリングを可能にする。 まず,実例と文脈のペアを生成するために,様々なスケール,形状,回転,変換による画像領域の切り抜きについて検討する。 次に、オンラインおよびターゲットエンコーダを含むブートストラップ学習フレームワークを使用します。 事前トレーニングの間、前者は例を入力として取り、後者はコンテキストを変換する。 第3に,コンテクストがクエリとして機能し,exemplarが値とキーを提供する単純なクロスアテンションブロックを用いて,出力相関マップをモデル化する。 我々は,cimが自己監視および転送ベンチマークにおける現在の技術と同等以上のパフォーマンスを示す。

We introduce Correlational Image Modeling (CIM), a novel and surprisingly effective approach to self-supervised visual pre-training. Our CIM performs a simple pretext task: we randomly crop image regions (exemplars) from an input image (context) and predict correlation maps between the exemplars and the context. Three key designs enable correlational image modeling as a nontrivial and meaningful self-supervisory task. First, to generate useful exemplar-context pairs, we consider cropping image regions with various scales, shapes, rotations, and transformations. Second, we employ a bootstrap learning framework that involves online and target encoders. During pre-training, the former takes exemplars as inputs while the latter converts the context. Third, we model the output correlation maps via a simple cross-attention block, within which the context serves as queries and the exemplars offer values and keys. We show that CIM performs on par or better than the current state of the art on self-supervised and transfer benchmarks.
翻訳日:2023-03-24 10:41:26 公開日:2023-03-23
# 心エコー図合成のための特徴条件付きカスケードビデオ拡散モデル

Feature-Conditioned Cascaded Video Diffusion Models for Precise Echocardiogram Synthesis ( http://arxiv.org/abs/2303.12644v2 )

ライセンス: Link先を確認
Hadrien Reynaud, Mengyun Qiao, Mischa Dombrowski, Thomas Day, Reza Razavi, Alberto Gomez, Paul Leeson, Bernhard Kainz(参考訳) 画像合成は、機械学習手法を臨床に翻訳する価値をもたらすことが期待されている。 モデルロバスト性、ドメイン転送、因果モデリング、オペレータトレーニングといった基本的な問題は、合成データを通じてアプローチ可能である。 特に、Ultrasound Imagingのような演算子依存のモダリティは、画像およびビデオ生成のための堅牢なフレームワークを必要とする。 これまでのところ、ビデオ生成は出力データと同等のリッチな入力データ、例えば画像シーケンスと条件付きイン、ビデオ出力を提供することでのみ可能だった。 しかし, 臨床資料は乏しく, 単一の画像のみを報告, 保存しているため, 患者固有の分析やリッチトレーニングデータの生成は現在のアプローチでは不可能である。 本稿では,ビデオモデリングのための推定拡散モデルを拡張し,単一の画像から可視な映像シーケンスを生成し,臨床パラメータを任意に設定する。 心エコー図の文脈において、左室射出率の変動について検討し、これらの検査から得られた最も本質的な臨床指標について検討する。 すべての実験で利用可能なEchoNet-Dynamicデータセットを使用します。 我々の画像からシーケンスへのアプローチは、最近提案されたシーケンスからシーケンス生成手法よりも38ポイント高い93%のR^2$スコアを得る。 コードとモデルはhttps://github.com/hreynaud/echodiffusionで入手できる。

Image synthesis is expected to provide value for the translation of machine learning methods into clinical practice. Fundamental problems like model robustness, domain transfer, causal modelling, and operator training become approachable through synthetic data. Especially, heavily operator-dependant modalities like Ultrasound imaging require robust frameworks for image and video generation. So far, video generation has only been possible by providing input data that is as rich as the output data, e.g., image sequence plus conditioning in, video out. However, clinical documentation is usually scarce and only single images are reported and stored, thus retrospective patient-specific analysis or the generation of rich training data becomes impossible with current approaches. In this paper, we extend elucidated diffusion models for video modelling to generate plausible video sequences from single images and arbitrary conditioning with clinical parameters. We explore this idea within the context of echocardiograms by looking into the variation of the Left Ventricle Ejection Fraction, the most essential clinical metric gained from these examinations. We use the publicly available EchoNet-Dynamic dataset for all our experiments. Our image to sequence approach achieves an $R^2$ score of 93%, which is 38 points higher than recently proposed sequence to sequence generation methods. Code and models will be available at: https://github.com/HReynaud/EchoDiffusion.
翻訳日:2023-03-24 10:41:13 公開日:2023-03-23
# 情報手段によるベイズリスクの低水準化

Lower Bound on the Bayesian Risk via Information Measures ( http://arxiv.org/abs/2303.12497v2 )

ライセンス: Link先を確認
Amedeo Roberto Esposito, Adrien Vandenbroucque, Michael Gastpar(参考訳) 本稿ではパラメータ推定に着目し,ベイズリスクを低く抑える新しい手法を提案する。 この方法は、r\'enyi の $\alpha$, $\varphi$-divergences や sibson の $\alpha$-mutual 情報を含む、事実上 \emph{any} 情報測度の使用を可能にする。 このアプローチは発散を測度の関数と見なし、測度の空間と関数の空間の間の双対性を利用する。 特に、マルコフの不等式を介して双対を上界にすることで、あらゆる情報測度でリスクを低くすることができることを示す。 したがって、ダイバージェンスが満足するデータ処理の不等式により、推定子非依存の不可能性結果を提供できる。 結果は、'Hide-and-Seek'問題を含む離散パラメータと連続パラメータの両方を含む関心の設定に適用され、最先端技術と比較される。 重要な観察は、サンプル数における下位境界の挙動が、情報尺度の選択によって影響を受けることである。 私たちはこれを、‘Hockey-Stick’のDiversergenceにインスパイアされた、すべての考慮された設定で最大の下位バウンドを提供するために、経験的に実証された新しい分散を導入することで活用します。 観察が民営化の対象となる場合、強いデータ処理の不等式によってより強い不可能性が得られる。 論文はまた、いくつかの一般化と代替方向についても論じている。

This paper focuses on parameter estimation and introduces a new method for lower bounding the Bayesian risk. The method allows for the use of virtually \emph{any} information measure, including R\'enyi's $\alpha$, $\varphi$-Divergences, and Sibson's $\alpha$-Mutual Information. The approach considers divergences as functionals of measures and exploits the duality between spaces of measures and spaces of functions. In particular, we show that one can lower bound the risk with any information measure by upper bounding its dual via Markov's inequality. We are thus able to provide estimator-independent impossibility results thanks to the Data-Processing Inequalities that divergences satisfy. The results are then applied to settings of interest involving both discrete and continuous parameters, including the ``Hide-and-Seek'' problem, and compared to the state-of-the-art techniques. An important observation is that the behaviour of the lower bound in the number of samples is influenced by the choice of the information measure. We leverage this by introducing a new divergence inspired by the ``Hockey-Stick'' Divergence, which is demonstrated empirically to provide the largest lower-bound across all considered settings. If the observations are subject to privatisation, stronger impossibility results can be obtained via Strong Data-Processing Inequalities. The paper also discusses some generalisations and alternative directions.
翻訳日:2023-03-24 10:40:49 公開日:2023-03-23
# 遅延アウェア階層型連合学習

Delay-Aware Hierarchical Federated Learning ( http://arxiv.org/abs/2303.12414v2 )

ライセンス: Link先を確認
Frank Po-Chen Lin, Seyyedali Hosseinalipour, Christopher Brinton, Nicol\`o Michelusi(参考訳) フェデレーション学習は、ワイヤレスエッジに分散したトレーニングモデルとして人気を集めている。 本稿では、エッジとクラウド間の通信遅延に対処することにより、分散機械学習(ML)モデルのトレーニング効率を向上させるために、遅延認識フェデレーション学習(DFL)を提案する。 DFLは、各グローバルアグリゲーションインターバル中にデバイスデータセットに複数の確率勾配降下イテレーションを導入し、ローカルサブネットワーク内のエッジサーバを介してモデルパラメータを間欠的に集約する。 クラウドサーバは、グローバル同期時にローカルグローバルコンビネータを介して計算されるグローバルデプロイモデルとローカルモデルを同期する。 DFLの収束挙動は、一般化されたデータ不均一性計量の下で理論的に研究される。 一連の条件が得られ、o(1/k) の部分線形収束率を達成する。 これらの知見に基づき, DFL の適応制御アルゴリズムを開発し, サブ線形収束率を目標として, エネルギー消費とエッジ-クラウド通信遅延を緩和するポリシーを実装した。 数値評価により、dflは、既存のflアルゴリズムよりも高速なグローバルモデル収束、リソース消費の低減、通信遅延に対する堅牢性において優れた性能を示す。 要約すると,提案手法は凸損失関数と非凸損失関数の両方を扱う際の効率と満足度の向上をもたらす。

Federated learning has gained popularity as a means of training models distributed across the wireless edge. The paper introduces delay-aware federated learning (DFL) to improve the efficiency of distributed machine learning (ML) model training by addressing communication delays between edge and cloud. DFL employs multiple stochastic gradient descent iterations on device datasets during each global aggregation interval and intermittently aggregates model parameters through edge servers in local subnetworks. The cloud server synchronizes the local models with the global deployed model computed via a local-global combiner at global synchronization. The convergence behavior of DFL is theoretically investigated under a generalized data heterogeneity metric. A set of conditions is obtained to achieve the sub-linear convergence rate of O(1/k). Based on these findings, an adaptive control algorithm is developed for DFL, implementing policies to mitigate energy consumption and edge-to-cloud communication latency while aiming for a sublinear convergence rate. Numerical evaluations show DFL's superior performance in terms of faster global model convergence, reduced resource consumption, and robustness against communication delays compared to existing FL algorithms. In summary, this proposed method offers improved efficiency and satisfactory results when dealing with both convex and non-convex loss functions.
翻訳日:2023-03-24 10:40:23 公開日:2023-03-23
# ランゲヴィン型モンテカルロアルゴリズムの非漸近解析

Non-asymptotic analysis of Langevin-type Monte Carlo algorithms ( http://arxiv.org/abs/2303.12407v2 )

ライセンス: Link先を確認
Shogo Nakakita(参考訳) 我々はgibbs分布に対するランジュバン型アルゴリズムの研究を行い、ポテンシャルが散逸し、その弱い勾配が連続性の有限モジュラーを持つことを示した。 我々の主な結果は、ギブス分布と一般ランゲヴィン型アルゴリズムの法則の間の2-ワッサーシュタイン距離の漸近的でない上界であり、リプサー-シリャエフ理論と機能的不等式に基づいている。 このバウンドを適用して、ポテンシャルの不一致性と$\alpha>1/3$の勾配の連続性が、パラメータを適切に制御したランジュバンモンテカルロアルゴリズムの収束に十分であることを示す。 また、凸性や連続微分性のないポテンシャルに対して球面平滑化を持つランゲヴィン型アルゴリズムを提案する。

We study the Langevin-type algorithms for Gibbs distributions such that the potentials are dissipative and their weak gradients have the finite moduli of continuity. Our main result is a non-asymptotic upper bound of the 2-Wasserstein distance between the Gibbs distribution and the law of general Langevin-type algorithms based on the Liptser--Shiryaev theory and functional inequalities. We apply this bound to show that the dissipativity of the potential and the $\alpha$-H\"{o}lder continuity of the gradient with $\alpha>1/3$ are sufficient for the convergence of the Langevin Monte Carlo algorithm with appropriate control of the parameters. We also propose Langevin-type algorithms with spherical smoothing for potentials without convexity or continuous differentiability.
翻訳日:2023-03-24 10:40:04 公開日:2023-03-23
# ニューロン認証によるエッジディープラーニングモデル保護

Edge Deep Learning Model Protection via Neuron Authorization ( http://arxiv.org/abs/2303.12397v2 )

ライセンス: Link先を確認
Jinyin Chen, Haibin Zheng, Tao Liu, Rongchang Li, Yao Cheng, Xuhong Zhang, Shouling Ji(参考訳) ディープラーニングプロセッサとアクセラレータの開発により、ディープラーニングモデルはモノのインターネットの一部としてエッジデバイスに広くデプロイされてきた。 エッジデバイスモデルは一般的に、注意深い保護に値する貴重な知的財産と見なされる。 残念ながら、これらのモデルは盗まれたり違法にコピーされたりするリスクが大きい。 暗号アルゴリズムを用いた既存のモデル保護は、エッジデバイスでの計算能力の制限のため、高い計算オーバーヘッドに苦しめられている。 本研究では,エッジプロと呼ばれるニューロンレベルでの,軽量で実用的で汎用的なエッジデバイスモデルProテクション法を提案する。 具体的には、複数のニューロンを認可ニューロンとして選択し、その活性化値をロック値に設定し、トレーニング中のニューロン出力を"asswords"としてスケールする。 EdgeProは、モデル全体ではなく、"passwords"の情報の暗号化と保存を犠牲にして、"passwords"が満たされた場合にのみ正常に動作するようにすることで、モデルを保護します。 広範な実験結果は、edgeproが異なるモードのデータセットを保護するタスクでうまく機能することを示している。 EdgeProの推測時間の増加は最先端の手法の60%に過ぎず、精度の低下は1%未満である。 さらに、edgeproは微調整やプルーニングなどの適応攻撃に対して堅牢であり、現実のアプリケーションではより実用的です。 EdgeProはまた、将来の研究を促進するためにオープンソース化されている。

With the development of deep learning processors and accelerators, deep learning models have been widely deployed on edge devices as part of the Internet of Things. Edge device models are generally considered as valuable intellectual properties that are worth for careful protection. Unfortunately, these models have a great risk of being stolen or illegally copied. The existing model protections using encryption algorithms are suffered from high computation overhead which is not practical due to the limited computing capacity on edge devices. In this work, we propose a light-weight, practical, and general Edge device model Pro tection method at neuron level, denoted as EdgePro. Specifically, we select several neurons as authorization neurons and set their activation values to locking values and scale the neuron outputs as the "asswords" during training. EdgePro protects the model by ensuring it can only work correctly when the "passwords" are met, at the cost of encrypting and storing the information of the "passwords" instead of the whole model. Extensive experimental results indicate that EdgePro can work well on the task of protecting on datasets with different modes. The inference time increase of EdgePro is only 60% of state-of-the-art methods, and the accuracy loss is less than 1%. Additionally, EdgePro is robust against adaptive attacks including fine-tuning and pruning, which makes it more practical in real-world applications. EdgePro is also open sourced to facilitate future research: https://github.com/Leon022/Edg
翻訳日:2023-03-24 10:39:47 公開日:2023-03-23
# マルチエージェント軌道予測のための階層型ハイブリッド学習フレームワーク

A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory Prediction ( http://arxiv.org/abs/2303.12274v2 )

ライセンス: Link先を確認
Yujun Jiao, Mingze Miao, Zhishuai Yin, Chunyuan Lei, Xu Zhu, Linzhen Nie and Bo Tao(参考訳) 近隣のエージェントの正確な軌道予測は、複雑な場面で走行する自動運転車にとって重要である。 近年提案されている手法の多くは,複雑な相互作用のエンコーディングの強みから,深層学習に基づくものである。 しかし、過去の観測に重きを置き、スパースサンプルからの過渡的および偶発的相互作用を効果的に捉えることができないため、賞賛できない予測がしばしば発生する。 本稿では,マルチエージェント軌道予測のための階層型ハイブリッド・フレームワークである深層学習(DL)と強化学習(RL)を提案し,マルチスケール相互作用によって形成される動きを予測することの課題に対処する。 DL段階では、トラフィックシーンは、中間レベルとグローバルレベルの異種相互作用をエンコードするためにTransformerスタイルのGNNを採用する複数の中間スケール異種グラフに分割される。 rlステージでは、dlステージで予測される重要な将来ポイントを利用して、トラフィックシーンをローカルなサブシーンに分割する。 運動計画手順をエミュレートし、軌道予測を生成するため、車載キネマティクスモデルに組み込んだトランスフォーマーベースのPPO(Pximal Policy Optimization)を設計し、微視的相互作用の圧倒的な影響下で動作を計画する。 多目的報酬はエージェント中心の精度とシーンワイド互換性のバランスをとるように設計されている。 実験の結果,本提案手法はargoverse forecasting benchmarkの最先端技術に適合することがわかった。 また、階層的な学習フレームワークがマルチスケールのインタラクションをキャプチャし、予測されたトラジェクトリの実現性とコンプライアンスを改善することも可視化された結果から明らかになった。

Accurate and robust trajectory prediction of neighboring agents is critical for autonomous vehicles traversing in complex scenes. Most methods proposed in recent years are deep learning-based due to their strength in encoding complex interactions. However, unplausible predictions are often generated since they rely heavily on past observations and cannot effectively capture the transient and contingency interactions from sparse samples. In this paper, we propose a hierarchical hybrid framework of deep learning (DL) and reinforcement learning (RL) for multi-agent trajectory prediction, to cope with the challenge of predicting motions shaped by multi-scale interactions. In the DL stage, the traffic scene is divided into multiple intermediate-scale heterogenous graphs based on which Transformer-style GNNs are adopted to encode heterogenous interactions at intermediate and global levels. In the RL stage, we divide the traffic scene into local sub-scenes utilizing the key future points predicted in the DL stage. To emulate the motion planning procedure so as to produce trajectory predictions, a Transformer-based Proximal Policy Optimization (PPO) incorporated with a vehicle kinematics model is devised to plan motions under the dominant influence of microscopic interactions. A multi-objective reward is designed to balance between agent-centric accuracy and scene-wise compatibility. Experimental results show that our proposal matches the state-of-the-arts on the Argoverse forecasting benchmark. It's also revealed by the visualized results that the hierarchical learning framework captures the multi-scale interactions and improves the feasibility and compliance of the predicted trajectories.
翻訳日:2023-03-24 10:39:23 公開日:2023-03-23
# 局所拡散を用いた合成3次元シーン生成

Compositional 3D Scene Generation using Locally Conditioned Diffusion ( http://arxiv.org/abs/2303.12218v2 )

ライセンス: Link先を確認
Ryan Po, Gordon Wetzstein(参考訳) 複雑な3dシーンを設計するのは、ドメインの専門知識を必要とする面倒な作業でした。 新たなtext-to-3d生成モデルでは、このタスクをより直感的にすることが期待できるが、既存のアプローチはオブジェクトレベル生成に限定されている。 合成シーン拡散へのアプローチとして,テキストプロンプトとバウンディングボックスを用いて意味部分を制御し,これらの部分間のシームレスな遷移を保証する。 スコア蒸留サンプリングに基づくテキストから3次元合成パイプラインを実演し,適切なベースラインよりも高い忠実度で構成的3次元シーン生成を実現する。

Designing complex 3D scenes has been a tedious, manual process requiring domain expertise. Emerging text-to-3D generative models show great promise for making this task more intuitive, but existing approaches are limited to object-level generation. We introduce \textbf{locally conditioned diffusion} as an approach to compositional scene diffusion, providing control over semantic parts using text prompts and bounding boxes while ensuring seamless transitions between these parts. We demonstrate a score distillation sampling--based text-to-3D synthesis pipeline that enables compositional 3D scene generation at a higher fidelity than relevant baselines.
翻訳日:2023-03-24 10:38:58 公開日:2023-03-23
# ゼロショット検出のための高効率特徴蒸留

Efficient Feature Distillation for Zero-shot Detection ( http://arxiv.org/abs/2303.12145v2 )

ライセンス: Link先を確認
Zhuoming Liu, Xuefeng Hu, Ram Nevatia(参考訳) 大規模な視覚言語モデル(例えばCLIP)は、見えないオブジェクトを検出するために様々な方法によって活用される。 しかし、これらの作品の多くは訓練のために追加のキャプションや画像を必要とするが、ゼロショット検出の文脈では実現不可能である。 対照的に、蒸留ベースの方法は余分なデータのない方法であるが、その限界がある。 具体的には, 新たなカテゴリ情報の蒸留を制限し, 蒸留効率を損なう, 基本カテゴリに偏った蒸留領域を創出する。 さらに、蒸留のためにCLIPの生のフィーチャを直接使用すると、CLIPのトレーニングデータと検出データセットのドメインギャップが無視されるため、画像領域から視覚言語の特徴空間へのマッピングを学習することが困難になる。 その結果、既存の蒸留法は過度に長い訓練スケジュールを必要とする。 これらの問題を解決するため,ゼロショット検出(EZSD)のための効率的な特徴蒸留法を提案する。 第一に、EZSDはCLIPの機能空間をターゲット検出領域に適応させ、ドメインギャップを埋めるためにCLIPを再正規化する。 最後に、EZSDは、回帰のための意味論的意味を利用して、モデル性能をさらに改善する。 結果として、EZSDはCOCOゼロショットベンチマークにおいて、より短いトレーニングスケジュールで最先端のパフォーマンスを達成し、1/10のトレーニング時間でLVIS全体の4%向上した。

The large-scale vision-language models (e.g., CLIP) are leveraged by different methods to detect unseen objects. However, most of these works require additional captions or images for training, which is not feasible in the context of zero-shot detection. In contrast, the distillation-based method is an extra-data-free method, but it has its limitations. Specifically, existing work creates distillation regions that are biased to the base categories, which limits the distillation of novel category information and harms the distillation efficiency. Furthermore, directly using the raw feature from CLIP for distillation neglects the domain gap between the training data of CLIP and the detection datasets, which makes it difficult to learn the mapping from the image region to the vision-language feature space - an essential component for detecting unseen objects. As a result, existing distillation-based methods require an excessively long training schedule. To solve these problems, we propose Efficient feature distillation for Zero-Shot Detection (EZSD). Firstly, EZSD adapts the CLIP's feature space to the target detection domain by re-normalizing CLIP to bridge the domain gap; Secondly, EZSD uses CLIP to generate distillation proposals with potential novel instances, to avoid the distillation being overly biased to the base categories. Finally, EZSD takes advantage of semantic meaning for regression to further improve the model performance. As a result, EZSD achieves state-of-the-art performance in the COCO zero-shot benchmark with a much shorter training schedule and outperforms previous work by 4% in LVIS overall setting with 1/10 training time.
翻訳日:2023-03-24 10:38:47 公開日:2023-03-23