このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230427となっている論文です。

PDF登録状況(公開日: 20230427)

TitleAuthorsAbstract論文公表日・翻訳日
# ドメイン非依存型自己教師付き学習による全波形インバージョンの簡易化

Simplifying Full Waveform Inversion via Domain-Independent Self-Supervised Learning ( http://arxiv.org/abs/2305.13314v1 )

ライセンス: Link先を確認
Yinan Feng, Yinpeng Chen, Peng Jin, Shihang Feng, Zicheng Liu, Youzuo Lin(参考訳) 地球物理学は、地震データから地下の速度マップを予測するフルウェーブフォーム・インバージョン(FWI)という問題にディープラーニングを適用することに成功した。 画像から画像への変換問題として扱われ、地震データのエンコーダと地震速度対からの速度マップのデコーダを共同で訓練する。 本稿では,自己教師付き学習を通じて,エンコーダとデコーダをそれぞれのドメインで個別に訓練する場合,潜在空間の領域間で線形関係が観察されるという驚くべき現象を報告する。 さらに、この現象は複数のFWIデータセットをエレガントな方法で接続する:これらのデータセットは、異なる線形マッピングで自己学習エンコーダとデコーダを共有することができる。 これらの知見に基づき、我々は2つのステップを含む新しいパラダイムであるSimFWIを開発した。 a) 複数のデータセット上のマスキング画像モデリングにより,地震エンコーダと速度デコーダを別々に学習すること。 b) データセット毎の線形マッピングを学習する。 実験結果から,SimFWIはペア地震データと速度マップの監視から,共同で訓練したモデルに匹敵する結果が得られた。

Geophysics has witnessed success in applying deep learning to one of its core problems: full waveform inversion (FWI) to predict subsurface velocity maps from seismic data. It is treated as an image-to-image translation problem, jointly training an encoder for seismic data and a decoder for the velocity map from seismic-velocity pairs. In this paper, we report a surprising phenomenon: when training an encoder and decoder separately in their own domains via self-supervised learning, a linear relationship is observed across domains in the latent spaces. Moreover, this phenomenon connects multiple FWI datasets in an elegant manner: these datasets can share the self-learned encoder and decoder with different linear mappings. Based on these findings, we develop SimFWI, a new paradigm that includes two steps: (a) learning a seismic encoder and a velocity decoder separately by masked image modeling over multiple datasets; (b) learning a linear mapping per dataset. Experimental results show that SimFWI can achieve comparable results to a jointly trained model from the supervision of paired seismic data and velocity maps.
翻訳日:2023-05-28 05:10:27 公開日:2023-04-27
# BactInt: バイオメディカルテキストから細菌間相互作用を抽出するドメイン駆動型転写学習アプローチとコーパス

BactInt: A domain driven transfer learning approach and a corpus for extracting inter-bacterial interactions from biomedical text ( http://arxiv.org/abs/2305.07468v1 )

ライセンス: Link先を確認
Krishanu Das Baksi, Vatsala Pokhrel, Kuntal Kumar Bhusan, Sharmila Mande(参考訳) 生物学的ニッチに存在する様々な種類の微生物群集は、システムの機能に非常に重要な役割を果たす。 異なる微生物間のクロストークや相互作用は、このような微生物群集構造の構築に寄与する。 バイオメディカルテキストで報告された証拠は、そのような相互作用を予測する信頼できる情報源となる。 しかし、膨大な量の生物医学的文献を通すことは、威圧的かつ時間のかかるプロセスである。 これは、生物医学文献で報告された細菌関係を正確に抽出できる自動化方法の開発を必要とする。 本稿では,生物医学文献から微生物の相互作用(特に細菌間)を自動的に抽出する手法と,トランスファー・ラーニングを用いてその精度を向上させる方法を提案する。 また,特定の細菌群間の関係を抽出できるパイプラインについても述べる。 さらに,細菌間相互作用抽出法の開発に使用できる最初の公開データセットについても紹介する。

The community of different types of microbes present in a biological niche plays a very important role in functioning of the system. The crosstalk or interactions among the different microbes contributes to the building blocks of such microbial community structures. Evidence reported in biomedical text serves as a reliable source for predicting such interactions. However, going through the vast and ever-increasing volume of biomedical literature is an intimidating and time consuming process. This necessitates development of automated methods capable of accurately extracting bacterial relations reported in biomedical literature. In this paper, we introduce a method for automated extraction of microbial interactions (specifically between bacteria) from biomedical literature along with ways of using transfer learning to improve its accuracy. We also describe a pipeline using which relations among specific bacteria groups can be mined. Additionally, we introduce the first publicly available dataset which can be used to develop bacterial interaction extraction methods.
翻訳日:2023-05-21 11:13:45 公開日:2023-04-27
# 異種プライバシー下での平均推定:一部のプライバシーは無料

Mean Estimation Under Heterogeneous Privacy: Some Privacy Can Be Free ( http://arxiv.org/abs/2305.09668v1 )

ライセンス: Link先を確認
Syomantak Chaudhuri and Thomas A. Courtade(参考訳) differential privacy (dp)は、任意のアルゴリズムによって引き起こされるプライバシー損失を定量化する、確立されたフレームワークである。 従来のDPの定式化では、すべてのユーザに対して均一なプライバシ要件が課されており、ユーザが個別にプライバシを優先する現実のシナリオと矛盾することが多い。 本研究は,各ユーザが独自のプライバシレベルを付与できる異種DP制約下での平均推定問題を考察する。 提案するアルゴリズムは,プライバシレベルが異なる2つのユーザグループが存在する場合に,ミニマックス最適であることが示されている。 その結果,あるグループのプライバシレベルが緩和され,一方のグループのプライバシレベルが一定のままとなる,興味深い飽和現象が生じた。 すなわち、ある時点の後に、前者のグループのプライバシー要件をさらに緩和しても、ミニマックス最適平均推定器の性能は向上しない。 したがって、中央サーバはパフォーマンスを犠牲にすることなくある程度のプライバシーを提供できる。

Differential Privacy (DP) is a well-established framework to quantify privacy loss incurred by any algorithm. Traditional DP formulations impose a uniform privacy requirement for all users, which is often inconsistent with real-world scenarios in which users dictate their privacy preferences individually. This work considers the problem of mean estimation under heterogeneous DP constraints, where each user can impose their own distinct privacy level. The algorithm we propose is shown to be minimax optimal when there are two groups of users with distinct privacy levels. Our results elicit an interesting saturation phenomenon that occurs as one group's privacy level is relaxed, while the other group's privacy level remains constant. Namely, after a certain point, further relaxing the privacy requirement of the former group does not improve the performance of the minimax optimal mean estimator. Thus, the central server can offer a certain degree of privacy without any sacrifice in performance.
翻訳日:2023-05-21 10:54:30 公開日:2023-04-27
# 転写可能な分子表現のための分子モルフォロジーコントラスト前処理

Molecule-Morphology Contrastive Pretraining for Transferable Molecular Representation ( http://arxiv.org/abs/2305.09790v1 )

ライセンス: Link先を確認
Cuong Q. Nguyen, Dante Pertusi, Kim M. Branson(参考訳) 画像ベースのプロファイリング技術は、ターゲット識別、メカニズム・オブ・アクション推論、アッセイ開発における応用において、過去10年間で人気が高まっている。 これらの技術は細胞形態の大規模なデータセットを生成し、通常は小さな分子のパーターバゲンの影響を調べるために用いられる。 本研究では,分子グラフと細胞形態のマルチモーダル表現を学習するフレームワークであるMoCoP(Moecule-Morphology Contrastive Pretraining)を導入することで,このようなデータセットの影響を定量的構造活性関係(QSAR)モデルの改善に拡張する。 我々は、JUMP-CP Consortiumのデータを用いて、約100K分子と600K形態素プロファイルにMoCoPをスケールし、すべてのデータセットサイズでChEMBL20の分子特性予測タスクにおけるグラフニューラルネットワーク(GNN)の性能を一貫して改善することを示した。 トレーニング済みのGNNは、内部のGSK薬物動態データに基づいて評価され、フルデータおよびローデータレシエーションに対するAUPRCの平均改善率は2.6%と6.3%である。 以上の結果から,MoCoPを用いた細胞形態と分子グラフの統合はQSARモデルの性能を大幅に向上させ,最終的にQSARアプリケーションで利用可能なディープラーニングツールボックスを拡張できることが示唆された。

Image-based profiling techniques have become increasingly popular over the past decade for their applications in target identification, mechanism-of-action inference, and assay development. These techniques have generated large datasets of cellular morphologies, which are typically used to investigate the effects of small molecule perturbagens. In this work, we extend the impact of such dataset to improving quantitative structure-activity relationship (QSAR) models by introducing Molecule-Morphology Contrastive Pretraining (MoCoP), a framework for learning multi-modal representation of molecular graphs and cellular morphologies. We scale MoCoP to approximately 100K molecules and 600K morphological profiles using data from the JUMP-CP Consortium and show that MoCoP consistently improves performances of graph neural networks (GNNs) on molecular property prediction tasks in ChEMBL20 across all dataset sizes. The pretrained GNNs are also evaluated on internal GSK pharmacokinetic data and show an average improvement of 2.6% and 6.3% in AUPRC for full and low data regimes, respectively. Our findings suggest that integrating cellular morphologies with molecular graphs using MoCoP can significantly improve the performance of QSAR models, ultimately expanding the deep learning toolbox available for QSAR applications.
翻訳日:2023-05-21 10:43:52 公開日:2023-04-27
# ブロックチェーンと機械学習を用いた医療データ資産管理と疾病予測へのアプローチ

Medical Data Asset Management and an Approach for Disease Prediction using Blockchain and Machine Learning ( http://arxiv.org/abs/2305.11063v1 )

ライセンス: Link先を確認
Shruthi K, Poornima A.S(参考訳) 現在の医療サービスでは、電子的臨床記録(EHR/EMR)フレームワークとして、臨床健康記録が用いられる。 これらのフレームワークは、患者の臨床履歴をコンピュータ化された設計に格納する。 にもかかわらず、患者の臨床情報は生産的かつ理想的な方法で入手され、これらの記録を通して厄介なことが示される。 無力性は、ボードの健全性によるデータ取得、データ使用の削減、管理不能な保護コントロール、不運な情報リソースのセキュリティを常に妨げます。 本稿では,Blockchainに関わる経営陣の枠組みとして,効果的かつ安全な臨床情報資源を提案する。 ブロックチェーンのイノベーションは、患者のブロックを保持することによって、すべてのレコードのオープン化を促進する。 本稿では,医師や患者が保護された方法で記録を得るためのオフチェーンアレンジメント技術を提案する。 Blockchainは、臨床記録を恒久的に作成し、情報を誠実にするためにそれらをスクランブルする。 クライアントは、自分の健康記録に気付くことができるが、患者だけが秘密鍵を所有し、希望者にそれを付与することができる。 smart contractsも同様に、情報所有者が許可方法で情報アクセスを扱うのに役立つ。 最終的な結果は、高セキュリティ情報を手作業で取得、識別、保証するためのWebおよびポータブル接続ポイントとして見なされる。 この冒険では、臨床検討データに関連する問題とAIとブロックチェーンを使用したチーフに関するあらゆる結果について取り引きを行う。 AIを使用することで、データから命令情報のみを削除することが可能になる。 これは列挙された推定によって行われる。 このデータが処理される時点では、関連する問題は情報共有とその一貫性である。

In the present medical services, the board, clinical well-being records are as electronic clinical record (EHR/EMR) frameworks. These frameworks store patients' clinical histories in a computerized design. Notwithstanding, a patient's clinical information is gained in a productive and ideal way and is demonstrated to be troublesome through these records. Powerlessness constantly prevents the well-being of the board from getting data, less use of data obtained, unmanageable protection controls, and unfortunate information resource security. In this paper, we present an effective and safe clinical information resource, the executives' framework involving Blockchain, to determine these issues. Blockchain innovation facilitates the openness of all such records by keeping a block for each patient. This paper proposes an engineering utilizing an off-chain arrangement that will empower specialists and patients to get records in a protected manner. Blockchain makes clinical records permanent and scrambles them for information honesty. Clients can notice their well-being records, yet just patients own the confidential key and can impart it to those they want. Smart contracts likewise help our information proprietors to deal with their information access in a permission way. The eventual outcome will be seen as a web and portable connection point to get to, identify, and guarantee high-security information handily. In this adventure, we will give deals with any consequences regarding the issues associated with clinical consideration data and the chiefs using AI and Blockchain. Removing only the imperative information from the data is possible with the use of AI. This is done using arranged estimations. At the point when this data is taken care of, the accompanying issue is information sharing and its constancy.
翻訳日:2023-05-21 10:25:59 公開日:2023-04-27
# 文法進化によるヒトの血糖のモデル化

Modeling glycemia in humans by means of Grammatical Evolution ( http://arxiv.org/abs/2305.04827v1 )

ライセンス: Link先を確認
J. Ignacio Hidalgo, J. Manuel Colmenar, Jos\'e L. Risco-Mart\'in, Alfredo Cuesta-Infante, Esther Maqueda, Marta Botella and Jos\'e Antonio Rubio(参考訳) 糖尿病は世界中の数億人に影響を及ぼす病気である。 疾患の良好なコントロールを維持することは、深刻な長期合併症を避けるために重要である。 近年,いくつかの人工膵システムが提案され,開発が進められている。 しかし、まだ多くの研究が続けられている。 糖尿病の(半)自動コントロールで生じる主な問題は、血糖値(血中グルコース濃度)がインスリン、食物摂取やその他の要因とどのように異なるかを説明するモデルを得ることで、個人または患者の特性に適合する。 本稿では,これまでの平均モデル取得手法と異なり,患者をカスタマイズしたモデルを得るための進化的計算手法の応用を提案する。 この提案は文法進化(GE)として知られる文法に基づく遺伝的プログラミングの一種に基づいている。 この提案は、in-silico患者データでテストされており、結果は明らかに陽性である。 また、4つの異なる文法と5つの目的関数についても検討する。 試験段階では、ブドウ糖の平均平均誤差は13.69 %であり、高血糖状態と低血糖状態の両方をモデル化した。

Diabetes mellitus is a disease that affects to hundreds of millions of people worldwide. Maintaining a good control of the disease is critical to avoid severe long-term complications. In recent years, several artificial pancreas systems have been proposed and developed, which are increasingly advanced. However there is still a lot of research to do. One of the main problems that arises in the (semi) automatic control of diabetes, is to get a model explaining how glycemia (glucose levels in blood) varies with insulin, food intakes and other factors, fitting the characteristics of each individual or patient. This paper proposes the application of evolutionary computation techniques to obtain customized models of patients, unlike most of previous approaches which obtain averaged models. The proposal is based on a kind of genetic programming based on grammars known as Grammatical Evolution (GE). The proposal has been tested with in-silico patient data and results are clearly positive. We present also a study of four different grammars and five objective functions. In the test phase the models characterized the glucose with a mean percentage average error of 13.69\%, modeling well also both hyper and hypoglycemic situations.
翻訳日:2023-05-14 21:08:23 公開日:2023-04-27
# 線形法則変換を用いた暗号通貨の価格変動予測

Predicting the Price Movement of Cryptocurrencies Using Linear Law-based Transformation ( http://arxiv.org/abs/2305.04884v1 )

ライセンス: Link先を確認
Marcell T. Kurbucz, P\'eter P\'osfay, Antal Jakov\'ac(参考訳) 本研究の目的は,線形法則に基づく特徴空間変換(LLT)と呼ばれる新しい手法が暗号通貨の日内価格変動予測精度に与える影響を検討することである。 これを実現するために、2019年1月1日から2022年10月22日までの1分間のbitcoin、ethereum、binance coin、rippleの価格データをbinance bitcoin exchangeから収集した。 そして14時間非オーバーラップタイムウィンドウを適用して価格データをサンプリングした。 分類は最初の12時間に基づいており、次の2時間後に終値が上がったか下落したかに基づいて2つのクラスが決定された。 これらの価格はまずLLTで変換され、10倍のクロスバリデーションを持つ従来の機械学習アルゴリズムで分類された。 その結果,LLTは全ての暗号通貨の精度を大幅に向上させ,価格変動を予測するLLTアルゴリズムの可能性を強調した。

The aim of this paper is to investigate the effect of a novel method called linear law-based feature space transformation (LLT) on the accuracy of intraday price movement prediction of cryptocurrencies. To do this, the 1-minute interval price data of Bitcoin, Ethereum, Binance Coin, and Ripple between 1 January 2019 and 22 October 2022 were collected from the Binance cryptocurrency exchange. Then, 14-hour nonoverlapping time windows were applied to sample the price data. The classification was based on the first 12 hours, and the two classes were determined based on whether the closing price rose or fell after the next 2 hours. These price data were first transformed with the LLT, then they were classified by traditional machine learning algorithms with 10-fold cross-validation. Based on the results, LLT greatly increased the accuracy for all cryptocurrencies, which emphasizes the potential of the LLT algorithm in predicting price movements.
翻訳日:2023-05-14 20:55:14 公開日:2023-04-27
# オンラインレビューの充実度評価における文化の影響の理解

Understanding the Impact of Culture in Assessing Helpfulness of Online Reviews ( http://arxiv.org/abs/2305.04836v1 )

ライセンス: Link先を確認
Khaled Alanezi, Nuha Albadi, Omar Hammad, Maram Kurdi and Shivakant Mishra(参考訳) オンラインレビューは、ユーザーは夏休みの計画から食料品の購入、金融投資まで、日々のタスクでインフォームドな意思決定を行うために不可欠になっている。 オンラインレビューを使う際の大きな問題は、ユーザーを圧倒するオンラインの過剰さだ。 その結果,レビュー支援のためのレコメンデーションシステムの開発が進められている。 本論では,文化的な背景は,ユーザが書いたレビューの性質に影響を与える重要な特徴であり,オンラインレビューの有用性を評価する上で重要な特徴であると考えられる。 この論文は、異なる文化的背景を持つユーザーによって書かれたオンラインレビューの相違に関する詳細な研究と、機能として文化を組み込むことが、より優れたレビューに役立つ推奨事項につながるかどうかについて説明している。 特に,2つの異なる文化圏,すなわちアラビア語と西洋文化に由来するオンラインレビューを,ホテルと本という2つの異なる製品について分析した。 分析の結果,ユーザによるレビューの性質は文化的背景によって異なり,レビュー対象の特定の製品によって異なることが明らかとなった。 最後に,6つの異なるレビュー支援レコメンデーションモデルを開発し,文化を考慮に入れることがよりよいレコメンデーションにつながることを実証した。

Online reviews have become essential for users to make informed decisions in everyday tasks ranging from planning summer vacations to purchasing groceries and making financial investments. A key problem in using online reviews is the overabundance of online that overwhelms the users. As a result, recommendation systems for providing helpfulness of reviews are being developed. This paper argues that cultural background is an important feature that impacts the nature of a review written by the user, and must be considered as a feature in assessing the helpfulness of online reviews. The paper provides an in-depth study of differences in online reviews written by users from different cultural backgrounds and how incorporating culture as a feature can lead to better review helpfulness recommendations. In particular, we analyze online reviews originating from two distinct cultural spheres, namely Arabic and Western cultures, for two different products, hotels and books. Our analysis demonstrates that the nature of reviews written by users differs based on their cultural backgrounds and that this difference varies based on the specific product being reviewed. Finally, we have developed six different review helpfulness recommendation models that demonstrate that taking culture into account leads to better recommendations.
翻訳日:2023-05-14 20:54:58 公開日:2023-04-27
# SoGAR:自己監督型時空間注意に基づく社会集団活動認識

SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition ( http://arxiv.org/abs/2305.06310v1 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu(参考訳) 本稿では,未ラベル映像データを効果的に活用できる自己教師型トランスフォーマーネットワークを用いた社会集団活動認識(SoGAR)への新たなアプローチを提案する。 時空間情報を抽出するために,フレームレートの異なる局所的およびグローバルなビューを作成する。 我々の自己監督的目的は、同じビデオのコントラストビューから抽出された特徴が時空間領域間で一致していることを保証する。 提案手法は,グループアクティビティ認識の弱い教師付き設定を緩和するためにトランスコーダを用いるのに有効である。 トランスモデルの利点を活用することで,時空間次元に沿って長期的関係をモデル化することができる。 提案手法は,JRDB-PAR,NBA,Volleyballの3つのグループ活動認識ベンチマーク,すなわち,F1スコア,MCA,MPCAの3つのグループ活動認識ベンチマークにおいて,最先端の成果を達成している。

This paper introduces a novel approach to Social Group Activity Recognition (SoGAR) using Self-supervised Transformers network that can effectively utilize unlabeled video data. To extract spatio-temporal information, we create local and global views with varying frame rates. Our self-supervised objective ensures that features extracted from contrasting views of the same video are consistent across spatio-temporal domains. Our proposed approach is efficient in using transformer-based encoders for alleviating the weakly supervised setting of group activity recognition. By leveraging the benefits of transformer models, our approach can model long-term relationships along spatio-temporal dimensions. Our proposed SoGAR method achieves state-of-the-art results on three group activity recognition benchmarks, namely JRDB-PAR, NBA, and Volleyball datasets, surpassing the current state-of-the-art in terms of F1-score, MCA, and MPCA metrics.
翻訳日:2023-05-14 20:46:56 公開日:2023-04-27
# 気候変動下における統計的ダウンスケールモデルの不確実性定量化のための深層アンサンブル

Deep Ensembles to Improve Uncertainty Quantification of Statistical Downscaling Models under Climate Change Conditions ( http://arxiv.org/abs/2305.00975v1 )

ライセンス: Link先を確認
Jose Gonz\'alez-Abad, Jorge Ba\~no-Medina(参考訳) 近年,大まかな低分解能変数から高分解能の気候場を生成する手法である統計的ダウンスケールの有望なツールとしてディープラーニングが登場している。 それにもかかわらず、気候変動条件への一般化能力は、主に定常性の仮定のために疑問視されている。 統計的ダウンスケールモデルの不確実性定量化を改善するための簡易な手法として,深層アンサンブルを提案する。 不確実性をよりよく把握することで、統計的ダウンスケーリングモデルにより、様々な社会的・経済的影響の源泉である極端な気象イベントに対する優れた計画を立てることができる。 将来観測データは存在しないため,気候変動予測の不確かさを定量化するための深層アンサンブルの適合性を評価するために疑似現実実験を行う。 ディープアンサンブルはより優れたリスク評価を可能にし、気候変動に取り組むためのセクターアプリケーションによって要求される。

Recently, deep learning has emerged as a promising tool for statistical downscaling, the set of methods for generating high-resolution climate fields from coarse low-resolution variables. Nevertheless, their ability to generalize to climate change conditions remains questionable, mainly due to the stationarity assumption. We propose deep ensembles as a simple method to improve the uncertainty quantification of statistical downscaling models. By better capturing uncertainty, statistical downscaling models allow for superior planning against extreme weather events, a source of various negative social and economic impacts. Since no observational future data exists, we rely on a pseudo reality experiment to assess the suitability of deep ensembles for quantifying the uncertainty of climate change projections. Deep ensembles allow for a better risk assessment, highly demanded by sectoral applications to tackle climate change.
翻訳日:2023-05-07 16:02:36 公開日:2023-04-27
# 気候下降防止のための深部生成モデルの利用について

On the use of Deep Generative Models for Perfect Prognosis Climate Downscaling ( http://arxiv.org/abs/2305.00974v1 )

ライセンス: Link先を確認
Jose Gonz\'alez-Abad, Jorge Ba\~no-Medina, Ignacio Heredia Cach\'a(参考訳) Deep Learningは最近、大規模な粗大な大気データから高分解能フィールドを計算するための完璧な予後ダウンスケーリング技術として登場した。 観測された局所変動を再現する有望な結果にもかかわらず、各地点における独立分布の推定に基づいており、特に降水のダウンスケール時に空間構造が不足する。 本研究では,高分解能フィールドの空間的整合性を改善するために生成モデルを用いることを提案する。

Deep Learning has recently emerged as a perfect prognosis downscaling technique to compute high-resolution fields from large-scale coarse atmospheric data. Despite their promising results to reproduce the observed local variability, they are based on the estimation of independent distributions at each location, which leads to deficient spatial structures, especially when downscaling precipitation. This study proposes the use of generative models to improve the spatial consistency of the high-resolution fields, very demanded by some sectoral applications (e.g., hydrology) to tackle climate change.
翻訳日:2023-05-07 16:02:23 公開日:2023-04-27
# R'io Hortega University Glioblastoma data: a comprehensive collection of preoperative, earlyoperative and repeatence MRI scans (RHUH-GBM)

The R\'io Hortega University Hospital Glioblastoma dataset: a comprehensive collection of preoperative, early postoperative and recurrence MRI scans (RHUH-GBM) ( http://arxiv.org/abs/2305.00005v1 )

ライセンス: Link先を確認
Santiago Cepeda, Sergio Garcia-Garcia, Ignacio Arrese, Francisco Herrero, Trinidad Escudero, Tomas Zamora, Rosario Sarabia(参考訳) 強力な原発性脳腫瘍であるグリオ芽腫は患者の予後不良と関連している。 MRIはグリオ芽腫の進行の診断,特徴化,予測に重要な役割を担っているが,MRIは術後経過観察や経過観察に乏しく,専門的な腫瘍セグメンテーションも欠如している。 これらの問題に対処するために,本論文では,腫瘍全摘,あるいはほぼ全切除を施行したグリオブラスト腫患者に対して,マルチパラメトリックmri画像,体積評価,分子データ,生存詳細を収集した"r\'io hortega university hospital glioblastoma dataset"(rhuh-gbm)を提案する。 このデータセットは、専門家が修正した腫瘍サブリージョンのセグメンテーションを特徴とし、術後および術後のMRIスキャンのためのアルゴリズムを開発するための貴重な真実データを提供する。 RHUH-GBMデータセットの公開は、グリオーマの研究に大きく貢献し、科学コミュニティは再発パターンを研究し、新しい診断および予後モデルを開発することができる。 これにより、よりパーソナライズされ、効果的に治療され、最終的には患者の結果が改善される。

Glioblastoma, a highly aggressive primary brain tumor, is associated with poor patient outcomes. Although magnetic resonance imaging (MRI) plays a critical role in diagnosing, characterizing, and forecasting glioblastoma progression, public MRI repositories present significant drawbacks, including insufficient postoperative and follow-up studies as well as expert tumor segmentations. To address these issues, we present the "R\'io Hortega University Hospital Glioblastoma Dataset (RHUH-GBM)," a collection of multiparametric MRI images, volumetric assessments, molecular data, and survival details for glioblastoma patients who underwent total or near-total enhancing tumor resection. The dataset features expert-corrected segmentations of tumor subregions, offering valuable ground truth data for developing algorithms for postoperative and follow-up MRI scans. The public release of the RHUH-GBM dataset significantly contributes to glioblastoma research, enabling the scientific community to study recurrence patterns and develop new diagnostic and prognostic models. This may result in more personalized, effective treatments and ultimately improved patient outcomes.
翻訳日:2023-05-02 17:36:19 公開日:2023-04-27
# SPSAに基づくグラディエントを用いた量子機械学習における最適化の実証的比較

An Empirical Comparison of Optimizers for Quantum Machine Learning with SPSA-based Gradients ( http://arxiv.org/abs/2305.00224v1 )

ライセンス: Link先を確認
Marco Wiedmann and Marc H\"olle and Maniraman Periyasamy and Nico Meyer and Christian Ufrecht and Daniel D. Scherer and Axel Plinge and Christopher Mutschler(参考訳) VQAはここ数年、量子コンピューティングコミュニティから多くの注目を集めてきた。 比較的浅い量子回路を持つそれらのハイブリッド量子古典的性質は、NISQデバイスの能力を実証するための有望なプラットフォームとなる。 古典的な機械学習コミュニティは勾配に基づくパラメータ最適化に重点を置いているが、パラメータシフトルールによるVQCの近似勾配の発見は、大きなサンプリングオーバーヘッドをもたらす。 したがって、勾配フリー最適化は量子機械学習のサークルで人気を集めている。 最も有望な候補はSPSAアルゴリズムであり、計算コストの低さと固有のノイズ耐性のためである。 本稿では,SPSAからの近似勾配と,最先端の勾配に基づく古典最適化を併用した新しい手法を提案する。 単純な回帰タスクにおいて、収束率と絶対誤差の点で標準SPSAとパラメータシフト則の両方に優れることを示す。 ショットノイズやハードウェアノイズを考慮した場合,確率勾配が良好であるspsaに対する新しいアプローチの改善は,さらに増幅される。 また,誤差軽減が結果に悪影響を及ぼさないことを示す。

VQA have attracted a lot of attention from the quantum computing community for the last few years. Their hybrid quantum-classical nature with relatively shallow quantum circuits makes them a promising platform for demonstrating the capabilities of NISQ devices. Although the classical machine learning community focuses on gradient-based parameter optimization, finding near-exact gradients for VQC with the parameter-shift rule introduces a large sampling overhead. Therefore, gradient-free optimizers have gained popularity in quantum machine learning circles. Among the most promising candidates is the SPSA algorithm, due to its low computational cost and inherent noise resilience. We introduce a novel approach that uses the approximated gradient from SPSA in combination with state-of-the-art gradient-based classical optimizers. We demonstrate numerically that this outperforms both standard SPSA and the parameter-shift rule in terms of convergence rate and absolute error in simple regression tasks. The improvement of our novel approach over SPSA with stochastic gradient decent is even amplified when shot- and hardware-noise are taken into account. We also demonstrate that error mitigation does not significantly affect our results.
翻訳日:2023-05-02 16:20:28 公開日:2023-04-27
# ハイパープレーンによる整数計画と分割データセットに基づく分子設計

Molecular Design Based on Integer Programming and Splitting Data Sets by Hyperplanes ( http://arxiv.org/abs/2305.00801v1 )

ライセンス: Link先を確認
Jianshen Zhu, Naveed Ahmed Azam, Kazuya Haraguchi, Liang Zhao, Hiroshi Nagamochi and Tatsuya Akutsu(参考訳) 近年, 化合物の分子構造を望ましい化学的性質で設計するための新しい枠組みが提案されている。 このフレームワークは、化学グラフ上の2層モデルで定義された特徴関数の計算過程と、機械学習法で構築された予測関数をシミュレートする混合整数線形プログラム(MILP)を解くことにより、所望の化学グラフを推論する。 フレームワークにおける予測関数の学習性能を改善するため、与えられたデータセットの$\mathcal{C}$を化学空間内の超平面によって$\mathcal{C}^{(i)},i=1,2$に分割する手法を設計し、第1(resp., Second)サブセットのほとんどの化合物が閾値$\theta$よりも低い値(resp., higher)を観測できるようにした。 予測関数 $\psi_i,i=1,2$ を組み合わせて、データセット $\mathcal{C}$ に予測関数 $\psi$ を構築し、それぞれが $\mathcal{C}^{(i)}$ 上に独立に構築される。 計算実験の結果,提案手法は,優れた予測関数の構築が困難であったいくつかの化学特性の学習性能を向上させることが示唆された。

A novel framework for designing the molecular structure of chemical compounds with a desired chemical property has recently been proposed. The framework infers a desired chemical graph by solving a mixed integer linear program (MILP) that simulates the computation process of a feature function defined by a two-layered model on chemical graphs and a prediction function constructed by a machine learning method. To improve the learning performance of prediction functions in the framework, we design a method that splits a given data set $\mathcal{C}$ into two subsets $\mathcal{C}^{(i)},i=1,2$ by a hyperplane in a chemical space so that most compounds in the first (resp., second) subset have observed values lower (resp., higher) than a threshold $\theta$. We construct a prediction function $\psi$ to the data set $\mathcal{C}$ by combining prediction functions $\psi_i,i=1,2$ each of which is constructed on $\mathcal{C}^{(i)}$ independently. The results of our computational experiments suggest that the proposed method improved the learning performance for several chemical properties to which a good prediction function has been difficult to construct.
翻訳日:2023-05-02 13:24:06 公開日:2023-04-27
# 傾斜異方性ディラック材料の厳密な解析解 簡単なアルゴリズム?

Exact analytical solutions for tilted anisotropic Dirac materials. An easy algorithm? ( http://arxiv.org/abs/2305.00913v1 )

ライセンス: Link先を確認
Julio A. Mojica-Zarate, Daniel O-Campa and Erik D\'iaz-Bautista(参考訳) 本稿では,異方性異方性異方性ディラック材料の遷移対称性を有する外部電界と磁場の作用による境界状態の厳密解を得る。 これらの材料の有効ハミルトニアンから生じる固有値方程式を解くために、スピノル成分に対して得られる微分方程式を分離できるアルゴリズムについて述べる。

In this article, we obtain the exact solutions for bound states of tilted anisotropic Dirac materials under the action of external electric and magnetic fields with translational symmetry. In order to solve the eigenvalue equation that arises from the effective Hamiltonian of these materials, we describe an algorithm that allow us to decouple the differential equations that are obtained for the spinor components.
翻訳日:2023-05-02 12:56:17 公開日:2023-04-27
# バッチ量子強化学習

Batch Quantum Reinforcement Learning ( http://arxiv.org/abs/2305.00905v1 )

ライセンス: Link先を確認
Maniraman Periyasamy and Marc H\"olle and Marco Wiedmann and Daniel D. Scherer and Axel Plinge and Christopher Mutschler(参考訳) DRLエージェントの訓練は、多くのサンプルと環境相互作用を必要とするため、しばしば時間を要する。 この効果はバッチrlの場合でも増幅され、エージェントは事前に収集したデータのセットのみに基づいて環境相互作用なしでトレーニングされる。 量子コンピューティングに基づく新しいアプローチは、サンプル効率の点で古典的なアプローチと比較して利点を示唆している。 そこで本研究では,VQCを関数近似器として活用したバッチRLアルゴリズムを提案する。 さらに,データ符号化層における入力変数の順序の周期的シフトに基づく新しいデータ再ロード方式を提案する。 我々は,OpenAI CartPole環境におけるアルゴリズムの有効性を示し,その性能を従来のニューラルネットワークベースの離散BCQと比較する。

Training DRL agents is often a time-consuming process as a large number of samples and environment interactions is required. This effect is even amplified in the case of Batch RL, where the agent is trained without environment interactions solely based on a set of previously collected data. Novel approaches based on quantum computing suggest an advantage compared to classical approaches in terms of sample efficiency. To investigate this advantage, we propose a batch RL algorithm leveraging VQC as function approximators in the discrete BCQ algorithm. Additionally, we present a novel data re-uploading scheme based on cyclically shifting the input variables' order in the data encoding layers. We show the efficiency of our algorithm on the OpenAI CartPole environment and compare its performance to classical neural network-based discrete BCQ.
翻訳日:2023-05-02 12:55:48 公開日:2023-04-27
# 大規模ニューラルネットワークの学習が凸最適化に類似する理由

Why Learning of Large-Scale Neural Networks Behaves Like Convex Optimization ( http://arxiv.org/abs/1903.02140v2 )

ライセンス: Link先を確認
Hui Jiang(参考訳) 本稿では,大規模ニューラルネットワーク(NN)学習における非凸最適化問題の解法として,単純な勾配降下法が成功した理由を説明するための理論的研究について述べる。 標準空間(canonical space)と呼ばれる数学的ツールを導入し、NN学習の目的関数が標準モデル空間の凸であることを示した。 さらに、元の NN モデル空間と標準空間の間の勾配が、いわゆる不等式行列で表される点方向の線形変換によって関連していることを解明する。 さらに,不均一行列が完全ランクを維持している場合,勾配降下法が全球最小零損失に確実に収束することが証明された。 このフルランク条件が成立すると、NNの学習は通常の凸最適化と同じように振る舞う。 最終的に、特異な不等式行列を持つ機会は、大きなnnでは極めて小さいことが判明した。 特に、過パラメータ化NNがランダムに初期化されると、グラデーションリーなアルゴリズムは確率におけるゼロ損失の最小値に収束する。

In this paper, we present some theoretical work to explain why simple gradient descent methods are so successful in solving non-convex optimization problems in learning large-scale neural networks (NN). After introducing a mathematical tool called canonical space, we have proved that the objective functions in learning NNs are convex in the canonical model space. We further elucidate that the gradients between the original NN model space and the canonical space are related by a pointwise linear transformation, which is represented by the so-called disparity matrix. Furthermore, we have proved that gradient descent methods surely converge to a global minimum of zero loss provided that the disparity matrices maintain full rank. If this full-rank condition holds, the learning of NNs behaves in the same way as normal convex optimization. At last, we have shown that the chance to have singular disparity matrices is extremely slim in large NNs. In particular, when over-parameterized NNs are randomly initialized, the gradient decent algorithms converge to a global minimum of zero loss in probability.
翻訳日:2023-05-01 18:20:50 公開日:2023-04-27
# 制約のある専門家によるソフト制約の学習

Learning Soft Constraints From Constrained Expert Demonstrations ( http://arxiv.org/abs/2206.01311v2 )

ライセンス: Link先を確認
Ashish Gaurav, Kasra Rezaee, Guiliang Liu, Pascal Poupart(参考訳) 逆強化学習(IRL)法は、専門家データが報酬関数を最適化するエージェントによって生成されると仮定する。 しかし、多くの設定では、エージェントはいくつかの制約を受ける報酬関数を最適化することができ、そこでは制約は、単に報酬関数で表現するのが難しい振る舞いを誘導する。 我々は,報酬関数が与えられ,制約が不明な設定を考えるとともに,これらの制約を専門家データから適切に回収できる手法を提案する。 これまでの研究は厳しい制約の回復に重点を置いていたが,本手法はエージェントが各エピソード平均で満足する累積ソフト制約を回復することができる。 IRL方式では,エージェントの動作が専門家の行動と一致するまで,制約関数を制約付き最適化手順によって反復的に調整することで,この問題を解決する。 我々は,合成環境,ロボット環境,実世界の高速道路走行シナリオに対する我々のアプローチを実証する。

Inverse reinforcement learning (IRL) methods assume that the expert data is generated by an agent optimizing some reward function. However, in many settings, the agent may optimize a reward function subject to some constraints, where the constraints induce behaviors that may be otherwise difficult to express with just a reward function. We consider the setting where the reward function is given, and the constraints are unknown, and propose a method that is able to recover these constraints satisfactorily from the expert data. While previous work has focused on recovering hard constraints, our method can recover cumulative soft constraints that the agent satisfies on average per episode. In IRL fashion, our method solves this problem by adjusting the constraint function iteratively through a constrained optimization procedure, until the agent behavior matches the expert behavior. We demonstrate our approach on synthetic environments, robotics environments and real world highway driving scenarios.
翻訳日:2023-05-01 17:59:50 公開日:2023-04-27
# 偏微分方程式作用素学習のための変圧器

Transformer for Partial Differential Equations' Operator Learning ( http://arxiv.org/abs/2205.13671v3 )

ライセンス: Link先を確認
Zijie Li, Kazem Meidani, Amir Barati Farimani(参考訳) 偏微分方程式の解作用素のデータ駆動学習は、基礎となる解を近似するための有望なパラダイムとして最近登場した。 解演算子は通常、問題固有の帰納バイアスに基づいて構築されたディープラーニングモデルによってパラメータ化される。 例えば、関数の値がサンプリングされるローカルグリッド構造を利用する畳み込みニューラルネットワークやグラフニューラルネットワークがある。 一方、アテンションメカニズムは、入力内のパターンを暗黙的に活用する柔軟な方法を提供し、さらに任意のクエリ場所と入力の関係性を提供する。 本稿では,演算子トランスフォーマ(oformer)と呼ばれる,データ駆動演算子学習のための注意に基づくフレームワークを提案する。 本フレームワークは,自己注意,クロスアテンション,一組の多層パーセプトロン(MLP)に基づいて構築されており,入力関数のサンプリングパターンやクエリロケーションについてはほとんど仮定しない。 提案手法は標準ベンチマーク問題と競合し,ランダムなサンプル入力に柔軟に適用可能であることを示す。

Data-driven learning of partial differential equations' solution operators has recently emerged as a promising paradigm for approximating the underlying solutions. The solution operators are usually parameterized by deep learning models that are built upon problem-specific inductive biases. An example is a convolutional or a graph neural network that exploits the local grid structure where functions' values are sampled. The attention mechanism, on the other hand, provides a flexible way to implicitly exploit the patterns within inputs, and furthermore, relationship between arbitrary query locations and inputs. In this work, we present an attention-based framework for data-driven operator learning, which we term Operator Transformer (OFormer). Our framework is built upon self-attention, cross-attention, and a set of point-wise multilayer perceptrons (MLPs), and thus it makes few assumptions on the sampling pattern of the input function or query locations. We show that the proposed framework is competitive on standard benchmark problems and can flexibly be adapted to randomly sampled input.
翻訳日:2023-05-01 17:59:19 公開日:2023-04-27
# 分散グリッドトポロジを学習する: チュートリアル

Learning Distribution Grid Topologies: A Tutorial ( http://arxiv.org/abs/2206.10837v2 )

ライセンス: Link先を確認
Deepjyoti Deka, Vassilis Kekatos, Guido Cavraro(参考訳) データからのフィーダトポロジーの公開は、電力配電網における状況認識とスマートリソースの適切な活用を進める上で最も重要なものである。 本チュートリアルでは,近年の送電網に提案されているトポロジー同定と検出スキームの関連を要約,対比,確立する。 主な焦点は、配電網における測定装置の可用性の限界を克服し、電力フロー物理の保存則と供給者の構造特性を用いたトポロジー推定を向上することである。 ファサー測定ユニットやスマートメーターからのグリッドデータは、グリッドリソースを作動させ、供給者の電圧応答を測定することによって、従来の方法で受動的に収集することができる。 異なるメータ配置シナリオ下で, 供給者の識別性と検出性に関する解析的主張をレビューする。 このようなトポロジ学習の主張は、最小二乗から凸最適化問題、グラフ上の多項式時間探索から混合整数プログラムまで、様々なレベルの計算複雑性を持つアルゴリズム的解によって、正確にあるいは概ね達成することができる。 放射状単相供給装置に重点を置いているが、メッシュ回路および/または多相回路への拡張が可能であり、議論されることがある。 このチュートリアルは、研究者やエンジニアに現在の最先端の分散グリッド学習と今後の仕事の方向性に関する洞察を提供することを目的としている。

Unveiling feeder topologies from data is of paramount importance to advance situational awareness and proper utilization of smart resources in power distribution grids. This tutorial summarizes, contrasts, and establishes useful links between recent works on topology identification and detection schemes that have been proposed for power distribution grids. The primary focus is to highlight methods that overcome the limited availability of measurement devices in distribution grids, while enhancing topology estimates using conservation laws of power-flow physics and structural properties of feeders. Grid data from phasor measurement units or smart meters can be collected either passively in the traditional way, or actively, upon actuating grid resources and measuring the feeder's voltage response. Analytical claims on feeder identifiability and detectability are reviewed under disparate meter placement scenarios. Such topology learning claims can be attained exactly or approximately so via algorithmic solutions with various levels of computational complexity, ranging from least-squares fits to convex optimization problems, and from polynomial-time searches over graphs to mixed-integer programs. Although the emphasis is on radial single-phase feeders, extensions to meshed and/or multiphase circuits are sometimes possible and discussed. This tutorial aspires to provide researchers and engineers with knowledge of the current state-of-the-art in tractable distribution grid learning and insights into future directions of work.
翻訳日:2023-05-01 17:47:50 公開日:2023-04-27
# 一様二重化条件下におけるDNNの訓練精度の安定性

Stability of Accuracy for the Training of DNNs Via the Uniform Doubling Condition ( http://arxiv.org/abs/2210.08415v2 )

ライセンス: Link先を確認
Yitzchak Shmalo(参考訳) 深層ニューラルネットワーク(DNN)の訓練における精度の安定性について検討した。 この文脈において、dnnのトレーニングは、クロスエントロピー損失関数の最小化によって行われ、パフォーマンスメトリックは精度(正しく分類されたオブジェクトの割合)である。 トレーニングの結果、損失は減少するが、プロセス中に精度は必ずしも上昇せず、時には減少することもある。 精度の安定性を達成する目標は、初期段階で精度が高い場合、トレーニング中も高いままであることを保証することである。 berlyand、jabin、safstenによる最近の結果は、絶対値アクティベーション関数を使用してdnnのトレーニング中の精度の安定性を保証するトレーニングデータに2倍の条件を導入する。 この二重化条件は、$\mathbb{r}^n$のトレーニングデータに対して$\mathbb{r}^n$のスラブを用いて定式化され、スラブの選択に依存する。 この論文の目標は二つある。 まず、二重条件を均一にするために、スラブの選択とは独立である。 これにより、トレーニングデータのみの安定性に十分な条件が得られます。 言い換えると、一様二重化条件を満たすトレーニングセット$t$に対して、このファミリーのdnnがトレーニングセットの精度が高く、あるトレーニングタイムのトレーニングセット$t_0$は、すべての時間$t>t_0$で高い精度を持つような一連のdnnが存在する。 さらに、二重化条件の数値化には均一性の確立が必要である。 第2の目標は、絶対値活性化関数から、リーキー ReLU のような有限個の臨界点を持つより広範な一方向線型活性化関数へと元の安定性結果を拡張することである。

We study the stability of accuracy during the training of deep neural networks (DNNs). In this context, the training of a DNN is performed via the minimization of a cross-entropy loss function, and the performance metric is accuracy (the proportion of objects that are classified correctly). While training results in a decrease of loss, the accuracy does not necessarily increase during the process and may sometimes even decrease. The goal of achieving stability of accuracy is to ensure that if accuracy is high at some initial time, it remains high throughout training. A recent result by Berlyand, Jabin, and Safsten introduces a doubling condition on the training data, which ensures the stability of accuracy during training for DNNs using the absolute value activation function. For training data in $\mathbb{R}^n$, this doubling condition is formulated using slabs in $\mathbb{R}^n$ and depends on the choice of the slabs. The goal of this paper is twofold. First, to make the doubling condition uniform, that is, independent of the choice of slabs. This leads to sufficient conditions for stability in terms of training data only. In other words, for a training set $T$ that satisfies the uniform doubling condition, there exists a family of DNNs such that a DNN from this family with high accuracy on the training set at some training time $t_0$ will have high accuracy for all time $t>t_0$. Moreover, establishing uniformity is necessary for the numerical implementation of the doubling condition. The second goal is to extend the original stability results from the absolute value activation function to a broader class of piecewise linear activation functions with finitely many critical points, such as the popular Leaky ReLU.
翻訳日:2023-05-01 17:41:35 公開日:2023-04-27
# スパースマニフォールド変換を用いた最小教師なし学習

Minimalistic Unsupervised Learning with the Sparse Manifold Transform ( http://arxiv.org/abs/2209.15261v2 )

ライセンス: Link先を確認
Yubei Chen, Zeyu Yun, Yi Ma, Bruno Olshausen, Yann LeCun(参考訳) 本稿では,SOTA SSL法に近い性能を実現するため,データ拡張やハイパーパラメータチューニング,その他のエンジニアリング設計を使わずに,教師なし学習のための最小限かつ解釈可能な手法について述べる。 提案手法はスパース符号化, 多様体学習, 遅い特徴解析を統一するスパース多様体変換を利用する。 一層決定論的スパース多様体変換では、MNISTでは99.3%、CIFAR-10では81.1%、CIFAR-100では53.2%の精度が得られる。 CIFAR-10では83.2%、CIFAR-100では57%である。 これらの結果は、単純化された"ホワイトボックス"法とSOTA法とのギャップを著しく埋める。 さらに,教師なし表現変換がどのように形成されるかを説明するために可視化を行う。 提案手法は, 潜伏型自己監督法と密接に結びついており, VICReg の最も単純な形式として扱うことができる。 単純な構成モデルとSOTAメソッドの間には小さなパフォーマンスギャップが残っているが、この証拠は、教師なし学習に対する原則的でホワイトボックスなアプローチを実現するための有望な方向であることを示している。

We describe a minimalistic and interpretable method for unsupervised learning, without resorting to data augmentation, hyperparameter tuning, or other engineering designs, that achieves performance close to the SOTA SSL methods. Our approach leverages the sparse manifold transform, which unifies sparse coding, manifold learning, and slow feature analysis. With a one-layer deterministic sparse manifold transform, one can achieve 99.3% KNN top-1 accuracy on MNIST, 81.1% KNN top-1 accuracy on CIFAR-10 and 53.2% on CIFAR-100. With a simple gray-scale augmentation, the model gets 83.2% KNN top-1 accuracy on CIFAR-10 and 57% on CIFAR-100. These results significantly close the gap between simplistic "white-box" methods and the SOTA methods. Additionally, we provide visualization to explain how an unsupervised representation transform is formed. The proposed method is closely connected to latent-embedding self-supervised methods and can be treated as the simplest form of VICReg. Though there remains a small performance gap between our simple constructive model and SOTA methods, the evidence points to this as a promising direction for achieving a principled and white-box approach to unsupervised learning.
翻訳日:2023-05-01 17:39:58 公開日:2023-04-27
# 通信における計測の不適合性と量子優位

Measurement incompatibility and quantum advantage in communication ( http://arxiv.org/abs/2209.14582v2 )

ライセンス: Link先を確認
Debashis Saha, Debarshi Das, Arun Kumar Das, Bihalan Bhattacharya, and A. S. Majumdar(参考訳) 不和合性の測定は、単一システムでは同時に実施できない量子測定の存在を規定している。 共有ランダム性を支援するd次元古典システムから得られる入力出力確率の集合は、任意の通信シナリオにおける共有ランダム性と互換性のある測定に制限されたd次元量子戦略の集合と同じであることを示す。 したがって、通信における量子アドバンテージには測定の非互換性が必要であり、通信における任意の量子アドバンテージ(共有ランダム性の有無に関わらず)は、セミデバイスに依存しない方法で受信機の終端における測定の非互換性の証人として機能する。 ランダムアクセス符号の一般バージョンである通信タスクのクラスを導入し、D次元システムに作用する任意の結果を持つ任意の数の量子計測の不整合性を目撃し、これらのタスクの成功基準に関する一般的な上限を、互換性のある測定のために提供する。 ランダムアクセスコードが目撃できる3つの非互換なランク1射影量子ビット測定の集合を全て特定する。 最後に,異なる確率分布の集合 – 古典的, 量子的, 共有的ランダム性を持つか否か, および, 共有的ランダム性を持つか否かの相補的な関係を示す。

Measurement incompatibility stipulates the existence of quantum measurements that cannot be carried out simultaneously on single systems. We show that the set of input-output probabilities obtained from d-dimensional classical systems assisted with shared randomness is the same as the set obtained from d-dimensional quantum strategies restricted to compatible measurements with shared randomness in any communication scenario. Thus, measurement incompatibility is necessary for quantum advantage in communication, and any quantum advantage (with or without shared randomness) in communication acts as a witness of incompatibility of the measurements at the receiver's end in a semi-device-independent way. We introduce a class of communication tasks - a general version of random access codes - to witness incompatibility of an arbitrary number of quantum measurements with arbitrary outcomes acting on d-dimensional systems, and provide generic upper bounds on the success metric of these tasks for compatible measurements. We identify all sets of three incompatible rank-one projective qubit measurements that random access codes can witness. Finally, we present the generic relationship between different sets of probability distributions - classical, quantum with or without shared randomness, and quantum restricted to compatible measurements with or without shared randomness - produced in communication scenarios.
翻訳日:2023-05-01 17:39:36 公開日:2023-04-27
# 全変分グラフニューラルネットワーク

Total Variation Graph Neural Networks ( http://arxiv.org/abs/2211.06218v2 )

ライセンス: Link先を確認
Jonas Berg Hansen and Filippo Maria Bianchi(参考訳) 最近提案された頂点クラスタリングのためのグラフニューラルネットワーク(GNN)は、スペクトルクラスタリング(SC)緩和によって近似された教師なし最小カット目標を用いて訓練されている。 しかし、sc緩和は緩やかであり、閉形式の解を提供する一方で、頂点を疎分離する過度に滑らかなクラスタ割り当てをもたらす。 本稿では,グラフ全体の変動(gtv)に基づいて,最小カットのより厳密な緩和を最適化し,クラスタ割り当てを計算するgnnモデルを提案する。 クラスタ割り当ては直接、頂点クラスタリングやグラフ分類フレームワークでのグラフプーリングの実装に使用することができる。 私たちのモデルは2つのコアコンポーネントで構成されています。 一 隣接する頂点の特徴において$\ell_1$距離を最小化するメッセージ通過層であって、クラスタ間の鋭い遷移を達成するための鍵であるもの 二 バランスの取れた分割を確保しつつ、クラスタ割り当てのGTVを最小限に抑える無監督の損失関数 実験の結果,本モデルは他のgnnよりも頂点クラスタリングやグラフ分類に優れていることがわかった。

Recently proposed Graph Neural Networks (GNNs) for vertex clustering are trained with an unsupervised minimum cut objective, approximated by a Spectral Clustering (SC) relaxation. However, the SC relaxation is loose and, while it offers a closed-form solution, it also yields overly smooth cluster assignments that poorly separate the vertices. In this paper, we propose a GNN model that computes cluster assignments by optimizing a tighter relaxation of the minimum cut based on graph total variation (GTV). The cluster assignments can be used directly to perform vertex clustering or to implement graph pooling in a graph classification framework. Our model consists of two core components: i) a message-passing layer that minimizes the $\ell_1$ distance in the features of adjacent vertices, which is key to achieving sharp transitions between clusters; ii) an unsupervised loss function that minimizes the GTV of the cluster assignments while ensuring balanced partitions. Experimental results show that our model outperforms other GNNs for vertex clustering and graph classification.
翻訳日:2023-05-01 17:29:26 公開日:2023-04-27
# 逐次変化点検出のためのニューラルネットワークの訓練

Training Neural Networks for Sequential Change-point Detection ( http://arxiv.org/abs/2210.17312v3 )

ライセンス: Link先を確認
Junghwan Lee, Tingnan Gong, Xiuyuan Cheng, Yao Xie(参考訳) 変化点検出(change-point detection)として知られるデータストリームの急激な分布シフトを検出することは、統計処理と信号処理の根本的な問題である。 本稿では,ニューラルネットワーク(NN)のトレーニングによるオンライン変化点検出のための新しい手法を提案する。 この考え方は、ロジスティック損失によるニューラルネットワークのトレーニングがログライクな機能につながる可能性があるという観察に基づいている。 NN-CUSUMは,合成データと実世界のデータの両方を用いて高次元データを検出する。

Detecting an abrupt distributional shift of the data stream, known as change-point detection, is a fundamental problem in statistics and signal processing. We present a new approach for online change-point detection by training neural networks (NN), and sequentially cumulating the detection statistics by evaluating the trained discriminating function on test samples by a CUSUM recursion. The idea is based on the observation that training neural networks through logistic loss may lead to the log-likelihood function. We demonstrated the good performance of NN-CUSUM in the detection of high-dimensional data using both synthetic and real-world data.
翻訳日:2023-05-01 17:28:28 公開日:2023-04-27
# Atrous Space Bender U-Net (ASBU-Net/LogiNet)

Atrous Space Bender U-Net (ASBU-Net/LogiNet) ( http://arxiv.org/abs/2212.08613v3 )

ライセンス: Link先を確認
Anurag Bansal, Oleg Ostap, Miguel Maestre Trueba, Kristopher Perry(参考訳) cnnの最近の進歩により、精度とレイテンシの観点から高解像度画像の意味セグメンテーションが大幅に改善されている。 しかし、混み合ったシーン、大規模な変動、部分閉塞、歪みの検出には依然として課題が残っており、移動性や遅延は維持されている。 高速かつ効率的な畳み込みニューラルネットワークであるASBU-Netを導入し、これらの問題に対処し、量子化や組込みハードウェアサポートに新しいレイヤを使わない高解像度画像のセマンティックセグメンテーションを行う。 ASBU-Netは、計算とメモリの点で効率的である、新しい特徴抽出モジュール、アラス空間ベンダー層(ASBL)に基づいている。 ASB層はASBNetを作るのに使用されるビルディングブロックを形成する。 このネットワークは特別な層を一切使用しないため、メモリに制限のあるfpgaや他のハードウェアに実装、量子化、デプロイが容易である。 資源と精度のトレードオフに関する実験を行い、他の一般的なモデルと比較して高い性能を示す。

$ $With recent advances in CNNs, exceptional improvements have been made in semantic segmentation of high resolution images in terms of accuracy and latency. However, challenges still remain in detecting objects in crowded scenes, large scale variations, partial occlusion, and distortions, while still maintaining mobility and latency. We introduce a fast and efficient convolutional neural network, ASBU-Net, for semantic segmentation of high resolution images that addresses these problems and uses no novelty layers for ease of quantization and embedded hardware support. ASBU-Net is based on a new feature extraction module, atrous space bender layer (ASBL), which is efficient in terms of computation and memory. The ASB layers form a building block that is used to make ASBNet. Since this network does not use any special layers it can be easily implemented, quantized and deployed on FPGAs and other hardware with limited memory. We present experiments on resource and accuracy trade-offs and show strong performance compared to other popular models.
翻訳日:2023-05-01 17:21:39 公開日:2023-04-27
# qudit stabilizer codesによるnaranin cft

Narain CFTs from qudit stabilizer codes ( http://arxiv.org/abs/2212.07089v2 )

ライセンス: Link先を確認
Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda(参考訳) 我々は、次元が素数であるqudit(qubitを含む)システムを持つ量子安定化符号からナライン cft の離散部分集合を構成する。 私たちの建設は3つの重要な関係を生かしている。 最初の関係は、クディット安定化符号と古典符号の間の関係である。 2つ目は古典符号とローレンツ格子の間である。 3つ目はローレンツ格子とナライン CFT の間である。 特に、qudit Calderbank-Shor-Steane(CSS)符号を、CSS符号から構築されたqudit stabilityr符号の特別なクラスとNalain符号CFTのアンサンブルとして研究する。 我々は、アンサンブル上の平均分割関数の正確な結果を求め、ホログラフィック双対性に対するそれらの意味について論じる。

We construct a discrete subset of Narain CFTs from quantum stabilizer codes with qudit (including qubit) systems whose dimension is a prime number. Our construction exploits three important relations. The first relation is between qudit stabilizer codes and classical codes. The second is between classical codes and Lorentzian lattices. The third is between Lorentzian lattices and Narain CFTs. In particular, we study qudit Calderbank-Shor-Steane (CSS) codes as a special class of qudit stabilizer codes and the ensembles of the Narain code CFTs constructed from CSS codes. We obtain exact results for the averaged partition functions over the ensembles and discuss their implications for holographic duality.
翻訳日:2023-05-01 17:20:52 公開日:2023-04-27
# 再生可能モデル蒸留の一般的アプローチ

A Generic Approach for Reproducible Model Distillation ( http://arxiv.org/abs/2211.12631v3 )

ライセンス: Link先を確認
Yunzhe Zhou, Peiru Xu, Giles Hooker(参考訳) モデル蒸留は解釈可能な機械学習を製造する一般的な方法である。 black box "teacher" モデルによる予測を模倣するために、解釈可能な "sudent" モデルを使用する。 しかし、教師の定着を保ったままでも、学生モデルが訓練に使用するデータセットの変動に敏感な場合、対応する解釈は信頼できない。 既存手法は,学生モデルを確実に再現するために,擬似データの大規模なコーパスが生成されるかどうかを確認することによって,モデルの蒸留を安定化させるが,これまでは特定の学生モデルのために方法が開発されてきた。 本稿では, 平均損失に対する中心極限定理に基づく安定モデル蒸留のための汎用的アプローチを開発する。 まず、候補者モデルの収集と、教師に合理的に同意する候補者の検索から始める。 次に、複数のテストフレームワークを構築し、異なる擬似サンプルに基づいて一貫した学生モデルを選択できるようにコーパスサイズを選択する。 提案手法を, 決定木, 落下ルールリスト, 記号回帰という, 一般的な3つのモデルに適用した。 最後に, マンモグラフィと乳癌のデータセットのシミュレーション実験を行い, マルコフ過程を用いた理論的解析を通して, 検査手順について解説する。 コードはhttps://github.com/yunzhe-zhou/genericdistillationで公開されている。

Model distillation has been a popular method for producing interpretable machine learning. It uses an interpretable "student" model to mimic the predictions made by the black box "teacher" model. However, when the student model is sensitive to the variability of the data sets used for training even when keeping the teacher fixed, the corresponded interpretation is not reliable. Existing strategies stabilize model distillation by checking whether a large enough corpus of pseudo-data is generated to reliably reproduce student models, but methods to do so have so far been developed for a specific student model. In this paper, we develop a generic approach for stable model distillation based on central limit theorem for the average loss. We start with a collection of candidate student models and search for candidates that reasonably agree with the teacher. Then we construct a multiple testing framework to select a corpus size such that the consistent student model would be selected under different pseudo samples. We demonstrate the application of our proposed approach on three commonly used intelligible models: decision trees, falling rule lists and symbolic regression. Finally, we conduct simulation experiments on Mammographic Mass and Breast Cancer datasets and illustrate the testing procedure throughout a theoretical analysis with Markov process. The code is publicly available at https://github.com/yunzhe-zhou/GenericDistillation.
翻訳日:2023-05-01 17:19:15 公開日:2023-04-27
# 弾性ネットに基づくスパース主成分分析の理論的保証

Theoretical Guarantees for Sparse Principal Component Analysis based on the Elastic Net ( http://arxiv.org/abs/2212.14194v2 )

ライセンス: Link先を確認
Teng Zhang, Haoyi Yang and Lingzhou Xue(参考訳) スパース主成分分析(SPCA)は高次元データ解析における次元減少と特徴抽出に広く用いられている。 過去20年間の多くの方法論的・理論的発展にもかかわらず、zou, hastie & tibshirani (2006) によって提唱された一般的なspcaアルゴリズムの理論的保証はまだ不明である。 本稿は,この重要なギャップに対処することを目的とする。 まず,Zau et al. (2006)のSPCAアルゴリズムを再検討し,実装について述べる。 また,SPCA の制限事例として,Zou et al. (2006) において,計算的により効率的な SPCA アルゴリズムの変種についても検討した。 両アルゴリズムが定常点に収束することを保証し、スパーススパイク共分散モデルの下では、両アルゴリズムが穏やかな規則性条件下で主部分空間を安定的に復元できることを証明する。 これらの推定誤差境界は, 既存の作業の最適範囲や, 対数係数までのミニマックス率と一致することを示す。 さらに,両アルゴリズムの競合計算性能を数値実験で示している。

Sparse principal component analysis (SPCA) is widely used for dimensionality reduction and feature extraction in high-dimensional data analysis. Despite many methodological and theoretical developments in the past two decades, the theoretical guarantees of the popular SPCA algorithm proposed by Zou, Hastie & Tibshirani (2006) are still unknown. This paper aims to address this critical gap. We first revisit the SPCA algorithm of Zou et al. (2006) and present our implementation. We also study a computationally more efficient variant of the SPCA algorithm in Zou et al. (2006) that can be considered as the limiting case of SPCA. We provide the guarantees of convergence to a stationary point for both algorithms and prove that, under a sparse spiked covariance model, both algorithms can recover the principal subspace consistently under mild regularity conditions. We show that their estimation error bounds match the best available bounds of existing works or the minimax rates up to some logarithmic factors. Moreover, we demonstrate the competitive numerical performance of both algorithms in numerical studies.
翻訳日:2023-05-01 17:09:48 公開日:2023-04-27
# 解釈可能なモデルの混合に対するブラックボックスの分割とクエリ:経路、解釈、繰り返し

Dividing and Conquering a BlackBox to a Mixture of Interpretable Models: Route, Interpret, Repeat ( http://arxiv.org/abs/2302.10289v2 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) mlモデル設計は解釈可能なモデルかブラックボックスから始まり、ポストホックであると説明する。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは本質的に説明可能である。 しかし、解釈可能なモデルは広範なml知識を必要とし、ブラックボックスの変種よりも柔軟性とパフォーマンスが低い傾向がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各解釈可能なモデルはサンプルのサブセットを専門とし、一階述語論理(fol)を用いて説明し、ブラックボックスの概念に関する基本的な推論を提供する。 残りのサンプルを柔軟な残留物にルーティングします。 すべての解釈可能なモデルが所望のデータの割合を説明するまで、残差ネットワーク上のメソッドを繰り返す。 以上の結果から,本手法では,提案手法は,性能を損なうことなく,MoIEによる高概念完全性を備えた多種多様なインスタンス固有概念の集合を同定し,残差を説明できる比較的‘harder’のサンプルを同定し,(3)テスト時間介入時にかなりの差で解釈可能な設計モデルを上回り,(4)オリジナルのBlackboxで学んだショートカットを修正した。 MoIEのコードは、https://github.com/batmanlab/ICML-2023-Route-interpret-repeatで公開されている。

ML model design either starts with an interpretable model or a Blackbox and explains it post hoc. Blackbox models are flexible but difficult to explain, while interpretable models are inherently explainable. Yet, interpretable models require extensive ML knowledge and tend to be less flexible and underperforming than their Blackbox variants. This paper aims to blur the distinction between a post hoc explanation of a Blackbox and constructing interpretable models. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each interpretable model specializes in a subset of samples and explains them using First Order Logic (FOL), providing basic reasoning on concepts from the Blackbox. We route the remaining samples through a flexible residual. We repeat the method on the residual network until all the interpretable models explain the desired proportion of data. Our extensive experiments show that our route, interpret, and repeat approach (1) identifies a diverse set of instance-specific concepts with high concept completeness via MoIE without compromising in performance, (2) identifies the relatively ``harder'' samples to explain via residuals, (3) outperforms the interpretable by-design models by significant margins during test-time interventions, and (4) fixes the shortcut learned by the original Blackbox. The code for MoIE is publicly available at: https://github.com/batmanlab/ICML-2023-Route-interpret-repeat.
翻訳日:2023-05-01 17:02:34 公開日:2023-04-27
# textit{ab initio} 計算によるダイヤモンド中の酸素空孔錯体の研究

Investigation of oxygen-vacancy complexes in diamond by means of \textit{ab initio} calculations ( http://arxiv.org/abs/2302.09593v3 )

ライセンス: Link先を確認
Nima Ghafari Cherati, Gerg\H{o} Thiering, and \'Ad\'am Gali(参考訳) ダイヤモンドの点欠陥は量子ビットとして作用する。 近年、酸素空孔関連欠陥がダイヤモンドのいわゆるST1色中心の起源となり、長寿命の固体量子メモリを実現することが提案されている。 この提案に動機づけられて,第一原理密度汎関数理論計算を用いて,ダイヤモンド中の酸素空孔錯体を体系的に検討した。 酸素空孔欠陥はいずれも中性電荷状態において高いスピン基底状態を有しており,ST1色中心の起源として無視されている。 高スピン準安定酸素空孔複合体を同定し、将来の実験でその磁気光学特性を同定する。

Point defects in diamond may act as quantum bits. Recently, oxygen-vacancy related defects have been proposed to the origin of the so-called ST1 color center in diamond that can realize a long-living solid-state quantum memory. Motivated by this proposal we systematically investigate oxygen-vacancy complexes in diamond by means of first principles density functional theory calculations. We find that all the considered oxygen-vacancy defects have a high-spin ground state in their neutral charge state, which disregards them as an origin for the ST1 color center. We identify a high-spin metastable oxygen-vacancy complex and characterize their magnetooptical properties for identification in future experiments.
翻訳日:2023-05-01 17:02:02 公開日:2023-04-27
# スパース接続と選択学習を用いたスケーラブルリアルタイム並行学習

Scalable Real-Time Recurrent Learning Using Sparse Connections and Selective Learning ( http://arxiv.org/abs/2302.05326v2 )

ライセンス: Link先を確認
Khurram Javed, Haseeb Shah, Rich Sutton, Martha White(参考訳) 感覚観察による状態構築は強化学習エージェントの重要な構成要素である。 状態構築のソリューションのひとつは、リカレントニューラルネットワークを使用することだ。 時間によるバックプロパゲーション(BPTT)とリアルタイムリカレント学習(RTRL)は、再カレント学習のための2つの一般的な勾配に基づく手法である。 BPTTは勾配を計算する前に完全な観測シーケンスを必要とし、オンラインリアルタイム更新には適さない。 rtrlはオンライン更新は可能だが、大規模ネットワークへのスケール性は低い。 本稿ではRTRLをスケーラブルにする2つの制約を提案する。 ネットワークを独立したモジュールに分解するか,あるいはネットワークを段階的に学習することで,rtrlをパラメータ数で線形にスケールできることを示す。 UOROやTrncated-BPTTのような従来のスケーラブルな勾配推定アルゴリズムとは異なり、我々のアルゴリズムは勾配推定にノイズやバイアスを加えない。 代わりに、スケーラブルな学習を実現するために、ネットワークの機能容量をトレードオフする。 動物学習にインスパイアされたベンチマークと,アーケード学習環境(ALE)における事前学習型レインボーDQNエージェントのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を実証した。

State construction from sensory observations is an important component of a reinforcement learning agent. One solution for state construction is to use recurrent neural networks. Back-propagation through time (BPTT), and real-time recurrent learning (RTRL) are two popular gradient-based methods for recurrent learning. BPTT requires the complete sequence of observations before computing gradients and is unsuitable for online real-time updates. RTRL can do online updates but scales poorly to large networks. In this paper, we propose two constraints that make RTRL scalable. We show that by either decomposing the network into independent modules, or learning the network incrementally, we can make RTRL scale linearly with the number of parameters. Unlike prior scalable gradient estimation algorithms, such as UORO and Truncated-BPTT, our algorithms do not add noise or bias to the gradient estimate. Instead, they trade-off the functional capacity of the network to achieve scalable learning. We demonstrate the effectiveness of our approach over Truncated-BPTT on a benchmark inspired by animal learning and by doing policy evaluation for pre-trained Rainbow-DQN agents in the Arcade Learning Environment (ALE).
翻訳日:2023-05-01 17:01:51 公開日:2023-04-27
# 線形最適部分輸送埋め込み

Linear Optimal Partial Transport Embedding ( http://arxiv.org/abs/2302.03232v3 )

ライセンス: Link先を確認
Yikun Bai, Ivan Medri, Rocio Diaz Martin, Rana Muhammad Shahroz Khan, Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、統計学、信号処理といった分野における様々な応用により、人気を集めている。 しかし、バランスの取れた質量要求は実際の問題における性能を制限している。 これらの制限に対処するため、不均衡なOT、最適部分輸送(OPT)、Hellinger Kantorovich(HK)を含むOT問題の変種が提案されている。 本稿では,OTおよびHK上の(局所的な)線形化手法をOPT問題に拡張したリニア最適部分輸送(LOPT)埋め込みを提案する。 提案手法は,2組の正測度間のOPT距離の計算を高速化する。 理論的な貢献に加えて,ポイントクラウド補間およびPCA解析におけるLOPT埋め込み手法の実証を行った。

Optimal transport (OT) has gained popularity due to its various applications in fields such as machine learning, statistics, and signal processing. However, the balanced mass requirement limits its performance in practical problems. To address these limitations, variants of the OT problem, including unbalanced OT, Optimal partial transport (OPT), and Hellinger Kantorovich (HK), have been proposed. In this paper, we propose the Linear optimal partial transport (LOPT) embedding, which extends the (local) linearization technique on OT and HK to the OPT problem. The proposed embedding allows for faster computation of OPT distance between pairs of positive measures. Besides our theoretical contributions, we demonstrate the LOPT embedding technique in point-cloud interpolation and PCA analysis.
翻訳日:2023-05-01 17:01:11 公開日:2023-04-27
# フレキシブル確率論的ニューラルネットワークによる組込み天気予報後処理

Ensemble weather forecast post-processing with a flexible probabilistic neural network approach ( http://arxiv.org/abs/2303.17610v3 )

ライセンス: Link先を確認
Peter Mlakar, Janko Mer\v{s}e, Jana Faganeli Pucer(参考訳) 組み立て後の予測は、正確な確率予測を生成するための必要なステップである。 従来のポストプロセッシング手法はパラメトリック分布のパラメータを推定し、しばしば位置単位またはリード時間単位で計算する。 本稿では,すべての位置とリード時間の予測を共同で生成するニューラルネットワークに基づく新しい手法を提案する。 多くのポストプロセッシング手法の分布仮定を緩和するため,本手法では正規化フローをフレキシブルパラメトリック分布推定器として組み込んだ。 これにより,様々な予測分布を数学的に正確にモデル化することができる。 本手法の有効性をeuppbenchベンチマークを用いて実証し,西ヨーロッパのサブリージョンにおける駅の温度予測を行った。 提案手法は,従来の性能評価項目を抜いて,最新の性能をベンチマークで示す。 さらに,新しいポストプロセッシング手法の3つの変種を詳細に比較することにより,本手法がリード時間ごとのアプローチや分布的仮定によるアプローチに勝る理由を明らかにする。

Ensemble forecast post-processing is a necessary step in producing accurate probabilistic forecasts. Conventional post-processing methods operate by estimating the parameters of a parametric distribution, frequently on a per-location or per-lead-time basis. We propose a novel, neural network-based method, which produces forecasts for all locations and lead times, jointly. To relax the distributional assumption of many post-processing methods, our approach incorporates normalizing flows as flexible parametric distribution estimators. This enables us to model varying forecast distributions in a mathematically exact way. We demonstrate the effectiveness of our method in the context of the EUPPBench benchmark, where we conduct temperature forecast post-processing for stations in a sub-region of western Europe. We show that our novel method exhibits state-of-the-art performance on the benchmark, outclassing our previous, well-performing entry. Additionally, by providing a detailed comparison of three variants of our novel post-processing method, we elucidate the reasons why our method outperforms per-lead-time-based approaches and approaches with distributional assumptions.
翻訳日:2023-05-01 16:53:29 公開日:2023-04-27
# ロバスト多相推定のための低深さ量子アルゴリズムについて

On low-depth quantum algorithms for robust multiple-phase estimation ( http://arxiv.org/abs/2303.08099v2 )

ライセンス: Link先を確認
Haoya Li, Hongkang Ni, Lexing Ying(参考訳) 本稿では,複数の固有値を持つ量子位相推定のアルゴリズムによる検討を行う。 1) 初期フォールトトレラント量子コンピュータに特に適合する,ロバストな多重位相推定 (rmpe) アルゴリズムを提案する。(1) 極小のアンシラ量子ビットを使用し, (2) かなりの残差を持つ不完全な初期状態が許容され, (3) 最大ランタイムにおけるプリファクターは,残差が十分に小さく,支配的固有値間のギャップが事前に分かっているため,任意に小さくすることができる。 固有値ギャップが存在しない場合でも、提案したRMPEアルゴリズムは(1)と(2)を維持しながらハイゼンベルク限界を達成することができる。 さらに、この方法では、ユニタリ$u$が整数パワーのみをアクセス可能なブラックボックスとして与えられる「em整数パワー」モデルと、ユニタリ$u$が$u = \exp(-2\pi\i h)$のハミルトニアン$h$で定義される「em実パワー」モデルの両方を扱う。

This paper is an algorithmic study of quantum phase estimation with multiple eigenvalues. We present robust multiple-phase estimation (RMPE) algorithms with Heisenberg-limited scaling that are particularly suitable for early fault-tolerant quantum computers in the following senses: (1) a minimal number of ancilla qubits are used, (2) an imperfect initial state with a significant residual is allowed, (3) the prefactor in the maximum runtime can be arbitrarily small given that the residual is sufficiently small and a gap among the dominant eigenvalues is known in advance. Even if the eigenvalue gap does not exist, the proposed RMPE algorithms can achieve the Heisenberg limit while maintaining (1) and (2). In addition, our method handles both the {\em integer-power} model, where the unitary $U$ is given as a black box with only integer powers accessible, and the {\em real-power} model, where the unitary $U$ is defined through a Hamiltonian $H$ with $U = \exp(-2\pi\i H)$.
翻訳日:2023-05-01 16:52:12 公開日:2023-04-27
# DeepMAD:Deep Convolutional Neural Networkのための数学的アーキテクチャ設計

DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural Network ( http://arxiv.org/abs/2303.02165v2 )

ライセンス: Link先を確認
Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun, Yanzhi Wang(参考訳) ビジョントランスフォーマー(vit)の急速な進歩は、様々なビジョンタスクにおける最先端のパフォーマンスをリフレッシュし、従来のcnnベースのモデルを過大評価した。 これは、CNNの世界における最近の衝撃的な研究の発火であり、純粋なCNNモデルは、注意深く調整されたときにViTモデルと同じくらい優れたパフォーマンスを達成できることを示している。 このような高性能cnnモデルの設計を奨励する一方で、ネットワーク設計の非自明な事前知識を必要とする。 この目的のために、Deep CNN(DeepMAD)のための数学的アーキテクチャ設計(Mathematical Architecture Design for Deep CNN)と呼ばれる新しいフレームワークを提案する。 deepmadでは、cnnネットワークは、その構造パラメータによって表現性と有効性を解析的に定式化できる情報処理システムとしてモデル化される。 次に、これらの構造パラメータを最適化するために制約付き数理計画法(mp)問題を提案する。 MP問題は、メモリフットプリントが小さいCPU上の既製のMPソルバで簡単に解決できる。 さらにDeepMADは純粋に数学的フレームワークであり、ネットワーク設計時にGPUやトレーニングデータを必要としない。 DeepMADの優位性は、複数の大規模コンピュータビジョンベンチマークデータセットで検証されている。 ImageNet-1kでは、従来の畳み込み層のみを使用して、DeepMADは、TinyレベルのConvNeXtやSwinよりも0.7%、トップ1の精度が1.5%高い。

The rapid advances in Vision Transformer (ViT) refresh the state-of-the-art performances in various vision tasks, overshadowing the conventional CNN-based models. This ignites a few recent striking-back research in the CNN world showing that pure CNN models can achieve as good performance as ViT models when carefully tuned. While encouraging, designing such high-performance CNN models is challenging, requiring non-trivial prior knowledge of network design. To this end, a novel framework termed Mathematical Architecture Design for Deep CNN (DeepMAD) is proposed to design high-performance CNN models in a principled way. In DeepMAD, a CNN network is modeled as an information processing system whose expressiveness and effectiveness can be analytically formulated by their structural parameters. Then a constrained mathematical programming (MP) problem is proposed to optimize these structural parameters. The MP problem can be easily solved by off-the-shelf MP solvers on CPUs with a small memory footprint. In addition, DeepMAD is a pure mathematical framework: no GPU or training data is required during network design. The superiority of DeepMAD is validated on multiple large-scale computer vision benchmark datasets. Notably on ImageNet-1k, only using conventional convolutional layers, DeepMAD achieves 0.7% and 1.5% higher top-1 accuracy than ConvNeXt and Swin on Tiny level, and 0.8% and 0.9% higher on Small level.
翻訳日:2023-05-01 16:51:21 公開日:2023-04-27
# スイム変圧器を用いた深度6DoFオブジェクトポス推定

Depth-based 6DoF Object Pose Estimation using Swin Transformer ( http://arxiv.org/abs/2303.02133v2 )

ライセンス: Link先を確認
Zhujun Li and Ioannis Stamos(参考訳) オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。 しかし、この作業は照明条件の悪さやテクスチャのない物体を扱う場合、より困難になる。 この問題に対処するため、奥行き画像はシーンの外観にばらつきがなく、重要な幾何学的特徴を暗黙的に取り入れることによって、ますます人気を集めている。 しかし, ポーズ推定の性能向上に深度情報を完全に活用することは, 困難かつ未解明の課題である。 そこで本研究では,奥行き画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行う,swindeposeという新しいフレームワークを提案する。 swindeposeはまず、深度画像で定義された各正常ベクトルとカメラ座標系内の3つの座標軸との間の角度を算出する。 結果として得られる角度はイメージに形成され、Swin Transformerを使って符号化される。 さらに、RandLA-Netを用いてポイントクラウドから表現を学習する。 得られた画像とポイントクラウドの埋め込みは連結され、セマンティックセグメンテーションモジュールと3dキーポイントローカライゼーションモジュールに供給される。 最後に,ターゲットオブジェクトの予測意味マスクと3dキーポイントに基づいて,最小2乗法を用いて6dポーズを推定する。 LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。 これは我々のアプローチの有効性を示し、実際のシナリオにおけるパフォーマンス向上の可能性を強調します。 私たちのコードはhttps://github.com/zhujunli 1993/SwinDePose.orgにある。

Accurately estimating the 6D pose of objects is crucial for many applications, such as robotic grasping, autonomous driving, and augmented reality. However, this task becomes more challenging in poor lighting conditions or when dealing with textureless objects. To address this issue, depth images are becoming an increasingly popular choice due to their invariance to a scene's appearance and the implicit incorporation of essential geometric characteristics. However, fully leveraging depth information to improve the performance of pose estimation remains a difficult and under-investigated problem. To tackle this challenge, we propose a novel framework called SwinDePose, that uses only geometric information from depth images to achieve accurate 6D pose estimation. SwinDePose first calculates the angles between each normal vector defined in a depth image and the three coordinate axes in the camera coordinate system. The resulting angles are then formed into an image, which is encoded using Swin Transformer. Additionally, we apply RandLA-Net to learn the representations from point clouds. The resulting image and point clouds embeddings are concatenated and fed into a semantic segmentation module and a 3D keypoints localization module. Finally, we estimate 6D poses using a least-square fitting approach based on the target object's predicted semantic mask and 3D keypoints. In experiments on the LineMod and Occlusion LineMod datasets, SwinDePose outperforms existing state-of-the-art methods for 6D object pose estimation using depth images. This demonstrates the effectiveness of our approach and highlights its potential for improving performance in real-world scenarios. Our code is at https://github.com/zhujunli1993/SwinDePose.
翻訳日:2023-05-01 16:50:55 公開日:2023-04-27
# TiDEによる長期予測:時系列Dense Encoder

Long-term Forecasting with TiDE: Time-series Dense Encoder ( http://arxiv.org/abs/2304.08424v2 )

ライセンス: Link先を確認
Abhimanyu Das, Weihao Kong, Andrew Leach, Shaan Mathur, Rajat Sen and Rose Yu(参考訳) 最近の研究で、単純な線形モデルは、長期の時系列予測においてトランスフォーマーベースのアプローチより優れていることが示されている。 そこで我々は,線形モデルの単純さと高速さを享受しつつ,共変量や非線形依存性を扱える時系列予測のためのマルチレイヤパーセプトロン(MLP)ベースのエンコーダ・デコーダモデルであるTiDEを提案する。 理論的には、このモデルの最も単純な線形類似物は、いくつかの仮定の下で線形力学系(lds)の最適誤差率に近いことを証明できる。 実験により,提案手法は,最も優れたTransformerベースモデルよりも5~10倍高速でありながら,一般的な時系列予測ベンチマークにおいて,先行手法に適合あるいは優れることを示す。

Recent work has shown that simple linear models can outperform several Transformer based approaches in long term time-series forecasting. Motivated by this, we propose a Multi-layer Perceptron (MLP) based encoder-decoder model, Time-series Dense Encoder (TiDE), for long-term time-series forecasting that enjoys the simplicity and speed of linear models while also being able to handle covariates and non-linear dependencies. Theoretically, we prove that the simplest linear analogue of our model can achieve near optimal error rate for linear dynamical systems (LDS) under some assumptions. Empirically, we show that our method can match or outperform prior approaches on popular long-term time-series forecasting benchmarks while being 5-10x faster than the best Transformer based model.
翻訳日:2023-05-01 16:45:11 公開日:2023-04-27
# 偏光線における励起子波パケットダイナミクスの理論的解析

Theoretical Analysis of Exciton Wave Packet Dynamics in Polaritonic Wires ( http://arxiv.org/abs/2304.11453v2 )

ライセンス: Link先を確認
Gustavo J. R. Aroeira, Kyle Kairys, Raphael F. Ribeiro(参考訳) 本研究では、無秩序な損失極性ワイヤにおけるエキシトン波パケットの進化に関する包括的研究を行う。 本シミュレーションでは, 強い光物質結合下での弾道的, 拡散的, サブ拡散的励起子のダイナミクスのシグネチャを明らかにし, 定性的に異なる輸送現象間の遷移に伴う典型的な時間スケールを同定する。 計算シミュレーションから信頼性の高い時間依存データを生成するために必要な分子サブシステムと放射場を,低コストで最適に切り離す。 波動関数のフォトニック部分の時間発展は、多くのキャビティモードが非自明な方法でダイナミクスに寄与していることを示している。 したがって、相当な精度で励起子伝播を記述するにはかなりの数のフォトンモードが必要である。 分子系と共鳴する光子モードの優位性の欠如は、疾患の存在と欠如の両方において、興味深く議論されている。 本稿では,コヒーレントな分子間エネルギー輸送と静的障害が重要な役割を担う理論モデルの開発と実験の解析に対する研究の意義について論じる。

We present a comprehensive study of exciton wave packet evolution in disordered lossless polaritonic wires. Our simulations reveal signatures of ballistic, diffusive, and subdiffusive exciton dynamics under strong light-matter coupling and identify the typical timescales associated with the transitions between these qualitatively distinct transport phenomena. We determine optimal truncations of the molecular subsystem and radiation field required for generating reliable time-dependent data from computational simulations at affordable cost. The time evolution of the photonic part of the wave function reveals that many cavity modes contribute to the dynamics in a non-trivial fashion. Hence, a sizable number of photon modes is needed to describe exciton propagation with reasonable accuracy. We find and discuss an intriguingly common lack of dominance of the photon mode on resonance with the molecular system both in the presence and absence of disorder. We discuss the implications of our investigations to the development of theoretical models and analysis of experiments where coherent intermolecular energy transport and static disorder play an important role.
翻訳日:2023-05-01 16:34:30 公開日:2023-04-27
# 駆動型量子対称単純排他過程における特殊絡み合い

Exact Entanglement in the Driven Quantum Symmetric Simple Exclusion Process ( http://arxiv.org/abs/2304.10988v2 )

ライセンス: Link先を確認
Denis Bernard and Ludwig Hruza(参考訳) 駆動量子系の絡み合い特性は、長距離コヒーレンスによる平衡状態とは異なる可能性がある。 メソスコピック輸送に適した玩具モデルであるオープン量子対称単純排他過程(qssep)の研究により,この観察を確認した。 定常状態におけるオープンQSSEPの平均的相互情報が体積法則を満たすことを証明し、システムの異なる領域間の相互情報の正確な公式を導出する。 QSSEPのフリー確率構造をエクスプロイトし、これらの結果を得るため、ランダム行列の理論に潜在的に適用可能な数学的結果である、いわゆる局所的自由累積からランダム行列のサブブロックの固有値スペクトルを決定する新しい方法を開発した。 この方法の例示として,局所自由積から固有状態熱化仮説 (eth) を満たす系における可観測性の期待値を計算する方法を示す。

Entanglement properties of driven quantum systems can potentially differ from the equilibrium situation due to long range coherences. We confirm this observation by studying a suitable toy model for mesoscopic transport: the open quantum symmetric simple exclusion process (QSSEP). We prove that the average mutual information of the open QSSEP in the steady state satisfies a volume law, and derive exact formulae for the mutual information between different regions of the system. Exploiting the free probability structure of QSSEP, we obtain these results by developing a new method to determine the eigenvalue spectrum of sub-blocks of random matrices from their so-called local free cumulants -- a mathematical result on its own with potential applications in the theory of random matrices. As an illustration of this method, we show how to compute expectation values of observables in systems satisfying the Eigenstate Thermalization Hypothesis (ETH) from the local free cumulants.
翻訳日:2023-05-01 16:34:13 公開日:2023-04-27
# IXA/Cogcomp at SemEval-2023 Task 2: 知識ベースを用いたコンテキスト強化多言語名前付きエンティティ認識

IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition using Knowledge Bases ( http://arxiv.org/abs/2304.10637v3 )

ライセンス: Link先を確認
Iker Garc\'ia-Ferrero, Jon Ander Campos, Oscar Sainz, Ander Salaberria, Dan Roth(参考訳) 名前付きエンティティ認識(NER)は、訓練済みの言語モデルが顕著なパフォーマンスを示す中核的な自然言語処理タスクである。 しかし、conll 2003のような標準ベンチマークは、新興または複雑なエンティティを細かな方法で分類する必要など、nerシステムが直面する多くの課題に対処していない。 本稿では,入力文中の候補エンティティを識別する,各候補を既存の知識ベースにリンクする,各エンティティ候補の細かなカテゴリを予測する,という3つのステップからなる新しいnerカスケード手法を提案する。 我々は,外部知識基盤が,細粒度と新興度を正確に分類する上での意義を実証的に示す。 本システムでは,高リソース言語の知識ベースを活用する低リソース言語設定においても,MultiCoNER2共有タスクにおいて堅牢な性能を示す。

Named Entity Recognition (NER) is a core natural language processing task in which pre-trained language models have shown remarkable performance. However, standard benchmarks like CoNLL 2003 do not address many of the challenges that deployed NER systems face, such as having to classify emerging or complex entities in a fine-grained way. In this paper we present a novel NER cascade approach comprising three steps: first, identifying candidate entities in the input sentence; second, linking the each candidate to an existing knowledge base; third, predicting the fine-grained category for each entity candidate. We empirically demonstrate the significance of external knowledge bases in accurately classifying fine-grained and emerging entities. Our system exhibits robust performance in the MultiCoNER2 shared task, even in the low-resource language setting where we leverage knowledge bases of high-resource languages.
翻訳日:2023-05-01 16:33:57 公開日:2023-04-27
# 無限遠の1原子または2原子配列に対する光カップリングの強度効果

Intensity effects of light coupling to one- or two-atom arrays of infinite extent ( http://arxiv.org/abs/2304.09740v2 )

ライセンス: Link先を確認
F. Robicheaux and Deepak A. Suresh(参考訳) ほぼ共鳴光で照らされた無限原子配列の挙動を理論的・計算的に研究する。 我々は高次平均場方程式を用いて、単一アレイおよび一対のアレイからの光子のコヒーレント反射と透過と非コヒーレント散乱をラビ周波数の異なる値の復調関数として研究する。 単一アレイの場合、光強度の増加がこれらの異なるプロセスの確率をいかに変化させるかを示す。 例えば、非コヒーレント散乱確率は、最初は高い値で減少する前に光強度によって増加する。 ほぼ共鳴分離時の1対の並列アレイの場合、光強度の増加による影響は驚くほど低い強度の光で明らかになる。 さらに、これらの無限配列に対して、有限個の方程式で評価できる表現を与える高次平均場方程式を導出する。

We theoretically and computationally investigate the behavior of infinite atom arrays when illuminated by nearly resonant light. We use higher order mean field equations to investigate the coherent reflection and transmission and incoherent scattering of photons from a single array and from a pair of arrays as a function of detuning for different values of the Rabi frequency. For the single array case, we show how increasing the light intensity changes the probabilities for these different processes. For example, the incoherent scattering probability initially increases with light intensity before decreasing at higher values. For a pair of parallel arrays at near resonant separation, the effects from increasing light intensity can become apparent with incredibly low intensity light. In addition, we derive the higher order mean field equations for these infinite arrays giving a representation that can be evaluated with a finite number of equations.
翻訳日:2023-05-01 16:33:23 公開日:2023-04-27
# ロボット脳としてのLLM : エゴセントリック記憶と制御の統合

LLM as A Robotic Brain: Unifying Egocentric Memory and Control ( http://arxiv.org/abs/2304.09349v3 )

ライセンス: Link先を確認
Jinjie Mai, Jun Chen, Bing Li, Guocheng Qian, Mohamed Elhoseiny, Bernard Ghanem(参考訳) embodied aiは、物理的または仮想の体型(つまりロボット)を持ち、環境と動的に相互作用できるインテリジェントなシステムの研究と開発に焦点を当てている。 メモリと制御は、具体化されたシステムの2つの重要な部分であり、通常、それぞれをモデル化するために別々のフレームワークが必要です。 本稿では,ロボット脳として大規模言語モデルを用いて自己中心記憶と制御を統一する,llm-brainと呼ばれる新しい汎用フレームワークを提案する。 LLM-Brainフレームワークは、ゼロショット学習アプローチを利用して、ロボットタスクのための複数のマルチモーダル言語モデルを統合する。 LLM-Brain内の全てのコンポーネントは、認識、計画、制御、記憶を含む閉ループ多ラウンド対話において自然言語を用いて通信する。 システムのコアは、エゴセントリックメモリを維持し、ロボットを制御するための具体化されたllmである。 LLM-Brainは,アクティブ探索と具体的質問応答という,下流の2つの課題を調べることで実証する。 アクティブな探索タスクでは、ロボットは限られた数のアクションで未知の環境を広範囲に探索する必要がある。 一方、具体的質問応答タスクでは、ロボットが事前探索中に得られた観察に基づいて質問に答える必要がある。

Embodied AI focuses on the study and development of intelligent systems that possess a physical or virtual embodiment (i.e. robots) and are able to dynamically interact with their environment. Memory and control are the two essential parts of an embodied system and usually require separate frameworks to model each of them. In this paper, we propose a novel and generalizable framework called LLM-Brain: using Large-scale Language Model as a robotic brain to unify egocentric memory and control. The LLM-Brain framework integrates multiple multimodal language models for robotic tasks, utilizing a zero-shot learning approach. All components within LLM-Brain communicate using natural language in closed-loop multi-round dialogues that encompass perception, planning, control, and memory. The core of the system is an embodied LLM to maintain egocentric memory and control the robot. We demonstrate LLM-Brain by examining two downstream tasks: active exploration and embodied question answering. The active exploration tasks require the robot to extensively explore an unknown environment within a limited number of actions. Meanwhile, the embodied question answering tasks necessitate that the robot answers questions based on observations acquired during prior explorations.
翻訳日:2023-05-01 16:32:35 公開日:2023-04-27
# 医用画像分割作業におけるSegment-Anything Model(SAM)の精度

Accuracy of Segment-Anything Model (SAM) in medical image segmentation tasks ( http://arxiv.org/abs/2304.09324v2 )

ライセンス: Link先を確認
Sheng He, Rina Bao, Jingpeng Li, P. Ellen Grant, Yangming Ou(参考訳) segment-anything model (SAM) は、画像のセグメント化の基本モデルとして導入された。 1100万枚の自然画像から10億枚以上のマスクを使って訓練された。 このモデルは、マスク、ボックス、ポイントなどの様々なプロンプトを使用して、画像のゼロショットセグメンテーションを実行することができる。 本報告では, 各種臓器(脳, 胸, 胸, 肺, 皮膚, 肝臓, 腸, 膵臓, 前立腺), 画像モダリティ(2d x線, 組織学, 内臓, および3d mri, ct) および健康状態(正常, 病変)をカバーする12の医療画像分割データセットにおけるsamの精度について検討した。 2)コンピュータビジョン基礎セグメンテーションモデルSAMが医療画像セグメンテーションに有望な研究方向を提供できる場合。 医療画像の再トレーニングを行わないSAMは,U-Netや他の深層学習モデルほど正確ではないことがわかった。

The segment-anything model (SAM), was introduced as a fundamental model for segmenting images. It was trained using over 1 billion masks from 11 million natural images. The model can perform zero-shot segmentation of images by using various prompts such as masks, boxes, and points. In this report, we explored (1) the accuracy of SAM on 12 public medical image segmentation datasets which cover various organs (brain, breast, chest, lung, skin, liver, bowel, pancreas, and prostate), image modalities (2D X-ray, histology, endoscropy, and 3D MRI and CT), and health conditions (normal, lesioned). (2) if the computer vision foundational segmentation model SAM can provide promising research directions for medical image segmentation. We found that SAM without re-training on medical images does not perform as accurately as U-Net or other deep learning models trained on medical images.
翻訳日:2023-05-01 16:32:12 公開日:2023-04-27
# 人間支援のためのビジュアルプランナーとしての事前学習言語モデル

Pretrained Language Models as Visual Planners for Human Assistance ( http://arxiv.org/abs/2304.09179v2 )

ライセンス: Link先を確認
Dhruvesh Patel, Hamid Eghbalzadeh, Nitin Kamra, Michael Louis Iuzzolino, Unnat Jain, Ruta Desai(参考訳) 複雑な多段階目標を達成するためのユーザを誘導するマルチモーダルaiアシスタントに向けて,視覚計画支援タスク(vpa)を提案する。 自然言語で簡潔に記述されたゴール(例えば「棚を作る」など)と、これまでのユーザの進捗をビデオで見た場合、VPAの目的は、その目標を達成するための計画、すなわち「砂の棚」や「塗料の棚」といった一連のアクションを得ることである。 このためには、未解決の動画からのユーザの進捗を評価し、それに関連する目標、すなわちアクションの関連性とそれらの間の依存関係の順序付けの要件に関連付ける必要がある。 そのため、長いビデオ履歴と任意に複雑なアクション依存関係を扱う必要がある。 これらの課題に対処するため、VPAをビデオアクションセグメンテーションと予測に分解する。 予測ステップをマルチモーダルシーケンスモデリング問題として定式化し,事前学習したlmsをシーケンスモデルとして利用する視覚言語モデルベースプランナー(vlamp)を提案する。 VLaMPは,生成した計画を評価するすべての指標に対して,基準値よりもはるかに優れた性能を示す。 さらに, 広範なアブレーションにより, 言語事前学習の価値, 視覚観察, 目標情報などを分離した。 支援のためのビジュアルプランニングに関する将来の研究を可能にするため、私たちはデータ、モデル、コードをリリースします。

To make progress towards multi-modal AI assistants which can guide users to achieve complex multi-step goals, we propose the task of Visual Planning for Assistance (VPA). Given a goal briefly described in natural language, e.g., "make a shelf", and a video of the user's progress so far, the aim of VPA is to obtain a plan, i.e., a sequence of actions such as "sand shelf", "paint shelf", etc., to achieve the goal. This requires assessing the user's progress from the untrimmed video, and relating it to the requirements of underlying goal, i.e., relevance of actions and ordering dependencies amongst them. Consequently, this requires handling long video history, and arbitrarily complex action dependencies. To address these challenges, we decompose VPA into video action segmentation and forecasting. We formulate the forecasting step as a multi-modal sequence modeling problem and present Visual Language Model based Planner (VLaMP), which leverages pre-trained LMs as the sequence model. We demonstrate that VLaMP performs significantly better than baselines w.r.t all metrics that evaluate the generated plan. Moreover, through extensive ablations, we also isolate the value of language pre-training, visual observations, and goal information on the performance. We will release our data, model, and code to enable future research on visual planning for assistance.
翻訳日:2023-05-01 16:31:52 公開日:2023-04-27
# 空気ドメイン(LEAD)の学習環境

Learning Environment for the Air Domain (LEAD) ( http://arxiv.org/abs/2304.14423v1 )

ライセンス: Link先を確認
Andreas Strand, Patrick Gorton, Martin Asprusten and Karsten Brathen(参考訳) 戦闘機パイロット訓練のかなりの部分はシミュレーションベースであり、事前定義された行動モデルによって制御されるコンピュータ生成力を含んでいる。 行動モデルは通常、経験豊富なパイロットから知識を引き出すことで手作業で作成されます。 作業中であっても、予測可能な性質と適応性の欠如のため、行動モデルは不満足であり、インストラクタは手動で監視と制御に時間を費やさざるを得ない。 強化と模倣学習は手作りモデルの代替となる。 本稿では,軍事シミュレーションにおけるインテリジェントな航空戦闘行動の生成と統合を目的としたLEAD(Learning Environment for the Air Domain)を提案する。 人気のあるプログラミングライブラリとインターフェイスの体育館を組み込むことで、ユーザは簡単に利用可能な機械学習アルゴリズムを適用できる。 さらに、LEADは分散シミュレーションプロトコルを通じてサードパーティのシミュレーションソフトウェアと通信し、異なる忠実性のシミュレーションシステムを使用して振る舞いモデルを学習し、使用することができる。

A substantial part of fighter pilot training is simulation-based and involves computer-generated forces controlled by predefined behavior models. The behavior models are typically manually created by eliciting knowledge from experienced pilots, which is a time-consuming process. Despite the work put in, the behavior models are often unsatisfactory due to their predictable nature and lack of adaptivity, forcing instructors to spend time manually monitoring and controlling them. Reinforcement and imitation learning pose as alternatives to handcrafted models. This paper presents the Learning Environment for the Air Domain (LEAD), a system for creating and integrating intelligent air combat behavior in military simulations. By incorporating the popular programming library and interface Gymnasium, LEAD allows users to apply readily available machine learning algorithms. Additionally, LEAD can communicate with third-party simulation software through distributed simulation protocols, which allows behavior models to be learned and employed using simulation systems of different fidelities.
翻訳日:2023-05-01 16:25:50 公開日:2023-04-27
# MINN:微分代数方程式のダイナミクスの学習とバッテリモデリングへの応用

MINN: Learning the dynamics of differential-algebraic equations and application to battery modeling ( http://arxiv.org/abs/2304.14422v1 )

ライセンス: Link先を確認
Yicun Huang, Changfu Zou, Yang Li and Torsten Wik(参考訳) 物理ベースのアプローチとデータ駆動アプローチを統合するという概念は、持続可能エネルギーシステムのモデリングに人気がある。 しかし、既存の文献は主に物理モデルを置き換えるために生成されたデータ駆動サーロゲートに焦点を当てている。 これらのモデルは、しばしば精度と速度を交換するが、最適化や制御のために実世界の動的システムのモデリングに欠かせない物理モデルに固有の一般化性、適応性、解釈性を欠いている。 本研究では,モデル統合ニューラルネットワーク(minn)を生成するための新しいアーキテクチャを提案する。 得られたハイブリッドモデルは、制御指向モデリングにおける未解決の研究、すなわち、物理的に洞察力があり、数値的に正確で、計算的に抽出可能な最適に単純化されたモデルを得る方法を解く。 提案するニューラルネットワークアーキテクチャをリチウムイオン電池の電気化学ダイナミクスのモデル化に適用し,その基礎となる物理不変量により,minnは従来認識されていなかった入力データに対して十分に一般化しながら,トレーニングに極めて効率的なデータ効率を示す。 minnバッテリモデルは、システム出力と局所分散電気化学挙動の両方を予測する第一原理ベースモデルに匹敵する精度を持つが、解時間の2桁の削減を達成している。

The concept of integrating physics-based and data-driven approaches has become popular for modeling sustainable energy systems. However, the existing literature mainly focuses on the data-driven surrogates generated to replace physics-based models. These models often trade accuracy for speed but lack the generalisability, adaptability, and interpretability inherent in physics-based models, which are often indispensable in the modeling of real-world dynamic systems for optimization and control purposes. In this work, we propose a novel architecture for generating model-integrated neural networks (MINN) to allow integration on the level of learning physics-based dynamics of the system. The obtained hybrid model solves an unsettled research problem in control-oriented modeling, i.e., how to obtain an optimally simplified model that is physically insightful, numerically accurate, and computationally tractable simultaneously. We apply the proposed neural network architecture to model the electrochemical dynamics of lithium-ion batteries and show that MINN is extremely data-efficient to train while being sufficiently generalizable to previously unseen input data, owing to its underlying physical invariants. The MINN battery model has an accuracy comparable to the first principle-based model in predicting both the system outputs and any locally distributed electrochemical behaviors but achieves two orders of magnitude reduction in the solution time.
翻訳日:2023-05-01 16:25:35 公開日:2023-04-27
# ワンステップ分布強化学習

One-Step Distributional Reinforcement Learning ( http://arxiv.org/abs/2304.14421v1 )

ライセンス: Link先を確認
Mastane Achab, Reda Alami, Yasser Abdelaziz Dahou Djilali, Kirill Fedyanin, Eric Moulines(参考訳) 強化学習(rl)は、エージェントが環境とシーケンシャルに相互作用することで、長期的な期待値の最大化を可能にする。 分布的RL(DistrRL)パラダイムでは、エージェントは期待値の限界を超え、すべての時間ステップにわたる戻り値の確率分布をキャプチャする。 DistrRLアルゴリズムのセットは、経験的性能を改善した。 それでもdistrrlの理論は、特に制御の場合、まだ完全には理解されていない。 本稿では,環境の一段階ダイナミクスによって引き起こされるランダム性のみを包含する,より単純な一段階分布強化学習(os-distrrl)フレームワークを提案する。 DistrRLとは対照的に、当社のアプローチは政策評価と制御の両面において統一された理論に基づいている。 実際、ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。 提案手法は,各種環境における分類的distrrlと好適に比較できる。

Reinforcement learning (RL) allows an agent interacting sequentially with an environment to maximize its long-term expected return. In the distributional RL (DistrRL) paradigm, the agent goes beyond the limit of the expected value, to capture the underlying probability distribution of the return across all time steps. The set of DistrRL algorithms has led to improved empirical performance. Nevertheless, the theory of DistrRL is still not fully understood, especially in the control case. In this paper, we present the simpler one-step distributional reinforcement learning (OS-DistrRL) framework encompassing only the randomness induced by the one-step dynamics of the environment. Contrary to DistrRL, we show that our approach comes with a unified theory for both policy evaluation and control. Indeed, we propose two OS-DistrRL algorithms for which we provide an almost sure convergence analysis. The proposed approach compares favorably with categorical DistrRL on various environments.
翻訳日:2023-05-01 16:25:10 公開日:2023-04-27
# 制約ベイズ最適化を用いたネットワークカスケード脆弱性

Network Cascade Vulnerability using Constrained Bayesian Optimization ( http://arxiv.org/abs/2304.14420v1 )

ライセンス: Link先を確認
Albert Lam, Mihai Anitescu, Anirudh Subramanyam(参考訳) 電力網の脆弱性の度合いは、敵のネットワーク上のダメージの量によって評価されることが多い。 しかし、このような攻撃によるカスケードの影響は、カスケードが大規模停電の主な原因の1つであるにもかかわらず、しばしば見過ごされている。 本稿では,ネットワーク平衡状態が変わらなければ検出不能であり得る対向攻撃の候補として送電線保護設定の変更を検討する。 これはベイズ最適化におけるブラックボックス関数の基礎となり、カスケードによるネットワーク劣化を最大化する保護設定を見つけることが目的である。 広範な実験により、従来の知恵に反して、すべてのネットワークラインの保護設定を最大限に誤って設定することは、最大のカスケードを引き起こしないことが明らかになった。 さらに驚くべきことに、設定ミスの度合いがリソースに制約されているとしても、制約がないインスタンスに匹敵する重大さでカスケードを生成する設定を見つけることは可能である。

Measures of power grid vulnerability are often assessed by the amount of damage an adversary can exact on the network. However, the cascading impact of such attacks is often overlooked, even though cascades are one of the primary causes of large-scale blackouts. This paper explores modifications of transmission line protection settings as candidates for adversarial attacks, which can remain undetectable as long as the network equilibrium state remains unaltered. This forms the basis of a black-box function in a Bayesian optimization procedure, where the objective is to find protection settings that maximize network degradation due to cascading. Extensive experiments reveal that, against conventional wisdom, maximally misconfiguring the protection settings of all network lines does not cause the most cascading. More surprisingly, even when the degree of misconfiguration is resource constrained, it is still possible to find settings that produce cascades comparable in severity to instances where there are no constraints.
翻訳日:2023-05-01 16:24:55 公開日:2023-04-27
# ロバストスペクトル形状マッチングの教師なし学習

Unsupervised Learning of Robust Spectral Shape Matching ( http://arxiv.org/abs/2304.14419v1 )

ライセンス: Link先を確認
Dongliang Cao, Paul Roetzer, Florian Bernard(参考訳) 頑健な3次元形状マッチングのための新しい学習手法を提案する。 本手法は深い関数マップに基づいて構築され,教師なしの方法で訓練することができる。 従来の深い関数写像法は主に最適化された関数写像のみを予測することに集中し、その後、推論中に正確なポイントワイズマップを得るためにオフザシェルフ後処理に依存する。 しかし、ポイントワイズマップを得るためのこの2段階の手順は、しばしば準最適性能をもたらす。 これとは対照的に,関数マップと点マップの関係に関する最近の知見に基づいて,関数マップと点マップを結合する新規な教師なし損失を提案し,その結果,ポストプロセッシングを伴わない点マップを直接取得する。 本手法は, 近接等尺形状だけでなく, より困難な非等尺形状や部分形状, 離散化や位相雑音の異なる形状に対しても正確な対応を求める。 提案手法は,9種類の多種多様なデータセットを用いて評価を行い,最近の教師付き手法と比較して,従来の最先端手法よりも大幅に優れていたことを示す。 私たちのコードはhttps://github.com/dongliangcao/unsupervised-learning-of-robust-spectral-shape-matchingで利用可能です。

We propose a novel learning-based approach for robust 3D shape matching. Our method builds upon deep functional maps and can be trained in a fully unsupervised manner. Previous deep functional map methods mainly focus on predicting optimised functional maps alone, and then rely on off-the-shelf post-processing to obtain accurate point-wise maps during inference. However, this two-stage procedure for obtaining point-wise maps often yields sub-optimal performance. In contrast, building upon recent insights about the relation between functional maps and point-wise maps, we propose a novel unsupervised loss to couple the functional maps and point-wise maps, and thereby directly obtain point-wise maps without any post-processing. Our approach obtains accurate correspondences not only for near-isometric shapes, but also for more challenging non-isometric shapes and partial shapes, as well as shapes with different discretisation or topological noise. Using a total of nine diverse datasets, we extensively evaluate the performance and demonstrate that our method substantially outperforms previous state-of-the-art methods, even compared to recent supervised methods. Our code is available at https://github.com/dongliangcao/Unsupervised-Learning-of-Robust-Spectral-Shape-Matching.
翻訳日:2023-05-01 16:24:42 公開日:2023-04-27
# Web脆弱性の検出と軽減のための機械学習とWeb攻撃

Machine Learning for Detection and Mitigation of Web Vulnerabilities and Web Attacks ( http://arxiv.org/abs/2304.14451v1 )

ライセンス: Link先を確認
Mahnoor Shahid(参考訳) 重要なWeb脆弱性の検出と緩和、クロスサイトスクリプティング(XSS)やクロスサイトリクエストフォージェリ(CSRF)といった攻撃は、Webセキュリティの分野で大きな関心事となっている。 このようなweb攻撃は進化し、検出が難しくなっている。 異なる視点から考えるいくつかのアイデアは、これらのWeb脆弱性の検出と攻撃の防止のパフォーマンス向上に使用することができる。 機械学習技術は近年、XSSやCSRFに対する防御に研究者によって使われており、肯定的な結果から、有望な研究方向であると結論付けることができる。 本研究の目的は,XSS と CSRF を識別・防止するために,古典的・高度な機械学習を適用した研究成果を簡潔に報告することである。 この調査の目的は、実装されたさまざまな機械学習アプローチに対処し、すべての研究の要点を理解し、ポジティブな影響と持続する欠点について議論し、研究者が自身の研究のために新しいアプローチを開発する最善の方向を決定するのに役立つようにし、Webセキュリティと機械学習の交差点に焦点を合わせることを奨励することである。

Detection and mitigation of critical web vulnerabilities and attacks like cross-site scripting (XSS), and cross-site request forgery (CSRF) have been a great concern in the field of web security. Such web attacks are evolving and becoming more challenging to detect. Several ideas from different perspectives have been put forth that can be used to improve the performance of detecting these web vulnerabilities and preventing the attacks from happening. Machine learning techniques have lately been used by researchers to defend against XSS and CSRF, and given the positive findings, it can be concluded that it is a promising research direction. The objective of this paper is to briefly report on the research works that have been published in this direction of applying classical and advanced machine learning to identify and prevent XSS and CSRF. The purpose of providing this survey is to address different machine learning approaches that have been implemented, understand the key takeaway of every research, discuss their positive impact and the downsides that persists, so that it can help the researchers to determine the best direction to develop new approaches for their own research and to encourage researchers to focus towards the intersection between web security and machine learning.
翻訳日:2023-05-01 16:15:13 公開日:2023-04-27
# ディープニューラルネットワークを用いたベトナムの法的問題の解析

Analyzing Vietnamese Legal Questions Using Deep Neural Networks with Biaffine Classifiers ( http://arxiv.org/abs/2304.14447v1 )

ライセンス: Link先を確認
Nguyen Anh Tu, Hoang Thi Thu Uyen, Tu Minh Phuong, Ngo Xuan Bach(参考訳) 本稿では,ベトナムの法的質問から重要な情報を深層ニューラルネットワークを用いて抽出する手法を提案する。 自然言語における法的問題を考えると、質問に答えるために必要な情報を含むすべてのセグメントを抽出することが目的です。 我々は,この課題を3段階に分けて解決する深層モデルを提案する。 まず,近年の高度自動符号化言語モデルを用いて文脈的単語埋め込みを生成し,文字レベルやPOSタグ情報と組み合わせて単語表現を生成する。 次に、単語間の関係を捕捉し、文レベルの表現を生成するために、双方向の長期記憶ネットワークを用いる。 第3段階では、入力文のグローバルなビューを提供するグラフベースの依存性解析手法からアイデアを借り、バイファイン分類器を用いて、各単語のペアが重要なセグメントとなる確率を推定する。 ベトナムの公的な法的データセットの実験結果から、我々のモデルはF1スコアの94.79%を達成し、前回よりも大きなマージンを達成していることがわかった。 また,事前学習した言語モデルから抽出した文脈的特徴と,限られたデータセットでトレーニングする場合の文字レベルやPOSタグといった他の特徴とを組み合わせて有効性を示す。

In this paper, we propose using deep neural networks to extract important information from Vietnamese legal questions, a fundamental task towards building a question answering system in the legal domain. Given a legal question in natural language, the goal is to extract all the segments that contain the needed information to answer the question. We introduce a deep model that solves the task in three stages. First, our model leverages recent advanced autoencoding language models to produce contextual word embeddings, which are then combined with character-level and POS-tag information to form word representations. Next, bidirectional long short-term memory networks are employed to capture the relations among words and generate sentence-level representations. At the third stage, borrowing ideas from graph-based dependency parsing methods which provide a global view on the input sentence, we use biaffine classifiers to estimate the probability of each pair of start-end words to be an important segment. Experimental results on a public Vietnamese legal dataset show that our model outperforms the previous work by a large margin, achieving 94.79% in the F1 score. The results also prove the effectiveness of using contextual features extracted from pre-trained language models combined with other types of features such as character-level and POS-tag features when training on a limited dataset.
翻訳日:2023-05-01 16:14:53 公開日:2023-04-27
# HyperMODEST:信頼スコアフィルタリングによる自己監督型3次元物体検出

HyperMODEST: Self-Supervised 3D Object Detection with Confidence Score Filtering ( http://arxiv.org/abs/2304.14446v1 )

ライセンス: Link先を確認
Jenny Xu and Steven L. Waslander(参考訳) 現在のLiDARベースの自動運転用3Dオブジェクト検出器は、特定の地理的領域で収集された人間の注釈付きデータにほぼ完全に訓練されているため、異なる領域に適応することは困難である。 MODESTはラベルなしで3Dオブジェクト検出器を訓練する最初の試みである。 我々の研究であるHyperMODESTは、MODESTの上に実装された普遍的な手法を提案しており、これは自己学習プロセスを大幅に加速し、特定のデータセットのチューニングを必要としない。 信頼度の低いデータ拡張に用いる中間擬似ラベルをフィルタリングする。 nuScenesデータセットでは、IoU=0.25で0-80mでAP BEVが1.6%、IoU=0.5で0-80mでAP BEVが1.7%向上し、MODESTによるトレーニング時間の5分の1しか使われていない。 Lyftデータセットでは、第1ラウンドの反復的自己トレーニングのベースラインの改善も観察しています。 本研究では,提案手法と他の2つのスコアフィルタリング手法,すなわち静的ラベル保持の有無を考慮した疑似ラベルの信頼度スコアフィルタリングを比較し,自己学習プロセスの初期段階における高精度と高リコールのトレードオフを検討する。 この作業のコードとモデルはhttps://github.com/trailab/hypermodestで入手できる。

Current LiDAR-based 3D object detectors for autonomous driving are almost entirely trained on human-annotated data collected in specific geographical domains with specific sensor setups, making it difficult to adapt to a different domain. MODEST is the first work to train 3D object detectors without any labels. Our work, HyperMODEST, proposes a universal method implemented on top of MODEST that can largely accelerate the self-training process and does not require tuning on a specific dataset. We filter intermediate pseudo-labels used for data augmentation with low confidence scores. On the nuScenes dataset, we observe a significant improvement of 1.6% in AP BEV in 0-80m range at IoU=0.25 and an improvement of 1.7% in AP BEV in 0-80m range at IoU=0.5 while only using one-fifth of the training time in the original approach by MODEST. On the Lyft dataset, we also observe an improvement over the baseline during the first round of iterative self-training. We explore the trade-off between high precision and high recall in the early stage of the self-training process by comparing our proposed method with two other score filtering methods: confidence score filtering for pseudo-labels with and without static label retention. The code and models of this work are available at https://github.com/TRAILab/HyperMODEST
翻訳日:2023-05-01 16:14:30 公開日:2023-04-27
# 飛行軌道最適化のための量子コンピューティング応用

Quantum Computing Applications for Flight Trajectory Optimization ( http://arxiv.org/abs/2304.14445v1 )

ライセンス: Link先を確認
Henry Makhanov, Kanav Setia, Junyu Liu, Vanesa Gomez-Gonzalez, Guillermo Jenaro-Rabadan(参考訳) 世界の航空宇宙産業の主要プレーヤーは、2050年までに純炭素ニュートラル事業に焦点を移している。 二酸化炭素排出量の削減のかなりの部分は、飛行経路最適化などの新しい航空機技術によるものと期待されている。 これらの持続可能性目標を追求するために,我々は,航空工学領域における重要な活動である飛行経路最適化に伴う計算課題に取り組むために,量子コンピューティングの能力について検討する。 近年、量子コンピューティング分野は大きな進歩を遂げ、古典的アルゴリズムよりもパフォーマンスが向上する道を開いた。 現実のシナリオに量子アルゴリズムを効果的に適用するには、これらのアルゴリズムの現在の実装に存在する本質的なオーバーヘッドと制約を徹底的に検討し、取り組むことが不可欠である。 本研究は、飛行経路最適化問題における量子コンピュータの応用を考察し、特定のシミュレーション要件を満たすように設計されたカスタマイズ可能なモジュラーフレームワークを導入する。 様々な量子アーキテクチャにおけるハイブリッド量子古典アルゴリズムの実行時間と,CPUやGPU上でのシミュレーションについて検討する。 従来の古典アルゴリズムと量子改良アルゴリズムの時間的比較は、理論的な高速化を達成するにはさらなる革新が必要であることを示している。 我々は,IBMハードウェア上で量子アルゴリズムを動作させ,問題領域内での量子アルゴリズムの組み入れを高速化するための潜在的アプローチについて議論する。

Major players in the global aerospace industry are shifting their focus toward achieving net carbon-neutral operations by 2050. A considerable portion of the overall carbon emission reduction is expected to come from new aircraft technologies, such as flight path optimization. In pursuing these sustainability objectives, we delve into the capacity of quantum computing to tackle computational challenges associated with flight path optimization, an essential operation within the aerospace engineering domain with important ecological and economic considerations. In recent years, the quantum computing field has made significant strides, paving the way for improved performance over classical algorithms. In order to effectively apply quantum algorithms in real-world scenarios, it is crucial to thoroughly examine and tackle the intrinsic overheads and constraints that exist in the present implementations of these algorithms. Our study delves into the application of quantum computers in flight path optimization problems and introduces a customizable modular framework designed to accommodate specific simulation requirements. We examine the running time of a hybrid quantum-classical algorithm across various quantum architectures and their simulations on CPUs and GPUs. A temporal comparison between the conventional classical algorithm and its quantum-improved counterpart indicates that achieving the theoretical speedup in practice may necessitate further innovation. We present our results from running the quantum algorithms on IBM hardware and discuss potential approaches to accelerate the incorporation of quantum algorithms within the problem domain.
翻訳日:2023-05-01 16:14:07 公開日:2023-04-27
# Raspberry Pi Beeの健康モニタリングデバイス

Raspberry Pi Bee Health Monitoring Device ( http://arxiv.org/abs/2304.14444v1 )

ライセンス: Link先を確認
Jakub Nevlacil, Simon Bilik, Karel Horak(参考訳) ミツバチの個体数の減少は、世界中の食料資源に脅威をもたらす可能性がある。養蜂の最新の傾向の1つは、様々なセンサーとデバイスを使用してミツバチの健康状態を監視することである。 本稿では,これらのデバイスの開発について述べる。 本研究の目的は,開発中のミツバチ健康モニタリング装置のアップグレードと改善を行い,ミツバチの継続的なモニタリングのためのリモートデータロギングソリューションを提案することである。

A declining honeybee population could pose a threat to a food resources of the whole world one of the latest trend in beekeeping is an effort to monitor a health of the honeybees using various sensors and devices. This paper participates on a development on one of these devices. The aim of this paper is to make an upgrades and improvement of an in-development bee health monitoring device and propose a remote data logging solution for a continual monitoring of a beehive.
翻訳日:2023-05-01 16:13:43 公開日:2023-04-27
# 高エネルギー物理における異常検出のための量子生成逆ネットワーク

Quantum Generative Adversarial Networks For Anomaly Detection In High Energy Physics ( http://arxiv.org/abs/2304.14439v1 )

ライセンス: Link先を確認
Elie Bermot and Christa Zoufal and Michele Grossi and Julian Schuhmacher and Francesco Tacchino and Sofia Vallecorsa and Ivano Tavernelli(参考訳) 素粒子物理学の標準モデル(SM)は、自然の基本的な力を記述するための理論パラダイムである。 幅広い適用性にもかかわらず、SMは物理的に可能な全ての事象を記述できない。 smによって説明できない事象の検出は、通常異常として言及され、それに関連するエキゾチックな物理的現象の発見は、非自明なタスクである。 この課題は、さらなるレベルの複雑さを持つさらに多くのイベントを生成する次世代の衝突者によってさらに大きくなります。 追加のデータの複雑さは、基礎となるモデルに関する事前の知識を必要としない教師なし異常検出メソッドの探索を動機付ける。 本研究では,そのような手法を開発する。 より明確には、量子生成逆ネットワークを用いて異常事象を識別する。 SMデータから背景分布を学習し、学習した背景分布に与えられた事象が特有であるか否かを判定する。 提案する量子パワー異常検出手法は,数値シミュレーションとibm量子プロセッサを用いて原理実証実験を行った。 10倍のトレーニングデータサンプルを用いた量子生成技術は、グラビトン粒子とヒッグス粒子の検出において古典的手法に匹敵する精度が得られることが判明した。 さらに,量子モデルのキャパシティを実験的に計算し,従来のモデルと比較して高い表現率を観測する。

The standard model (SM) of particle physics represents a theoretical paradigm for the description of the fundamental forces of nature. Despite its broad applicability, the SM does not enable the description of all physically possible events. The detection of events that cannot be described by the SM, which are typically referred to as anomalous, and the related potential discovery of exotic physical phenomena is a non-trivial task. The challenge becomes even greater with next-generation colliders that will produce even more events with additional levels of complexity. The additional data complexity motivates the search for unsupervised anomaly detection methods that do not require prior knowledge about the underlying models. In this work, we develop such a technique. More explicitly, we employ a quantum generative adversarial network to identify anomalous events. The method learns the background distribution from SM data and, then, determines whether a given event is characteristic for the learned background distribution. The proposed quantum-powered anomaly detection strategy is tested on proof-of-principle examples using numerical simulations and IBM Quantum processors. We find that the quantum generative techniques using ten times fewer training data samples can yield comparable accuracy to the classical counterpart for the detection of the Graviton and Higgs particles. Additionally, we empirically compute the capacity of the quantum model and observe an improved expressivity compared to its classical counterpart.
翻訳日:2023-05-01 16:13:35 公開日:2023-04-27
# マルチバンド非エルミート系のグリーン関数

Green's functions of multiband non-Hermitian systems ( http://arxiv.org/abs/2304.14438v1 )

ライセンス: Link先を確認
Yu-Min Hu, Zhong Wang(参考訳) 非エルミート系のグリーン関数は、様々な力学過程において基本的な役割を果たす。 非エルミート系は非エルミートスキン効果による境界条件に敏感であるため、開有界グリーン函数は非ブロッホバンド理論と密接に関連している。 単一バンド非エルミート系における開有界グリーン関数の正確な公式は、一般化されたブリルアンゾーン (GBZ) に沿った積分であることが証明されているが、一般的なマルチバンド系における適切な一般化はいまだ不明である。 本研究では、リーマン面上の多重バンド GBZ を見ることにより、マルチバンド非エルミート系における開有界グリーン関数の式を導出する。 この公式は、様々な実験プラットフォームで検証できるマルチバンドシステムの方向増幅を記述するために適用することができる。

Green's functions of non-Hermitian systems play a fundamental role in various dynamical processes. Because non-Hermitian systems are sensitive to boundary conditions due to the non-Hermitian skin effect, open-boundary Green's functions are closely related to the non-Bloch band theory. While the exact formula of open-boundary Green's functions in single-band non-Hermitian systems proves to be an integral along the generalized Brillouin zone (GBZ), the proper generalization in generic multiband systems remains unclear. In this work, we derive a formula of open-boundary Green's functions in multiband non-Hermitian systems by viewing the multiband GBZ on the Riemann surface. This formula can be applied to describe directional amplification in multiband systems, which can be verified at various experimental platforms.
翻訳日:2023-05-01 16:13:15 公開日:2023-04-27
# 量子コンピュータにおける古典カオス

Classical Chaos in Quantum Computers ( http://arxiv.org/abs/2304.14435v1 )

ライセンス: Link先を確認
Simon-Dominik B\"orner, Christoph Berke, David P. DiVincenzo, Simon Trebst, Alexander Altland(参考訳) 量子コンピューティングハードウェアの開発は、現在の量子プロセッサ(50-100量子ビット)が既にシリコンコンピュータ上の量子シミュレーションの範囲外で動作するという課題に直面している。 本稿では, \textit{classical} 限界のシミュレーションが,この問題を緩和する強力な診断ツールであることを実証する。 提案手法の試行として,多数の非線形量子発振器の結合が不安定なカオス共鳴を引き起こす可能性のある計算プラットフォームであるトランスモン量子ビットプロセッサを検討する。 古典的および量子シミュレーションは、$\mathcal{O}(10)$transmonsの系における同様の安定性指標(古典的なリアプノフ指数と量子波関数の参加比)をもたらす。 しかし、古典シミュレーションの大きな利点は、最大数千の量子ビットからなる大規模システムにプッシュできることである。 我々は,Osprey 世代の 433 キュービットプロセッサや,1,121 キュービットの将来のデバイスを含む,現在の IBM トランスモンチップをシミュレートして,この古典的なツールボックスの有用性を示す。 現実的なシステムパラメータでは、システムサイズにおいてLyapunov指数が体系的に増加し、より大きなレイアウトでは情報保護にさらなる努力が必要であることが示唆される。

The development of quantum computing hardware is facing the challenge that current-day quantum processors, comprising 50-100 qubits, already operate outside the range of quantum simulation on silicon computers. In this paper we demonstrate that the simulation of \textit{classical} limits can be a potent diagnostic tool potentially mitigating this problem. As a testbed for our approach we consider the transmon qubit processor, a computing platform in which the coupling of large numbers of nonlinear quantum oscillators may trigger destabilizing chaotic resonances. We find that classical and quantum simulations lead to similar stability metrics (classical Lyapunov exponents vs. quantum wave function participation ratios) in systems with $\mathcal{O}(10)$ transmons. However, the big advantage of classical simulation is that it can be pushed to large systems comprising up to thousands of qubits. We exhibit the utility of this classical toolbox by simulating all current IBM transmon chips, including the recently announced 433-qubit processor of the Osprey generation, as well as future devices with 1,121 qubits (Condor generation). For realistic system parameters, we find a systematic increase of Lyapunov exponents in system size, suggesting that larger layouts require added efforts in information protection.
翻訳日:2023-05-01 16:13:02 公開日:2023-04-27
# 弱測定下での高次対称性

Higher-form Symmetries under Weak Measurement ( http://arxiv.org/abs/2304.14433v1 )

ライセンス: Link先を確認
Kaixiang Su, Nayan Myerson-Jain, Chong Wang, Chao-Ming Jian, Cenke Xu(参考訳) 自然発生的に高次対称性が破れた量子状態から始めると、弱い局所量子測定の下でのシステムの運命はどのようなものか? ある条件下では、位相遷移は弱い測定によって駆動され、1-形式対称性の自発的破壊を抑制し、1-形式対称性電荷変動を弱める。 双対性ツールを用いた遷移の性質を解析し、弱い測定によって引き起こされる遷移のいくつかが自己双対を持つ固定点のラインを楽しむことを示した。

We aim to address the following question: if we start with a quantum state with a spontaneously broken higher-form symmetry, what is the fate of the system under weak local quantum measurements? We demonstrate that under certain conditions, a phase transition can be driven by weak measurements, which suppresses the spontaneous breaking of the 1-form symmetry and weakens the 1-form symmetry charge fluctuation. We analyze the nature of the transitions employing the tool of duality, and we demonstrate that some of the transitions driven by weak measurement enjoy a line of fixed points with self-duality.
翻訳日:2023-05-01 16:12:39 公開日:2023-04-27
# 高速超音波CTのためのブラインド信号分離

Blind Signal Separation for Fast Ultrasound Computed Tomography ( http://arxiv.org/abs/2304.14424v1 )

ライセンス: Link先を確認
Takumi Noda, Yuu Jinnai, Naoki Tomii, Takashi Azuma(参考訳) 乳がんは最も一般的ながんであり、40歳以上の女性の死亡率が高い。 多くの研究は、早期がんの発見が患者の死亡率と死亡率を著しく低下させることを示した。 超音波コンピュータ断層撮影(USCT)は,早期乳癌を診断するための有望なスクリーニングツールであり,放射線照射なしで3D画像を生成する。 しかし、USCTは、主に撮像時間が長いため、一般的な選択肢ではない。 usctは、複数の超音波を1つずつ記録して高品質な画像を得る必要があるため、時間がかかります。 我々は,従来のUSCTよりも高速に高品質な画像を取得するFastUSCTを提案する。 FastUSCTは3つのステップから構成される。 まず、複数の超音波を同時に送信し、撮像時間を短縮する。 第2に、受信素子によって記録された重なり合う波をUNetで各波に分離する。 最後に、分離波を用いた合成開口法により超音波画像の再構成を行う。 乳房デジタルファントムのシミュレーションにおけるFastUSCTの評価を行った。 自然画像を用いたシミュレーションでunetを訓練し,乳房デジタルファントムのモデル移行を行った。 その結果、fastusctは従来のusct法と同じ撮像時間下において、特に撮像時間が制限された場合に、画像の品質を著しく向上させることがわかった。

Breast cancer is the most prevalent cancer with a high mortality rate in women over the age of 40. Many studies have shown that the detection of cancer at earlier stages significantly reduces patients' mortality and morbidity rages. Ultrasound computer tomography (USCT) is considered as a promising screening tool for diagnosing early-stage breast cancer as it is cost-effective and produces 3D images without radiation exposure. However, USCT is not a popular choice mainly due to its prolonged imaging time. USCT is time-consuming because it needs to transmit a number of ultrasound waves and record them one by one to acquire a high-quality image. We propose FastUSCT, a method to acquire a high-quality image faster than traditional methods for USCT. FastUSCT consists of three steps. First, it transmits multiple ultrasound waves at the same time to reduce the imaging time. Second, it separates the overlapping waves recorded by the receiving elements into each wave with UNet. Finally, it reconstructs an ultrasound image with a synthetic aperture method using the separated waves. We evaluated FastUSCT on simulation on breast digital phantoms. We trained the UNet on simulation using natural images and transferred the model for the breast digital phantoms. The empirical result shows that FastUSCT significantly improves the quality of the image under the same imaging time to the conventional USCT method, especially when the imaging time is limited.
翻訳日:2023-05-01 16:12:28 公開日:2023-04-27
# 攻撃ツールとしてのChatGPT:Blackbox生成モデルトリガーによるテキストバックドア攻撃

ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger ( http://arxiv.org/abs/2304.14475v1 )

ライセンス: Link先を確認
Jiazhao Li, Yijin Yang, Zhuofeng Wu, V.G. Vinod Vydiswaran, Chaowei Xiao(参考訳) テキストによるバックドア攻撃は、入力に不可避なトリガーを挿入し、トレーニングデータセット内のラベルを操作することで、既存のシステムにとって現実的な脅威となる。 gpt-4のような最先端の生成モデルによって、このような攻撃は検出がさらに難しくなっている。 バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。 本稿では,BGMAttackという生成モデルに基づく攻撃が,テキスト分類器を効果的に騙すことを明らかにする。 従来の攻撃方法と比較すると、BGMAttackは最先端の生成モデルを活用することでバックドアのトリガーを目立たなくする。 3つの異なる人間認知評価によって補完される5つのデータセットにわたる攻撃効果の広範な評価により、図4は、ベースラインメソッドと比較して優れたステルス性を維持しながら、同等の攻撃性能を達成できることが分かりました。

Textual backdoor attacks pose a practical threat to existing systems, as they can compromise the model by inserting imperceptible triggers into inputs and manipulating labels in the training dataset. With cutting-edge generative models such as GPT-4 pushing rewriting to extraordinary levels, such attacks are becoming even harder to detect. We conduct a comprehensive investigation of the role of black-box generative models as a backdoor attack tool, highlighting the importance of researching relative defense strategies. In this paper, we reveal that the proposed generative model-based attack, BGMAttack, could effectively deceive textual classifiers. Compared with the traditional attack methods, BGMAttack makes the backdoor trigger less conspicuous by leveraging state-of-the-art generative models. Our extensive evaluation of attack effectiveness across five datasets, complemented by three distinct human cognition assessments, reveals that Figure 4 achieves comparable attack performance while maintaining superior stealthiness relative to baseline methods.
翻訳日:2023-05-01 16:06:28 公開日:2023-04-27
# ベルヌーイ過程の期待シュプレマに対する連鎖則

A Chain Rule for the Expected Suprema of Bernoulli Processes ( http://arxiv.org/abs/2304.14474v1 )

ライセンス: Link先を確認
Yifeng Chu and Maxim Raginsky(参考訳) 我々は、指数集合と函数クラスの性質の観点から、一様リプシッツ函数クラスの下で設定された指数集合の像によってインデックス付けされたベルヌーイ過程の期待上限の上界を求め、ガウス過程に対するモーラーの以前の結果を拡張する。 この証明は、ベルヌーイ過程の有界性に関するbednorzとlatalaの最近の結果の本質的利用である。

We obtain an upper bound on the expected supremum of a Bernoulli process indexed by the image of an index set under a uniformly Lipschitz function class in terms of properties of the index set and the function class, extending an earlier result of Maurer for Gaussian processes. The proof makes essential use of recent results of Bednorz and Latala on the boundedness of Bernoulli processes.
翻訳日:2023-05-01 16:06:09 公開日:2023-04-27
# NeRFに先立つ拡散の学習

Learning a Diffusion Prior for NeRFs ( http://arxiv.org/abs/2304.14473v1 )

ライセンス: Link先を確認
Guandao Yang, Abhijit Kundu, Leonidas J. Guibas, Jonathan T. Barron, Ben Poole(参考訳) NeRF(Neural Radiance Fields)は、2Dデータから派生したオブジェクトやシーンの強力な3D表現として登場した。 しかし、多くのシナリオでは、NeRFの生成は困難である。 例えば、少数の視点しか持たないNeRFのトレーニングは、制約の少ない問題であるため、監督が困難なままである。 このような設定では、悪いローカルのミニマをフィルタリングする前に、何らかのインダクティブを要求する。 このような誘導的先行性を導入する一つの方法は、ある種のシーンをモデル化するNeRFの生成モデルを学ぶことである。 本稿では,正規化グリッド上に符号化されたNeRFを生成するために拡散モデルを提案する。 提案モデルでは,現実的なNeRFをサンプリングすると同時に,条件付き世代を許容し,一定の観察をガイダンスとして示す。

Neural Radiance Fields (NeRFs) have emerged as a powerful neural 3D representation for objects and scenes derived from 2D data. Generating NeRFs, however, remains difficult in many scenarios. For instance, training a NeRF with only a small number of views as supervision remains challenging since it is an under-constrained problem. In such settings, it calls for some inductive prior to filter out bad local minima. One way to introduce such inductive priors is to learn a generative model for NeRFs modeling a certain class of scenes. In this paper, we propose to use a diffusion model to generate NeRFs encoded on a regularized grid. We show that our model can sample realistic NeRFs, while at the same time allowing conditional generations, given a certain observation as guidance.
翻訳日:2023-05-01 16:06:02 公開日:2023-04-27
# セマンティック・アウェアによるワンショット顔合成の制御

Controllable One-Shot Face Video Synthesis With Semantic Aware Prior ( http://arxiv.org/abs/2304.14471v1 )

ライセンス: Link先を確認
Kangning Liu, Yu-Chuan Su, Wei (Alex) Hong, Ruijin Cang, Xuhui Jia(参考訳) ワンショットトークヘッド合成タスクは、ソースイメージを別のポーズと表情にアニメーションすることを目的としており、これは駆動フレームによって指示される。 近年の手法では,スパースキーポイントから推定される運動場を教師なしで学習することにより,ソースから抽出した外観特徴のゆがみに頼っている。 軽量な定式化のため、帯域幅を削減したビデオ会議に適している。 しかし、本研究では、現在の手法には2つの大きな制限がある。 1)大頭ポーズの場合の良好な生成品質、及び駆動映像における音源と第1フレームとの間の観察可能なポーズ不一致の存在。 2) 意味的理解の欠如と適切な顔形状の規則化のため, 細かな顔の動きの詳細を捉えることができない。 これらの欠点に対処するために,提案手法では,リッチ・フェイス・プリエント情報を利用する新しい手法を提案する。提案手法では,意味的一貫性(平均キーポイント距離で7〜0%)と表現保存(平均感情埋め込み距離で15〜$$$のoutperform base)を等価な帯域幅で生成することができる。 さらに、このような事前情報を取り入れることで、ポーズと表現の両面で高度に制御可能な生成を実現するための便利なインターフェースを提供する。

The one-shot talking-head synthesis task aims to animate a source image to another pose and expression, which is dictated by a driving frame. Recent methods rely on warping the appearance feature extracted from the source, by using motion fields estimated from the sparse keypoints, that are learned in an unsupervised manner. Due to their lightweight formulation, they are suitable for video conferencing with reduced bandwidth. However, based on our study, current methods suffer from two major limitations: 1) unsatisfactory generation quality in the case of large head poses and the existence of observable pose misalignment between the source and the first frame in driving videos. 2) fail to capture fine yet critical face motion details due to the lack of semantic understanding and appropriate face geometry regularization. To address these shortcomings, we propose a novel method that leverages the rich face prior information, the proposed model can generate face videos with improved semantic consistency (improve baseline by $7\%$ in average keypoint distance) and expression-preserving (outperform baseline by $15 \%$ in average emotion embedding distance) under equivalent bandwidth. Additionally, incorporating such prior information provides us with a convenient interface to achieve highly controllable generation in terms of both pose and expression.
翻訳日:2023-05-01 16:05:50 公開日:2023-04-27
# 北欧自動車データセット(NVD):降雪条件の異なるUAVから新たに取得したNVDを用いた車両検知装置の性能

Nordic Vehicle Dataset (NVD): Performance of vehicle detectors using newly captured NVD from UAV in different snowy weather conditions ( http://arxiv.org/abs/2304.14466v1 )

ライセンス: Link先を確認
Hamam Mokayed and Amirhossein Nayebiastaneh and Kanjar De and Stergios Sozos and Olle Hagner and Bjorn Backe(参考訳) ドローン画像における車両検出と認識は、異なる安全目的のために使用されている複雑な問題である。 これらの画像の主な課題は斜めの角度で撮影され、一様でない照明効果、劣化、ぼかし、閉塞、視界の喪失などいくつかの課題が生じる。 さらに、気象条件は、安全上の懸念を引き起こし、収集されたデータにさらに高いレベルの課題を加える上で重要な役割を果たす。 過去数十年間、さまざまな気象条件下での車両の検出と追跡に様々な技術が使われてきた。 しかし、降雪時の車両検出は、データが不足しているため、まだ初期段階にある。 さらに、無人航空機(uavs)が撮影した実画像を用いて、積雪中の車両を検知する研究も行われていない。 本研究は,北欧の様々な積雪条件下で,UAVが捉えた車両のデータを科学コミュニティに提供することで,このギャップに対処することを目的とする。 このデータは、降雪による曇り、低光度、低いコントラスト条件、パッチ状の雪カバー、高輝度、日光、新鮮な雪、気温など、さまざまな悪天候条件をカバーしている。 また,Yolo v8,Yolo v5,高速RCNNなどの一般的なオブジェクト検出手法の性能評価を行った。 さらに,データ拡張手法を考察し,このようなシナリオで検出器の性能を向上させる手法を提案する。 コードとデータセットはhttps://nvd.ltu-ai.devで確認できる。

Vehicle detection and recognition in drone images is a complex problem that has been used for different safety purposes. The main challenge of these images is captured at oblique angles and poses several challenges like non-uniform illumination effect, degradations, blur, occlusion, loss of visibility, etc. Additionally, weather conditions play a crucial role in causing safety concerns and add another high level of challenge to the collected data. Over the past few decades, various techniques have been employed to detect and track vehicles in different weather conditions. However, detecting vehicles in heavy snow is still in the early stages because of a lack of available data. Furthermore, there has been no research on detecting vehicles in snowy weather using real images captured by unmanned aerial vehicles (UAVs). This study aims to address this gap by providing the scientific community with data on vehicles captured by UAVs in different settings and under various snow cover conditions in the Nordic region. The data covers different adverse weather conditions like overcast with snowfall, low light and low contrast conditions with patchy snow cover, high brightness, sunlight, fresh snow, and the temperature reaching far below -0 degrees Celsius. The study also evaluates the performance of commonly used object detection methods such as Yolo v8, Yolo v5, and fast RCNN. Additionally, data augmentation techniques are explored, and those that enhance the detectors' performance in such scenarios are proposed. The code and the dataset will be available at https://nvd.ltu-ai.dev
翻訳日:2023-05-01 16:05:26 公開日:2023-04-27
# Moccasin: ニューラルネットワークのための効率的なテンソルリマテリアル化

Moccasin: Efficient Tensor Rematerialization for Neural Networks ( http://arxiv.org/abs/2304.14463v1 )

ライセンス: Link先を確認
Burak Bartan, Haoming Li, Harris Teague, Christopher Lott, Bistra Dilkina(参考訳) エッジコンピューティングデバイスへのニューラルネットワークのデプロイとトレーニングは多くの課題を生んでいる。 エッジデバイスの低メモリ性は、大規模ニューラルネットワークモデルの展開において遭遇する最大の制限要因の1つである。 テンソルのリマテリアル化や再計算は、ニューラルネットワークのトレーニングと推論のための高メモリ要求に対処する方法である。 本稿では,メモリ予算を考慮した計算グラフの実行時間最小化の問題について考察する。 特に,計算グラフ内のノード数である$n$を整数変数として,$O(n)$のみを含む,新しい制約プログラミング式である‘textsc{Moccasin} を開発した。 これは、$O(n^2)$ Boolean変数の定式化を提案する最近の文献の作業よりも大幅に改善されている。 本稿では,近年の研究,特に大規模グラフに対するアプローチが最大で1桁高速であることを示す数値研究を行う。

The deployment and training of neural networks on edge computing devices pose many challenges. The low memory nature of edge devices is often one of the biggest limiting factors encountered in the deployment of large neural network models. Tensor rematerialization or recompute is a way to address high memory requirements for neural network training and inference. In this paper we consider the problem of execution time minimization of compute graphs subject to a memory budget. In particular, we develop a new constraint programming formulation called \textsc{Moccasin} with only $O(n)$ integer variables, where $n$ is the number of nodes in the compute graph. This is a significant improvement over the works in the recent literature that propose formulations with $O(n^2)$ Boolean variables. We present numerical studies that show that our approach is up to an order of magnitude faster than recent work especially for large-scale graphs.
翻訳日:2023-05-01 16:05:00 公開日:2023-04-27
# Augmented Confidence Map を用いたロバスト・高速車両検出

Robust and Fast Vehicle Detection using Augmented Confidence Map ( http://arxiv.org/abs/2304.14462v1 )

ライセンス: Link先を確認
Hamam Mokayed and Palaiahnakote Shivakumara and Lama Alkhaled and Rajkumar Saini and Muhammad Zeshan Afzal and Yan Chai Hum and Marcus Liwicki(参考訳) リアルタイムシナリオにおける車両検出は、時間的制約と、速度、形状、構造などが異なる複数の種類の車両が存在するため、難しい。 本稿では,信頼性マップを高速かつ堅牢な車両検出に利用した新しい手法を提案する。 異なる速度, 形状, 構造, 複数台の車両の存在の悪影響を軽減するため, 車両を含む関心領域を強調させる拡張の概念を導入する。 拡張マップは、マルチレゾリューション解析と最大安定極値領域(mr-mser)の組み合わせを探索することによって生成される。 MR-MSERの出力は高速CNNに供給され、信頼マップを生成する。 さらに,車両検出のための複雑なモデルを実装した既存モデルとは異なり,頑健な車両検出のための粗い集合とファジィに基づくモデルの組み合わせについて検討する。 提案手法の有効性を示すため,ドローンが捉えたデータセットと,KITTIとUA-DETRACという複数の車両検出ベンチマークデータセットを用いて実験を行った。 その結果,提案手法は時間効率の点で既存手法よりも優れ,検出率も良好であることが示唆された。

Vehicle detection in real-time scenarios is challenging because of the time constraints and the presence of multiple types of vehicles with different speeds, shapes, structures, etc. This paper presents a new method relied on generating a confidence map-for robust and faster vehicle detection. To reduce the adverse effect of different speeds, shapes, structures, and the presence of several vehicles in a single image, we introduce the concept of augmentation which highlights the region of interest containing the vehicles. The augmented map is generated by exploring the combination of multiresolution analysis and maximally stable extremal regions (MR-MSER). The output of MR-MSER is supplied to fast CNN to generate a confidence map, which results in candidate regions. Furthermore, unlike existing models that implement complicated models for vehicle detection, we explore the combination of a rough set and fuzzy-based models for robust vehicle detection. To show the effectiveness of the proposed method, we conduct experiments on our dataset captured by drones and on several vehicle detection benchmark datasets, namely, KITTI and UA-DETRAC. The results on our dataset and the benchmark datasets show that the proposed method outperforms the existing methods in terms of time efficiency and achieves a good detection rate.
翻訳日:2023-05-01 16:04:47 公開日:2023-04-27
# 領域インクリメンタル3次元物体検出のための勾配に基づく最大干渉検索

Gradient-based Maximally Interfered Retrieval for Domain Incremental 3D Object Detection ( http://arxiv.org/abs/2304.14460v1 )

ライセンス: Link先を確認
Barza Nisar, Hruday Vishal Kanna Anand, Steven L. Waslander(参考訳) すべての気象条件における正確な3dオブジェクト検出は、現在までのほとんどの作業が晴れた気象データで行われているため、自動運転車の広範な展開を可能にするための重要な課題である。 悪天候条件を一般化するために、監督された手法は、晴れた気象データに基づいて事前訓練されたモデルを微調整する代わりに、すべての気象データをスクラッチから訓練した場合に最適である。 データセットが成長を続け、可能な気象条件の全範囲を網羅し続ければ、すべてのデータのスクラッチからのトレーニングは、最終的には計算不可能でコストがかかるようになる。 一方で、異なる気象ドメインからのデータに対するナイーブな微調整は、以前に学習したドメインを壊滅的に忘れてしまう可能性がある。 リプレイに基づく連続学習手法の成功に触発されて、リプレイのための勾配に基づくサンプリング戦略であるグラディエントベースの最大干渉検索(GMIR)を提案する。 微調整中、GMIRは、現在の更新の勾配ベクトルとの最大干渉を示す勾配ベクトルを示す前のドメインデータセットから定期的にサンプルを検索する。 SeeingThroughFog(STF)データセット上の3Dオブジェクト検出実験は、GMIRが忘れを克服するだけでなく、全データのスクラッチトレーニングと比較して、総トレーニング時間を46.25%削減する競合性能も提供することを示している。

Accurate 3D object detection in all weather conditions remains a key challenge to enable the widespread deployment of autonomous vehicles, as most work to date has been performed on clear weather data. In order to generalize to adverse weather conditions, supervised methods perform best if trained from scratch on all weather data instead of finetuning a model pretrained on clear weather data. Training from scratch on all data will eventually become computationally infeasible and expensive as datasets continue to grow and encompass the full extent of possible weather conditions. On the other hand, naive finetuning on data from a different weather domain can result in catastrophic forgetting of the previously learned domain. Inspired by the success of replay-based continual learning methods, we propose Gradient-based Maximally Interfered Retrieval (GMIR), a gradient based sampling strategy for replay. During finetuning, GMIR periodically retrieves samples from the previous domain dataset whose gradient vectors show maximal interference with the gradient vector of the current update. Our 3D object detection experiments on the SeeingThroughFog (STF) dataset show that GMIR not only overcomes forgetting but also offers competitive performance compared to scratch training on all data with a 46.25% reduction in total training time.
翻訳日:2023-05-01 16:04:25 公開日:2023-04-27
# ニュースのフレーミング:人間の知覚から大規模言語モデル推論へ

Framing the News:From Human Perception to Large Language Model Inferences ( http://arxiv.org/abs/2304.14456v1 )

ライセンス: Link先を確認
David Alonso del Barrio and Daniel Gatica-Perez(参考訳) ニュースのフレームを特定することは、記事のビジョン、意図、伝達すべきメッセージ、ニュースのどの側面を強調するかを理解するために重要である。 フレイミングはジャーナリズムにおいて広く研究されている概念であり、プロセスの自動化やジャーナリズムの専門家の仕事の促進など、コンピューティングにおける新しいトピックとして登場した。 本稿では,コビッド19の抗ワクチン運動に関する記事を用いてこの問題を考察する。 まず,このテーマを扱うために使用される視点を理解するため,5カ国のヨーロッパの新聞のノヴァックス運動記事の1786年の見出しに,人間のフレームのラベル付けのためのプロトコルを開発した。 第2に,大規模言語モデルを用いた自然言語処理(NLP)の進歩を考慮し,第1に,GPT-3.5の微調整アプローチ,第2にGPT-3.5のプロンプトエンジニアリングによる2つの手法を検討した。 我々の研究は、これらのモデルが、これらのフレームの識別において人間の知覚を再現できるかどうかを理解しながら、フレームの分類のようなジャーナリスト的なタスクを促進する必要がある性能の研究と分析に寄与する。

Identifying the frames of news is important to understand the articles' vision, intention, message to be conveyed, and which aspects of the news are emphasized. Framing is a widely studied concept in journalism, and has emerged as a new topic in computing, with the potential to automate processes and facilitate the work of journalism professionals. In this paper, we study this issue with articles related to the Covid-19 anti-vaccine movement. First, to understand the perspectives used to treat this theme, we developed a protocol for human labeling of frames for 1786 headlines of No-Vax movement articles of European newspapers from 5 countries. Headlines are key units in the written press, and worth of analysis as many people only read headlines (or use them to guide their decision for further reading.) Second, considering advances in Natural Language Processing (NLP) with large language models, we investigated two approaches for frame inference of news headlines: first with a GPT-3.5 fine-tuning approach, and second with GPT-3.5 prompt-engineering. Our work contributes to the study and analysis of the performance that these models have to facilitate journalistic tasks like classification of frames, while understanding whether the models are able to replicate human perception in the identification of these frames.
翻訳日:2023-05-01 16:04:02 公開日:2023-04-27
# PMC-LLaMA : 医療用紙におけるLLaMAのさらなる微細化

PMC-LLaMA: Further Finetuning LLaMA on Medical Papers ( http://arxiv.org/abs/2304.14454v1 )

ライセンス: Link先を確認
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 大規模言語モデル(LLM)は、様々な領域における自然言語理解において顕著な能力を示した。 これらのモデルは、通常、日々の対話や質問応答のシナリオでうまく振る舞うことができるが、例えば医学的応用において、ドメイン固有の知識が欠如しているため、しばしば満足できないパフォーマンスを示す。 本稿では,オープンソース言語モデルである PMC-LLaMA について紹介する。PMC-LLaMA は,バイオメディカル学術論文を総計480万件に微調整し,医療分野におけるその能力を高めたオープンソース言語モデルである。 予備評価はPubMedQA, MedMCQA, USMLEの3つの生物医学的QAデータセットを用いて行われ, 微調整後のモデル, PMC-LLaMAが生物医学的ドメイン固有の概念をよりよく理解し, QAベンチマークで高い性能を発揮することを示す。 モデルとコードに加えて、オンラインデモも公開されている。

Large Language Models (LLMs) have showcased remarkable capabilities in natural language understanding in various domains. These models can usually behave well on daily dialog, or question answering scenarios, however, in areas that value precision, for example, in medical applications, they often exhibit unsatisfactory performance due to a lack of domain-specific knowledge. In this report, we introduce PMC-LLaMA, an open-source language model that is acquired by fine-tuning an open-source language model on a total of 4.8 million biomedical academic papers for further injecting medical knowledge, enhancing its capability in medical domain. Our preliminary evaluations are conducted on three biomedical QA datasets, including PubMedQA, MedMCQA, and USMLE, showing that the our model after finetuning, i.e., PMC-LLaMA, demonstrates better understanding of biomedical domain-specific concepts, thus achieving high performance on QA benchmarks. The model and codes, along with an online demo, are publicly available.
翻訳日:2023-05-01 16:03:40 公開日:2023-04-27
# エアロゾル粒子を用いたフロンティア探査のためのハーシュサブテラナン環境からのマルチモーダルデータセット

Multimodal Dataset from Harsh Sub-Terranean Environment with Aerosol Particles for Frontier Exploration ( http://arxiv.org/abs/2304.14520v1 )

ライセンス: Link先を確認
Alexander Kyuroson, Niklas Dahlquist, Nikolaos Stathoulopoulos, Vignesh Kottayam Viswanathan, Anton Koval and George Nikolakopoulos(参考訳) グローバルナビゲーション衛星システム(gnss)を介さない環境における自律的ナビゲーションのためのアルゴリズムは、主にオンボード知覚システムに依存している。 これらのシステムは一般にカメラやライダーのようなセンサーを内蔵しており、その性能はエアロゾル粒子の存在下で劣化する可能性がある。 したがって、これらのセンサーから取得したデータを、そのような粒子を貫通できるRADARのデータと融合させる必要がある。 これにより, 環境条件下での局所化および衝突回避アルゴリズムの性能が向上する。 本稿では, エアロゾル粒子を用いた過酷で非構造な地下環境からのマルチモーダルデータセットを提案する。 データセットを収集するオンボードセンサと環境について詳細な説明を行い、取得したデータの完全な評価を可能にする。 さらに、このデータセットは、ロボットオペレーティングシステム(ros)形式のすべてのオンボードセンサからの同期生データ計測を含み、ナビゲーションの評価や、そのような環境におけるローカライズアルゴリズムが容易になる。 既存のデータセットとは対照的に,本稿では,時間的データと空間的データの両方をキャプチャするだけでなく,取得したデータに対する厳しい条件の影響について述べる。 そこで,このデータセットを検証するために,LiDAR搭載機からのオドメトリーの予備比較を行った。

Algorithms for autonomous navigation in environments without Global Navigation Satellite System (GNSS) coverage mainly rely on onboard perception systems. These systems commonly incorporate sensors like cameras and LiDARs, the performance of which may degrade in the presence of aerosol particles. Thus, there is a need of fusing acquired data from these sensors with data from RADARs which can penetrate through such particles. Overall, this will improve the performance of localization and collision avoidance algorithms under such environmental conditions. This paper introduces a multimodal dataset from the harsh and unstructured underground environment with aerosol particles. A detailed description of the onboard sensors and the environment, where the dataset is collected are presented to enable full evaluation of acquired data. Furthermore, the dataset contains synchronized raw data measurements from all onboard sensors in Robot Operating System (ROS) format to facilitate the evaluation of navigation, and localization algorithms in such environments. In contrast to the existing datasets, the focus of this paper is not only to capture both temporal and spatial data diversities but also to present the impact of harsh conditions on captured data. Therefore, to validate the dataset, a preliminary comparison of odometry from onboard LiDARs is presented.
翻訳日:2023-05-01 15:56:48 公開日:2023-04-27
# pyBibX - 人工知能ツールを使用したバイオメトリックおよびサイエントメトリック分析のためのPythonライブラリ

pyBibX -- A Python Library for Bibliometric and Scientometric Analysis Powered with Artificial Intelligence Tools ( http://arxiv.org/abs/2304.14516v1 )

ライセンス: Link先を確認
Valdecy Pereira, Marcio Pereira Basilio, Carlos Henrique Tarjano Santos(参考訳) ビブリオメトリックおよびサイエントメトリック分析は、様々な学術分野にまたがる複雑な研究の地形と協調力学について、貴重な視点を提供する。 本稿では,Scopus,Web of Science,PubMedから得られた生データファイルの総合的なバイオロメトリおよびサイエントメトリック解析を行うために考案されたpythonライブラリpyBibXについて述べる。 このライブラリは包括的なedaを実行し、視覚的にアピールするグラフィックイラストを通じて結果を表示する。 ネットワーク機能は、Citation、Collaboration、Simisity Analysisを含む完全に統合されている。 さらに、このライブラリには、ベクトルの埋め込み、トピックモデリング、テキスト要約、その他の一般的な自然言語処理タスクを含むAI機能が含まれており、Sentence-BERT、BerTopic、BERT、chatGPT、PEGASUSといったモデルを採用している。 実演として,1984年から2023年の間に出版された多重基準決定分析に関連する184の文書を分析した。 EDAは意思決定とファジィ論理方法論への関心の高まりを強調した。 次にNetwork Analysisは、中央の著者と大陸内協力の重要性をさらに強調し、カナダと中国を重要なコラボレーションハブとみなした。 最後に、ai分析はテキスト要約における2つの主要なトピックとchatgptプリエンミネンスを区別した。 また,本ライブラリでは,文献学的結果について,研究者がチャットGPTに問い合わせをすることができるため,解析に欠かせない道具であることが判明した。 それでも、データベースの不整合のため、データの均一性は大変な課題である。 PyBibXは、科学出版物を分析するための最先端のAI機能を統合する最初のアプリケーションである。

Bibliometric and Scientometric analyses offer invaluable perspectives on the complex research terrain and collaborative dynamics spanning diverse academic disciplines. This paper presents pyBibX, a python library devised to conduct comprehensive bibliometric and scientometric analyses on raw data files sourced from Scopus, Web of Science, and PubMed, seamlessly integrating state of the art AI capabilities into its core functionality. The library executes a comprehensive EDA, presenting outcomes via visually appealing graphical illustrations. Network capabilities have been deftly integrated, encompassing Citation, Collaboration, and Similarity Analysis. Furthermore, the library incorporates AI capabilities, including Embedding vectors, Topic Modeling, Text Summarization, and other general Natural Language Processing tasks, employing models such as Sentence-BERT, BerTopic, BERT, chatGPT, and PEGASUS. As a demonstration, we have analyzed 184 documents associated with multiple-criteria decision analysis published between 1984 and 2023. The EDA emphasized a growing fascination with decision-making and fuzzy logic methodologies. Next, Network Analysis further accentuated the significance of central authors and intra-continental collaboration, identifying Canada and China as crucial collaboration hubs. Finally, AI Analysis distinguished two primary topics and chatGPT preeminence in Text Summarization. It also proved to be an indispensable instrument for interpreting results, as our library enables researchers to pose inquiries to chatGPT regarding bibliometric outcomes. Even so, data homogeneity remains a daunting challenge due to database inconsistencies. PyBibX is the first application integrating cutting-edge AI capabilities for analyzing scientific publications, enabling researchers to examine and interpret these outcomes more effectively.
翻訳日:2023-05-01 15:56:27 公開日:2023-04-27
# 共有音声テキスト表現の理解

Understanding Shared Speech-Text Representations ( http://arxiv.org/abs/2304.14514v1 )

ライセンス: Link先を確認
Gary Wang, Kyle Kastner, Ankur Bapna, Zhehuai Chen, Andrew Rosenberg, Bhuvana Ramabhadran, Yu Zhang(参考訳) 近年,asr(state-of-the-art automatic speech recognition)とst( speech translation)の性能向上により,テキストをエンドツーエンドモデルに組み込んだ音声モデルの訓練手法が数多く開発されている。 本稿では,結果の共有音声テキスト表現の理解を2種類の分析により拡張する。 まず, 発話自由領域適応の限界について検討し, 音声テキストアライメントのためのコーパス固有時間モデルが, 共有音声テキスト表現の学習において最も重要な要素であることを確認した。 第2に、共有エンコーダのアクティベーションと比較して、ユニモーダル(音声またはテキスト)エンコーダのアクティベーションのシミュレートを検査する。 共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。 マエストロ共有音声表現の有効性を,この部分的に説明できると仮定する。

Recently, a number of approaches to train speech models by incorpo-rating text into end-to-end models have been developed, with Mae-stro advancing state-of-the-art automatic speech recognition (ASR)and Speech Translation (ST) performance. In this paper, we expandour understanding of the resulting shared speech-text representationswith two types of analyses. First we examine the limits of speech-free domain adaptation, finding that a corpus-specific duration modelfor speech-text alignment is the most important component for learn-ing a shared speech-text representation. Second, we inspect the sim-ilarities between activations of unimodal (speech or text) encodersas compared to the activations of a shared encoder. We find that theshared encoder learns a more compact and overlapping speech-textrepresentation than the uni-modal encoders. We hypothesize that thispartially explains the effectiveness of the Maestro shared speech-textrepresentations.
翻訳日:2023-05-01 15:55:58 公開日:2023-04-27
# 視覚的レファレンシャルゲーム : 絡み合った表現の出現

Visual Referential Games Further the Emergence of Disentangled Representations ( http://arxiv.org/abs/2304.14511v1 )

ライセンス: Link先を確認
Kevin Denamgana\"i, Sondess Missaoui and James Alfred Walker(参考訳) 自然言語は人間によって情報を伝える強力なツールである。 それらの望ましい性質の中で、構成性は参照ゲームや変種という文脈における主要な焦点であり、それを弱めるエージェントに対してより体系性を高めることを約束している。 解離の概念は、深層学習においてよく一般化される学習表現にとって最重要であり、体系性を実現するために必要な条件であると考えられている。 そこで本研究では,視覚的参照ゲームにおいて,新興言語のレベルにおける構成性,学習された表現のレベルにおける絡み合い,および体系性が相互に関連しているかを検討する。 まず,Obverterアーキテクチャをベースとした視覚的参照ゲームは,多くの主要なゆがみ指標の観点から,最先端の教師なし学習手法より優れていることがわかった。 第二に、前述した構成性のための位置不等角化(posdis)の指標を、相互情報ギャップ(mig)の不等角化指標に見られる情報と完全性に関するいくつかの関心事(再)に拡張する。 この拡張により、オブバータベースのレファレンシャルゲームの文脈で現れる異なる種類のコンポジション言語間のさらなる識別が可能となり、レファレンスゲームの精度も以前の指標もキャプチャできなかった。 最後に、ゼロショット合成学習テストによって測定された結果の(創発的な)体系性は、これまでに提案された不整合および構成性指標のどれかと相関するかどうかを考察する。 トレーニングプロセスを通じて、測定のモーメントに応じて、正と負の両方の静的に有意な相関係数が見つかる。

Natural languages are powerful tools wielded by human beings to communicate information. Among their desirable properties, compositionality has been the main focus in the context of referential games and variants, as it promises to enable greater systematicity to the agents which would wield it. The concept of disentanglement has been shown to be of paramount importance to learned representations that generalise well in deep learning, and is thought to be a necessary condition to enable systematicity. Thus, this paper investigates how do compositionality at the level of the emerging languages, disentanglement at the level of the learned representations, and systematicity relate to each other in the context of visual referential games. Firstly, we find that visual referential games that are based on the Obverter architecture outperforms state-of-the-art unsupervised learning approach in terms of many major disentanglement metrics. Secondly, we expand the previously proposed Positional Disentanglement (PosDis) metric for compositionality to (re-)incorporate some concerns pertaining to informativeness and completeness features found in the Mutual Information Gap (MIG) disentanglement metric it stems from. This extension allows for further discrimination between the different kind of compositional languages that emerge in the context of Obverter-based referential games, in a way that neither the referential game accuracy nor previous metrics were able to capture. Finally we investigate whether the resulting (emergent) systematicity, as measured by zero-shot compositional learning tests, correlates with any of the disentanglement and compositionality metrics proposed so far. Throughout the training process, statically significant correlation coefficients can be found both positive and negative depending on the moment of the measure.
翻訳日:2023-05-01 15:55:43 公開日:2023-04-27
# 強結合状態における1次元ボースガス中のポーラロン生成のダイナミクス

Dynamics of polaron formation in 1D Bose gases in the strong-coupling regime ( http://arxiv.org/abs/2304.14490v1 )

ライセンス: Link先を確認
Martin Will and Michael Fleischhauer(参考訳) 弱相互作用する1次元ボース凝縮体に不純物が注入されるとき、ボースポーラロンの形成のダイナミクスについて議論する。 小さい不純物-ボソンカップリングの場合、この過程はフロイリッヒモデルにおいてボゴリューボフフォノンの生成、放出、結合と記述できるが、結合が強くなるともはや適切ではない。 この状態を扱うために、量子ゆらぎを含むTrncated Wignerシミュレーションを補完する、凝縮に対するバックアクションを説明できるFroehlichモデルを超えた平均場アプローチを検討する。 定常ポーラロンに対して、不純物速度とポーラロン運動量の間の非単調な関係に関連した凸から凹面依存性への滑らかな交叉を示すエネルギー-運動量関係を求める。 大きなモーメントに対して、エネルギーは負の不純物速度の領域を含む周期関数である。 不純物とボーソンのカップリングを準断続的に、突然のクエンチでオンにした後のポーラロン形成の研究は、動的レジームの非常に豊かなシナリオを見いだす。 有効質量の蓄積により、初期速度がランダウ臨界値以下であっても不純物は低下する。 より大きな初期速度では、密度波や灰色のソリトンが放出され、その後異なる運動量セクターで定常的なポーラロン状態が形成されることによる減速や後方散乱がみられる。 量子ゆらぎの影響を分析するために、1次元赤外線のばらつきを避けるために閉じ込められた凝縮体を考える。 この場合、Truncated Wigner シミュレーションを用いて、量子ゆらぎの影響が小さい条件で示す。

We discuss the dynamics of the formation of a Bose polaron when an impurity is injected into a weakly interacting one-dimensional Bose condensate. While for small impurity-boson couplings this process can be described within the Froehlich model as generation, emission and binding of Bogoliubov phonons, this is no longer adequate if the coupling becomes strong. To treat this regime we consider a mean-field approach beyond the Froehlich model which accounts for the backaction to the condensate, complemented with Truncated Wigner simulations to include quantum fluctuation. For the stationary polaron we find an energy-momentum relation that displays a smooth crossover from a convex to a concave dependence associated with a non-monotonous relation between impurity velocity and polaron momentum. For larger momenta the energy is a periodic function including regions of negative impurity velocity. Studying the polaron formation after turning on the impurity-boson coupling quasi adiabatically and in a sudden quench, we find a very rich scenario of dynamical regimes. Due to the build-up of an effective mass, the impurity is slowed down even if its initial velocity is below the Landau critical value. For larger initial velocities we find deceleration and even backscattering caused by emission of density waves or grey solitons and subsequent formation of stationary polaron states in different momentum sectors. In order to analyze the effect of quantum fluctuations we consider a trapped condensate to avoid 1D infrared divergencies. Using Truncated Wigner simulations in this case we show under what conditions the influence of quantum fluctuations is small.
翻訳日:2023-05-01 15:54:47 公開日:2023-04-27
# OriCon3D: オリエンテーションと信頼を用いた効果的な3次元オブジェクト検出

OriCon3D: Effective 3D Object Detection using Orientation and Confidence ( http://arxiv.org/abs/2304.14484v1 )

ライセンス: Link先を確認
Dhyey Manish Rajani, Rahul Kashyap Swayampakula, Surya Pratap Singh(参考訳) 本稿では,3次元物体を検出し,その位置を1つの画像から推定する手法を提案する。 提案手法は, 類似の最先端技術[1]上に構築されるが, 精度は向上する。 このアプローチはまず、センターポイント予測のみを利用する他のフレームワークとは対照的に、ディープ畳み込みニューラルネットワーク(DCNN)を用いてオブジェクトの一般的な3D特性を推定する。 次に、これらの推定値と2次元有界箱が提供する幾何学的制約を組み合わせ、完全な3次元有界箱を生成する。 ネットワークの最初の出力は離散連続損失[1]を用いて3次元オブジェクトの向きを推定する。 第2の出力は、最小分散で3dオブジェクト次元を予測する。 ここでは、軽量な特徴抽出器とカスタマイズされたマルチビンアーキテクチャを拡張した拡張についても紹介する。 これらの推定を2次元境界ボックスの幾何学的制約と組み合わせることで、KITTI 3D検出ベンチマーク [2] 上のベースライン [1] よりも正確に(あるいは比較的) 3次元オブジェクトのポーズを決定できる。

We introduce a technique for detecting 3D objects and estimating their position from a single image. Our method is built on top of a similar state-of-the-art technique [1], but with improved accuracy. The approach followed in this research first estimates common 3D properties of an object using a Deep Convolutional Neural Network (DCNN), contrary to other frameworks that only leverage centre-point predictions. We then combine these estimates with geometric constraints provided by a 2D bounding box to produce a complete 3D bounding box. The first output of our network estimates the 3D object orientation using a discrete-continuous loss [1]. The second output predicts the 3D object dimensions with minimal variance. Here we also present our extensions by augmenting light-weight feature extractors and a customized multibin architecture. By combining these estimates with the geometric constraints of the 2D bounding box, we can accurately (or comparatively) determine the 3D object pose better than our baseline [1] on the KITTI 3D detection benchmark [2].
翻訳日:2023-05-01 15:54:18 公開日:2023-04-27
# 対訳 継続的な学習

Adversary Aware Continual Learning ( http://arxiv.org/abs/2304.14483v1 )

ライセンス: Link先を確認
Muhammad Umer and Robi Polikar(参考訳) クラスインクリメンタルな学習アプローチは、モデルが新しい情報(クラス)を逐次学習するのを助けると同時に、以前に取得した情報(クラス)を保持するのに役立つ。 しかし、このようなアプローチは、知的敵が訓練中に知覚不能なバックドアパターンの形でモデルに少量の誤情報を導入し、特定のタスクやクラスを意図的に忘れてしまうような、敵のバックドア攻撃に対して極めて脆弱であることが示されている。 そこで本研究では,攻撃者のバックドアパターンを人間に知覚されないようにすることで,攻撃者の主要な強みを隠蔽する新たな防御枠組みを提案し,攻撃者の知覚不能(弱体化)パターンを克服できる知覚可能な(強体化)パターン(訓練中も)を学習することを提案する。 CIFAR-10, CIFAR-100, MNISTデータセットの連続学習ベンチマーク変種を用いて, 様々なReplayベース(生成的および正確なリプレイベース)クラスインクリメンタル学習アルゴリズムによる防御機構の有効性を示す。 最も注目すべきは、我々の提案した防御フレームワークは、攻撃者のターゲットタスクとターゲットクラスがディフェンダーに知られていると仮定していないことである。 ディフェンダーは攻撃者のパターンの形状、大きさ、位置も知らない。 提案手法は,攻撃者の目標タスク,攻撃者の目標クラス,攻撃者の許容できないパターンを知らずに,クラスインクリメンタル学習アルゴリズムの性能を著しく向上させることを示す。 我々は,我々の防衛枠組みを,ACL(Adversary Aware Continual Learning)と呼んでいる。

Class incremental learning approaches are useful as they help the model to learn new information (classes) sequentially, while also retaining the previously acquired information (classes). However, it has been shown that such approaches are extremely vulnerable to the adversarial backdoor attacks, where an intelligent adversary can introduce small amount of misinformation to the model in the form of imperceptible backdoor pattern during training to cause deliberate forgetting of a specific task or class at test time. In this work, we propose a novel defensive framework to counter such an insidious attack where, we use the attacker's primary strength-hiding the backdoor pattern by making it imperceptible to humans-against it, and propose to learn a perceptible (stronger) pattern (also during the training) that can overpower the attacker's imperceptible (weaker) pattern. We demonstrate the effectiveness of the proposed defensive mechanism through various commonly used Replay-based (both generative and exact replay-based) class incremental learning algorithms using continual learning benchmark variants of CIFAR-10, CIFAR-100, and MNIST datasets. Most noteworthy, our proposed defensive framework does not assume that the attacker's target task and target class is known to the defender. The defender is also unaware of the shape, size, and location of the attacker's pattern. We show that our proposed defensive framework considerably improves the performance of class incremental learning algorithms with no knowledge of the attacker's target task, attacker's target class, and attacker's imperceptible pattern. We term our defensive framework as Adversary Aware Continual Learning (AACL).
翻訳日:2023-05-01 15:53:58 公開日:2023-04-27
# 量子ネットワークによる長期サイバーセキュリティ応用

Long-term cybersecurity applications enabled by quantum networks ( http://arxiv.org/abs/2304.14479v1 )

ライセンス: Link先を確認
Nicholas A. Peters, Muneer Alshowkan, Joseph C. Chapman, Raphael C. Pooser, Nageswara S. V. Rao, and Raymond T. Newell(参考訳) 大陸規模の量子ネットワークが実現されれば、量子暗号アプリケーションを通じてサイバーセキュリティの劇的な進歩を実現するために必要なリソースを提供することになる。 我々は、最近の進歩と、米国が向かう方向について述べ、さらに一歩前進し、量子バックボーンインフラストラクチャに沿った共同デプロイメントのための量子および従来の暗号手法を共同開発していると論じる。

If continental-scale quantum networks are realized, they will provide the resources needed to fulfill the potential for dramatic advances in cybersecurity through quantum-enabled cryptography applications. We describe recent progress and where the US is headed as well as argue that we go one step further and jointly develop quantum and conventional cryptography methods for joint deployments along the quantum backbone infrastructure.
翻訳日:2023-05-01 15:53:28 公開日:2023-04-27
# 因果状態推定とハイゼンベルクの不確かさ原理

Causal State Estimation and Heisenberg Uncertainty Principle ( http://arxiv.org/abs/2304.14476v1 )

ライセンス: Link先を確認
Junxin Chen, Benjamin B. Lane, Su Direkci, Dhruva Ganapathy, Xinghui Yin, Nergis Mavalvala, Yanbei Chen, and Vivishek Sudhir(参考訳) ノイズ量子システムの可観測性は、連続測定の記録を適切にフィルタリングすることで推定することができる。 このようなフィルタリングは状態推定と測定に基づく量子フィードバック制御に関係している。 したがって、因果フィルターによって推定される観測可能量はハイゼンベルクの不確実性原理を満たすことが必須である。 マルコフの設定では、事前の作業はこの要件を暗黙的に保証する。 線形だが必ずしもマルコフ系ではない線形可観測性の因果推定が不確実性原理を満たすことを示す。 特に、これは、システムのフィードバック制御や、フィードバックループ内の -- 内部または外部 -- 計測レコードがアクセスされる場所に関係なく、真である。 実際、ループ内測定記録を用いた因果推定は、ループ外記録を使用するものと同等に正確である。 これらの結果は,大規模な量子システムに対する因果推定器の役割を明らかにし,その推定と制御におけるループ内およびループ外測定の等価性を復元し,測定に基づく量子フィードバック制御に関する将来の実験を単純化する。

The observables of a noisy quantum system can be estimated by appropriately filtering the records of their continuous measurement. Such filtering is relevant for state estimation and measurement-based quantum feedback control. It is therefore imperative that the observables estimated through a causal filter satisfy the Heisenberg uncertainty principle. In the Markovian setting, prior work implicitly guarantees this requirement. We show that any causal estimate of linear observables of a linear, but not necessarily Markovian, system will satisfy the uncertainty principle. In particular, this is true irrespective of any feedback control of the system and of where in the feedback loop -- inside or outside -- the measurement record is accessed. Indeed, causal estimators using the in-loop measurement record can be as precise as those using the out-of-loop record. These results clarify the role of causal estimators to a large class of quantum systems, restores the equanimity of in-loop and out-of-loop measurements in their estimation and control, and simplifies future experiments on measurement-based quantum feedback control.
翻訳日:2023-05-01 15:53:22 公開日:2023-04-27
# 必要なのは 適性だけだ!

Appropriateness is all you need! ( http://arxiv.org/abs/2304.14553v1 )

ライセンス: Link先を確認
Hendrik Kempt, Alon Lavie, Saskia K. Nagel(参考訳) aiアプリケーションを"安全"にしようとする取り組みは、許容される使用のメインまたは唯一の標準要件として、安全度測定の開発につながった。 チャットGPTのような最新バージョンのチャットボットも同様に検証することができる。 この考え方では、もしそれらが"安全"なら、デプロイは許容されるはずである。 と呼ぶこのアプローチは、チャットgptや他のチャットボットがこれまで引き起こしてきた新たな問題を解決する上で、かなり限定的です。 この制限に対処するため,本稿では,チャットボットが会話できる話題の範囲内で,適切性という規範的な概念に従って制限されることを論じる。 我々は、チャットボットの発話に「安全」を求めるのではなく、その発話を技術的不適切な、社会的、道徳的の3つの形式に従って評価すべきであると主張している。 次に、従来のアカウントの制限を避けるために、チャットボットがどのような要件に従うか、すなわち、位置性、受け入れ可能性、価値アライメント(PAVA)を記述します。 これらのことを念頭に置いて、チャットボットが何を言おうとしないかを判断できるかもしれない。 最後に、最初の提案は、検証方法として、特に適切性のために設計されたチャレンジセットを使用することである。

The strive to make AI applications "safe" has led to the development of safety-measures as the main or even sole normative requirement of their permissible use. Similar can be attested to the latest version of chatbots, such as chatGPT. In this view, if they are "safe", they are supposed to be permissible to deploy. This approach, which we call "safety-normativity", is rather limited in solving the emerging issues that chatGPT and other chatbots have caused thus far. In answering this limitation, in this paper we argue for limiting chatbots in the range of topics they can chat about according to the normative concept of appropriateness. We argue that rather than looking for "safety" in a chatbot's utterances to determine what they may and may not say, we ought to assess those utterances according to three forms of appropriateness: technical-discursive, social, and moral. We then spell out what requirements for chatbots follow from these forms of appropriateness to avoid the limits of previous accounts: positionality, acceptability, and value alignment (PAVA). With these in mind, we may be able to determine what a chatbot may and may not say. Lastly, one initial suggestion is to use challenge sets, specifically designed for appropriateness, as a validation method.
翻訳日:2023-05-01 15:47:54 公開日:2023-04-27
# 線形回帰としての増大バランスウェイト

Augmented balancing weights as linear regression ( http://arxiv.org/abs/2304.14545v1 )

ライセンス: Link先を確認
David Bruns-Smith, Oliver Dukes, Avi Feller, and Elizabeth L. Ogburn(参考訳) 自動脱バイアス機械学習(AutoDML)としても知られる拡張バランスウェイトの特徴について述べる。 これらの推定子は、結果モデリングとバランスウェイトを組み合わせることで、逆確率スコアの重みを直接推定する。 結果モデルと重み付けモデルの両方が(おそらく無限に)線形である場合、拡張推定器は元の結果モデル係数とOLSを結合した係数を持つ単一の線形モデルと等価であることを示し、多くの設定において、拡張推定器はOLSのみに崩壊する。 次にこれらの結果を、結果と重み付けモデルの特定の選択に拡張します。 まず, 結果と重み付けモデルの両方に(ケネル)リッジ回帰を用いる組み合わせ推定器は, 単一の沈降(ケネル)リッジ回帰と同値であることを示した。 重み付けモデルがラッソ回帰であるとき、特殊ケースに対して閉形式表現を与え、 ``double selection' 特性を示す。 最後に、これらの結果をリース表現器を介して線形推定に一般化する。 我々のフレームワークは、これらの人気の高い推定器の'オープンズ・ザ・ブラックボックス'であり、重み付けの強化のための推定選択に関する重要な洞察を提供する。

We provide a novel characterization of augmented balancing weights, also known as Automatic Debiased Machine Learning (AutoDML). These estimators combine outcome modeling with balancing weights, which estimate inverse propensity score weights directly. When the outcome and weighting models are both linear in some (possibly infinite) basis, we show that the augmented estimator is equivalent to a single linear model with coefficients that combine the original outcome model coefficients and OLS; in many settings, the augmented estimator collapses to OLS alone. We then extend these results to specific choices of outcome and weighting models. We first show that the combined estimator that uses (kernel) ridge regression for both outcome and weighting models is equivalent to a single, undersmoothed (kernel) ridge regression; this also holds when considering asymptotic rates. When the weighting model is instead lasso regression, we give closed-form expressions for special cases and demonstrate a ``double selection'' property. Finally, we generalize these results to linear estimands via the Riesz representer. Our framework ``opens the black box'' on these increasingly popular estimators and provides important insights into estimation choices for augmented balancing weights.
翻訳日:2023-05-01 15:47:35 公開日:2023-04-27
# 会話に関する談話:会話型AIの拡張的焦点の必要性

Discourse over Discourse: The Need for an Expanded Pragmatic Focus in Conversational AI ( http://arxiv.org/abs/2304.14543v1 )

ライセンス: Link先を確認
S.M. Seals and Valerie L. Shalin(参考訳) 会話の要約、すなわち談話に関する談話は、現代会話型aiの要約と他の応用の両方の広汎な限界として実用的考察を高揚させる。 意味論と構文の双方において印象的な進歩を生かし、実践的な意味では実用的な意味を持つ。 本稿では,会話の要約と他の会話型AIアプリケーションにおけるいくつかの課題について論じる。 本稿では, 会話や要約において現実的に不適切である, 構文的に許容できる命題である, いわゆる星文による現実語の重要性を説明する。 aiの質の基準は人間の行動と区別できないため、精神言語学の文献に強く依存し、我々の苦情を「チューリングテストトリガー」(tts)と分類している。 音声アシスタントやチャットボットのような会話要約手法と対話型AIアプリケーションの設計と評価について論じる。

The summarization of conversation, that is, discourse over discourse, elevates pragmatic considerations as a pervasive limitation of both summarization and other applications of contemporary conversational AI. Building on impressive progress in both semantics and syntax, pragmatics concerns meaning in the practical sense. In this paper, we discuss several challenges in both summarization of conversations and other conversational AI applications, drawing on relevant theoretical work. We illustrate the importance of pragmatics with so-called star sentences, syntactically acceptable propositions that are pragmatically inappropriate in conversation or its summary. Because the baseline for quality of AI is indistinguishability from human behavior, we draw heavily on the psycho-linguistics literature, and label our complaints as "Turing Test Triggers" (TTTs). We discuss implications for the design and evaluation of conversation summarization methods and conversational AI applications like voice assistants and chatbots
翻訳日:2023-05-01 15:47:11 公開日:2023-04-27
# 深部時空間クラスタリング:多次元気候データのための時間的クラスタリングアプローチ

Deep Spatiotemporal Clustering: A Temporal Clustering Approach for Multi-dimensional Climate Data ( http://arxiv.org/abs/2304.14541v1 )

ライセンス: Link先を確認
Omar Faruque, Francis Ndikum Nji, Mostafa Cham, Rohan Mandar Salvi, Xue Zheng, and Jianwu Wang(参考訳) 教師なしアプローチによる高次元時空間データのクラスタリングは、多くのデータ駆動アプリケーションにとって難しい問題である。 教師なしクラスタリングのための既存の最先端手法では、類似性と距離関数が異なるが、データの空間的特徴と時間的特徴に注目する。 本研究では,空間的・時間的特徴の深層学習に着目し,非教師付き深層学習法を用いた高次元時空間データの時間的クラスタリングのための新しいアルゴリズムである深部時空間クラスタリング(DSC)を提案する。 U-netアーキテクチャにインスパイアされたDSCは、CNN-RNN層を統合したオートエンコーダを使用して、時空間データの潜在表現を学習する。 dscには、学生のt分布を利用する潜在表現のクラスタ割り当てのためのユニークなレイヤも含まれている。 クラスタリング損失とデータ再構成損失を同時に最適化することにより、低次元の潜在特徴空間と高次元の原データ空間との非線形マッピングを徐々に改善する。 提案手法の有効性を評価するために,多変量時空間気候データセットを用いた。 実験により,従来のクラスタリングアルゴリズムと深層学習に基づくクラスタリングアルゴリズムよりも優れた性能を示した。 さらに,提案手法をcnnエンコーダ,cnnオートエンコーダ,cnn-rnnエンコーダ,cnn-rnnオートエンコーダなど)と比較し,cnnレイヤとrnnレイヤの両方の使用状況について考察し,提案手法がクラスタリング結果の面でこれらの変種を上回った。

Clustering high-dimensional spatiotemporal data using an unsupervised approach is a challenging problem for many data-driven applications. Existing state-of-the-art methods for unsupervised clustering use different similarity and distance functions but focus on either spatial or temporal features of the data. Concentrating on joint deep representation learning of spatial and temporal features, we propose Deep Spatiotemporal Clustering (DSC), a novel algorithm for the temporal clustering of high-dimensional spatiotemporal data using an unsupervised deep learning method. Inspired by the U-net architecture, DSC utilizes an autoencoder integrating CNN-RNN layers to learn latent representations of the spatiotemporal data. DSC also includes a unique layer for cluster assignment on latent representations that uses the Student's t-distribution. By optimizing the clustering loss and data reconstruction loss simultaneously, the algorithm gradually improves clustering assignments and the nonlinear mapping between low-dimensional latent feature space and high-dimensional original data space. A multivariate spatiotemporal climate dataset is used to evaluate the efficacy of the proposed method. Our extensive experiments show our approach outperforms both conventional and deep learning-based unsupervised clustering algorithms. Additionally, we compared the proposed model with its various variants (CNN encoder, CNN autoencoder, CNN-RNN encoder, CNN-RNN autoencoder, etc.) to get insight into using both the CNN and RNN layers in the autoencoder, and our proposed technique outperforms these variants in terms of clustering results.
翻訳日:2023-05-01 15:46:52 公開日:2023-04-27
# ベイズ分類器を用いた特徴の最適分割

Optimal partition of feature using Bayesian classifier ( http://arxiv.org/abs/2304.14537v1 )

ライセンス: Link先を確認
Sanjay Vishwakarma and Srinjoy Ganguly(参考訳) ネイブ・ベイズ分類器はベイズパラダイムを用いた一般的な分類法である。 入力変数間の条件依存を持つという概念は理論上はよいが、多数決スタイルの振る舞いにつながる可能性がある。 条件付き独立を達成することはしばしば困難であり、見積もりに決定バイアスを導入する。 ネイブベイズでは、特定の特徴は独立特徴と呼ばれ、分類を予測する際に条件付き相関や依存を持たない。 本稿では,ネイブベイズ法によって生じる課題を克服できるコモノトン非依存分類器 (ciber) と呼ばれる新しい手法を提案することで,特徴の最適分割に着目する。 異なるデータセットについては、ランダムフォレストやxgboostなどのモデルと比較してエラー率を低くし、高い、または同等の精度を達成する手法の有効性を明確に示します。

The Naive Bayesian classifier is a popular classification method employing the Bayesian paradigm. The concept of having conditional dependence among input variables sounds good in theory but can lead to a majority vote style behaviour. Achieving conditional independence is often difficult, and they introduce decision biases in the estimates. In Naive Bayes, certain features are called independent features as they have no conditional correlation or dependency when predicting a classification. In this paper, we focus on the optimal partition of features by proposing a novel technique called the Comonotone-Independence Classifier (CIBer) which is able to overcome the challenges posed by the Naive Bayes method. For different datasets, we clearly demonstrate the efficacy of our technique, where we achieve lower error rates and higher or equivalent accuracy compared to models such as Random Forests and XGBoost.
翻訳日:2023-05-01 15:46:20 公開日:2023-04-27
# 音声認識のためのディープトランスファー学習 : 一般化に向けて

Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization ( http://arxiv.org/abs/2304.14535v1 )

ライセンス: Link先を確認
Hamza Kheddar, Yassine Himeur, Somaya Al-Maadeed, Abbes Amira, Faycal Bensaali(参考訳) 近年,ディープラーニング(DL)では,音声認識(ASR)が重要な課題となっている。 大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。 さらに、dlテクニックと機械学習(ml)アプローチは一般的に、トレーニングとテストのデータを同じドメインから、同じ入力特徴空間とデータ分散特性を持つものと仮定している。 しかし、この仮定は現実の人工知能(AI)の応用には適用できない。 さらに、DLモデルのデータ要求を満たすことができない、実際のデータ収集が困難、高価、あるいは稀に発生する状況もある。 この問題を克服するために、dtl(deep transfer learning)が導入された。これは、トレーニングデータに関連して、小さく、あるいはやや異なる実際のデータセットを使用して、高性能なモデルを開発するのに役立つ。 本稿では,DTLをベースとしたASRフレームワークに関する包括的調査を行い,現状の課題を明らかにする。 具体的には、DTLの背景を提示した後、最先端の情報を知らせるために、よく設計された分類法が採用される。 それぞれのフレームワークの限界と利点を特定するために、批判的な分析が行われる。 今後の研究の機会を導き出す前に、現在の課題を強調するために比較研究が導入された。

Automatic speech recognition (ASR) has recently become an important challenge when using deep learning (DL). It requires large-scale training datasets and high computational and storage resources. Moreover, DL techniques and machine learning (ML) approaches in general, hypothesize that training and testing data come from the same domain, with the same input feature space and data distribution characteristics. This assumption, however, is not applicable in some real-world artificial intelligence (AI) applications. Moreover, there are situations where gathering real data is challenging, expensive, or rarely occurring, which can not meet the data requirements of DL models. deep transfer learning (DTL) has been introduced to overcome these issues, which helps develop high-performing models using real datasets that are small or slightly different but related to the training data. This paper presents a comprehensive survey of DTL-based ASR frameworks to shed light on the latest developments and helps academics and professionals understand current challenges. Specifically, after presenting the DTL background, a well-designed taxonomy is adopted to inform the state-of-the-art. A critical analysis is then conducted to identify the limitations and advantages of each framework. Moving on, a comparative study is introduced to highlight the current challenges before deriving opportunities for future research.
翻訳日:2023-05-01 15:46:06 公開日:2023-04-27
# 深層強化学習における敵対的政策最適化

Adversarial Policy Optimization in Deep Reinforcement Learning ( http://arxiv.org/abs/2304.14533v1 )

ライセンス: Link先を確認
Md Masudur Rahman and Yexiang Xue(参考訳) ディープニューラルネットワークで表されるポリシーは、観測における突発的な特徴に過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。 この問題は、エージェントが有用なポリシーを学ぶのに苦労する高次元状態で深刻になる。 データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。 しかし、そのようなデータ拡張は事前知識の形式であり、それらを環境に適用することでエージェントのパフォーマンスが悪化する可能性がある。 本稿では,上記の課題を軽減し,学習方針の効率を向上させるための新しいrlアルゴリズムを提案する。 提案手法は,摂動ネットワークが状態を変化させ,動作の歪みを最小限に抑えながらエージェントが異なる動作をとる確率を最大化する,最大最小のゲーム理論に基づく。 対照的に、ポリシーネットワークはそのパラメータを更新して摂動効果を最小限に抑えつつ、期待される将来の報酬を最大化する。 この目的に基づき,実用的な深層強化学習アルゴリズムであるadversarial policy optimization (apo)を提案する。 本手法はポリシー最適化のタイプに依存せず,そのメリットを活かすためにデータ拡張を組み込むことができる。 我々は,高次元かつノイズの多い状態設定のDeepMind制御ロボット環境に対するアプローチを評価した。 実証実験の結果,APO法は最先端のPPOエージェントより一貫して優れていた。 さらに,本手法と最先端データ拡張,RAD,正規化に基づくアプローチDRACとの比較を行った。 私たちのエージェントAPOは、これらのベースラインよりも優れたパフォーマンスを示します。

The policy represented by the deep neural network can overfit the spurious features in observations, which hamper a reinforcement learning agent from learning effective policy. This issue becomes severe in high-dimensional state, where the agent struggles to learn a useful policy. Data augmentation can provide a performance boost to RL agents by mitigating the effect of overfitting. However, such data augmentation is a form of prior knowledge, and naively applying them in environments might worsen an agent's performance. In this paper, we propose a novel RL algorithm to mitigate the above issue and improve the efficiency of the learned policy. Our approach consists of a max-min game theoretic objective where a perturber network modifies the state to maximize the agent's probability of taking a different action while minimizing the distortion in the state. In contrast, the policy network updates its parameters to minimize the effect of perturbation while maximizing the expected future reward. Based on this objective, we propose a practical deep reinforcement learning algorithm, Adversarial Policy Optimization (APO). Our method is agnostic to the type of policy optimization, and thus data augmentation can be incorporated to harness the benefit. We evaluated our approaches on several DeepMind Control robotic environments with high-dimensional and noisy state settings. Empirical results demonstrate that our method APO consistently outperforms the state-of-the-art on-policy PPO agent. We further compare our method with state-of-the-art data augmentation, RAD, and regularization-based approach DRAC. Our agent APO shows better performance compared to these baselines.
翻訳日:2023-05-01 15:45:45 公開日:2023-04-27
# ハミルトンサイクル上の高次元クラスタリング

High-dimensional Clustering onto Hamiltonian Cycle ( http://arxiv.org/abs/2304.14531v1 )

ライセンス: Link先を確認
Tianyi Huang, Shenghui Cheng, Stan Z. Li, Zhengjun Zhang(参考訳) クラスタリングは、類似性に基づいてアンラベリングされたサンプルをグループ化する。 高次元データ解析のための重要なツールとなっている。 しかしながら、ほとんどのクラスタリング手法は、単に擬似ラベルを生成するだけで、異なるクラスタと外れ値の類似性を同時に提示することができない。 本稿では,ハミルトンサイクル上での高次元クラスタリング(HCHC)と呼ばれる新しいフレームワークを提案する。 まず、HCHCは、深層クラスタリングのための1つの目的関数における局所構造とグローバル構造を結合し、ラベルを相対確率として改善し、各クラスタに局所構造を保持しながら異なるクラスタ間の類似性をマイニングする。 そして、クラスタの類似性によって生成される最適なハミルトニアンサイクル上に、異なるクラスタのアンカーを並べ替え、円周上にマッピングする。 最後に、クラスタの確率が高いサンプルは、対応するアンカーの近くにマッピングされる。 このようにして、我々のフレームワークは、クラスタ(高い確率を持つサンプルによって形成される)、クラスタ類似性(円周距離として表現される)、およびアウトリー(全てのクラスタから遠く離れた点として認識される)の3つの側面を視覚的に同時に評価することができる。 この実験はHCHCの優位性を示している。

Clustering aims to group unlabelled samples based on their similarities. It has become a significant tool for the analysis of high-dimensional data. However, most of the clustering methods merely generate pseudo labels and thus are unable to simultaneously present the similarities between different clusters and outliers. This paper proposes a new framework called High-dimensional Clustering onto Hamiltonian Cycle (HCHC) to solve the above problems. First, HCHC combines global structure with local structure in one objective function for deep clustering, improving the labels as relative probabilities, to mine the similarities between different clusters while keeping the local structure in each cluster. Then, the anchors of different clusters are sorted on the optimal Hamiltonian cycle generated by the cluster similarities and mapped on the circumference of a circle. Finally, a sample with a higher probability of a cluster will be mapped closer to the corresponding anchor. In this way, our framework allows us to appreciate three aspects visually and simultaneously - clusters (formed by samples with high probabilities), cluster similarities (represented as circular distances), and outliers (recognized as dots far away from all clusters). The experiments illustrate the superiority of HCHC.
翻訳日:2023-05-01 15:45:23 公開日:2023-04-27
# どこから始めるかがすべてだ:シード選択によるテキストから画像生成

It is all about where you start: Text-to-image generation with seed selection ( http://arxiv.org/abs/2304.14530v1 )

ライセンス: Link先を確認
Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik(参考訳) テキストから画像への拡散モデルは、新しい構成やシナリオで様々な概念を合成することができる。 しかし、珍しい組み合わせや手のひらのような構造的な概念を創り出すのに依然として苦労している。 ウェブcrawledデータセットは強いアンバランスであり、モデルが分布の尾から概念を過小評価する原因となっている。 ここでは、不均衡なトレーニングデータのテキスト対画像モデルへの影響を特徴付け、修正を提供する。 ノイズ空間における適切な生成種を慎重に選択することで、希少な概念を正しく生成できることを示し、SeedSelectと呼ぶ手法を提案する。 SeedSelectは効率的で、拡散モデルの再トレーニングを必要としない。 一連の問題に対してSeedSelectの利点を評価する。 まず、少数ショットのセマンティックデータ拡張では、少数ショットとロングテールのベンチマークで意味的に正しいイメージを生成します。 拡散モデルのトレーニングデータの頭部と尾部の両方から,すべてのクラスにおいて分類の改善を示す。 さらに,現在の拡散モデルにおいてよく知られた落とし穴である手の修正画像に対する種子選択の評価を行い,手の発生を大幅に改善することを示す。

Text-to-image diffusion models can synthesize a large variety of concepts in new compositions and scenarios. However, they still struggle with generating uncommon concepts, rare unusual combinations, or structured concepts like hand palms. Their limitation is partly due to the long-tail nature of their training data: web-crawled data sets are strongly unbalanced, causing models to under-represent concepts from the tail of the distribution. Here we characterize the effect of unbalanced training data on text-to-image models and offer a remedy. We show that rare concepts can be correctly generated by carefully selecting suitable generation seeds in the noise space, a technique that we call SeedSelect. SeedSelect is efficient and does not require retraining the diffusion model. We evaluate the benefit of SeedSelect on a series of problems. First, in few-shot semantic data augmentation, where we generate semantically correct images for few-shot and long-tail benchmarks. We show classification improvement on all classes, both from the head and tail of the training data of diffusion models. We further evaluate SeedSelect on correcting images of hands, a well-known pitfall of current diffusion models, and show that it improves hand generation substantially.
翻訳日:2023-05-01 15:45:01 公開日:2023-04-27
# 情報検索のための多変量表現学習

Multivariate Representation Learning for Information Retrieval ( http://arxiv.org/abs/2304.14522v1 )

ライセンス: Link先を確認
Hamed Zamani and Michael Bendersky(参考訳) デンス検索モデルは、クエリと文書表現の学習にバイエンコーダネットワークアーキテクチャを使用する。 これらの表現はしばしばベクトル表現の形で計算され、それらの類似性はドット積関数を用いて計算される。 本稿では,高密度検索のための新しい表現学習フレームワークを提案する。 各クエリとドキュメントのベクトルを学習する代わりに、我々のフレームワークは多変量分布を学習し、負の多変量KL分散を用いて分布間の類似性を計算する。 単純さと効率性の理由から、分布は多変量正規分布であると仮定し、その分布に対して平均および分散ベクトルを生成するために大きな言語モデルを訓練する。 本稿では,提案フレームワークの理論的基盤を提供し,既存の近接近似アルゴリズムにシームレスに統合して効率よく検索できることを示す。 我々は、幅広いデータセットで広範な実験を行い、競合する高密度検索モデルと比較して大幅に改善した。

Dense retrieval models use bi-encoder network architectures for learning query and document representations. These representations are often in the form of a vector representation and their similarities are often computed using the dot product function. In this paper, we propose a new representation learning framework for dense retrieval. Instead of learning a vector for each query and document, our framework learns a multivariate distribution and uses negative multivariate KL divergence to compute the similarity between distributions. For simplicity and efficiency reasons, we assume that the distributions are multivariate normals and then train large language models to produce mean and variance vectors for these distributions. We provide a theoretical foundation for the proposed framework and show that it can be seamlessly integrated into the existing approximate nearest neighbor algorithms to perform retrieval efficiently. We conduct an extensive suite of experiments on a wide range of datasets, and demonstrate significant improvements compared to competitive dense retrieval models.
翻訳日:2023-05-01 15:44:42 公開日:2023-04-27
# ニューラルインプシトリ・デンス・セマンティックSLAM

Neural Implicit Dense Semantic SLAM ( http://arxiv.org/abs/2304.14560v1 )

ライセンス: Link先を確認
Yasaman Haghighi, Suryansh Kumar, Jean Philippe Thiran, Luc Van Gool(参考訳) 本稿では,神経的暗黙的シーン表現の利点を活かし,室内シーンにおけるセマンティックビジュアル同時配置・マッピング(v-slam)問題を解くための効率的なオンラインフレームワークを提案する。 NICE-SLAMのような類似の路線上の既存の方法には、そのような重要な屋内シーン理解問題に使用するための重要な実用的制約がある。 この目的のために、RGB-D フレームを入力として仮定する既存の手法とは対照的に、現代の意味論的 V-SLAM に対する以下の命題を主張する。 (i) 厳密なシーンでは、3Dマッピング・パイプラインを用いて、頑健で正確なカメラの動きを計算できる。 (ii)ニューラルネットワークを用いて、sdf、セマンティクス、rgb、奥行きの濃密で多面的なシーン表現を効率的に提供する。 (iii)各フレームを使用するのではなく,キーフレームの集合が優れたシーン表現を学習するのに十分であることを示し,パイプラインの走行時間を改善する。 (iv)大規模シーンのパイプラインを拡張するために複数のローカルマッピングネットワークが利用可能である。 提案手法は, ノイズの多い深度測定でも, 精度の高いトラッキング, マッピング, セマンティックラベリングをテスト時に提供するという, 一般的なベンチマークデータセットの広範な実験を通じて示す。 後述の論文では,パイプラインがRGB画像入力に容易に拡張可能であることを示す。 全体として、提案したパイプラインは、多様なロボット視覚知覚と関連する問題を支援する重要なシーン理解タスクに対する好適な解決策を提供する。

This paper presents an efficient online framework to solve the well-known semantic Visual Simultaneous Localization and Mapping (V-SLAM) problem for indoor scenes leveraging the advantages of neural implicit scene representation. Existing methods on similar lines, such as NICE-SLAM, has some critical practical limitations to put to use for such an important indoor scene understanding problem. To this end, we contend for the following proposition for modern semantic V-SLAM contrary to existing methods assuming RGB-D frames as input (i) For a rigid scene, robust and accurate camera motion could be computed with disentangled tracking and 3D mapping pipeline. (ii) Using neural fields, a dense and multifaceted scene representation of SDF, semantics, RGB, and depth is provided memory efficiently. (iii) Rather than using every frame, we demonstrate that the set of keyframes is sufficient to learn excellent scene representation, thereby improving the pipeline's train time. (iv) Multiple local mapping networks could be used to extend the pipeline for large-scale scenes. We show via extensive experiments on several popular benchmark datasets that our approach offers accurate tracking, mapping, and semantic labeling at test time even with noisy and highly sparse depth measurements. Later in the paper, we show that our pipeline can easily extend to RGB image input. Overall, the proposed pipeline offers a favorable solution to an important scene understanding task that can assist in diverse robot visual perception and related problems.
翻訳日:2023-05-01 15:34:35 公開日:2023-04-27
# ViziQuerのビジュアルダイアグラム的クエリの概要と実装

Visual Diagrammatic Queries in ViziQuer: Overview and Implementation ( http://arxiv.org/abs/2304.14825v1 )

ライセンス: Link先を確認
J\=ulija Ov\v{c}i\c{n}\c{n}ikiva, Agris \v{S}ostaks, K\=arlis \v{C}er\=ans(参考訳) 知識グラフ(KG)は重要なデータ組織パラダイムとなっている。 KGから情報を取得するためのテキストクエリ言語、例えばRDF構造化データのためのSPARQLは、データアクセスプロセスに技術専門家を巻き込む手段を提供していない。 フォームベースと自然言語ベースのビジュアルクエリ形式は、データクエリプロセスへのユーザの関与を緩和する手段を提供する。 viziquerはリッチなデータクエリを記述するための視覚的なダイアグラム的な手段を提供する視覚的なクエリ表記とツールである。 本稿では,視覚的なビジケータ表記法をエンドユーザーの観点から検討し,概念的および技術的ソリューション(抽象構文モデルを含む,テキスト的クエリの生成モデルを含む)を記述し,視覚的なダイアグラム的クエリ表記法をテキスト的スパルプグラフ言語にマッピングすることにより,実際の知識グラフ上でリッチなビジュアルクエリを実行可能にする。 上記のソリューションは、複雑な視覚的表記を複雑なテキストに翻訳するモデルベースのアプローチの実行可能性を示しており、それらはviziquer言語の実装記述による意味論として機能し、viziquerツールコンテキストにおけるさらなるサービスのためのビルディングブロックを提供する。

Knowledge graphs (KG) have become an important data organization paradigm. The available textual query languages for information retrieval from KGs, as SPARQL for RDF-structured data, do not provide means for involving non-technical experts in the data access process. Visual query formalisms, alongside form-based and natural language-based ones, offer means for easing user involvement in the data querying process. ViziQuer is a visual query notation and tool offering visual diagrammatic means for describing rich data queries, involving optional and negation constructs, as well as aggregation and subqueries. In this paper we review the visual ViziQuer notation from the end-user point of view and describe the conceptual and technical solutions (including abstract syntax model, followed by a generation model for textual queries) that allow mapping of the visual diagrammatic query notation into the textual SPARQL language, thus enabling the execution of rich visual queries over the actual knowledge graphs. The described solutions demonstrate the viability of the model-based approach in translating complex visual notation into a complex textual one; they serve as semantics by implementation description of the ViziQuer language and provide building blocks for further services in the ViziQuer tool context.
翻訳日:2023-05-01 14:09:50 公開日:2023-04-27
# 類似性と感度からニューラルネットワークを認識する不確実性

Uncertainty Aware Neural Network from Similarity and Sensitivity ( http://arxiv.org/abs/2304.14925v1 )

ライセンス: Link先を確認
H M Dipu Kabir, Subrota Kumar Mondal, Sadia Khanam, Abbas Khosravi, Shafin Rahman, Mohammad Reza Chalak Qazani, Roohallah Alizadehsani, Houshyar Asadi, Shady Mohamed, Saeid Nahavandi, U Rajendra Acharya(参考訳) 研究者は、ニューラルネットワーク(NN)に基づく不確実性定量化(UQ)に対するいくつかのアプローチを提案している。 しかし、ほとんどのアプローチは強い仮定に基づいて開発されている。 不確かさの定量化アルゴリズムは入力領域ではしばしば性能が悪く、性能の悪い理由は不明である。 そこで本論文では,感性認識を伴う類似サンプルを考慮したニューラルネットワーク学習手法を提案する。 UQのためのNNトレーニング手法の提案では,まず,点予測のための浅いNNを訓練する。 そして、予測と目標の絶対差を計算し、その絶対差や絶対誤差を予測するために別のNNを訓練する。 平均絶対誤差の高い領域は高い不確実性を示す。 次のステップでは、トレーニングセットの各サンプルをひとつずつ選択し、予測とエラー感度の両方を計算する。 次に、感度を考慮した類似サンプルを選択し、類似サンプルの指標を保存する。 入力パラメータの出力がそのパラメータに高い感度を持つと、入力パラメータの範囲は狭くなる。 その後,類似標本に対する感度分布を考慮した初期不確実性境界(ub)を構築する。 初期不確実性境界からの予測間隔(PI)は、必要以上のサンプルをカバーする。 したがって、我々は境界補正NNを訓練する。 各サンプルに対してUBを見つけるためのすべてのステップに従うには、多くの計算とメモリアクセスが必要であるので、UB計算NNをトレーニングします。 ub計算nnは入力サンプルを取り、不確実性境界を提供する。 UB計算NNは提案手法の最終製品である。 提案されたメソッドのスクリプトは、以下のGitHubリポジトリで入手できる。

Researchers have proposed several approaches for neural network (NN) based uncertainty quantification (UQ). However, most of the approaches are developed considering strong assumptions. Uncertainty quantification algorithms often perform poorly in an input domain and the reason for poor performance remains unknown. Therefore, we present a neural network training method that considers similar samples with sensitivity awareness in this paper. In the proposed NN training method for UQ, first, we train a shallow NN for the point prediction. Then, we compute the absolute differences between prediction and targets and train another NN for predicting those absolute differences or absolute errors. Domains with high average absolute errors represent a high uncertainty. In the next step, we select each sample in the training set one by one and compute both prediction and error sensitivities. Then we select similar samples with sensitivity consideration and save indexes of similar samples. The ranges of an input parameter become narrower when the output is highly sensitive to that parameter. After that, we construct initial uncertainty bounds (UB) by considering the distribution of sensitivity aware similar samples. Prediction intervals (PIs) from initial uncertainty bounds are larger and cover more samples than required. Therefore, we train bound correction NN. As following all the steps for finding UB for each sample requires a lot of computation and memory access, we train a UB computation NN. The UB computation NN takes an input sample and provides an uncertainty bound. The UB computation NN is the final product of the proposed approach. Scripts of the proposed method are available in the following GitHub repository: github.com/dipuk0506/UQ
翻訳日:2023-05-01 13:42:34 公開日:2023-04-27
# GPT-3.5およびGPT-4による医療提供における現実的情報提供支援の評価

Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery ( http://arxiv.org/abs/2304.13714v2 )

ライセンス: Link先を確認
Debadutta Dash, Rahul Thapa, Juan M. Banda, Akshay Swaminathan, Morgan Cheatham, Mehr Kashyap, Nikesh Kotecha, Jonathan H. Chen, Saurabh Gombar, Lance Downing, Rachel Pedreira, Ethan Goh, Angel Arnaout, Garret Kenn Morris, Honor Magon, Matthew P Lungren, Eric Horvitz, Nigam H. Shah(参考訳) 医療における大規模言語モデル(llm)の利用への関心は高まっているが、現在の調査は臨床現場におけるllmの実用性と安全性を評価していない。 本研究の目的は,2つのLSMが医師が提出した情報ニーズを,安全で調和した方法で情報相談サービスに提供できるかどうかを判断することであった。 GPT-3.5とGPT-4は簡単なプロンプトで60質問が提出された。 12名の医師が,LCM反応による患者被害の可能性を評価し,インフォマティクス・コンサルテーション・サービスからの報告と一致した。 医師の評価は多数決でまとめられた。 疑問の余地がなかったため、ほとんどの医師はLSM反応が有害であると判断した。 GPT-3.5では,8質問に対する回答はインフォマティクス・コンサルティング・レポートと一致し,20問,9問は評価できなかった。 29の回答があり、多数が"agree"、"disagree"、"unable to assess"に答えなかった。 GPT-4では,13問が一致し,15問が不一致,3問が評価できなかった。 35の回答があり、多数派はいなかった。 両LSMの反応は概ね過度な害を伴わないが, 情報相談サービスからの回答に一致した回答は20%未満, 幻覚的参照を含む回答, 医師は被害を構成するものについて意見が分かれた。 これらの結果は, LLMは安全かつ信頼性の高い応答を提供することができるが, 特定の質問の特定の情報要求を満たすことができないことが多いことを示唆している。 医療現場におけるllmの有用性に関する決定的な評価には、汎用モデルの迅速なエンジニアリング、キャリブレーション、カスタマイズに関するさらなる研究が必要である。

Despite growing interest in using large language models (LLMs) in healthcare, current explorations do not assess the real-world utility and safety of LLMs in clinical settings. Our objective was to determine whether two LLMs can serve information needs submitted by physicians as questions to an informatics consultation service in a safe and concordant manner. Sixty six questions from an informatics consult service were submitted to GPT-3.5 and GPT-4 via simple prompts. 12 physicians assessed the LLM responses' possibility of patient harm and concordance with existing reports from an informatics consultation service. Physician assessments were summarized based on majority vote. For no questions did a majority of physicians deem either LLM response as harmful. For GPT-3.5, responses to 8 questions were concordant with the informatics consult report, 20 discordant, and 9 were unable to be assessed. There were 29 responses with no majority on "Agree", "Disagree", and "Unable to assess". For GPT-4, responses to 13 questions were concordant, 15 discordant, and 3 were unable to be assessed. There were 35 responses with no majority. Responses from both LLMs were largely devoid of overt harm, but less than 20% of the responses agreed with an answer from an informatics consultation service, responses contained hallucinated references, and physicians were divided on what constitutes harm. These results suggest that while general purpose LLMs are able to provide safe and credible responses, they often do not meet the specific information need of a given question. A definitive evaluation of the usefulness of LLMs in healthcare settings will likely require additional research on prompt engineering, calibration, and custom-tailoring of general purpose models.
翻訳日:2023-05-01 11:10:06 公開日:2023-04-27
# Quenched Kitaev Chain: Gravitational Collapse のアナログモデル

Quenched Kitaev Chain: Analogous model of Gravitational Collapse ( http://arxiv.org/abs/1808.07742v2 )

ライセンス: Link先を確認
Sandra Byju (NorthEastern Univ.), Kinjalk Lochan (IISER Mohali), and S. Shankaranarayanan (IIT Bombay)(参考訳) 平衡初期状態から突然のクエンチを経て進化する孤立した自由フェルミオン鎖の一般熱分解について検討した。 フェルミオン鎖が2つの結合鎖に分割されるクエンチを考える。 我々は, 局所観測器の進化, 占有数, 近接ホッピング, 情報共有, および観測器のリラクゼーションの研究に焦点をあて, 一般の非相互作用モデルや自由フェルミオンモデルがggeに緩和しないという議論があるが, 熱力学的限界におけるシステムの一般化ギブスアンサンブルを導いた。 量子系で結合されたリーブ・ロビンソンによって吸収される突然のクエンチにより、フェルミオン格子鎖に沿って観測可能な粒子の進化によって形成された光円錐を得る。 また,システムの本質的特徴を捉えるシンプルなモデルについても解析的に検討する。 我々の分析は、クエンチが十分に強くなると、システム内部の相互作用はあまり重要でないことを強く示唆している。

We investigate generalized thermalization in an isolated free Fermionic chain evolving from an out of equilibrium initial state through a sudden quench. We consider the quench where a Fermionic chain is broken into two disjoint chains. We focus on the evolution of the local observables namely, occupation number, nearest neighbor hopping, information sharing and out-of-time-order correlations after the quench and study the relaxation of the observable, leading to generalized Gibbs ensemble for the system in the thermodynamic limit though it has been argued that non-interacting or free Fermionic models in general do not relax to GGE. We obtain the light cone formed by the evolution of the observables along the Fermionic lattice chain due to the sudden quench which abides by the Lieb-Robinson bound in quantum systems. We also analytically study a simpler model which captures the essential features of the system. Our analysis strongly suggests that the internal interactions within the system do not remain of much importance once the quench is sufficiently strong.
翻訳日:2023-04-28 22:16:43 公開日:2023-04-27
# $H \to WW$における量子エンタングルメントの実験的検討

Laboratory-frame tests of quantum entanglement in $H \to WW$ ( http://arxiv.org/abs/2209.14033v2 )

ライセンス: Link先を確認
J. A. Aguilar-Saavedra(参考訳) ヒッグス粒子の崩壊による2つの$W$ボソン間の量子絡み合いを、荷電レプトン$\ell=e,\mu$のみを含む実験用フレーム観測器を用いてジレプトンチャネル$H \to WW \to \ell \nu \ell \nu$で調べることができる。 LHCのATLASとCMSの協力によって既に測定されているジレンプトン不変質量分布は、理論的体系を含めると、統計的感度が7\sigma$と7\sigma$と6\sigma$の量子エンタングルメントを観測することができる。 副生成物として、$W$静止フレーム(4次元)角分布、$H \to WW$減衰振幅、スピン相関係数の関係を記述する。

Quantum entanglement between the two $W$ bosons resulting from the decay of a Higgs boson may be investigated in the dilepton channel $H \to WW \to \ell \nu \ell \nu$ using laboratory-frame observables that only involve the charged leptons $\ell=e,\mu$. The dilepton invariant mass distribution, already measured by the ATLAS and CMS Collaborations at the LHC, can be used to observe the quantum entanglement of the $WW$ pair with a statistical sensitivity of $7\sigma$ with Run 2 data, and of $6\sigma$ when including theoretical systematics. As a by-product, the relation between $W$ rest frame (four-dimensional) angular distributions, $H \to WW$ decay amplitudes, and spin correlation coefficients, is written down.
翻訳日:2023-04-28 21:54:50 公開日:2023-04-27
# 安定化符号の代数

The Algebra for Stabilizer Codes ( http://arxiv.org/abs/2304.10584v2 )

ライセンス: Link先を確認
Cole Comfort(参考訳) 奇数素数次元qudit純安定状態と有限次元シンプレクティックな$\mathbb{f}_p$-vector空間のアフィンラグランジアン部分空間の間には単射が存在する。 安定化形式論の言語において、フルランク安定化テーブルーはちょうどアフィンラグランジュ部分空間の基底である。 この対応は、安定化回路の合成がアフィン部分空間の関係合成となり、テンソル積が直和となるpropsの同型に拡張される。 本稿では,安定化回路とtableaus間の対応を混合設定に拡張し,アフィン共等方部分空間としての安定化回路符号(奇数素qudit次元/立方体css符号のみ)について述べる。 安定化器符号のプロジェクタを分割することにより,エラー検出プロトコルとエラー訂正プロトコルをアフィン古典的な処理能力で復元することを示す。

There is a bijection between odd prime dimensional qudit pure stabilizer states modulo invertible scalars and affine Lagrangian subspaces of finite dimensional symplectic $\mathbb{F}_p$-vector spaces. In the language of the stabilizer formalism, full rank stabilizer tableaus are exactly the bases for affine Lagrangian subspaces. This correspondence extends to an isomorphism of props where the composition of stabilizer circuits becomes the relational composition of affine subspaces and the tensor product becomes the direct sum. In this paper, we extend this correspondence between stabilizer circuits and tableaus to the mixed setting; by regarding stabilizer codes as affine coisotropic subspaces (again only in odd prime qudit dimension/for qubit CSS codes). We show that by splitting the projector for a stabilizer code we recover the error detection protocol and the error correction protocol with affine classical processing power.
翻訳日:2023-04-28 21:46:58 公開日:2023-04-27
# 一次元擬調和発振器:古典論と量子情報理論

One-dimensional pseudoharmonic oscillator: classical remarks and quantum-information theory ( http://arxiv.org/abs/2304.06428v2 )

ライセンス: Link先を確認
O. Olendski(参考訳) 位置の正の二次関数と逆二次関数の組み合わせであるポテンシャルにおける半無限直線に沿った動きは、量子情報特性の解析に重点が置かれている。 特に、パラメータ $\mathfrak{a}$ は、半調和振動子 (HHO) を$\mathfrak{a}=0$ で変化させることで、巨大な$\mathfrak{a}$ の極限における二重周波数発振子 (DFO) の完全な対称性に変化する。 Quantum consideration focuses on the analysis of information-theoretical measures, such as standard deviations, Shannon, R\'{e}nyi and Tsallis entropies together with Fisher information, Onicescu energy and non--Gaussianity. For doing this, among others, a method of calculating momentum waveforms is proposed that results in their analytic expressions in form of the confluent hypergeometric functions. Increasing parameter $\mathfrak{a}$ modifies the measures in such a way that they gradually transform into those corresponding to the DFO what, in particular, means that the lowest orbital saturates Heisenberg, Shannon, R\'{e}nyi and Tsallis uncertainty relations with the corresponding position and momentum non--Gaussianities turning to zero. 単純な式は、次元のないR\'{e}nyi/Tsallis係数の半無限範囲の軌道非依存の低しきい値から導かれ、これらの1パラメータエントロピーの運動量成分は、HHOにおいて1/4$と0において、$\mathfrak{a}$が無限大となる傾向にあることを示す。 得られた数学的結果の物理的解釈を提供する。

Motion along semi-infinite straight line in a potential that is a combination of positive quadratic and inverse quadratic functions of the position is considered with the emphasis on the analysis of its quantum-information properties. Classical measure of symmetry of the potential is proposed and its dependence on the particle energy and the factor $\mathfrak{a}$ describing a relative strength of its constituents is described; in particular, it is shown that a variation of the parameter $\mathfrak{a}$ alters the shape from the half-harmonic oscillator (HHO) at $\mathfrak{a}=0$ to the perfectly symmetric one of the double frequency oscillator (DFO) in the limit of huge $\mathfrak{a}$. Quantum consideration focuses on the analysis of information-theoretical measures, such as standard deviations, Shannon, R\'{e}nyi and Tsallis entropies together with Fisher information, Onicescu energy and non--Gaussianity. For doing this, among others, a method of calculating momentum waveforms is proposed that results in their analytic expressions in form of the confluent hypergeometric functions. Increasing parameter $\mathfrak{a}$ modifies the measures in such a way that they gradually transform into those corresponding to the DFO what, in particular, means that the lowest orbital saturates Heisenberg, Shannon, R\'{e}nyi and Tsallis uncertainty relations with the corresponding position and momentum non--Gaussianities turning to zero. A simple expression is derived of the orbital-independent lower threshold of the semi-infinite range of the dimensionless R\'{e}nyi/Tsallis coefficient where momentum components of these one-parameter entropies exist which shows that it varies between $1/4$ at HHO and zero when $\mathfrak{a}$ tends to infinity. Physical interpretation of obtained mathematical results is provided.
翻訳日:2023-04-28 21:46:43 公開日:2023-04-27
# 準局所代数のDHR双加群と対称量子セルオートマトン

DHR bimodules of quasi-local algebras and symmetric quantum cellular automata ( http://arxiv.org/abs/2304.00068v2 )

ライセンス: Link先を確認
Corey Jones(参考訳) 離散距離空間上の c*-代数のネットに対して、dhr テンソル圏の双加群バージョンを導入し、有界なスプレッドを持つ同型の下での準局所代数の不変性を示す。 格子 $L\subseteq \mathbb{R}^{n}$ 上の抽象スピン系は、ハーグ双対性の弱いバージョンを満たすため、これらの圏のブレイディングを構成する。 一般理論を(圏)対称性の下での格子不変量上の作用素の$A$に応用すると、対称量子セルオートマトン(QCA)の群から、カーネル内の対称有限深さ回路を含む$\textbf{Aut}_{br}(\textbf{DHR}(A))$への準同型が得られる。 融合圏対称性 $\mathcal{D}$ を持つスピン鎖に対して、対称作用素の準局所代数の DHR 圏はドリンフェルト中心 $\mathcal{Z}(\mathcal{D})$ と同値であることを示す。 これは、二重スピンフリップ作用 $\mathbb{Z}/2\mathbb{Z}\times \mathbb{Z}/2\mathbb{Z}\curvearrowright \mathbb{C}^{2}\otimes \mathbb{C}^{2}$ に対して、1D における対称 QCA 変調対称有限深さ回路の群が$S_{3}$ のコピーを含んでいることを示し、したがって対称性のない場合とは対照的に非アーベルである。

For a net of C*-algebras on a discrete metric space, we introduce a bimodule version of the DHR tensor category, and show it is an invariant of quasi-local algebras under isomorphisms with bounded spread. For abstract spin systems on a lattice $L\subseteq \mathbb{R}^{n}$ satisfying a weak version of Haag duality, we construct a braiding on these categories. Applying the general theory to quasi-local algebras $A$ of operators on a lattice invariant under a (categorical) symmetry, we obtain a homomorphism from the group of symmetric quantum cellular automata (QCA) to $\textbf{Aut}_{br}(\textbf{DHR}(A))$, containing symmetric finite depth circuits in the kernel. For a spin chain with fusion categorical symmetry $\mathcal{D}$, we show the DHR category of the quasi-local algebra of symmetric operators is equivalent to the Drinfeld center $\mathcal{Z}(\mathcal{D})$ . We use this to show that for the double spin flip action $\mathbb{Z}/2\mathbb{Z}\times \mathbb{Z}/2\mathbb{Z}\curvearrowright \mathbb{C}^{2}\otimes \mathbb{C}^{2}$, the group of symmetric QCA modulo symmetric finite depth circuits in 1D contains a copy of $S_{3}$, hence is non-abelian, in contrast to the case with no symmetry.
翻訳日:2023-04-28 21:46:06 公開日:2023-04-27
# 数値計算のためのChatGPT

ChatGPT for Programming Numerical Methods ( http://arxiv.org/abs/2303.12093v3 )

ライセンス: Link先を確認
Ali Kashefi, Tapan Mukerji(参考訳) ChatGPTはOpenAI社によって最近リリースされた大きな言語モデルである。 本稿では,ChatGPTによる数値アルゴリズムのプログラミング能力について検討する。 具体的には,異なるプログラミング言語における数値アルゴリズムのコード生成,ユーザによる記述コードのデバッグと改善,数値コードの欠落部分の完了,他のプログラミング言語で利用可能なコード書き直し,シリアルコードの並列化など,GhatGPTの能力について検討する。 さらに、ChatGPTが人間や機械によって書かれたコードかどうかを評価する。 この目的を達成するために,ポアソン方程式,拡散方程式,非圧縮ナビエ-ストークス方程式,圧縮不可視流,固有値問題,方程式の線形系の解法,スパース行列の保存など,様々な数学的問題を考える。 さらに、物理インフォームドニューラルネットワークや畳み込みニューラルネットワークなどの科学機械学習と計算物理学への応用を実証する。 これらの例を通して、ChatGPTの成功、失敗、課題について調査する。 障害の例としては、特異行列の生成、非互換サイズの配列上の演算、比較的長いコードに対するプログラミング割り込みなどがある。 その結果、chatgptは異なるプログラミング言語で数値アルゴリズムをうまくプログラムできることが示唆されたが、この機械学習モデルのさらなる改善を必要とするいくつかの制限と課題が存在する。

ChatGPT is a large language model recently released by the OpenAI company. In this technical report, we explore for the first time the capability of ChatGPT for programming numerical algorithms. Specifically, we examine the capability of GhatGPT for generating codes for numerical algorithms in different programming languages, for debugging and improving written codes by users, for completing missed parts of numerical codes, rewriting available codes in other programming languages, and for parallelizing serial codes. Additionally, we assess if ChatGPT can recognize if given codes are written by humans or machines. To reach this goal, we consider a variety of mathematical problems such as the Poisson equation, the diffusion equation, the incompressible Navier-Stokes equations, compressible inviscid flow, eigenvalue problems, solving linear systems of equations, storing sparse matrices, etc. Furthermore, we exemplify scientific machine learning such as physics-informed neural networks and convolutional neural networks with applications to computational physics. Through these examples, we investigate the successes, failures, and challenges of ChatGPT. Examples of failures are producing singular matrices, operations on arrays with incompatible sizes, programming interruption for relatively long codes, etc. Our outcomes suggest that ChatGPT can successfully program numerical algorithms in different programming languages, but certain limitations and challenges exist that require further improvement of this machine learning model.
翻訳日:2023-04-28 21:45:32 公開日:2023-04-27
# 球面上の量子タルボット効果について

About the quantum Talbot effect on the sphere ( http://arxiv.org/abs/2302.11063v2 )

ライセンス: Link先を確認
Fernando Chamizo and Osvaldo Santillan(参考訳) 波動関数の最初の局所化されたプロファイルを持つ円上のシュル=オディンガー方程式は、粒子の確率密度が有理時間に部分的に再現されるような再生や複製を引き起こすことが知られている。 一般解の畳み込み形式の結果、分数的に定数な初期波動関数が有理時間においても分数的に定数であることが推定される。 球面の代わりに、この分割的な復活は必ずしも起こらないことが知られており、確かに波動関数は有理時間である特定の場所で特異となる。 同じ問題を研究するのが望ましいかもしれないが、初期条件が分割定数関数の代わりに局所化されたディラックデルタであるため、これは現在の研究の目的である。 ガウス和の性質とともにルジャンドル多項式に対するある種の和公式を用いることで、球面上のリバイバルは特定の場所の有理時間に起こり、結果として得られる波動関数の特異点の構造は詳細に特徴づけられることが分かる。 また、円の文脈における影の谷の前に名づけられた密度が消滅する領域の部分的研究をここで開始する。 円の場合とは異なり、これらの領域は直線ではなく、球面に沿った特定の点の集合であることが示唆される。 この集合の正確な形式に関する予想が述べられ、その背景にある直観が明確になる。

The Schr\"odinger equation on a circle with an initially localized profile of the wave function is known to give rise to revivals or replications, where the probability density of the particle is partially reproduced at rational times. As a consequence of the convolutional form of the general solution it is deduced that a piecewise constant initial wave function remains piecewise constant at rational times as well. For a sphere instead, it is known that this piecewise revival does not necessarily occur, indeed the wave function becomes singular at some specific locations at rational times. It may be desirable to study the same problem, but with an initial condition being a localized Dirac delta instead of a piecewise constant function, and this is the purpose of the present work. By use of certain summation formulas for the Legendre polynomials together with properties of Gaussian sums, it is found that revivals on the sphere occur at rational times for some specific locations, and the structure of singularities of the resulting wave function is characterized in detail. In addition, a partial study of the regions where the density vanishes, named before valley of shadows in the context of the circle, is initiated here. It is suggested that, differently from the circle case, these regions are not lines but instead some specific set of points along the sphere. A conjecture about the precise form of this set is stated and the intuition behind it is clarified.
翻訳日:2023-04-28 21:45:09 公開日:2023-04-27
# 等変平衡近似器は有益か?

Are Equivariant Equilibrium Approximators Beneficial? ( http://arxiv.org/abs/2301.11481v2 )

ライセンス: Link先を確認
Zhijian Duan, Yunxuan Ma, Xiaotie Deng(参考訳) 近年,ニューラルネットワークを用いてゲーム表現から平衡を予測する関数近似を通じて,ナッシュ平衡(NE),相関平衡(CE),粗相関平衡(CCE)を近似することで,顕著な進展が見られた。 さらに、同変アーキテクチャは正規形式ゲームにおけるそのような平衡近似器の設計に広く採用されている。 本稿では,同変平衡近似器の利点と限界を理論的に特徴づける。 この利点のために、一般的なものよりもより優れた一般化性を示し、ペイオフ分布が置換不変である場合により良い近似を達成できることを示す。 限界については、均衡選択と社会福祉の観点からそれらの欠点について議論する。 この結果は平衡近似器における等分散の役割を理解するのに役立つ。

Recently, remarkable progress has been made by approximating Nash equilibrium (NE), correlated equilibrium (CE), and coarse correlated equilibrium (CCE) through function approximation that trains a neural network to predict equilibria from game representations. Furthermore, equivariant architectures are widely adopted in designing such equilibrium approximators in normal-form games. In this paper, we theoretically characterize benefits and limitations of equivariant equilibrium approximators. For the benefits, we show that they enjoy better generalizability than general ones and can achieve better approximations when the payoff distribution is permutation-invariant. For the limitations, we discuss their drawbacks in terms of equilibrium selection and social welfare. Together, our results help to understand the role of equivariance in equilibrium approximators.
翻訳日:2023-04-28 21:44:18 公開日:2023-04-27
# 深いRプログラミング

Deep R Programming ( http://arxiv.org/abs/2301.01188v2 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) Deep R Programmingは、データサイエンス(統計計算、グラフィックス、機械学習、データラングリング、分析)で最も人気のある言語の1つである。 基本言語を深く紹介し、この強力な環境の独立ユーザになりたい野心的な学生、実践者、研究者をターゲットにしている。 この教科書は非営利プロジェクトです。 オンライン版とPDF版は <https://deepr.gagolewski.com/> で無料で入手できる。 この初期ドラフトは役に立つことを期待して配布されている。

Deep R Programming is a comprehensive course on one of the most popular languages in data science (statistical computing, graphics, machine learning, data wrangling and analytics). It introduces the base language in-depth and is aimed at ambitious students, practitioners, and researchers who would like to become independent users of this powerful environment. This textbook is a non-profit project. Its online and PDF versions are freely available at <https://deepr.gagolewski.com/>. This early draft is distributed in the hope that it will be useful.
翻訳日:2023-04-28 21:44:08 公開日:2023-04-27
# アルミニウム電解セル識別のためのスキップ接続を有するスパースニューラルネットワーク

Sparse neural networks with skip-connections for identification of aluminum electrolysis cell ( http://arxiv.org/abs/2301.00582v2 )

ライセンス: Link先を確認
Erlend Torje Berg Lundby, Haakon Robinsson, Adil Rasheed, Ivar Johan Halvorsen, Jan Tommy Gravdahl(参考訳) モデルがデータから直接複雑な入出力関係をキャプチャできるため、ニューラルネットワークは非線形システムの識別に急速に関心を寄せている。 しかし、このアプローチの柔軟性にもかかわらず、この文脈ではこれらのモデルの安全性や、潜在的に高価なデータを大量に必要とすることへの懸念が残っている。 アルミニウム電解は極めて非線形な製造プロセスであり、ほとんどのデータは手動でサンプリングする必要があるため、サンプリングプロセスは高価で不十分である。 状態変数の頻繁な測定では,長期予測の精度と開ループ安定性が非常に重要である。 標準的なニューラルネットワークは、限られたトレーニングデータで安定した長期予測を提供するのに苦労している。 本研究では,連結型スキップ接続とスペーサを動機とする$\ell_1$正規化の組み合わせが,短い,中,長い予測地平線による予測のオープンループ安定性と精度に与える影響について検討する。 ケーススタディはアルミニウム電解セルの質量とエネルギー収支を表す高次元および非線形シミュレータを用いて行った。 提案したモデル構造は、入力層と全ての断続層から出力層への連結スキップ接続を含み、InputSkipと呼ばれる。 $\ell_1$ regularized InputSkipはスパースInputSkipと呼ばれる。 その結果,Sparse InputSkipは,オープンループ安定性と長期予測精度に関して,高密度かつ疎度なフィードフォワードニューラルネットワークと高密度なInputSkipより優れていた。 モデルがすべてのサイズのデータセット(小、中、大型のトレーニングセット)と、すべての予測水平線(短、中、長期予測水平線)でトレーニングされる場合、結果は重要である。

Neural networks are rapidly gaining interest in nonlinear system identification due to the model's ability to capture complex input-output relations directly from data. However, despite the flexibility of the approach, there are still concerns about the safety of these models in this context, as well as the need for large amounts of potentially expensive data. Aluminum electrolysis is a highly nonlinear production process, and most of the data must be sampled manually, making the sampling process expensive and infrequent. In the case of infrequent measurements of state variables, the accuracy and open-loop stability of the long-term predictions become highly important. Standard neural networks struggle to provide stable long-term predictions with limited training data. In this work, we investigate the effect of combining concatenated skip-connections and the sparsity-promoting $\ell_1$ regularization on the open-loop stability and accuracy of forecasts with short, medium, and long prediction horizons. The case study is conducted on a high-dimensional and nonlinear simulator representing an aluminum electrolysis cell's mass and energy balance. The proposed model structure contains concatenated skip connections from the input layer and all intermittent layers to the output layer, referred to as InputSkip. $\ell_1$ regularized InputSkip is called sparse InputSkip. The results show that sparse InputSkip outperforms dense and sparse standard feedforward neural networks and dense InputSkip regarding open-loop stability and long-term predictive accuracy. The results are significant when models are trained on datasets of all sizes (small, medium, and large training sets) and for all prediction horizons (short, medium, and long prediction horizons.)
翻訳日:2023-04-28 21:43:58 公開日:2023-04-27
# 高次元におけるミス種別-ロバスト確率自由推論

Misspecification-robust likelihood-free inference in high dimensions ( http://arxiv.org/abs/2002.09377v3 )

ライセンス: Link先を確認
Owen Thomas, Raquel S\'a-Le\~ao, Herm\'inia de Lencastre, Samuel Kaski, Jukka Corander, Henri Pesonen(参考訳) シミュレータに基づく統計モデルの確率的推論は、その初期段階から実践者にとって有用なツールへと急速に発展してきた。 しかし、一握り以上のパラメータを持つモデルは、一般に近似ベイズ計算(abc)に基づく推論の課題として残されている。 高次元のパラメータ空間において確率的推論を行う可能性を高めるため,パラメータ空間の効率的な探索を可能にする確率論的手法として,一般のベイズ最適化に基づく近似偏差関数の拡張を提案する。 本手法は,各パラメータの分離獲得関数と不一致を用いて,高次元パラメータ空間の計算スケーラビリティを実現する。 効率の良い添加物獲得構造と指数損失-類似性とを組み合わせることにより、全モデルパラメータの辺縁後方分布の誤特定-乱れ特性を与える。 本手法は,100次元空間における標準例による計算効率のよい推論を実現し,既存のABC法と比較した。 さらに,30次元パラメータ空間におけるひずみ競合に関する生物学的コヒーレントな結果を提供する実データ集合に細菌の伝達力学モデルを適用することにより,このアプローチの可能性を示す。

Likelihood-free inference for simulator-based statistical models has developed rapidly from its infancy to a useful tool for practitioners. However, models with more than a handful of parameters still generally remain a challenge for the Approximate Bayesian Computation (ABC) based inference. To advance the possibilities for performing likelihood-free inference in higher dimensional parameter spaces, we introduce an extension of the popular Bayesian optimisation based approach to approximate discrepancy functions in a probabilistic manner which lends itself to an efficient exploration of the parameter space. Our approach achieves computational scalability for higher dimensional parameter spaces by using separate acquisition functions and discrepancies for each parameter. The efficient additive acquisition structure is combined with exponentiated loss -likelihood to provide a misspecification-robust characterisation of the marginal posterior distribution for all model parameters. The method successfully performs computationally efficient inference in a 100-dimensional space on canonical examples and compares favourably to existing modularised ABC methods. We further illustrate the potential of this approach by fitting a bacterial transmission dynamics model to a real data set, which provides biologically coherent results on strain competition in a 30-dimensional parameter space.
翻訳日:2023-04-28 18:05:46 公開日:2023-04-27
# シンプルなアーキテクチャを使って、より深くより複雑なアーキテクチャを上回ります。

Lets keep it simple, Using simple architectures to outperform deeper and more complex architectures ( http://arxiv.org/abs/1608.06037v8 )

ライセンス: Link先を確認
Seyyed Hossein Hasanpour, Mohammad Rouhani, Mohsen Fayyaz, Mohammad Sabokrou(参考訳) alexnet、vggnet、resnet、googlenetなどの主要な勝利畳み込みニューラルネットワーク(cnns)には、数千から数億のパラメータが含まれており、かなりの計算量とメモリオーバーヘッドを課している。 これにより、トレーニング、最適化、メモリ効率の実用性が制限される。 反対に、この問題に対処するために提案されている軽量アーキテクチャは、主に低い精度に苦しむ。 これらの非効率性は主にアドホックな手順に従うことに由来する。 我々はSimpleNetと呼ばれるシンプルなアーキテクチャを提案し、その設計原則を実証的に示し、十分に設計されながらシンプルで合理的に深いアーキテクチャはより深く複雑なアーキテクチャと同等に機能することを示した。 SimpleNetは計算/メモリ効率と精度のトレードオフを提供する。 私たちのシンプルな13層アーキテクチャは、vggnet、resnet、googlenetといった、これまでよく知られたベンチマークで知られていた、より深く複雑なアーキテクチャのほとんどを上回っています。 これは、組み込みシステムや計算とメモリの制限のあるシステムにとって非常に便利である。 CIFAR10はMNISTの最先端に近づき,CIFAR100とSVHNの競争結果よりも高い性能を示した。 また、VGGNetのようなより大きく深いアーキテクチャや、ImageNetデータセットで人気のあるResNetsなどよりも優れています。 モデルは、https://github.com/Coderx7/SimpleNetで利用可能である。

Major winning Convolutional Neural Networks (CNNs), such as AlexNet, VGGNet, ResNet, GoogleNet, include tens to hundreds of millions of parameters, which impose considerable computation and memory overhead. This limits their practical use for training, optimization and memory efficiency. On the contrary, light-weight architectures, being proposed to address this issue, mainly suffer from low accuracy. These inefficiencies mostly stem from following an ad hoc procedure. We propose a simple architecture, called SimpleNet, based on a set of designing principles, with which we empirically show, a well-crafted yet simple and reasonably deep architecture can perform on par with deeper and more complex architectures. SimpleNet provides a good tradeoff between the computation/memory efficiency and the accuracy. Our simple 13-layer architecture outperforms most of the deeper and complex architectures to date such as VGGNet, ResNet, and GoogleNet on several well-known benchmarks while having 2 to 25 times fewer number of parameters and operations. This makes it very handy for embedded systems or systems with computational and memory limitations. We achieved state-of-the-art result on CIFAR10 outperforming several heavier architectures, near state of the art on MNIST and competitive results on CIFAR100 and SVHN. We also outperformed the much larger and deeper architectures such as VGGNet and popular variants of ResNets among others on the ImageNet dataset. Models are made available at: https://github.com/Coderx7/SimpleNet
翻訳日:2023-04-28 18:05:27 公開日:2023-04-27
# FedBoosting: テキスト認識のためのグラディエント保護ブースティングによるフェデレートラーニング

FedBoosting: Federated Learning with Gradient Protected Boosting for Text Recognition ( http://arxiv.org/abs/2007.07296v4 )

ライセンス: Link先を確認
Hanchi Ren, Jingjing Deng, Xianghua Xie, Xiaoke Ma and Yichuan Wang(参考訳) 典型的な機械学習のアプローチでは、モデルトレーニングのための集中型データが必要だが、プライバシや勾配保護などの理由から、データ共有の制限がある場合には不可能だ。 最近提案されたフェデレートラーニング(FL)フレームワークは、データの集中化やデータオーナ間の共有なしに、共有モデルを協調的に学習することを可能にする。 しかし,本論文では,非独立性および非独立性分散(Non-IID)データ,特にフェデレート平均化(FedAvg)戦略が重み分散現象に起因する場合に,関節モデルの一般化能力が低いことを示す。 そこで本研究では,一般化と勾配リークの問題に対処し,勾配に基づく最適化の高速化を実現するために,FLの高速化アルゴリズムを提案する。 さらに,準同型暗号 (he) と微分プライバシー (dp) を用いたセキュアな勾配共有プロトコルを導入し,勾配漏洩攻撃を防御し,スケーラブルでないペアワイズ暗号化を回避した。 提案手法は,視覚的テキスト認識タスクにおいて,予測精度と実行時間効率の両方において顕著な改善が達成されることを示す。

Typical machine learning approaches require centralized data for model training, which may not be possible where restrictions on data sharing are in place due to, for instance, privacy and gradient protection. The recently proposed Federated Learning (FL) framework allows learning a shared model collaboratively without data being centralized or shared among data owners. However, we show in this paper that the generalization ability of the joint model is poor on Non-Independent and Non-Identically Distributed (Non-IID) data, particularly when the Federated Averaging (FedAvg) strategy is used due to the weight divergence phenomenon. Hence, we propose a novel boosting algorithm for FL to address both the generalization and gradient leakage issues, as well as achieve faster convergence in gradient-based optimization. In addition, a secure gradient sharing protocol using Homomorphic Encryption (HE) and Differential Privacy (DP) is introduced to defend against gradient leakage attack and avoid pairwise encryption that is not scalable. We demonstrate the proposed Federated Boosting (FedBoosting) method achieves noticeable improvements in both prediction accuracy and run-time efficiency in a visual text recognition task on public benchmark.
翻訳日:2023-04-28 18:01:17 公開日:2023-04-27
# リーマン多様体上のシュタイン法への拡散的アプローチ

A diffusion approach to Stein's method on Riemannian manifolds ( http://arxiv.org/abs/2003.11497v3 )

ライセンス: Link先を確認
Huiling Le, Alexander Lewis, Karthik Bharath and Christopher Fallaize(参考訳) 我々は、リーマン多様体 $\mathbf m$ 上で定義される確率測度上の積分計量を境界化するスタインの方法を開発するアプローチを詳述する。 我々のアプローチは、ターゲット不変測度を持つ$\mathbf M$上の拡散の生成元と、その特徴付けスタイン作用素の関係を利用する。 我々は、異なる出発点を持つそのような拡散の対を考え、その対の間の距離過程の解析を通じて、スタイン方程式とその微分に解を束縛するシュタイン因子を導出する。 スタイン因子は曲率依存項を含み、現在$\mathbb r^m$ で得られるものまで減少し、さらに$\mathbf m$ が平坦多様体であるとき、$\mathbb r^m$ の境界は有効であることを意味する。

We detail an approach to develop Stein's method for bounding integral metrics on probability measures defined on a Riemannian manifold $\mathbf M$. Our approach exploits the relationship between the generator of a diffusion on $\mathbf M$ with target invariant measure and its characterising Stein operator. We consider a pair of such diffusions with different starting points, and through analysis of the distance process between the pair, derive Stein factors, which bound the solution to the Stein equation and its derivatives. The Stein factors contain curvature-dependent terms and reduce to those currently available for $\mathbb R^m$, and moreover imply that the bounds for $\mathbb R^m$ remain valid when $\mathbf M$ is a flat manifold
翻訳日:2023-04-28 18:00:57 公開日:2023-04-27
# 室内毒殺対策としての非互換性クラスタリング

Incompatibility Clustering as a Defense Against Backdoor Poisoning Attacks ( http://arxiv.org/abs/2105.03692v4 )

ライセンス: Link先を確認
Charles Jin, Melinda Sun, Martin Rinard(参考訳) モデルトレーニング中に出現するデータのサブセット間の非互換性特性に基づく,新たなクラスタリング機構を提案する。 このメカニズムはデータセットを自身にのみ一般化されたサブセットに分割する。つまり、あるサブセットでのトレーニングは、他のサブセットのパフォーマンスを改善するものではない。 データセットとトレーニングプロセス間のインタラクションを活用することで、クラスタ化機構はデータセットを、トレーニングプロセスの目的に対して意味のある、定義されたクラスタに分割する。 我々は,攻撃者がトレーニングデータセットに悪意のある有毒データを注入して,トレーニングモデルの出力に影響を及ぼすデータ中毒攻撃に対して,クラスタリング機構を適用する。 GTSRBとCIFAR-10データセットを用いて画像分類を行うために訓練されたディープニューラルネットワークに対するバックドア攻撃に焦点を当てた。 これらの攻撃は,(1) 有害データとクリーンデータとが相容れない有毒データセットを生成し,(2) 本手法が有毒データの識別(および除去)に成功していることを示す。 エンドツーエンド評価では,攻撃成功率は165シナリオ中134シナリオ中1%に低下し,cifar-10のクリーン精度は2%低下し,gtsrbのクリーン精度は2%低下した。

We propose a novel clustering mechanism based on an incompatibility property between subsets of data that emerges during model training. This mechanism partitions the dataset into subsets that generalize only to themselves, i.e., training on one subset does not improve performance on the other subsets. Leveraging the interaction between the dataset and the training process, our clustering mechanism partitions datasets into clusters that are defined by--and therefore meaningful to--the objective of the training process. We apply our clustering mechanism to defend against data poisoning attacks, in which the attacker injects malicious poisoned data into the training dataset to affect the trained model's output. Our evaluation focuses on backdoor attacks against deep neural networks trained to perform image classification using the GTSRB and CIFAR-10 datasets. Our results show that (1) these attacks produce poisoned datasets in which the poisoned and clean data are incompatible and (2) our technique successfully identifies (and removes) the poisoned data. In an end-to-end evaluation, our defense reduces the attack success rate to below 1% on 134 out of 165 scenarios, with only a 2% drop in clean accuracy on CIFAR-10 and a negligible drop in clean accuracy on GTSRB.
翻訳日:2023-04-28 17:53:38 公開日:2023-04-27
# SQN:大規模3次元点雲の弱教師付きセマンティックセグメンテーション

SQN: Weakly-Supervised Semantic Segmentation of Large-Scale 3D Point Clouds ( http://arxiv.org/abs/2104.04891v3 )

ライセンス: Link先を確認
Qingyong Hu, Bo Yang, Guangchi Fang, Yulan Guo, Ales Leonardis, Niki Trigoni, Andrew Markham(参考訳) ポイントクラウドを完全にラベリングすることは、非常に時間がかかり、コストがかかる。 数十億のポイントを持つ大きなポイントクラウドデータセットがより一般的になるにつれて、完全なアノテーションが必要であるかどうかを問うとともに、完全な注釈付き仮定の下で設計されている既存のベースラインが、1%のランダムなポイントアノテーションに直面した場合でもわずかに低下することを示す。 しかし、この点を超えて、例えば0.1%のアノテーションでは、セグメンテーションの精度は許容できないほど低い。 点雲は3次元世界のサンプルであるため、局所的な近傍における点の分布は比較的均質であり、強い意味的類似性を示す。 そこで本研究では,高度に疎い監視信号を暗黙的に増強する弱い監視手法を提案する。 広範囲な実験により、提案されたセマンティッククエリネットワーク(SQN)は、弱い監督スキームの下で7つの大規模オープンデータセット上で有望なパフォーマンスを達成する一方で、トレーニングには0.1%のランダムな注釈付きポイントしか必要とせず、アノテーションのコストと労力を大幅に削減する。 コードはhttps://github.com/QingyongHu/SQNで入手できる。

Labelling point clouds fully is highly time-consuming and costly. As larger point cloud datasets with billions of points become more common, we ask whether the full annotation is even necessary, demonstrating that existing baselines designed under a fully annotated assumption only degrade slightly even when faced with 1% random point annotations. However, beyond this point, e.g., at 0.1% annotations, segmentation accuracy is unacceptably low. We observe that, as point clouds are samples of the 3D world, the distribution of points in a local neighborhood is relatively homogeneous, exhibiting strong semantic similarity. Motivated by this, we propose a new weak supervision method to implicitly augment highly sparse supervision signals. Extensive experiments demonstrate the proposed Semantic Query Network (SQN) achieves promising performance on seven large-scale open datasets under weak supervision schemes, while requiring only 0.1% randomly annotated points for training, greatly reducing annotation cost and effort. The code is available at https://github.com/QingyongHu/SQN.
翻訳日:2023-04-28 17:53:16 公開日:2023-04-27
# 磁気メカニクスにおけるkerr強化バックアクション冷却

Kerr enhanced backaction cooling in magnetomechanics ( http://arxiv.org/abs/2202.13228v2 )

ライセンス: Link先を確認
D. Zoepfl, M. L. Juan, N. Diaz-Naufal, C. M. F. Schneider, L. F. Deeg, A. Sharafiev, A. Metelmann, G. Kirchmair(参考訳) 光メカニクス(英: Optomechanics)は、光子がフォノンに直接結合し、機械的物体の状態の精密制御と測定を可能にする光物質相互作用の第一の例である。 これにより、基礎物理学やセンシングアプリケーションをテストする上で、非常に魅力的なプラットフォームになります。 通常、そのような機械振動子は非常に励起的な熱状態にあり、量子アプリケーションのための機械基底状態への冷却を必要とする。 しかし、多くのタスクでは大きな機械振動子が望ましいが、その周波数は通常キャビティ線幅以下で減少し、効率的に冷却できる方法が著しく制限される。 本稿では,低周波機械発振器のバックアクションクール化に固有非線形共振器を応用した新しい手法を示す。 実験では,同一だが線形なシステムに対して,1桁以上の性能を示す。 さらに,本理論は, 線形系の標準的な冷却限界を超えることができることを予測している。 非線形キャビティを利用することで、より広い範囲の光機械系の効率的な冷却が可能となり、基礎実験やセンシングの新たな機会が開ける。

Optomechanics is a prime example of light matter interaction, where photons directly couple to phonons, allowing to precisely control and measure the state of a mechanical object. This makes it a very appealing platform for testing fundamental physics or for sensing applications. Usually, such mechanical oscillators are in highly excited thermal states and require cooling to the mechanical ground state for quantum applications, which is often accomplished by utilising optomechanical backaction. However, while massive mechanical oscillators are desirable for many tasks, their frequency usually decreases below the cavity linewidth, significantly limiting the methods that can be used to efficiently cool. Here, we demonstrate a novel approach relying on an intrinsically nonlinear cavity to backaction-cool a low frequency mechanical oscillator. We experimentally demonstrate outperforming an identical, but linear, system by more than one order of magnitude. Furthermore, our theory predicts that with this approach we can also surpass the standard cooling limit of a linear system. By exploiting a nonlinear cavity, our approach enables efficient cooling of a wider range of optomechanical systems, opening new opportunities for fundamental tests and sensing.
翻訳日:2023-04-28 17:45:30 公開日:2023-04-27
# 単一画像デフォグのための不対向4パスサイクル整合対ネットワーク

Unpaired Quad-Path Cycle Consistent Adversarial Networks for Single Image Defogging ( http://arxiv.org/abs/2202.09553v3 )

ライセンス: Link先を確認
Wei Liu, Cheng Chen, Rui Jiang, Tao Lu and Zixiang Xiong(参考訳) 逆学習に基づく画像復号法はコンピュータビジョンにおいて顕著な性能のために広く研究されている。 しかし、既存のほとんどの手法は、同一シーンの鮮明で合成された霧の画像をペアで訓練するため、実例のデファジグ能力に制限がある。 加えて、鮮やかな色と豊かなテクストの詳細を保持することに制限がある。 これらの課題に対処するため,我々は,単一画像デファイングのための新しい生成逆ネットワークであるクワッドパスサイクル整合逆ネットワーク(QPC-Net)を開発した。 QPC-NetはFog2FogfreeブロックとFogfree2Fogブロックで構成される。 各ブロックには3つの学習ベースのモジュール、すなわち霧除去、色覚回復、霧合成があり、互いを制約して高品質な画像を生成するデュアルパスを構成する。 具体的には, テクスチャと構造情報の自己相似性を利用して, 霧画像と複数の派生画像との全体的チャネル・空間的特徴相関を学習する。 また,霧合成モジュールでは,新しいスカイセグメンテーションネットワークを用いた大気光最適化に着目し,大気散乱モデルを用いて生成品質の向上を導く。 合成と実世界の両方のデータセットに対する大規模な実験により、QPC-Netは定量的精度と主観的視覚的品質の点で最先端のデファッジ手法より優れていることが示された。

Adversarial learning-based image defogging methods have been extensively studied in computer vision due to their remarkable performance. However, most existing methods have limited defogging capabilities for real cases because they are trained on the paired clear and synthesized foggy images of the same scenes. In addition, they have limitations in preserving vivid color and rich textual details in defogging. To address these issues, we develop a novel generative adversarial network, called quad-path cycle consistent adversarial network (QPC-Net), for single image defogging. QPC-Net consists of a Fog2Fogfree block and a Fogfree2Fog block. In each block, there are three learning-based modules, namely, fog removal, color-texture recovery, and fog synthetic, which sequentially compose dual-path that constrain each other to generate high quality images. Specifically, the color-texture recovery model is designed to exploit the self-similarity of texture and structure information by learning the holistic channel-spatial feature correlations between the foggy image with its several derived images. Moreover, in the fog synthetic module, we utilize the atmospheric scattering model to guide it to improve the generative quality by focusing on an atmospheric light optimization with a novel sky segmentation network. Extensive experiments on both synthetic and real-world datasets show that QPC-Net outperforms state-of-the-art defogging methods in terms of quantitative accuracy and subjective visual quality.
翻訳日:2023-04-28 17:45:12 公開日:2023-04-27
# quantus: ニューラルネットワークの説明の責任評価のための説明可能なaiツールキット

Quantus: An Explainable AI Toolkit for Responsible Evaluation of Neural Network Explanations and Beyond ( http://arxiv.org/abs/2202.06861v3 )

ライセンス: Link先を確認
Anna Hedstr\"om, Leander Weber, Dilyara Bareeva, Daniel Krakowczyk, Franz Motzkus, Wojciech Samek, Sebastian Lapuschkin, Marina M.-C. H\"ohne(参考訳) 説明方法の評価は、まだ深く研究されていない研究課題であるが、説明可能性については、人工知能への信頼を高めるため、その正確性を確認するためには、説明方法を体系的に検証・比較する必要がある。 これまでxai評価にフォーカスしたツールは存在せず、研究者がニューラルネットワークの予測に関する説明のパフォーマンスを徹底的に評価できる。 この分野の透明性と再現性を高めるため、我々はquantusを開発した。quantusはpythonの包括的な評価ツールキットで、よく組織された評価メトリクスのコレクションと説明可能なメソッドを評価するチュートリアルを含んでいる。 ツールキットは徹底的にテストされ、PyPi(https://github.com/understandable-machine-intelligence-lab/Quantus/)のオープンソースライセンスで利用可能である。

The evaluation of explanation methods is a research topic that has not yet been explored deeply, however, since explainability is supposed to strengthen trust in artificial intelligence, it is necessary to systematically review and compare explanation methods in order to confirm their correctness. Until now, no tool with focus on XAI evaluation exists that exhaustively and speedily allows researchers to evaluate the performance of explanations of neural network predictions. To increase transparency and reproducibility in the field, we therefore built Quantus -- a comprehensive, evaluation toolkit in Python that includes a growing, well-organised collection of evaluation metrics and tutorials for evaluating explainable methods. The toolkit has been thoroughly tested and is available under an open-source license on PyPi (or on https://github.com/understandable-machine-intelligence-lab/Quantus/).
翻訳日:2023-04-28 17:44:48 公開日:2023-04-27
# PEg TRAnsfer Workflow Recognition Challenge Report: マルチモーダルデータは認識を改善するか?

PEg TRAnsfer Workflow recognition challenge report: Does multi-modal data improve recognition? ( http://arxiv.org/abs/2202.05821v3 )

ライセンス: Link先を確認
Arnaud Huaulm\'e, Kanako Harada, Quang-Minh Nguyen, Bogyu Park, Seungbum Hong, Min-Kook Choi, Michael Peven, Yunshuang Li, Yonghao Long, Qi Dou, Satyadwyoom Kumar, Seenivasan Lalithkumar, Ren Hongliang, Hiroki Matsuzaki, Yuto Ishikawa, Yuriko Harai, Satoshi Kondo, Mamoru Mitsuishi, Pierre Jannin(参考訳) 本稿では,ビデオ,キネマティック,セグメンテーションデータのうち1つまたは複数のモダリティに基づく手術的ワークフロー認識法を開発することを目的としたpeg transfert workflow recognition (petraw) 課題の設計と結果について述べる。 PETRAWチャレンジは、仮想シミュレータ上で実行される150ペグの転送シーケンスのデータセットを提供する。 このデータセットは、ビデオ、キネマティック、セマンティックセグメンテーション、ワークフローアノテーションで構成され、フェーズ、ステップ、アクティビティの3つの異なる粒度レベルでシーケンスを記述する。 5つのタスクが参加者に提案され、そのうち3つは利用可能なモダリティの1つで全ての粒度の認識に関連し、もう1つはモダリティの組み合わせで認識に対処した。 平均アプリケーション依存バランス精度(AD-Accuracy)は、フレーム単位のスコアよりも臨床的に関連があるため、不均衡なクラスを考慮に入れた評価指標として用いられた。 7チームが少なくとも1つのタスクに参加し、そのうち4つがすべてのタスクに参加しました。 最善の結果は、すべてのタスクに参加した4チームに対して93%から90%の精度でビデオとキネマティクスデータを使用することで得られる。 ビデオ/キネマティックベースの方法と一様性の改善は、すべてのチームにとって重要なものでした。 しかし,ビデオ/キネマティック方式とキネマティック方式では実行時間の差を考慮する必要がある。 3%未満の改善のために、20倍から200倍のコンピューティング時間を費やすことが重要か? PETRAWデータセットは、外科的ワークフロー認識のさらなる研究を促進するためにwww.synapse.org/PETRAWで公開されている。

This paper presents the design and results of the "PEg TRAnsfert Workflow recognition" (PETRAW) challenge whose objective was to develop surgical workflow recognition methods based on one or several modalities, among video, kinematic, and segmentation data, in order to study their added value. The PETRAW challenge provided a data set of 150 peg transfer sequences performed on a virtual simulator. This data set was composed of videos, kinematics, semantic segmentation, and workflow annotations which described the sequences at three different granularity levels: phase, step, and activity. Five tasks were proposed to the participants: three of them were related to the recognition of all granularities with one of the available modalities, while the others addressed the recognition with a combination of modalities. Average application-dependent balanced accuracy (AD-Accuracy) was used as evaluation metric to take unbalanced classes into account and because it is more clinically relevant than a frame-by-frame score. Seven teams participated in at least one task and four of them in all tasks. Best results are obtained with the use of the video and the kinematics data with an AD-Accuracy between 93% and 90% for the four teams who participated in all tasks. The improvement between video/kinematic-based methods and the uni-modality ones was significant for all of the teams. However, the difference in testing execution time between the video/kinematic-based and the kinematic-based methods has to be taken into consideration. Is it relevant to spend 20 to 200 times more computing time for less than 3% of improvement? The PETRAW data set is publicly available at www.synapse.org/PETRAW to encourage further research in surgical workflow recognition.
翻訳日:2023-04-28 17:44:31 公開日:2023-04-27
# SLAMから状況認識へ:課題と調査

From SLAM to Situational Awareness: Challenges and Survey ( http://arxiv.org/abs/2110.00273v5 )

ライセンス: Link先を確認
Hriday Bavle, Jose Luis Sanchez-Lopez, Claudio Cimarelli, Ali Tourani, Holger Voos(参考訳) 複雑な任務を効率的に安全に行う移動ロボットの能力は、その環境、すなわち状況に関する知識によって制限される。 高度な推論、意思決定、実行スキルにより、知的エージェントは未知の環境で自律的に行動することができる。 状況意識 (SA) は、心理学、軍事、航空宇宙、教育など様々な分野で深く研究されてきた人間の基本的な能力である。 それでも、センサー、空間知覚、センサー融合、状態推定、同時局所化とマッピング(SLAM)といった単一区画化概念に焦点を当てたロボティクスでは、まだ検討されていない。 そこで本研究では,多分野の既存知識を結びつけて,自律性を最優先するモバイルロボティクスのための完全なSAシステムを構築することを目的とする。 本研究の目的は,ロボットSAとその能力領域を構成する主成分を定義することである。 そこで本研究では,SAの各側面を調査し,それらをカバーする最先端ロボットアルゴリズムを調査し,現状の限界について考察する。 現在のアルゴリズム開発では、パフォーマンスを特定の環境のみに制限するため、saの本質的な側面はまだ未成熟である。 それでも、人工知能(AI)、特にディープラーニング(DL)は、これらのフィールドをデプロイから現実のシナリオへ分離するギャップを埋める新しい方法を導入している。 さらに、よく知られたシーングラフの一般化である状況グラフ(S-Graph)のメカニズムを通じて、ロボット理解アルゴリズムの膨大な断片化空間を相互接続する機会が発見された。 そこで我々は,最近の興味深い研究の方向性を議論し,ロボットの状況認識の将来へのビジョンを形作る。

The capability of a mobile robot to efficiently and safely perform complex missions is limited by its knowledge of the environment, namely the situation. Advanced reasoning, decision-making, and execution skills enable an intelligent agent to act autonomously in unknown environments. Situational Awareness (SA) is a fundamental capability of humans that has been deeply studied in various fields, such as psychology, military, aerospace, and education. Nevertheless, it has yet to be considered in robotics, which has focused on single compartmentalized concepts such as sensing, spatial perception, sensor fusion, state estimation, and Simultaneous Localization and Mapping (SLAM). Hence, the present research aims to connect the broad multidisciplinary existing knowledge to pave the way for a complete SA system for mobile robotics that we deem paramount for autonomy. To this aim, we define the principal components to structure a robotic SA and their area of competence. Accordingly, this paper investigates each aspect of SA, surveying the state-of-the-art robotics algorithms that cover them, and discusses their current limitations. Remarkably, essential aspects of SA are still immature since the current algorithmic development restricts their performance to only specific environments. Nevertheless, Artificial Intelligence (AI), particularly Deep Learning (DL), has brought new methods to bridge the gap that maintains these fields apart from the deployment to real-world scenarios. Furthermore, an opportunity has been discovered to interconnect the vastly fragmented space of robotic comprehension algorithms through the mechanism of Situational Graph (S-Graph), a generalization of the well-known scene graph. Therefore, we finally shape our vision for the future of robotic Situational Awareness by discussing interesting recent research directions.
翻訳日:2023-04-28 17:44:02 公開日:2023-04-27
# 皮膚深部学習 : メラノーマ分類における人工物と楽器のデバイアス

Skin Deep Unlearning: Artefact and Instrument Debiasing in the Context of Melanoma Classification ( http://arxiv.org/abs/2109.09818v7 )

ライセンス: Link先を確認
Peter J. Bevan and Amir Atapour-Abarghouei(参考訳) 畳み込みニューラルネットワークは皮膚病変画像からのメラノーマ分類における皮膚科医レベルの性能を示しているが、トレーニングデータに見られるバイアスによる予測の不規則性は、広く展開できる前に対処すべき問題である。 本研究では,2つの主要なバイアスアンラーニング手法を用いて,自動メラノーマ分類パイプラインからバイアスと急激な変動を確実に除去する。 これらの偏り除去法を用いて,従来研究で提示された外科的マーキングや定規によるバイアスを合理的に緩和できることを示す。 また,病変画像の撮影に用いられる撮像装置に関する無学習スプリアス変動の一般化効果を示す。 実験の結果,各バイアスの影響が顕著に減少し,異なるデバイアス技術が異なるタスクに優れていることが明らかとなった。

Convolutional Neural Networks have demonstrated dermatologist-level performance in the classification of melanoma from skin lesion images, but prediction irregularities due to biases seen within the training data are an issue that should be addressed before widespread deployment is possible. In this work, we robustly remove bias and spurious variation from an automated melanoma classification pipeline using two leading bias unlearning techniques. We show that the biases introduced by surgical markings and rulers presented in previous studies can be reasonably mitigated using these bias removal methods. We also demonstrate the generalisation benefits of unlearning spurious variation relating to the imaging instrument used to capture lesion images. Our experimental results provide evidence that the effects of each of the aforementioned biases are notably reduced, with different debiasing techniques excelling at different tasks.
翻訳日:2023-04-28 17:43:34 公開日:2023-04-27
# 商用フレームワークを深く学ぶための量子化バックドア

Quantization Backdoors to Deep Learning Commercial Frameworks ( http://arxiv.org/abs/2108.09187v3 )

ライセンス: Link先を確認
Hua Ma, Huming Qiu, Yansong Gao, Zhi Zhang, Alsharif Abuadbba, Minhui Xue, Anmin Fu, Zhang Jiliang, Said Al-Sarawi, Derek Abbott(参考訳) 現在、ディープラーニング(DL)モデルをユビキタスエッジのIoT(Internet of Things)デバイスにデプロイする需要は急増している。 しかし、DLモデルはサイズが大きく、大規模な計算を必要とするため、リソースの制約や32ビット浮動小数点(float-32)操作が利用できないIoTデバイスに直接配置できない。 商用フレームワーク(例えば、ツールキットのセット) エンパワードモデル量子化は、大きな高精度モデル(例えばfloat-32)を小さな低精度モデル(例えば、int-8)に計算し、モデル推論精度を維持して、モバイルデバイスや組み込みシステムへのdlデプロイを可能にする実用的なソリューションである。 しかし、そのユーザビリティはセキュリティ上の脆弱性によって脅かされる可能性がある。 この研究は、標準量子化ツールキットを悪用してバックドアを起動できることを明らかにする。 バックドアが停止している場合、トリガーの存在下でバックドア効果がない完全精度のバックドアモデルがデフォルトによってアクティベート可能であることを実証する。 一 TensorFlow-Lite(TFLite)量子化、現在まで唯一の製品対応量子化フレームワーク ii) PyTorch Mobileフレームワークのベータ版。 float-32の各モデルが標準のtfliteまたはpytorch mobile frameworkのトレーニング後の量子化によってint-8フォーマットモデルに変換されると、バックドアは量子化モデルで活性化され、トリガーで入力された時に100%近い攻撃成功率を示すが、通常はトリガーでない入力で振る舞う。 この研究は、エンドユーザーがデバイス上でトレーニング後の量子化フレームワークを使用すると、秘密のセキュリティ脅威が発生することを強調し、これらのモデルがフロントエンドのバックドア検査をパスしても、DLモデルのクロスプラットフォームオーバーホールをセキュリティ研究者に通知する。

Currently, there is a burgeoning demand for deploying deep learning (DL) models on ubiquitous edge Internet of Things (IoT) devices attributed to their low latency and high privacy preservation. However, DL models are often large in size and require large-scale computation, which prevents them from being placed directly onto IoT devices, where resources are constrained and 32-bit floating-point (float-32) operations are unavailable. Commercial framework (i.e., a set of toolkits) empowered model quantization is a pragmatic solution that enables DL deployment on mobile devices and embedded systems by effortlessly post-quantizing a large high-precision model (e.g., float-32) into a small low-precision model (e.g., int-8) while retaining the model inference accuracy. However, their usability might be threatened by security vulnerabilities. This work reveals that the standard quantization toolkits can be abused to activate a backdoor. We demonstrate that a full-precision backdoored model which does not have any backdoor effect in the presence of a trigger -- as the backdoor is dormant -- can be activated by the default i) TensorFlow-Lite (TFLite) quantization, the only product-ready quantization framework to date, and ii) the beta released PyTorch Mobile framework. When each of the float-32 models is converted into an int-8 format model through the standard TFLite or Pytorch Mobile framework's post-training quantization, the backdoor is activated in the quantized model, which shows a stable attack success rate close to 100% upon inputs with the trigger, while it behaves normally upon non-trigger inputs. This work highlights that a stealthy security threat occurs when an end user utilizes the on-device post-training model quantization frameworks, informing security researchers of cross-platform overhaul of DL models post quantization even if these models pass front-end backdoor inspections.
翻訳日:2023-04-28 17:43:20 公開日:2023-04-27
# 一般非凸凸ミニマックス問題に対する微分自由交互射影アルゴリズム

Derivative-free Alternating Projection Algorithms for General Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2108.00473v3 )

ライセンス: Link先を確認
Zi Xu, Ziqi Wang, Jingjing Shen, Yuhong Dai(参考訳) 本稿では,近年,機械学習,信号処理,その他多くの分野で注目されている非凸凹ミニマックス問題に対するゼロ次アルゴリズムについて検討する。 我々は,滑らかな非凸凸凸ミニマックス問題に対するゼロ次交互ランダム勾配投影(zo-agp)アルゴリズムを提案し,その反復複雑性から$\varepsilon$-stationary point を得るには$\mathcal{o}(\varepsilon^{-4})$ を条件とし,関数値推定の回数を$\mathcal{o}(d_{x}+d_{y})$ とする。 さらに,ブロック方向非滑らかな非凸凸凸型ミニマックス最適化問題を解くために,ゼロ次ブロック交互なランダムな近位勾配アルゴリズム (zo-bapg) を提案し,$\varepsilon$-stationary point を得るための反復複雑性を$\mathcal{o}(\varepsilon^{-4})$ で制限し,各イテレーション当たりの関数値推定数は$\mathcal{o}(k d_{x}+d_{y})$で制限する。 我々の知る限りでは、一般にスムーズかつブロックワイズ非滑らかな非凸凹極小問題を解くため、反復複雑性を保証したゼロ階アルゴリズムが開発されたのはこれが初めてである。 データ中毒攻撃問題の数値結果は,提案アルゴリズムの有効性を検証する。

In this paper, we study zeroth-order algorithms for nonconvex-concave minimax problems, which have attracted widely attention in machine learning, signal processing and many other fields in recent years. We propose a zeroth-order alternating randomized gradient projection (ZO-AGP) algorithm for smooth nonconvex-concave minimax problems, and its iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$, and the number of function value estimation is bounded by $\mathcal{O}(d_{x}+d_{y})$ per iteration. Moreover, we propose a zeroth-order block alternating randomized proximal gradient algorithm (ZO-BAPG) for solving block-wise nonsmooth nonconvex-concave minimax optimization problems, and the iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$ and the number of function value estimation per iteration is bounded by $\mathcal{O}(K d_{x}+d_{y})$. To the best of our knowledge, this is the first time that zeroth-order algorithms with iteration complexity gurantee are developed for solving both general smooth and block-wise nonsmooth nonconvex-concave minimax problems. Numerical results on data poisoning attack problem validate the efficiency of the proposed algorithms.
翻訳日:2023-04-28 17:42:30 公開日:2023-04-27
# 生成ネットワークにおける物理インフォームド誘導乱れ

Physics-informed Guided Disentanglement in Generative Networks ( http://arxiv.org/abs/2107.14229v4 )

ライセンス: Link先を確認
Fabio Pizzati, Pietro Cerri, Raoul de Charette(参考訳) 画像から画像への変換(i2i)ネットワークは、対象領域(咬合、霧など)における物理現象の存在下での絡み合い効果を被り、翻訳品質、制御性、変動性を完全に低下させる。 本稿では,対象画像の視覚特性をアンタングルする一般的な枠組みを提案する。 主に、単純な物理モデルの集合を基盤とし、対象とする特徴のいくつかを描画する物理モデルで絡み合いを導き、残りのものを学習します。 物理は明示的で解釈可能な出力を可能にするので、我々の物理モデル(最適にターゲットに回帰した)は制御不能なシナリオを生成できる。 第2に、生成ネットワークを物理モデルの代わりに使用して、後者が直接アクセスできない場合に、ニューラルネットワークによる絡み合いに対するフレームワークの汎用性を示す。 総じて,完全微分可能な物理モデル,(部分的に)非微分可能な物理モデル,あるいはニューラルネットワークから導かれる3つの不等角化戦略を紹介する。 その結果,画像翻訳におけるいくつかの難解なシナリオにおいて,性能を質的かつ定量的に向上させる方法が示された。

Image-to-image translation (i2i) networks suffer from entanglement effects in presence of physics-related phenomena in target domain (such as occlusions, fog, etc), lowering altogether the translation quality, controllability and variability. In this paper, we propose a general framework to disentangle visual traits in target images. Primarily, we build upon collection of simple physics models, guiding the disentanglement with a physical model that renders some of the target traits, and learning the remaining ones. Because physics allows explicit and interpretable outputs, our physical models (optimally regressed on target) allows generating unseen scenarios in a controllable manner. Secondarily, we show the versatility of our framework to neural-guided disentanglement where a generative network is used in place of a physical model in case the latter is not directly accessible. Altogether, we introduce three strategies of disentanglement being guided from either a fully differentiable physics model, a (partially) non-differentiable physics model, or a neural network. The results show our disentanglement strategies dramatically increase performances qualitatively and quantitatively in several challenging scenarios for image translation.
翻訳日:2023-04-28 17:41:57 公開日:2023-04-27
# SIBILA:医学的文脈に適用された汎用機械学習モデルの解釈可能な新しいアンサンブル

SIBILA: A novel interpretable ensemble of general-purpose machine learning models applied to medical contexts ( http://arxiv.org/abs/2205.06234v2 )

ライセンス: Link先を確認
Antonio Jes\'us Banegas-Luna, Horacio P\'erez-S\'anchez(参考訳) 個人化医学は科学者にとって大きな課題である。 機械学習とディープラーニングの急速な成長は、個々の患者にとって最も適切な治療を予測するための有効な代替手段となった。 しかし、データセットごとにカスタムモデルを開発する必要性、結果の解釈の欠如、高い計算要求が、これらの手法の使用に消極的である。 時間を節約し、モデルの内部動作に光をもたらすことを目的としてSIBILAが開発された。 SIBILAは、最も関連する入力特徴を特定するために、さまざまな解釈可能性アルゴリズムを適用する機械学習とディープラーニングモデルのアンサンブルである。 解釈可能性algo-rithmは互いに一致しない可能性があるので、予測に対する各変数のグローバル帰属を推定するためにコンセンサス段階が差し迫っている。 SIBILAはコンテナ化されており、どんな高性能コンピューティングプラモデルでも動作する。 コマンドラインツールとして考案されたが、https://bio-hpc.ucam.edu/sibila.webサーバとして無料で利用できる。 したがって、技術的スキルの少ないユーザでさえ、それを活用できる。 SIBILAは2つの医学ケーススタディに適用され、分類問題における予測能力を示している。 汎用的なツールであるにもかかわらず、臨床医の強力な意思決定ツールになることを目的として開発されたが、実際には他の多くの領域で利用することができる。 したがって、SIBILAがノイズや回帰問題にうまく対応していることを証明するために、他の2つの非医学的な例が補助材料として提供される。

Personalized medicine remains a major challenge for scientists. The rapid growth of Machine learning and Deep learning has made them a feasible al- ternative for predicting the most appropriate therapy for individual patients. However, the need to develop a custom model for every dataset, the lack of interpretation of their results and high computational requirements make many reluctant to use these methods. Aiming to save time and bring light to the way models work internally, SIBILA has been developed. SIBILA is an ensemble of machine learning and deep learning models that applies a range of interpretability algorithms to identify the most relevant input features. Since the interpretability algo- rithms may not be in line with each other, a consensus stage has been imple- mented to estimate the global attribution of each variable to the predictions. SIBILA is containerized to be run on any high-performance computing plat- form. Although conceived as a command-line tool, it is also available to all users free of charge as a web server at https://bio-hpc.ucam.edu/sibila. Thus, even users with few technological skills can take advantage of it. SIBILA has been applied to two medical case studies to show its ability to predict in classification problems. Even though it is a general-purpose tool, it has been developed with the aim of becoming a powerful decision-making tool for clinicians, but can actually be used in many other domains. Thus, other two non-medical examples are supplied as supplementary material to prove that SIBILA still works well with noise and in regression problems.
翻訳日:2023-04-28 17:35:09 公開日:2023-04-27
# 二元データから経験的因果グラフを推定し多次元貧困分析を支援するフレームワーク

Framework for inferring empirical causal graphs from binary data to support multidimensional poverty analysis ( http://arxiv.org/abs/2205.06131v3 )

ライセンス: Link先を確認
Chainarong Amornbunchornvej, Navaporn Surasvadi, Anon Plangprasopchok, and Suttipong Thajchayapong(参考訳) 貧困は人類が直面する根本的な問題の1つです 貧困問題を解決するには、問題の深刻さを知る必要がある。 多次元貧困指数(Multidimensional Poverty Index、MPI)は、ある地域における貧困問題の度合いを測定するために用いられる、よく知られた手法である。 MPIを計算するには、教育の欠如、健康、生活条件など、貧困のさまざまな側面を表す調査によって収集された「textbf{binary variables」であるMPI指標の情報が必要となる。 MPI指標がMPI指標に与える影響を従来の回帰法を用いて推定できる。 しかし、あるMPI指標が他のMPI指標で解けるか、あるいはより多くの問題を引き起こすかは明らかではなく、MPI指標間の経験的因果関係を推測する枠組みは存在しない。 本研究では,貧困調査におけるバイナリ変数の因果関係を推定する枠組みを提案する。 本手法は,基礎的真理を知っているシミュレーションデータセットのベースライン法よりも優れた性能を示し,双生児データセットに因果関係を見いだした。 タイの貧困調査データセットでは、喫煙と飲酒の問題の間に因果関係が見つかった。 我々はr cran パッケージ `bicausality' を提供し、貧困分析コンテキストを超えた任意のバイナリ変数で使用できる。

Poverty is one of the fundamental issues that mankind faces. To solve poverty issues, one needs to know how severe the issue is. The Multidimensional Poverty Index (MPI) is a well-known approach that is used to measure a degree of poverty issues in a given area. To compute MPI, it requires information of MPI indicators, which are \textbf{binary variables} collecting by surveys, that represent different aspects of poverty such as lacking of education, health, living conditions, etc. Inferring impacts of MPI indicators on MPI index can be solved by using traditional regression methods. However, it is not obvious that whether solving one MPI indicator might resolve or cause more issues in other MPI indicators and there is no framework dedicating to infer empirical causal relations among MPI indicators. In this work, we propose a framework to infer causal relations on binary variables in poverty surveys. Our approach performed better than baseline methods in simulated datasets that we know ground truth as well as correctly found a causal relation in the Twin births dataset. In Thailand poverty survey dataset, the framework found a causal relation between smoking and alcohol drinking issues. We provide R CRAN package `BiCausality' that can be used in any binary variables beyond the poverty analysis context.
翻訳日:2023-04-28 17:34:45 公開日:2023-04-27
# PreME:対話型アンケートによる前提に基づく会議探索

PREME: Preference-based Meeting Exploration through an Interactive Questionnaire ( http://arxiv.org/abs/2205.02370v2 )

ライセンス: Link先を確認
Negar Arabzadeh and Ali Ahmadvand and Julia Kiseleva and Yang Liu and Ahmed Hassan Awadallah and Ming Zhong and Milad Shokouhi(参考訳) 近年のオンラインミーティングの量の増加は、特に参加者が議論を逃し、迅速な探索を支援する必要がある場合、材料の管理と組織化のための自動化ツールを必要としている。 本研究では,好みに基づく会議探索のための対話型アンケートを生成するための新しいエンドツーエンドフレームワークを提案する。 結果として、ユーザーは好みを反映した提案質問のリストを提供する。 タスクは新しいので,自動評価戦略を導入する。 すなわち、実際の正確性を確保するために、アンケートによって生成された質問がどの程度答えられるかを計測し、探索の可能性の深さまでソースミーティングをカバーできる。

The recent increase in the volume of online meetings necessitates automated tools for managing and organizing the material, especially when an attendee has missed the discussion and needs assistance in quickly exploring it. In this work, we propose a novel end-to-end framework for generating interactive questionnaires for preference-based meeting exploration. As a result, users are supplied with a list of suggested questions reflecting their preferences. Since the task is new, we introduce an automatic evaluation strategy. Namely, it measures how much the generated questions via questionnaire are answerable to ensure factual correctness and covers the source meeting for the depth of possible exploration.
翻訳日:2023-04-28 17:34:22 公開日:2023-04-27
# BiTimeBERT: 双方向情報による事前学習言語表現の拡張

BiTimeBERT: Extending Pre-Trained Language Representations with Bi-Temporal Information ( http://arxiv.org/abs/2204.13032v4 )

ライセンス: Link先を確認
Jiexin Wang, Adam Jatowt, Masatoshi Yoshikawa, Yi Cai(参考訳) 時刻は文書の重要な側面であり、NLPおよびIRタスクで使用される。 本研究では,時間関連タスクの性能向上のために,事前学習中に時間情報を統合する手法を検討する。 同期的なドキュメントコレクション(bookcorpusやwikipediaなど)をトレーニングコーパスとして使用するbertのような一般的な事前学習済み言語モデルと比較すると、単語表現を構築するために長寿命のテンポラルニュース記事コレクションを使用する。 2つの新しい事前学習タスクを通じて、ニュース記事のテンポラリコレクションに基づいてトレーニングされた新しい言語表現モデルであるbitimebertを紹介する。 実験結果によると、BiTimeBERTはBERTや他の既存の事前学習モデルよりずっと優れており、異なる下流のNLPタスクやどの時間が重要か(例えば、BERTの精度改善はイベント時間推定タスクで155\%である)。

Time is an important aspect of documents and is used in a range of NLP and IR tasks. In this work, we investigate methods for incorporating temporal information during pre-training to further improve the performance on time-related tasks. Compared with common pre-trained language models like BERT which utilize synchronic document collections (e.g., BookCorpus and Wikipedia) as the training corpora, we use long-span temporal news article collection for building word representations. We introduce BiTimeBERT, a novel language representation model trained on a temporal collection of news articles via two new pre-training tasks, which harnesses two distinct temporal signals to construct time-aware language representations. The experimental results show that BiTimeBERT consistently outperforms BERT and other existing pre-trained models with substantial gains on different downstream NLP tasks and applications for which time is of importance (e.g., the accuracy improvement over BERT is 155\% on the event time estimation task).
翻訳日:2023-04-28 17:34:12 公開日:2023-04-27
# 幾何損失関数を用いた球面回転次元の低減

Spherical Rotation Dimension Reduction with Geometric Loss Functions ( http://arxiv.org/abs/2204.10975v2 )

ライセンス: Link先を確認
Hengrui Luo, Jeremy E. Purvis, Didong Li(参考訳) 現代のデータセットは高次元を示すことが多いが、データは低次元多様体に存在し、データ分析に不可欠な幾何学的構造を明らかにすることができる。 そのようなデータセットの主な例は細胞周期の測定の集まりであり、そこではプロセスの本質的に循環的な性質を円または球として表すことができる。 本研究では,これらの種類のデータセットを解析する必要があることを動機として,幾何学的情報を組み込んだ非線形次元低減法である球面回転成分分析(srca)を提案する。 SRCAは高次元および小型のサンプルサイズ設定の両方で動作するよう設計された汎用的な手法である。 球面や楕円体を用いることで、SRCAは一般的な理論上の保証付きでデータの低ランクな球面表現を提供し、次元減少時のデータセットの幾何学的構造を効果的に保持する。 包括的なシミュレーション研究は、ヒトの細胞周期データへの成功と共に、SRCAの利点を最先端の代替品と比較して強調し、多様体を近似し、固有の幾何学的構造を保ちながら優れた性能を示す。

Modern datasets often exhibit high dimensionality, yet the data reside in low-dimensional manifolds that can reveal underlying geometric structures critical for data analysis. A prime example of such a dataset is a collection of cell cycle measurements, where the inherently cyclical nature of the process can be represented as a circle or sphere. Motivated by the need to analyze these types of datasets, we propose a nonlinear dimension reduction method, Spherical Rotation Component Analysis (SRCA), that incorporates geometric information to better approximate low-dimensional manifolds. SRCA is a versatile method designed to work in both high-dimensional and small sample size settings. By employing spheres or ellipsoids, SRCA provides a low-rank spherical representation of the data with general theoretic guarantees, effectively retaining the geometric structure of the dataset during dimensionality reduction. A comprehensive simulation study, along with a successful application to human cell cycle data, further highlights the advantages of SRCA compared to state-of-the-art alternatives, demonstrating its superior performance in approximating the manifold while preserving inherent geometric structures.
翻訳日:2023-04-28 17:33:51 公開日:2023-04-27
# CNN解釈性のための疎ゲート混合層

Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability ( http://arxiv.org/abs/2204.10598v3 )

ライセンス: Link先を確認
Svetlana Pavlitska, Christian Hubschneider, Lukas Struppek and J. Marius Z\"ollner(参考訳) スパースゲートのMixture of Expert (MoE)層は、特に言語モデリングタスクにおいて、大規模トランスフォーマーのスケーリングに成功している。 スパースMoE層の興味深い副作用は、自然専門家の専門化を通じてモデルに固有の解釈可能性を伝えることである。 本研究では,コンピュータビジョンタスクのcnnに疎moe層を適用し,モデル解釈性への影響を分析する。 moeトレーニングを安定させるために,ソフトおよびハード制約に基づくアプローチを提案する。 厳しい制約により、特定の専門家の重みはゼロになり、ソフトな制約は専門家の貢献と追加の補助損失のバランスをとる。 結果として、ソフト制約は専門家の活用をより良く扱い、専門家の専門化プロセスをサポートし、ハード制約はより一般的な専門家を維持し、全体的なモデルパフォーマンスを向上させる。 その結果,専門家は入力空間の個々のサブドメインに暗黙的にフォーカスできることがわかった。 例えば、CIFAR-100画像分類の訓練を受けた専門家は、以前のデータクラスタリングなしで花や動物などの異なるドメインを認識することを専門としている。 RetinaNetとCOCOデータセットによる実験は、オブジェクト検出の専門家が、異なるサイズのオブジェクトを検出できることも示している。

Sparsely-gated Mixture of Expert (MoE) layers have been recently successfully applied for scaling large transformers, especially for language modeling tasks. An intriguing side effect of sparse MoE layers is that they convey inherent interpretability to a model via natural expert specialization. In this work, we apply sparse MoE layers to CNNs for computer vision tasks and analyze the resulting effect on model interpretability. To stabilize MoE training, we present both soft and hard constraint-based approaches. With hard constraints, the weights of certain experts are allowed to become zero, while soft constraints balance the contribution of experts with an additional auxiliary loss. As a result, soft constraints handle expert utilization better and support the expert specialization process, while hard constraints maintain more generalized experts and increase overall model performance. Our findings demonstrate that experts can implicitly focus on individual sub-domains of the input space. For example, experts trained for CIFAR-100 image classification specialize in recognizing different domains such as flowers or animals without previous data clustering. Experiments with RetinaNet and the COCO dataset further indicate that object detection experts can also specialize in detecting objects of distinct sizes.
翻訳日:2023-04-28 17:33:18 公開日:2023-04-27
# コヒーレント励起フランソン型非局所相関

A coherently excited Franson-type nonlocal correlation ( http://arxiv.org/abs/2204.03205v3 )

ライセンス: Link先を確認
B. S. Ham(参考訳) エンタングルメント(Entanglement)は、非局所的リアリズムのユニークな量子特性に性質を持つ量子技術の基本的な構成要素である。 しかし、そのような非局所量子特性は、古典的手法では得られない奇妙な現象として知られている。 近年、謎の量子現象は絡み合った光子対を用いてコヒーレントに解釈され、量子ミステリーはペア化された光子の積-基底重ね合わせで発見された。 ここでは、フランソン型非局所相関のコヒーレンス版が古典物理学のあらゆる方法によって提示される。 結果として生じる非局所相関のコヒーレンス解は、量子バージョンと同じ局所パラメータの共相関係を満たす。 非局所相関フリンジの場合、減衰レーザ光のコヒーレントな操作は同期音響光学変調器によって行われ、ランダムだが位相整合光子対を生成する。

Entanglement is the basic building block of quantum technologies whose property is in the unique quantum feature of nonlocal realism. However, such a nonlocal quantum property is known as just a weird phenomenon that cannot be obtained by any classical means. Recently, the mysterious quantum phenomena have been coherently interpreted using entangled photon pairs, where the quantum mystery has been found in the manipulated product-basis superposition of paired photons. Here, a coherence version of the Franson-type nonlocal correlation is presented by all means of classical physics. The resulting coherence solutions of the nonlocal correlation satisfy the same joint-phase relation of local parameters as in the quantum version. For the nonlocal correlation fringe, coherent manipulations of attenuated laser light are conducted by synchronized acousto-optic modulators to generate random but phase-matched photon pairs.
翻訳日:2023-04-28 17:32:39 公開日:2023-04-27
# 化学物質の自動同定

Automatic Identification of Chemical Moieties ( http://arxiv.org/abs/2203.16205v2 )

ライセンス: Link先を確認
Jonas Lederer, Michael Gastegger, Kristof T. Sch\"utt, Michael Kampffmeyer, Klaus-Robert M\"uller, Oliver T. Unke(参考訳) 近年,機械学習手法による量子力学的観測値の予測が盛んに行われている。 メッセージパッシングニューラルネットワーク(MPNN)は、関心の性質を予測する原子表現を構築することで、この課題を解決する。 本稿では,このような表現から化学運動量(分子構成要素)を自動的に識別する手法を提案する。 必要な表現は、事前訓練されたMPNNによって提供されるか、構造情報のみを使用してスクラッチから学習される。 分子指紋のデータ駆動設計の他に, 化学データベースにおける代表成分の選択, 粗粒界の自動構築, 反応座標の同定などにより, 本手法の汎用性を実証した。

In recent years, the prediction of quantum mechanical observables with machine learning methods has become increasingly popular. Message-passing neural networks (MPNNs) solve this task by constructing atomic representations, from which the properties of interest are predicted. Here, we introduce a method to automatically identify chemical moieties (molecular building blocks) from such representations, enabling a variety of applications beyond property prediction, which otherwise rely on expert knowledge. The required representation can either be provided by a pretrained MPNN, or learned from scratch using only structural information. Beyond the data-driven design of molecular fingerprints, the versatility of our approach is demonstrated by enabling the selection of representative entries in chemical databases, the automatic construction of coarse-grained force fields, as well as the identification of reaction coordinates.
翻訳日:2023-04-28 17:32:26 公開日:2023-04-27
# aiとamの組み合わせ - トランスフォーマーネットワークによる近似マッチングの改善

Combining AI and AM - Improving Approximate Matching through Transformer Networks ( http://arxiv.org/abs/2208.11367v3 )

ライセンス: Link先を確認
Frieder Uhlig, Lukas Struppek, Dominik Hintersdorf, Thomas G\"obel, Harald Baier, Kristian Kersting(参考訳) 近似マッチング (mm) はデジタル・フォレンジスにおけるデジタル・アーティファクト間の類似性を決定するための概念である。 AMの重要なユースケースは、オリジナルの断片のみが利用可能であれば、ブラックリスト上のケース関連データ構造の信頼性と効率的な検出である。 例えば、デジタル法医学調査中にインデックス化されたマルウェアのクラスタのみがまだ存在する場合、AMアルゴリズムはブラックリスト化されたマルウェアにフラグメントを割り当てることができる。 しかし、tlshやssdeepのような従来のam関数は、ファイルサイズが全体のサイズに比べて比較的小さい場合、フラグメントに基づいてファイルを検出することができない。 従来のamアルゴリズムで2番目によく知られた問題は、検索データベースの増大によるスケーリングの欠如である。 本稿では,自然言語処理分野からの変換器モデルに基づくマッチングアルゴリズムを提案する。 私たちは、Deep Learning Approximate Matching (DLAM)と呼んでいる。 人工知能(AI)の概念として、DLAMはトレーニング期間中に特徴的なブラックリストパターンの知識を得る。 そしてDLAMは、一般的にもっと大きなファイルのパターンを検出でき、DLAMはフラグメント検出のユースケースに焦点を当てます。 従来のTLSHとssdeepに比べ,DLAMには3つの利点があることがわかった。 第一に、悪質な部分の退屈な抽出を時代遅れにするので、AMアルゴリズムでそれらを検索する前には、これまで必要だった。 これにより、より大規模なファイルの効率的な分類が可能になるが、これは調査対象の指数的に増加するデータのために重要である。 第二に、ユースケースによっては、DLAMはブラックリストファイルの断片を復元する際に、類似またはさらに高い精度を達成する。 第3に,小さなフラグメントサイズであっても,DLAMはTLSHとssdeepの出力中のファイル相関を検出することができることを示す。

Approximate matching (AM) is a concept in digital forensics to determine the similarity between digital artifacts. An important use case of AM is the reliable and efficient detection of case-relevant data structures on a blacklist, if only fragments of the original are available. For instance, if only a cluster of indexed malware is still present during the digital forensic investigation, the AM algorithm shall be able to assign the fragment to the blacklisted malware. However, traditional AM functions like TLSH and ssdeep fail to detect files based on their fragments if the presented piece is relatively small compared to the overall file size. A second well-known issue with traditional AM algorithms is the lack of scaling due to the ever-increasing lookup databases. We propose an improved matching algorithm based on transformer models from the field of natural language processing. We call our approach Deep Learning Approximate Matching (DLAM). As a concept from artificial intelligence (AI), DLAM gets knowledge of characteristic blacklisted patterns during its training phase. Then DLAM is able to detect the patterns in a typically much larger file, that is DLAM focuses on the use case of fragment detection. We reveal that DLAM has three key advantages compared to the prominent conventional approaches TLSH and ssdeep. First, it makes the tedious extraction of known to be bad parts obsolete, which is necessary until now before any search for them with AM algorithms. This allows efficient classification of files on a much larger scale, which is important due to exponentially increasing data to be investigated. Second, depending on the use case, DLAM achieves a similar or even significantly higher accuracy in recovering fragments of blacklisted files. Third, we show that DLAM enables the detection of file correlations in the output of TLSH and ssdeep even for small fragment sizes.
翻訳日:2023-04-28 17:26:02 公開日:2023-04-27
# 量子推定理論に基づく量子誤差緩和の普遍的コスト境界

Universal cost bound of quantum error mitigation based on quantum estimation theory ( http://arxiv.org/abs/2208.09385v4 )

ライセンス: Link先を確認
Kento Tsubouchi, Takahiro Sagawa, and Nobuyuki Yoshioka(参考訳) 本稿では,様々な量子誤差緩和手法のコストを量子推定理論に基づいて分析する統一的手法を提案する。 量子誤差緩和法の演算を効果的に表す仮想量子回路の量子フィッシャー情報行列を解析することにより、観測可能な観測値の偏りのない推定は、測定コストに基づいて回路深さの低い領域で指数関数的な成長に遭遇する、マルコフノイズの幅広いクラスの下で、汎用的な層状量子回路を導出する。 大域的非分極雑音下では、測定結果を再スケーリングするだけで、境界は漸近的に飽和することができる。 さらに,局所ノイズのあるランダム回路に対して,量子ビット数とともにコストが指数関数的に増加することを証明した。 我々の数値シミュレーションは、ブロック壁構造などの線形接続のみを有する回路であっても、各ノイズチャネルは量子ビット数で指数関数的に増大する大域的非分極チャネルに収束する、という観測を裏付けている。 これは、深さと量子ビット数の両方でコストの指数的な増加を意味するだけでなく、十分に深い量子回路に対する再スケーリング技術を検証する。 本研究は,量子誤差緩和の物理的限界の理解に寄与し,量子誤差緩和手法の性能評価のための新たな基準を提供する。

We present a unified approach to analyzing the cost of various quantum error mitigation methods on the basis of quantum estimation theory. By analyzing the quantum Fisher information matrix of a virtual quantum circuit that effectively represents the operations of quantum error mitigation methods, we derive for a generic layered quantum circuit under a wide class of Markovian noise that, unbiased estimation of an observable encounters an exponential growth with the circuit depth in the lower bound on the measurement cost. Under the global depolarizing noise, we in particular find that the bound can be asymptotically saturated by merely rescaling the measurement results. Moreover, we prove for random circuits with local noise that the cost grows exponentially also with the qubit count. Our numerical simulations support the observation that, even if the circuit has only linear connectivity, such as the brick-wall structure, each noise channel converges to the global depolarizing channel with its strength growing exponentially with the qubit count. This not only implies the exponential growth of cost both with the depth and qubit count, but also validates the rescaling technique for sufficiently deep quantum circuits. Our results contribute to the understanding of the physical limitations of quantum error mitigation and offer a new criterion for evaluating the performance of quantum error mitigation techniques.
翻訳日:2023-04-28 17:25:35 公開日:2023-04-27
# DORA: ディープニューラルネットワークにおける外部表現の探索

DORA: Exploring outlier representations in Deep Neural Networks ( http://arxiv.org/abs/2206.04530v3 )

ライセンス: Link先を確認
Kirill Bykov, Mayukh Deb, Dennis Grinwald, Klaus-Robert M\"uller, Marina M.-C. H\"ohne(参考訳) 深層ニューラルネットワーク(dnn)は複雑な抽象化を学ぶのに非常に有効であるが、トレーニングデータから意図しない成果物を意図せずに学習する傾向がある。 モデルの透明性を確保するためには、意図しない概念が望ましいタスクに異常であることをしばしば示すため、学習した表現間の関係を調べることが不可欠である。 本稿では、DNNの表現空間を解析するための最初のデータ非依存フレームワークであるDORA(Data-agnOstic Representation Analysis)を紹介する。 我々のフレームワークは、データにアクセスすることなく、ネットワーク内の自己説明機能を利用する表現間のエクストリームアクティベーション(EA)距離を測定する。 我々は、測定値の正確性と人間定義の意味距離との整合を定量的に検証する。 EA距離と人間の判断のコヒーレンスにより,機能的距離における外れ値の同定により,人間によって不自然な概念と考えられる表現を識別することができる。 最後に,一般的なコンピュータビジョンモデルにおける人工物表現の分析と識別により,DORAの実用性を示す。

Although Deep Neural Networks (DNNs) are incredibly effective in learning complex abstractions, they are susceptible to unintentionally learning spurious artifacts from the training data. To ensure model transparency, it is crucial to examine the relationships between learned representations, as unintended concepts often manifest themselves to be anomalous to the desired task. In this work, we introduce DORA (Data-agnOstic Representation Analysis): the first data-agnostic framework for the analysis of the representation space of DNNs. Our framework employs the proposed Extreme-Activation (EA) distance measure between representations that utilizes self-explaining capabilities within the network without accessing any data. We quantitatively validate the metric's correctness and alignment with human-defined semantic distances. The coherence between the EA distance and human judgment enables us to identify representations whose underlying concepts would be considered unnatural by humans by identifying outliers in functional distance. Finally, we demonstrate the practical usefulness of DORA by analyzing and identifying artifact representations in popular Computer Vision models.
翻訳日:2023-04-28 17:24:21 公開日:2023-04-27
# DEP-RL:過剰・筋骨格系における強化学習のための身体的探索

DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems ( http://arxiv.org/abs/2206.00484v2 )

ライセンス: Link先を確認
Pierre Schumacher, Daniel H\"aufle, Dieter B\"uchler, Syn Schmitt, Georg Martius(参考訳) 筋肉を調節する生物は、筋肉が大量に存在するにもかかわらず、並外れた運動の多様性を学べる。 しかし, 筋骨格モデルを用いた強化学習(RL)では, 同様の性能は示されていない。 大規模過度な作用空間における非効率な探索は重要な問題である。 これは、過度に作動するシステムの合成例において、一般的な探索ノイズ戦略が不十分であるという発見によって支持される。 我々は, 自己組織領域から抽出した微分外在的可塑性 (DEP) を, 相互作用数秒以内に状態空間の探索を誘導できると同定した。 筋骨格系におけるDEPをRLに組み込むことにより,筋骨格系におけるリーチと移動の学習を高速化し,試料効率とロバスト性において,全ての検討課題において現在のアプローチより優れている。

Muscle-actuated organisms are capable of learning an unparalleled diversity of dexterous movements despite their vast amount of muscles. Reinforcement learning (RL) on large musculoskeletal models, however, has not been able to show similar performance. We conjecture that ineffective exploration in large overactuated action spaces is a key problem. This is supported by the finding that common exploration noise strategies are inadequate in synthetic examples of overactuated systems. We identify differential extrinsic plasticity (DEP), a method from the domain of self-organization, as being able to induce state-space covering exploration within seconds of interaction. By integrating DEP into RL, we achieve fast learning of reaching and locomotion in musculoskeletal systems, outperforming current approaches in all considered tasks in sample efficiency and robustness.
翻訳日:2023-04-28 17:24:02 公開日:2023-04-27
# 多値処理ヘテロジニアス効果推定のためのメタラーナーの比較

Comparison of meta-learners for estimating multi-valued treatment heterogeneous effects ( http://arxiv.org/abs/2205.14714v2 )

ライセンス: Link先を確認
Naoufal Acharki and Josselin Garnier and Antoine Bertoncello and Ramiro Lugo(参考訳) 条件平均処理効果(CATE)の推定は、観測データによる因果推論における主な課題の1つである。 機械学習に基づくモデルに加えて、メタラーナーと呼ばれる非パラメトリック推定器が開発され、CATEを特定の教師付き学習手法による推定を抑えることの主な利点として評価されている。 しかし、単純拡張のいくつかの制限が現れるにつれて、この処理がバイナリでないと、このタスクはより複雑になる。 本稿では,多値処理の異種効果を推定するためのメタリーナーについて検討する。 異なるメタリーナーを考察し,その誤差上限を治療レベル数などの重要なパラメータの関数として理論的に解析し,naive拡張が必ずしも良好な結果をもたらすとは限らないことを示した。 治療数の増加とともに機能するメタラーナーの導入と議論を行う。 合成および半合成データセットを用いて,これらの手法の強みと弱みを実証的に確認する。

Conditional Average Treatment Effects (CATE) estimation is one of the main challenges in causal inference with observational data. In addition to Machine Learning based-models, nonparametric estimators called meta-learners have been developed to estimate the CATE with the main advantage of not restraining the estimation to a specific supervised learning method. This task becomes, however, more complicated when the treatment is not binary as some limitations of the naive extensions emerge. This paper looks into meta-learners for estimating the heterogeneous effects of multi-valued treatments. We consider different meta-learners, and we carry out a theoretical analysis of their error upper bounds as functions of important parameters such as the number of treatment levels, showing that the naive extensions do not always provide satisfactory results. We introduce and discuss meta-learners that perform well as the number of treatments increases. We empirically confirm the strengths and weaknesses of those methods with synthetic and semi-synthetic datasets.
翻訳日:2023-04-28 17:23:47 公開日:2023-04-27
# 深層モデルに基づく強化学習のための多元トランスファー学習

Multi-Source Transfer Learning for Deep Model-Based Reinforcement Learning ( http://arxiv.org/abs/2205.14410v3 )

ライセンス: Link先を確認
Remo Sasso, Matthia Sabatelli, Marco A. Wiering(参考訳) 強化学習における重要な課題は、エージェントが所定のタスクをマスターするのに必要とする環境とのインタラクションの数を減らすことである。 転送学習は、以前に学習したタスクから知識を再利用することでこの問題に対処することを提案する。 しかし、どのソースタスクが知識抽出に最も適しているかを判断し、どのアルゴリズムコンポーネントを転送するかの選択は、強化学習におけるその応用への深刻な障害を表す。 本稿では,モジュール型マルチソーストランスファー学習手法を用いて,これらの課題を解決することを目的とする。 提案手法は,状態-作用空間と報酬関数の違いにかかわらず,ソースタスクから有用な情報を抽出する方法を自動で学習する。 私たちは、ビジュアルコントロールのための広範囲で挑戦的なクロスドメイン実験で、私たちの主張をサポートします。

A crucial challenge in reinforcement learning is to reduce the number of interactions with the environment that an agent requires to master a given task. Transfer learning proposes to address this issue by re-using knowledge from previously learned tasks. However, determining which source task qualifies as the most appropriate for knowledge extraction, as well as the choice regarding which algorithm components to transfer, represent severe obstacles to its application in reinforcement learning. The goal of this paper is to address these issues with modular multi-source transfer learning techniques. The proposed techniques automatically learn how to extract useful information from source tasks, regardless of the difference in state-action space and reward function. We support our claims with extensive and challenging cross-domain experiments for visual control.
翻訳日:2023-04-28 17:23:33 公開日:2023-04-27
# 依存型潜在クラスモデル

Dependent Latent Class Models ( http://arxiv.org/abs/2205.08677v2 )

ライセンス: Link先を確認
Jesse Bowers, Steve Culpepper(参考訳) 潜在クラスモデル(LCM)は多変量分類データをクラスタリングするために使用される(例えば、調査回答に基づくグループ参加者)。 伝統的なLCMは条件独立と呼ばれる資産を前提としている。 この仮定は制限的であり、モデルの誤特定と過剰パラメータ化に繋がる。 この問題に対処するため,我々は,条件依存を許容する Dependent Latent Class Model (DLCM) と呼ばれる新しいベイズモデルを開発した。 DLCMの識別可能性を検証する。 また,シミュレーションおよび実世界のアプリケーションにおけるDLCMの有効性を示す。 従来のLCMと比較して、DLCMは時系列、重なり合う項目、構造ゼロの応用に有効である。

Latent Class Models (LCMs) are used to cluster multivariate categorical data (e.g. group participants based on survey responses). Traditional LCMs assume a property called conditional independence. This assumption can be restrictive, leading to model misspecification and overparameterization. To combat this problem, we developed a novel Bayesian model called a Dependent Latent Class Model (DLCM), which permits conditional dependence. We verify identifiability of DLCMs. We also demonstrate the effectiveness of DLCMs in both simulations and real-world applications. Compared to traditional LCMs, DLCMs are effective in applications with time series, overlapping items, and structural zeroes.
翻訳日:2023-04-28 17:23:22 公開日:2023-04-27
# ピアツーピア分散機械学習(peer-to-peer decentralized machine learning)のセキュリティについて

On the (In)security of Peer-to-Peer Decentralized Machine Learning ( http://arxiv.org/abs/2205.08443v2 )

ライセンス: Link先を確認
Dario Pasquini, Mathilde Raynal and Carmela Troncoso(参考訳) 本研究では,分散学習の主要な制限に対処することを目的とした協調学習フレームワークである分散学習の,最初の詳細なプライバシー分析を行う。 我々は、パッシブおよびアクティブな分散した敵に対する一連の新しい攻撃について紹介する。 分散学習の提案者による主張とは対照的に,分散学習は連合学習よりもセキュリティ上の利点をもたらさないことを実証する。 むしろ、システム内のすべてのユーザーがグラデーションインバージョンのようなプライバシ攻撃を実行し、正直なユーザのローカルモデルを完全にコントロールすることを可能にする攻撃面を増加させる。 また,保護の現状を考えると,分散学習のプライバシ保存構成が完全接続ネットワークを必要とすること,フェデレーション設定に対する実用上の優位性が失われること,それゆえ分散学習の目的を完全に打ち破ることも示されている。

In this work, we carry out the first, in-depth, privacy analysis of Decentralized Learning -- a collaborative machine learning framework aimed at addressing the main limitations of federated learning. We introduce a suite of novel attacks for both passive and active decentralized adversaries. We demonstrate that, contrary to what is claimed by decentralized learning proposers, decentralized learning does not offer any security advantage over federated learning. Rather, it increases the attack surface enabling any user in the system to perform privacy attacks such as gradient inversion, and even gain full control over honest users' local model. We also show that, given the state of the art in protections, privacy-preserving configurations of decentralized learning require fully connected networks, losing any practical advantage over the federated setup and therefore completely defeating the objective of the decentralized approach.
翻訳日:2023-04-28 17:23:13 公開日:2023-04-27
# コミュニケーション障害:人間とニューラルキャプションの相互理解の低さについて

Communication breakdown: On the low mutual intelligibility between human and neural captioning ( http://arxiv.org/abs/2210.11512v2 )

ライセンス: Link先を確認
Roberto Dess\`i, Eleonora Gualdoni, Francesca Franzon, Gemma Boleda, Marco Baroni(参考訳) ニューラルキャプションが生成するキャプションまたはキャプションの入力として与えられた場合、ニューラルキャプションベースの画像検索装置の0ショット性能を比較する。 最近導入された imagecode data-set (krojer et al., 2022) でこの比較を行い、検索対象の画像とほぼ同一のハード・アロケータを含む。 我々は、前者とは異なり、タスクを困難にする注意をそらさずに前者を生成するという事実にもかかわらず、人間のキャプションよりも神経を供給した場合、神経検索装置はずっと高いパフォーマンスを示すことを見出した。 さらに驚くべきことに、同じニューラルキャプションが人間の被験者に与えられる場合、その検索性能はほぼ偶然のレベルである。 その結果、神経モデルの'言語'が英語に似ているとしても、この表面的類似性は深い誤解を招く可能性があるという証拠が増えてきている。

We compare the 0-shot performance of a neural caption-based image retriever when given as input either human-produced captions or captions generated by a neural captioner. We conduct this comparison on the recently introduced ImageCoDe data-set (Krojer et al., 2022) which contains hard distractors nearly identical to the images to be retrieved. We find that the neural retriever has much higher performance when fed neural rather than human captions, despite the fact that the former, unlike the latter, were generated without awareness of the distractors that make the task hard. Even more remarkably, when the same neural captions are given to human subjects, their retrieval performance is almost at chance level. Our results thus add to the growing body of evidence that, even when the ``language'' of neural models resembles English, this superficial resemblance might be deeply misleading.
翻訳日:2023-04-28 17:16:25 公開日:2023-04-27
# 効率的な不確実性推定のためのパッケージアンサンブル

Packed-Ensembles for Efficient Uncertainty Estimation ( http://arxiv.org/abs/2210.09184v3 )

ライセンス: Link先を確認
Olivier Laurent, Adrien Lafage, Enzo Tartaglione, Geoffrey Daniel, Jean-Marc Martinez, Andrei Bursuc and Gianni Franchi(参考訳) ディープアンサンブル(de)は、精度、キャリブレーション、不確実性推定、分散検出といった重要な指標において優れたパフォーマンスを達成するための顕著なアプローチである。 しかし、現実世界のシステムのハードウェア制限は、より小さなアンサンブルや低容量ネットワークに制約され、性能と特性が著しく低下する。 符号化空間の寸法を慎重に調整し,軽量な構造化アンサンブルを設計・訓練する戦略であるPacked-Ensembles (PE)を紹介した。 グループ化された畳み込みを利用して、アンサンブルを単一の共有バックボーンとフォワードパスに並列化し、トレーニングと推論速度を改善する。 PEは、標準的なニューラルネットワークのメモリ制限内で動作するように設計されている。 広範な研究により,peは多様性などのdeの特性を正確に保持し,精度,キャリブレーション,分散検出,分散シフトに対するロバスト性といった点で等しく機能することが示された。 コードはhttps://github.com/ensta-u2is/torch-uncertaintyで利用可能です。

Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.
翻訳日:2023-04-28 17:16:06 公開日:2023-04-27
# betatcvaeにおける全相関のスペルを破る

Break The Spell Of Total Correlation In betaTCVAE ( http://arxiv.org/abs/2210.08794v2 )

ライセンス: Link先を確認
Zihao Chen, Wenyong Wang, Sai Zou(参考訳) 人工ラベルが存在しない場合、データ内の独立な特徴と依存する特徴が乱雑になる。 モデルの帰納バイアスを柔軟に分割し、複雑さの異なる特徴を効果的に包含する方法は、教師なしの非絡み合い表現学習の主要な焦点である。 本稿では,全相関の新たな反復分解経路を提案し,モデル容量割り当ての観点からvaeの不連続表現能力を説明する。 新たに開発された目的関数は、潜在変数次元を結合分布に結合し、境界分布の独立性制約を緩和し、より操作可能な事前分布を持つ潜在変数を生み出す。 新しいモデルにより、vaeはパラメータのキャパシティを調整でき、依存データと独立データの特徴を柔軟に分割できる。 様々なデータセットに対する実験結果から,モデル容量と潜伏変数群のサイズとの間には,「V」形状の最良のELBO軌道と呼ばれる興味深い相関関係が示された。 さらに,提案手法が適度なパラメータキャパシティアロケーションでより良い分離性能が得られることを実証的に示す。

In the absence of artificial labels, the independent and dependent features in the data are cluttered. How to construct the inductive biases of the model to flexibly divide and effectively contain features with different complexity is the main focal point of unsupervised disentangled representation learning. This paper proposes a new iterative decomposition path of total correlation and explains the disentangled representation ability of VAE from the perspective of model capacity allocation. The newly developed objective function combines latent variable dimensions into joint distribution while relieving the independence constraints of marginal distributions in combination, leading to latent variables with a more manipulable prior distribution. The novel model enables VAE to adjust the parameter capacity to divide dependent and independent data features flexibly. Experimental results on various datasets show an interesting relevance between model capacity and the latent variable grouping size, called the "V"-shaped best ELBO trajectory. Additionally, we empirically demonstrate that the proposed method obtains better disentangling performance with reasonable parameter capacity allocation.
翻訳日:2023-04-28 17:15:46 公開日:2023-04-27
# オープンドメインの質問応答を改善するコンテキスト生成

Context Generation Improves Open Domain Question Answering ( http://arxiv.org/abs/2210.06349v2 )

ライセンス: Link先を確認
Dan Su, Mostofa Patwary, Shrimai Prabhumoye, Peng Xu, Ryan Prenger, Mohammad Shoeybi, Pascale Fung, Anima Anandkumar, Bryan Catanzaro(参考訳) クローズドブック質問応答(QA)は、外部知識にアクセスせずに、オープンドメインの質問に答えるモデルを必要とする。 クローズドブックQAの以前の作業は、直接微調整するか、事前訓練された言語モデル(LM)に保存された知識を活用するよう促す。 しかし、パラメータ化された知識を十分に活用していない。 この問題に対処するため,我々は2段階のクローズドブックqaフレームワークを提案する。 提案手法はまず,事前学習したLMを誘導することにより,与えられた質問に対する関連するコンテキストを生成する。 次に、生成した文脈と質問を用いて、同じLMに回答予測を指示する。 さらに、コンテキストの不確実性に起因する障害を取り除くために、生成されたコンテキストを疎外する。 3つのQAベンチマーク実験の結果、我々の手法は従来のクローズドブックQA手法(68.6%対55.3%)を著しく上回り、外部知識源を利用するオープンブック手法(68.6%対68.0%)と同等であることがわかった。 本手法は,学習可能なパラメータの追加や微調整を必要とせずに,事前学習されたlmsの知識をより活用し,事前学習されたlmsと外部知識を統合するハイブリッドモデルへの道を開く。

Closed-book question answering (QA) requires a model to directly answer an open-domain question without access to any external knowledge. Prior work on closed-book QA either directly finetunes or prompts a pretrained language model (LM) to leverage the stored knowledge. However, they do not fully exploit the parameterized knowledge. To address this issue, we propose a two-stage, closed-book QA framework which employs a coarse-to-fine approach to extract relevant knowledge and answer a question. Our approach first generates a related context for a given question by prompting a pretrained LM. We then prompt the same LM for answer prediction using the generated context and the question. Additionally, to eliminate failure caused by context uncertainty, we marginalize over generated contexts. Experimental results on three QA benchmarks show that our method significantly outperforms previous closed-book QA methods (e.g. exact matching 68.6% vs. 55.3%), and is on par with open-book methods that exploit external knowledge sources (e.g. 68.6% vs. 68.0%). Our method is able to better exploit the stored knowledge in pretrained LMs without adding extra learnable parameters or needing finetuning, and paves the way for hybrid models that integrate pretrained LMs with external knowledge.
翻訳日:2023-04-28 17:15:27 公開日:2023-04-27
# Bias Mimicking: Bias緩和のための簡単なサンプリングアプローチ

Bias Mimicking: A Simple Sampling Approach for Bias Mitigation ( http://arxiv.org/abs/2209.15605v8 )

ライセンス: Link先を確認
Maan Qraitem, Kate Saenko, Bryan A. Plummer(参考訳) 以前の研究では、視覚認識データセットがクラスラベルの$y$(\egプログラマ)内でバイアスグループを過小表現していることが示されている。 このデータセットバイアスは、クラスラベルと年齢、性別、人種などのバイアスグループの間の急激な相関を学習するモデルにつながる可能性がある。 この問題に対処する最も最近の手法は、アーキテクチャの変更や、よりハイパーパラメータチューニングを必要とする追加の損失関数を必要とする。 あるいは、クラスのアンバランスな文献(\eg Undersampling, Upweighting)からのデータサンプリングベースラインも、単一のコード行で実装され、ハイパーパラメータを持たないことが多いため、より安価で効率的なソリューションを提供する。 しかし、これらの手法には重大な欠点がある。 例えば、アンダーサンプリングはエポック毎の入力分布の重要な部分を落とし、オーバーサンプリングはサンプルを繰り返す。 これらの欠点に対処するため,新しいクラス条件サンプリング手法であるバイアスミミキングを導入する。 この方法は、クラス $c$ のバイアス分布である \ie $p_d(b|y=c)$ が $c^{\prime}\neq c$ ごとに模倣された場合、$y$ と $b$ は統計的に独立である。 この概念を用いて、bmは、新しいトレーニング手順を通じて、サンプルを繰り返すことなく、モデルがエポック当たりの分布全体に露出することを保証する。 その結果、Bias Mimickingは4つのベンチマークに対して3倍の精度でサンプリング方法の表現不足のグループの精度を向上し、非サンプリング手法よりもパフォーマンスを維持、時には改善する。 コード: \url{https://github.com/mqraitem/Bias-Mimicking}

Prior work has shown that Visual Recognition datasets frequently underrepresent bias groups $B$ (\eg Female) within class labels $Y$ (\eg Programmers). This dataset bias can lead to models that learn spurious correlations between class labels and bias groups such as age, gender, or race. Most recent methods that address this problem require significant architectural changes or additional loss functions requiring more hyper-parameter tuning. Alternatively, data sampling baselines from the class imbalance literature (\eg Undersampling, Upweighting), which can often be implemented in a single line of code and often have no hyperparameters, offer a cheaper and more efficient solution. However, these methods suffer from significant shortcomings. For example, Undersampling drops a significant part of the input distribution per epoch while Oversampling repeats samples, causing overfitting. To address these shortcomings, we introduce a new class-conditioned sampling method: Bias Mimicking. The method is based on the observation that if a class $c$ bias distribution, \ie $P_D(B|Y=c)$ is mimicked across every $c^{\prime}\neq c$, then $Y$ and $B$ are statistically independent. Using this notion, BM, through a novel training procedure, ensures that the model is exposed to the entire distribution per epoch without repeating samples. Consequently, Bias Mimicking improves underrepresented groups' accuracy of sampling methods by 3\% over four benchmarks while maintaining and sometimes improving performance over nonsampling methods. Code: \url{https://github.com/mqraitem/Bias-Mimicking}
翻訳日:2023-04-28 17:15:02 公開日:2023-04-27
# cbamアテンション機構に基づくu-net鋼板設計図面のセグメンテーション法

Segmentation method of U-net sheet metal engineering drawing based on CBAM attention mechanism ( http://arxiv.org/abs/2209.14102v2 )

ライセンス: Link先を確認
Zhiwei Song, Hui Yao(参考訳) 重工業機器の製造工程において、溶接図中の特定単位を手動で再描画した後、対応する板状金属部品を切断して非効率にする。 そこで本研究では,溶接工学図面における特定ユニットの分割抽出のためのU-net方式を提案する。 カット装置は、視覚情報に応じて特定のグラフィック単位を自動的に分割し、セグメント化結果に応じて対応する形状のシート金属部品を自動的に切断することができる。 このプロセスは従来の人手による切削よりも効率的である。 U-netネットワークの2つの弱点はセグメンテーション性能の低下につながる: まず、グローバルな意味的特徴情報へのフォーカスが弱く、次に、浅いエンコーダ特徴と深いデコーダ特徴の間に大きな次元差がある。 本稿では,cbam(convolutional block attention module)の注意機構に基づき,ネットワークのグローバルセマンティック特徴抽出能力を向上させるための注意機構を備えたu-netジャンプ構造モデルを提案する。 さらに、二重プーリング畳み込み融合を用いたU-netアテンション機構モデルを設計し、深部エンコーダの最大プーリング+畳み込み特性と浅部エンコーダの平均プーリング+畳み込み特性を垂直に融合させ、浅部エンコーダと深部デコーダの寸法差を低減する。 デュアルプール畳み込み型アテンションジャンプ構造は、従来のu-netジャンプ構造を置き換えるもので、溶接エンジニアリングドローイングの特定のユニットセグメンテーション性能を効果的に改善することができる。 バックボーンネットワークとしてvgg16を用いて、溶接エンジニアリングのデータセットセグメンテーションタスクにおける我々のモデルのIoU、mAP、Accuはそれぞれ84.72%、86.84%、99.42%であることを確認した。

In the manufacturing process of heavy industrial equipment, the specific unit in the welding diagram is first manually redrawn and then the corresponding sheet metal parts are cut, which is inefficient. To this end, this paper proposes a U-net-based method for the segmentation and extraction of specific units in welding engineering drawings. This method enables the cutting device to automatically segment specific graphic units according to visual information and automatically cut out sheet metal parts of corresponding shapes according to the segmentation results. This process is more efficient than traditional human-assisted cutting. Two weaknesses in the U-net network will lead to a decrease in segmentation performance: first, the focus on global semantic feature information is weak, and second, there is a large dimensional difference between shallow encoder features and deep decoder features. Based on the CBAM (Convolutional Block Attention Module) attention mechanism, this paper proposes a U-net jump structure model with an attention mechanism to improve the network's global semantic feature extraction ability. In addition, a U-net attention mechanism model with dual pooling convolution fusion is designed, the deep encoder's maximum pooling + convolution features and the shallow encoder's average pooling + convolution features are fused vertically to reduce the dimension difference between the shallow encoder and deep decoder. The dual-pool convolutional attention jump structure replaces the traditional U-net jump structure, which can effectively improve the specific unit segmentation performance of the welding engineering drawing. Using vgg16 as the backbone network, experiments have verified that the IoU, mAP, and Accu of our model in the welding engineering drawing dataset segmentation task are 84.72%, 86.84%, and 99.42%, respectively.
翻訳日:2023-04-28 17:14:34 公開日:2023-04-27
# 材料工学における人工知能: 材料工学におけるAIの応用に関するレビュー

Artificial Intelligence in Material Engineering: A review on applications of AI in Material Engineering ( http://arxiv.org/abs/2209.11234v3 )

ライセンス: Link先を確認
Lipichanda Goswami, Manoj Deka and Mohendra Roy(参考訳) 物質科学と工学(MSE)における人工知能(AI)の役割は、AI技術の進歩とともにますます重要になりつつある。 高性能コンピューティングの開発により、大きなパラメータを持つディープラーニング(DL)モデルをテストすることが可能となり、特性予測において密度汎関数理論(DFT)のような従来の計算手法の限界を克服する機会となった。 機械学習(ML)ベースの手法は、DFTベースの手法よりも高速で正確である。 さらに, 生成逆数ネットワーク(GAN)は, 結晶構造情報を使わずに無機材料の化学組成の生成を促進する。 これらの開発は材料工学(ME)と研究に大きな影響を与えた。 ここでは、MEにおけるAIの最新開発についてレビューする。 まず, 材料加工, 構造と材料特性の研究, 各種面における材料性能の測定など, MEの重要領域におけるAIの開発について論じる。 次に、グラフニューラルネットワーク、生成モデル、学習の伝達など、MSEにおけるAIの重要な方法とその利用について論じる。 既存の分析機器からの結果を分析するためのAIの利用についても論じる。 最後に、MEにおけるAIのアドバンテージ、デメリット、将来について論じる。

The role of artificial intelligence (AI) in material science and engineering (MSE) is becoming increasingly important as AI technology advances. The development of high-performance computing has made it possible to test deep learning (DL) models with significant parameters, providing an opportunity to overcome the limitation of traditional computational methods, such as density functional theory (DFT), in property prediction. Machine learning (ML)-based methods are faster and more accurate than DFT-based methods. Furthermore, the generative adversarial networks (GANs) have facilitated the generation of chemical compositions of inorganic materials without using crystal structure information. These developments have significantly impacted material engineering (ME) and research. Some of the latest developments in AI in ME herein are reviewed. First, the development of AI in the critical areas of ME, such as in material processing, the study of structure and material property, and measuring the performance of materials in various aspects, is discussed. Then, the significant methods of AI and their uses in MSE, such as graph neural network, generative models, transfer of learning, etc. are discussed. The use of AI to analyze the results from existing analytical instruments is also discussed. Finally, AI's advantages, disadvantages, and future in ME are discussed.
翻訳日:2023-04-28 17:13:39 公開日:2023-04-27
# 制御のための統計的学習理論:有限サンプル視点

Statistical Learning Theory for Control: A Finite Sample Perspective ( http://arxiv.org/abs/2209.05423v2 )

ライセンス: Link先を確認
Anastasios Tsiamis, Ingvar Ziemann, Nikolai Matni, George J. Pappas(参考訳) このチュートリアル調査は、制御とシステム同定に関連する統計学習理論における最近の非漸近的進歩の概要を提供する。 制御のあらゆる領域でかなりの進歩があったが、この理論は線形系同定と線形二次制御器の学習において最もよく発達しており、これはこの写本の焦点である。 理論的な見地からすると、これらの進歩の根底にある多くの労力は、現代の高次元統計学と学習理論からのツールの適応であった。 機械学習からツールを統合することに関心のある制御理論家には非常に関係があるが、基礎となる材料は必ずしも容易にアクセスできない。 これに対処するため、我々は、最近の結果を支えるすべての重要なアイデアと技術機械を概説し、関連する資料の自己完結したプレゼンテーションを提供する。 オープンな問題や今後の方向性もいくつか紹介します。

This tutorial survey provides an overview of recent non-asymptotic advances in statistical learning theory as relevant to control and system identification. While there has been substantial progress across all areas of control, the theory is most well-developed when it comes to linear system identification and learning for the linear quadratic regulator, which are the focus of this manuscript. From a theoretical perspective, much of the labor underlying these advances has been in adapting tools from modern high-dimensional statistics and learning theory. While highly relevant to control theorists interested in integrating tools from machine learning, the foundational material has not always been easily accessible. To remedy this, we provide a self-contained presentation of the relevant material, outlining all the key ideas and the technical machinery that underpin recent results. We also present a number of open problems and future directions.
翻訳日:2023-04-28 17:13:22 公開日:2023-04-27
# 細胞フリーの遅延 Go-Explore

Cell-Free Latent Go-Explore ( http://arxiv.org/abs/2208.14928v3 )

ライセンス: Link先を確認
Quentin Gallou\'edec and Emmanuel Dellandr\'ea(参考訳) 本稿では、強化学習(RL)における探索のためのGo-Exploreパラダイムに基づく、単純かつ一般的なアプローチであるLatent Go-Explore(LGE)を紹介する。 Go-Exploreは当初、状態空間をセルに分割するための強力なドメイン知識制約とともに導入された。 しかし、現実世界のほとんどのシナリオでは、生の観測からドメイン知識を引き出すのは複雑で面倒である。 細胞分割が十分な情報を持っていなければ、Go-Exploreは環境の探索に完全に失敗する可能性がある。 Go-Exploreのアプローチは、学習された潜在表現を活用すれば、ドメイン知識やセルなしで任意の環境に一般化できると論じる。 したがって,lgeは潜在表現を学習するための任意の戦略と柔軟に結合できることを示す。 以上の結果から,lgeはgo-exploreよりも単純であるが,モンテズマの復讐を含む複数のハードエクスプロレーション環境を純粋に探索する点で,最先端アルゴリズムよりも堅牢で優れることが示された。 LGEの実装はhttps://github.com/qgallouedec/lgeでオープンソースとして公開されている。

In this paper, we introduce Latent Go-Explore (LGE), a simple and general approach based on the Go-Explore paradigm for exploration in reinforcement learning (RL). Go-Explore was initially introduced with a strong domain knowledge constraint for partitioning the state space into cells. However, in most real-world scenarios, drawing domain knowledge from raw observations is complex and tedious. If the cell partitioning is not informative enough, Go-Explore can completely fail to explore the environment. We argue that the Go-Explore approach can be generalized to any environment without domain knowledge and without cells by exploiting a learned latent representation. Thus, we show that LGE can be flexibly combined with any strategy for learning a latent representation. Our results indicate that LGE, although simpler than Go-Explore, is more robust and outperforms state-of-the-art algorithms in terms of pure exploration on multiple hard-exploration environments including Montezuma's Revenge. The LGE implementation is available as open-source at https://github.com/qgallouedec/lge.
翻訳日:2023-04-28 17:13:09 公開日:2023-04-27
# 皮膚疾患の鑑別診断を改善するための解釈可能不均衡半教師付きディープラーニングフレームワーク

An interpretable imbalanced semi-supervised deep learning framework for improving differential diagnosis of skin diseases ( http://arxiv.org/abs/2211.10858v2 )

ライセンス: Link先を確認
Futian Weng, Yuanting Ma, Jinghan Sun, Shijun Shan, Qiyuan Li, Jianping Zhu, Yang Wang, Yan Xu(参考訳) 皮膚疾患は世界中で最も多い疾患である。 本稿では, 58,457枚の皮膚画像と10,857枚の未表示サンプルを用いて, マルチクラス皮膚診断フレームワーク(ISDL)の解釈可能性と非バランスな半教師付き学習について検討した。 マイノリティクラスからの擬似ラベルサンプルは、クラスリバランシングの繰り返し毎に高い確率を持ち、ラベルなしサンプルの利用を促進し、クラス不均衡問題を解決する。 ISDLは0.979の精度,0.975の感度,0.973の特異度,0.974のマクロF1スコア,およびマルチラベル皮膚疾患分類における0.999の受信操作特性曲線(AUC)以下の領域を有望な性能で達成した。 Shapley Additive explanation (SHAP) 法はISDLと組み合わせて,ディープラーニングモデルがどのように予測を行うかを説明する。 この発見は臨床診断と一致している。 また,isdlplusを用いて擬似ラベル標本を効果的に選択するためのサンプリング分布最適化手法を提案した。 さらに、専門医へのプレッシャーを和らげる可能性や、農村部におけるそのような医師の不足に伴う実践的な問題も解決する可能性がある。

Dermatological diseases are among the most common disorders worldwide. This paper presents the first study of the interpretability and imbalanced semi-supervised learning of the multiclass intelligent skin diagnosis framework (ISDL) using 58,457 skin images with 10,857 unlabeled samples. Pseudo-labelled samples from minority classes have a higher probability at each iteration of class-rebalancing self-training, thereby promoting the utilization of unlabeled samples to solve the class imbalance problem. Our ISDL achieved a promising performance with an accuracy of 0.979, sensitivity of 0.975, specificity of 0.973, macro-F1 score of 0.974 and area under the receiver operating characteristic curve (AUC) of 0.999 for multi-label skin disease classification. The Shapley Additive explanation (SHAP) method is combined with our ISDL to explain how the deep learning model makes predictions. This finding is consistent with the clinical diagnosis. We also proposed a sampling distribution optimisation strategy to select pseudo-labelled samples in a more effective manner using ISDLplus. Furthermore, it has the potential to relieve the pressure placed on professional doctors, as well as help with practical issues associated with a shortage of such doctors in rural areas.
翻訳日:2023-04-28 17:07:33 公開日:2023-04-27
# 量子ゼロサムゲームにおける行列乗法重の更新:保存法則と再帰

Matrix Multiplicative Weights Updates in Quantum Zero-Sum Games: Conservation Laws & Recurrence ( http://arxiv.org/abs/2211.01681v2 )

ライセンス: Link先を確認
Rahul Jain, Georgios Piliouras and Ryann Sim(参考訳) 量子コンピューティングの最近の進歩、特に量子GANの導入により、量子ゼロサムゲーム理論への関心が高まり、古典ゲームのための学習アルゴリズムの範囲を量子領域へと広げた。 本稿では,行列乗算重み更新(乗算重み更新法の一般化)に基づく量子ゼロサムゲームにおける学習と,その連続的なアナログである量子リプリケータダイナミクスについて述べる。 各プレイヤーが量子複製子ダイナミクスに従って状態を選択すると、システムは量子情報理論的な意味で保存則を示す。 さらに,この系はポインカレ再発を示しており,ほぼすべての軌道が初期条件に無限に近い頻度で自発的に帰還することを示した。 我々の分析は古典ゲームの場合の過去の結果を一般化する。

Recent advances in quantum computing and in particular, the introduction of quantum GANs, have led to increased interest in quantum zero-sum game theory, extending the scope of learning algorithms for classical games into the quantum realm. In this paper, we focus on learning in quantum zero-sum games under Matrix Multiplicative Weights Update (a generalization of the multiplicative weights update method) and its continuous analogue, Quantum Replicator Dynamics. When each player selects their state according to quantum replicator dynamics, we show that the system exhibits conservation laws in a quantum-information theoretic sense. Moreover, we show that the system exhibits Poincare recurrence, meaning that almost all orbits return arbitrarily close to their initial conditions infinitely often. Our analysis generalizes previous results in the case of classical games.
翻訳日:2023-04-28 17:06:46 公開日:2023-04-27
# 確率コンピュータを用いた加速量子モンテカルロ

Accelerated Quantum Monte Carlo with Probabilistic Computers ( http://arxiv.org/abs/2210.17526v2 )

ライセンス: Link先を確認
Shuvro Chowdhury, Kerem Y. Camsari, and Supriyo Datta(参考訳) 量子モンテカルロ(QMC)技術は様々な科学的問題に広く使われており、標準プロセッサ(CPU)上でQMCを高速化する最適化アルゴリズムの開発に多くの研究が費やされている。 様々な専用デバイスやドメイン固有のハードウェアが出現するにつれ、これらの技術が既存の技術に対してどのような改善をもたらすかの明確なベンチマークを確立することがますます重要になっている。 本稿では,特別に設計されたディジタルプロセッサを用いた標準qmcアルゴリズムの2桁から3桁の高速化と,クロックレスアナログプロセッサへのマッピングによりさらに2桁から3桁の高速化を示す。 我々の実証では、横フィールドイジングモデル(TFIM)の5~6桁の等級加速度のロードマップを提供しており、他のQMCモデルにも拡張できる可能性がある。 クロックレスアナログハードウェアは、量子アニールの古典的なものと見なすことができ、後者の$<10$の範囲で性能を提供する。 クロックレスアナログハードウェアの収束時間は、量子ビットの数を$\sim N$としてスケールし、CPU実装の$\sim N^2$スケーリングを改善するが、D-Waveによって報告された量子アニールよりも悪く見える。

Quantum Monte Carlo (QMC) techniques are widely used in a variety of scientific problems and much work has been dedicated to developing optimized algorithms that can accelerate QMC on standard processors (CPU). With the advent of various special purpose devices and domain specific hardware, it has become increasingly important to establish clear benchmarks of what improvements these technologies offer compared to existing technologies. In this paper, we demonstrate 2 to 3 orders of magnitude acceleration of a standard QMC algorithm using a specially designed digital processor, and a further 2 to 3 orders of magnitude by mapping it to a clockless analog processor. Our demonstration provides a roadmap for 5 to 6 orders of magnitude acceleration for a transverse field Ising model (TFIM) and could possibly be extended to other QMC models as well. The clockless analog hardware can be viewed as the classical counterpart of the quantum annealer and provides performance within a factor of $<10$ of the latter. The convergence time for the clockless analog hardware scales with the number of qubits as $\sim N$, improving the $\sim N^2$ scaling for CPU implementations, but appears worse than that reported for quantum annealers by D-Wave.
翻訳日:2023-04-28 17:06:32 公開日:2023-04-27
# 化学予習モデルに関する体系的調査

A Systematic Survey of Chemical Pre-trained Models ( http://arxiv.org/abs/2210.16484v3 )

ライセンス: Link先を確認
Jun Xia, Yanqiao Zhu, Yuanqi Du, Stan Z.Li(参考訳) 深層学習は分子の表現の学習において著しく成功し、特性予測から薬物設計まで様々な生化学応用に不可欠である。 しかし、Deep Neural Networks(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。 この問題を軽減するために、DNNは大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される分子事前訓練モデル(CPM)に多大な努力が払われている。 繁栄にもかかわらず、この急速に成長する分野の体系的なレビューがない。 本稿では,CPMの現況をまとめた第1回調査について述べる。 まず、分子表現モデルをスクラッチからモチベートするCPM研究の限界を強調した。 次に, 分子ディスクリプタ, エンコーダアーキテクチャ, 事前学習戦略, 応用など, このトピックの最近の進歩を概観する。 また、今後の研究の課題と将来性を強調し、機械学習と科学コミュニティの両方に有用なリソースを提供します。

Deep learning has achieved remarkable success in learning representations for molecules, which is crucial for various biochemical applications, ranging from property prediction to drug design. However, training Deep Neural Networks (DNNs) from scratch often requires abundant labeled molecules, which are expensive to acquire in the real world. To alleviate this issue, tremendous efforts have been devoted to Molecular Pre-trained Models (CPMs), where DNNs are pre-trained using large-scale unlabeled molecular databases and then fine-tuned over specific downstream tasks. Despite the prosperity, there lacks a systematic review of this fast-growing field. In this paper, we present the first survey that summarizes the current progress of CPMs. We first highlight the limitations of training molecular representation models from scratch to motivate CPM studies. Next, we systematically review recent advances on this topic from several key perspectives, including molecular descriptors, encoder architectures, pre-training strategies, and applications. We also highlight the challenges and promising avenues for future research, providing a useful resource for both machine learning and scientific communities.
翻訳日:2023-04-28 17:06:11 公開日:2023-04-27
# キャリブレーションを超えて:現代のニューラルネットワークのグルーピング損失の推定

Beyond calibration: estimating the grouping loss of modern neural networks ( http://arxiv.org/abs/2210.16315v3 )

ライセンス: Link先を確認
Alexandre Perez-Lebel (SODA), Marine Le Morvan (SODA), Ga\"el Varoquaux (SODA)(参考訳) 分類器が信頼度を確実にする能力は、情報的な意思決定を保証するために不可欠である。 この目的のために、最近の研究は誤校正、すなわちモデルスコアの過度または過小評価に焦点を当てている。 しかし、キャリブレーションは十分ではない: 最高の精度の完全なキャリブレーション分類器でさえ、真の後部確率とは程遠い信頼スコアを持つことができる。 これは、同じ信頼度スコアを持つが真の後方確率が異なるサンプルによって作成されたグループ化損失によるものである。 適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。 キャリブレーション損失には多くの推定要因があるが、標準設定のグルーピング損失は存在していない。 本稿では,グループ化損失を近似する推定器を提案する。 視覚およびNLPにおける現代のニューラルネットワークアーキテクチャはグループ化損失を示し、特に分布シフト設定において、プレプロダクションバリデーションの重要性を強調している。

The ability to ensure that a classifier gives reliable confidence scores is essential to ensure informed decision-making. To this end, recent work has focused on miscalibration, i.e., the over or under confidence of model scores. Yet calibration is not enough: even a perfectly calibrated classifier with the best possible accuracy can have confidence scores that are far from the true posterior probabilities. This is due to the grouping loss, created by samples with the same confidence scores but different true posterior probabilities. Proper scoring rule theory shows that given the calibration loss, the missing piece to characterize individual errors is the grouping loss. While there are many estimators of the calibration loss, none exists for the grouping loss in standard settings. Here, we propose an estimator to approximate the grouping loss. We show that modern neural network architectures in vision and NLP exhibit grouping loss, notably in distribution shifts settings, which highlights the importance of pre-production validation.
翻訳日:2023-04-28 17:05:52 公開日:2023-04-27
# occam学習

Occam learning ( http://arxiv.org/abs/2210.13179v2 )

ライセンス: Link先を確認
Rongrong Xie and Matteo Marsili(参考訳) 隠れ層の分布が固定された教師なし学習のための確率論的ニューラルネットワークモデルについて議論する。 このアーキテクチャで学習する機械には,多くの望ましい特性がある,と我々は主張する。 例えば、モデルは単純で解釈可能なものとして選択することができ、過剰なパラメータを持つ必要はなく、熱力学的な意味での効率的なトレーニングが主張されている。 隠れ単位がバイナリ変数である場合、これらのモデルは特徴の観点から自然な解釈を持つ。 特徴のない状態は特徴に関する最大無知の状態に対応し、最初の特徴の学習はデータの非ガウス統計特性に依存することを示した。 隠れた変数の分布は、最大関連性の原理に従って選択すべきである。 我々は,階層的特徴モデル(hfm)を,この原則を満たし,特徴空間の中立的事前構造を符号化するモデルの一例として紹介する。 大規模数値実験を順に提示する。 一 学習機械の内部表現が、実際に訓練されたデータから独立して行うことができることをテストすること。 ii) 多数のデータセットを記述するために、有限個の機能しか必要とされないこと。

We discuss probabilistic neural network models for unsupervised learning where the distribution of the hidden layer is fixed. We argue that learning machines with this architecture enjoy a number of desirable properties. For example, the model can be chosen as a simple and interpretable one, it does not need to be over-parametrised and training is argued to be efficient in a thermodynamic sense. When hidden units are binary variables, these models have a natural interpretation in terms of features. We show that the featureless state corresponds to a state of maximal ignorance about the features and that learning the first feature depends on non-Gaussian statistical properties of the data. We suggest that the distribution of hidden variables should be chosen according to the principle of maximal relevance. We introduce the Hierarchical Feature Model (HFM) as an example of a model that satisfies this principle, and that encodes a neutral a priori organisation of the feature space. We present extensive numerical experiments in order i) to test that the internal representation of learning machines can indeed be independent of the data with which they are trained and ii) that only a finite number of features are needed to describe a number of datasets.
翻訳日:2023-04-28 17:05:20 公開日:2023-04-27
# ゼロリソース設定における言語間シーケンスラベリングのモデルとデータ転送

Model and Data Transfer for Cross-Lingual Sequence Labelling in Zero-Resource Settings ( http://arxiv.org/abs/2210.12623v2 )

ライセンス: Link先を確認
Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau(参考訳) ゼロ・リソース・クロスランガル・トランスファーアプローチは、ソース言語からの教師ありモデルの適用を意図している。 本稿では,データやモデル転送に基づく言語間ゼロリソースシーケンスラベリングにおいて,これまで採用されてきた2つの主要な手法について詳細に検討する。 従来, 言語間シーケンスラベリングの有効な手法として, 翻訳およびアノテーションの投影(データに基づく言語間転送)を提案してきたが, 本論文では, ゼロショット(モデルに基づく言語間転送)で適用された高容量多言語言語モデルが, 一貫してデータベースの言語間転送手法より優れていることを示す。 結果の詳細な分析から,言語使用の相違が原因である可能性が示唆された。 より具体的には、機械翻訳は、金の標準データを使用するときのモデルと異なるテキスト信号を生成することが多く、細調整と評価の両方のプロセスに影響を与える。 また,高容量多言語言語モデルが利用できない場合,データに基づく言語間移動アプローチが競争力のある選択肢であることを示す。

Zero-resource cross-lingual transfer approaches aim to apply supervised models from a source language to unlabelled target languages. In this paper we perform an in-depth study of the two main techniques employed so far for cross-lingual zero-resource sequence labelling, based either on data or model transfer. Although previous research has proposed translation and annotation projection (data-based cross-lingual transfer) as an effective technique for cross-lingual sequence labelling, in this paper we experimentally demonstrate that high capacity multilingual language models applied in a zero-shot (model-based cross-lingual transfer) setting consistently outperform data-based cross-lingual transfer approaches. A detailed analysis of our results suggests that this might be due to important differences in language use. More specifically, machine translation often generates a textual signal which is different to what the models are exposed to when using gold standard data, which affects both the fine-tuning and evaluation processes. Our results also indicate that data-based cross-lingual transfer approaches remain a competitive option when high-capacity multilingual language models are not available.
翻訳日:2023-04-28 17:05:04 公開日:2023-04-27
# RFold:脱結合最適化によるRNA二次構造予測

RFold: RNA Secondary Structure Prediction with Decoupled Optimization ( http://arxiv.org/abs/2212.14041v2 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Stan Z. Li(参考訳) リボ核酸(rna)の二次構造は、第3次構造よりも安定でアクセスしやすいため、機能予測に必須である。 ディープラーニングはこの分野で有望な結果を示しているが、現在の手法は一般化が悪く、複雑度が高い。 本研究は、単純で効果的なRNA二次構造予測であるRFoldをエンドツーエンドに提示する。 rfoldは、バニラ制約満足度問題を行と列の最適化に分解する分離最適化プロセスを導入し、アウトプットの妥当性を保証しながら解決プロセスを単純化する。 さらに、RFoldは手作りの機能を設計する代わりに、アテンションマップを情報表現として採用している。 RFoldは最先端手法の約8倍の競争性能と推論効率を達成できることを示した。 コードとColabのデモは \href{http://github.com/A4Bio/RFold}{http://github.com/A4Bio/RFold} で公開されている。

The secondary structure of ribonucleic acid (RNA) is more stable and accessible in the cell than its tertiary structure, making it essential for functional prediction. Although deep learning has shown promising results in this field, current methods suffer from poor generalization and high complexity. In this work, we present RFold, a simple yet effective RNA secondary structure prediction in an end-to-end manner. RFold introduces a decoupled optimization process that decomposes the vanilla constraint satisfaction problem into row-wise and column-wise optimization, simplifying the solving process while guaranteeing the validity of the output. Moreover, RFold adopts attention maps as informative representations instead of designing hand-crafted features. Extensive experiments demonstrate that RFold achieves competitive performance and about eight times faster inference efficiency than the state-of-the-art method. The code and Colab demo are available in \href{http://github.com/A4Bio/RFold}{http://github.com/A4Bio/RFold}.
翻訳日:2023-04-28 16:56:48 公開日:2023-04-27
# 正八角形格子上の Abrikosov フェルミオン平均場 ans\atze の射影対称性群の分類

Projective symmetry group classification of Abrikosov fermion mean-field ans\"atze on the square-octagon lattice ( http://arxiv.org/abs/2212.09554v2 )

ライセンス: Link先を確認
Atanu Maity, Francesco Ferrari, Ronny Thomale, Saptarshi Mandal, Yasir Iqbal(参考訳) 正方形八角形格子上の異なるゲージ群を持つ対称量子スピン液体の射影対称性群(PSG)分類を行う。 スピン=1/2$に対して Abrikosov fermion 表現を用いると、32$$SU(2)$, $1808$$U(1)$, $384$$\mathbb{Z}_{2}$ algebraic PSGs が得られる。 短距離の振幅を持つ平均場 parton ans\"atze に制限することで、分類は 4 $su(2)$, 24 $u(1)$, 36 $\mathbb{z}_{2}$ という制限された数に還元される。 ハイゼンベルク・ハミルトニアンとフラストレーション結合の自己連続処理における基底状態特性とスピノン分散について論じる。

We perform a projective symmetry group (PSG) classification of symmetric quantum spin liquids with different gauge groups on the square-octagon lattice. Employing the Abrikosov fermion representation for spin-$1/2$, we obtain $32$ $SU(2)$, $1808$ $U(1)$ and $384$ $\mathbb{Z}_{2}$ algebraic PSGs. Constraining ourselves to mean-field parton ans\"atze with short-range amplitudes, the classification reduces to a limited number, with 4 $SU(2)$, 24 $U(1)$ and 36 $\mathbb{Z}_{2}$, distinct phases. We discuss their ground state properties and spinon dispersions within a self-consistent treatment of the Heisenberg Hamiltonian with frustrating couplings.
翻訳日:2023-04-28 16:56:15 公開日:2023-04-27
# インタラクティブなコンセプトボトルネックモデル

Interactive Concept Bottleneck Models ( http://arxiv.org/abs/2212.07430v3 )

ライセンス: Link先を確認
Kushal Chauhan, Rishabh Tiwari, Jan Freyberg, Pradeep Shenoy, Krishnamurthy Dvijotham(参考訳) 概念ボトルネックモデル(CBM)は、まず、予測タスクに関連する人間解釈可能な概念のラベルを予測し、次に概念ラベル予測に基づいて最終ラベルを予測する、解釈可能なニューラルネットワークである。 cbmsをインタラクティブな予測設定に拡張し、モデルがラベルのヒューマンコラボレータにいくつかの概念を問い合わせることができます。 我々は,最終的な予測を最大化するために,ラベルを要求すべき概念を選択するインタラクションポリシーを開発する。 最終予測における概念予測の不確実性と概念の影響を組み合わせる単純な方針が,静的なアプローチよりも優れた性能を達成し,本論文で提案する能動的特徴獲得手法を上回ることを実証する。 対話型CBMは,Caltech-UCSD Birds,CheXpert,OAIデータセット上の競合ベースライン上での5つのインタラクションで,5~10%の精度向上を実現可能であることを示す。

Concept bottleneck models (CBMs) are interpretable neural networks that first predict labels for human-interpretable concepts relevant to the prediction task, and then predict the final label based on the concept label predictions. We extend CBMs to interactive prediction settings where the model can query a human collaborator for the label to some concepts. We develop an interaction policy that, at prediction time, chooses which concepts to request a label for so as to maximally improve the final prediction. We demonstrate that a simple policy combining concept prediction uncertainty and influence of the concept on the final prediction achieves strong performance and outperforms static approaches as well as active feature acquisition methods proposed in the literature. We show that the interactive CBM can achieve accuracy gains of 5-10% with only 5 interactions over competitive baselines on the Caltech-UCSD Birds, CheXpert and OAI datasets.
翻訳日:2023-04-28 16:55:59 公開日:2023-04-27
# マルチプレイヤー不完全情報ゲームにおけるベイジアン対戦モデル

Bayesian Opponent Modeling in Multiplayer Imperfect-Information Games ( http://arxiv.org/abs/2212.06027v2 )

ライセンス: Link先を確認
Sam Ganzfried, Kevin A. Wang, Max Chiswick(参考訳) 多くの現実世界の設定エージェントは、様々な戦略を利用できる複数の反対エージェントと戦略的に相互作用する。 このような設定のためにエージェントを設計する標準的なアプローチは、nash均衡のような関連するゲーム理論的な解の概念を計算または近似し、所定の戦略に従うことである。 しかし、このような戦略は、相手のプレーの観察を無視し、悪用できる欠点を示す可能性がある。 本稿では,マルチプレイヤー不完全情報ゲームにおいて,繰り返しのインタラクションを通じて対戦者のプレーを観察する対戦者モデリング手法を提案する。 我々は,3人プレイのクーンポーカーにおいて,多種多様な実敵と正確なナッシュ均衡戦略に対して実験を行い,このアルゴリズムがナッシュ均衡戦略を含む全てのエージェントを著しく上回ることを示す。

In many real-world settings agents engage in strategic interactions with multiple opposing agents who can employ a wide variety of strategies. The standard approach for designing agents for such settings is to compute or approximate a relevant game-theoretic solution concept such as Nash equilibrium and then follow the prescribed strategy. However, such a strategy ignores any observations of opponents' play, which may indicate shortcomings that can be exploited. We present an approach for opponent modeling in multiplayer imperfect-information games where we collect observations of opponents' play through repeated interactions. We run experiments against a wide variety of real opponents and exact Nash equilibrium strategies in three-player Kuhn poker and show that our algorithm significantly outperforms all of the agents, including the exact Nash equilibrium strategies.
翻訳日:2023-04-28 16:55:43 公開日:2023-04-27
# ビジュアルクエリチューニング:パラメータとメモリ効率の学習における中間表現の効果的な利用に向けて

Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning ( http://arxiv.org/abs/2212.03220v2 )

ライセンス: Link先を確認
Cheng-Hao Tu, Zheda Mai, Wei-Lun Chao(参考訳) 事前トレーニングされたモデルの中間機能は、モデルバックボーンが凍結されている場合でも、下流タスクの正確な予測に役立っていることが示されている。 重要な課題は、これらの中間機能をどのように活用するかだ。 視覚変換器の中間的特徴を集約するシンプルな手法として視覚クエリチューニング(VQT)を提案する。 学習可能な ``query'' トークンを各レイヤに導入することで、VQT は Transformers の内部動作を活用して、各レイヤの ``summarize' の豊富な中間機能を実現し、下流タスクの予測ヘッドをトレーニングすることができる。 vqtは中間機能をそのまま維持し、それらを組み合わせることのみを学習するので、他の多くのパラメータ効率の良い微調整アプローチと比較して、トレーニングでのメモリ効率が向上する。 このことは、転移学習におけるVQTとそれらのアプローチの相補的な役割を示唆している。 実証的には、VQTはトランスファーラーニングの中間機能を利用する最先端のアプローチを一貫して上回り、多くの場合、完全な微調整よりも優れている。 特徴に適応するパラメータ効率のアプローチと比較して、VQTはメモリ制約下ではるかに高い精度を達成する。 最も重要な点として、VQTはこれらのアプローチと互換性があり、さらに高い精度を達成することができる。

Intermediate features of a pre-trained model have been shown informative for making accurate predictions on downstream tasks, even if the model backbone is kept frozen. The key challenge is how to utilize these intermediate features given their gigantic amount. We propose visual query tuning (VQT), a simple yet effective approach to aggregate intermediate features of Vision Transformers. Through introducing a handful of learnable ``query'' tokens to each layer, VQT leverages the inner workings of Transformers to ``summarize'' rich intermediate features of each layer, which can then be used to train the prediction heads of downstream tasks. As VQT keeps the intermediate features intact and only learns to combine them, it enjoys memory efficiency in training, compared to many other parameter-efficient fine-tuning approaches that learn to adapt features and need back-propagation through the entire backbone. This also suggests the complementary role between VQT and those approaches in transfer learning. Empirically, VQT consistently surpasses the state-of-the-art approach that utilizes intermediate features for transfer learning and outperforms full fine-tuning in many cases. Compared to parameter-efficient approaches that adapt features, VQT achieves much higher accuracy under memory constraints. Most importantly, VQT is compatible with these approaches to attain even higher accuracy, making it a simple add-on to further boost transfer learning.
翻訳日:2023-04-28 16:55:29 公開日:2023-04-27
# OPUS-MTを用いたニューラルマシン翻訳の民主化

Democratizing Neural Machine Translation with OPUS-MT ( http://arxiv.org/abs/2212.01936v2 )

ライセンス: Link先を確認
J\"org Tiedemann, Mikko Aulamo, Daria Bakshandaeva, Michele Boggia, Stig-Arne Gr\"onroos, Tommi Nieminen, Alessandro Raganato, Yves Scherrer, Raul Vazquez, Sami Virpioja(参考訳) 本稿では,オープン機械翻訳モデルとツールの開発,エンドユーザーアプリケーション,開発プラットフォーム,プロフェッショナルワークフローへの統合に焦点をあてたOPUSエコシステムについて述べる。 我々は現在進行中の言語カバレッジと翻訳品質の向上に関するミッションについて論じるとともに,モジュール型翻訳モデルの開発と,通常のデスクトップや小型デバイス上でのリアルタイム翻訳のための高速化されたコンパクトソリューションについて述べる。

This paper presents the OPUS ecosystem with a focus on the development of open machine translation models and tools, and their integration into end-user applications, development platforms and professional workflows. We discuss our on-going mission of increasing language coverage and translation quality, and also describe on-going work on the development of modular translation models and speed-optimized compact solutions for real-time translation on regular desktops and small devices.
翻訳日:2023-04-28 16:55:05 公開日:2023-04-27
# Crown-CAM:空中画像におけるツリークラウン検出のための解釈可能な視覚的説明

Crown-CAM: Interpretable Visual Explanations for Tree Crown Detection in Aerial Images ( http://arxiv.org/abs/2211.13126v2 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) black-box'モデルの視覚的説明により、説明可能な人工知能(XAI)の研究者は、モデルの決定を人間の理解可能な方法で解釈することができる。 本稿では,従来手法の非正確な局所化と計算の複雑さを克服し,航空画像におけるツリークラウン検出の困難かつ動的問題に対する信頼性の高い視覚的説明を生成する,ツリークラウン検出(Crown-CAM)の解釈可能なクラスアクティベーションマッピングを提案する。 樹冠のない密林や風景のシナリオにおいて、木冠の微粒化を効率的に行うために、アクティベーションマップの教師なしの選択、ローカルスコアマップの計算、および非コンテキスト背景抑圧で構成されている。 さらに,画像中の樹冠の有無にかかわらず,生成した説明の正確性と不正確性を効果的に定量化するために,結合(iou)ベースの2つの指標を導入した。 実証的評価により,提案手法は平均iouマージン8.7,5.3,21.7 (および3.3,9.8,16.5) でスコアカム法,拡張スコアカム法,固有カム法を上回り,難解なネオンツリークラウンデータセットにおける視覚的説明の精度(正確性)と不正確性を向上した。

Visual explanation of ``black-box'' models allows researchers in explainable artificial intelligence (XAI) to interpret the model's decisions in a human-understandable manner. In this paper, we propose interpretable class activation mapping for tree crown detection (Crown-CAM) that overcomes inaccurate localization & computational complexity of previous methods while generating reliable visual explanations for the challenging and dynamic problem of tree crown detection in aerial images. It consists of an unsupervised selection of activation maps, computation of local score maps, and non-contextual background suppression to efficiently provide fine-grain localization of tree crowns in scenarios with dense forest trees or scenes without tree crowns. Additionally, two Intersection over Union (IoU)-based metrics are introduced to effectively quantify both the accuracy and inaccuracy of generated explanations with respect to regions with or even without tree crowns in the image. Empirical evaluations demonstrate that the proposed Crown-CAM outperforms the Score-CAM, Augmented Score-CAM, and Eigen-CAM methods by an average IoU margin of 8.7, 5.3, and 21.7 (and 3.3, 9.8, and 16.5) respectively in improving the accuracy (and decreasing inaccuracy) of visual explanations on the challenging NEON tree crown dataset.
翻訳日:2023-04-28 16:54:11 公開日:2023-04-27
# 自律運転における適応制御のためのモデル予測制御への繰り返し強化学習の導入

Incorporating Recurrent Reinforcement Learning into Model Predictive Control for Adaptive Control in Autonomous Driving ( http://arxiv.org/abs/2301.13313v2 )

ライセンス: Link先を確認
Yuan Zhang, Joschka Boedecker, Chuxuan Li, Guyue Zhou(参考訳) モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。 MPCコントローラの成功は、正確な内部力学モデルに依存している。 しかし、通常はシステム識別によって学習される静的パラメータは、現実世界のシナリオにおいて内部および外部の摂動の両方に適応できないことが多い。 In this paper, we firstly (1) reformulate the problem as a Partially Observed Markov Decision Process (POMDP) that absorbs the uncertainties into observations and maintains Markov property into hidden states; and (2) learn a recurrent policy continually adapting the parameters of the dynamics model via Recurrent Reinforcement Learning (RRL) for optimal and adaptive control; and (3) finally evaluate the proposed algorithm (referred as $\textit{MPC-RRL}$) in CARLA simulator and leading to robust behaviours under a wide range of perturbations.

Model Predictive Control (MPC) is attracting tremendous attention in the autonomous driving task as a powerful control technique. The success of an MPC controller strongly depends on an accurate internal dynamics model. However, the static parameters, usually learned by system identification, often fail to adapt to both internal and external perturbations in real-world scenarios. In this paper, we firstly (1) reformulate the problem as a Partially Observed Markov Decision Process (POMDP) that absorbs the uncertainties into observations and maintains Markov property into hidden states; and (2) learn a recurrent policy continually adapting the parameters of the dynamics model via Recurrent Reinforcement Learning (RRL) for optimal and adaptive control; and (3) finally evaluate the proposed algorithm (referred as $\textit{MPC-RRL}$) in CARLA simulator and leading to robust behaviours under a wide range of perturbations.
翻訳日:2023-04-28 16:48:14 公開日:2023-04-27
# phycv: 物理に触発された最初のコンピュータビジョンライブラリ

PhyCV: The First Physics-inspired Computer Vision Library ( http://arxiv.org/abs/2301.12531v2 )

ライセンス: Link先を確認
Yiming Zhou, Callen MacPhee, Madhuri Suthar, Bahram Jalali(参考訳) PhyCVは物理現象を制御している物理方程式から直接派生したアルゴリズムを利用する最初のコンピュータビジョンライブラリである。 現在のリリースに現れるアルゴリズムは、比喩的な意味で、自然で工学的な回折特性を持つ物理媒体を通して光の伝播をエミュレートし、コヒーレント検出を行う。 手作りの経験則や、データ駆動で計算的に重いディープラーニングアルゴリズムの系列である従来のアルゴリズムとは異なり、物理にインスパイアされたアルゴリズムは、アルゴリズムを発明するための青写真として自然の物理法則を利用する。 PhyCVは低次元性と高効率であり、エッジコンピューティングアプリケーションに最適である。 PhyCVを用いたNVIDIA Jetson Nanoのリアルタイムビデオ処理を実演する。 さらに、これらのアルゴリズムはアナログ計算の形で高速で効率的な計算を行うために、実際の物理デバイスに実装される可能性がある。 オープンソースコードはhttps://github.com/jalilabucla/phycvで入手できる。

PhyCV is the first computer vision library which utilizes algorithms directly derived from the equations of physics governing physical phenomena. The algorithms appearing in the current release emulate, in a metaphoric sense, the propagation of light through a physical medium with natural and engineered diffractive properties followed by coherent detection. Unlike traditional algorithms that are a sequence of hand-crafted empirical rules or deep learning algorithms that are usually data-driven and computationally heavy, physics-inspired algorithms leverage physical laws of nature as blueprints for inventing algorithms. PhyCV features low-dimensionality and high- efficiency, making it ideal for edge computing applications. We demonstrate real-time video processing on NVIDIA Jetson Nano using PhyCV. In addition, these algorithms have the potential to be implemented in real physical devices for fast and efficient computation in the form of analog computing. The open-sourced code is available at https://github.com/JalaliLabUCLA/phycv
翻訳日:2023-04-28 16:48:02 公開日:2023-04-27
# 深部ネットワークのリプシッツ定数と二重輝線について

On the Lipschitz Constant of Deep Networks and Double Descent ( http://arxiv.org/abs/2301.12309v3 )

ライセンス: Link先を確認
Matteo Gamba, Hossein Azizpour, M{\aa}rten Bj\"orkman(参考訳) ディープ・ネットワークの一般化誤差に関する既存の境界は、入力変数への滑らかなあるいは有界な依存を前提としており、実際にはそのような要因を制御しているメカニズムを研究できない。 本研究では,二重降下を行う深層ネットワークの経験的リプシッツ定数を広範囲に実験し,テスト誤差に強く相関する非単調傾向に注目した。 臨界点付近でSGDのパラメータ空間と入力空間勾配の接続を構築することで、臨界点周辺での最適化ダイナミクスと、訓練データを超えてもモデル関数の複雑さを制御する2つの重要な因子、すなわち損失ランドスケープ曲率と初期化からの距離を分離する。 本研究は,過パラメータ化による暗黙の正規化に関する新しい知見と,実際に訓練されたネットワークの効果的なモデル複雑性を提案する。

Existing bounds on the generalization error of deep networks assume some form of smooth or bounded dependence on the input variable, falling short of investigating the mechanisms controlling such factors in practice. In this work, we present an extensive experimental study of the empirical Lipschitz constant of deep networks undergoing double descent, and highlight non-monotonic trends strongly correlating with the test error. Building a connection between parameter-space and input-space gradients for SGD around a critical point, we isolate two important factors -- namely loss landscape curvature and distance of parameters from initialization -- respectively controlling optimization dynamics around a critical point and bounding model function complexity, even beyond the training data. Our study presents novels insights on implicit regularization via overparameterization, and effective model complexity for networks trained in practice.
翻訳日:2023-04-28 16:47:47 公開日:2023-04-27
# do embodied agents dream of pixelated sheep: 言語誘導世界モデリングを用いた具体的意思決定

Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling ( http://arxiv.org/abs/2301.12050v2 )

ライセンス: Link先を確認
Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, Roy Fox(参考訳) 強化学習(rl)エージェントは通常、世界に関する事前の知識なしにタブララーサを学ぶ。 しかし、高レベルのサブゴールの知識とサブゴール間の遷移を初期化すれば、RLエージェントはこの抽象世界モデル(AWM)を計画と探索に利用できる。 本稿では,RL エージェントのサンプル効率を向上させるため,世界経験を通して検証される AWM を仮説化するために,数発の大規模言語モデル (LLM) を提案する。 本報告では,マインクラフトの商品製作にllm誘導探索を応用した。(1) llmを用いてタスクを一連のサブゴールに分解するドリームフェーズ,(2) エージェントが各サブゴールのモジュラーポリシーを学習し,仮説的なawmを検証または修正するウェイクフェーズである。 LLM による AWM の仮説を立て,エージェント経験に基づく AWM の検証を行う手法は,従来の手法によるサンプリング効率を桁違いに向上させるだけでなく,LLM の誤りに対して頑健であり,環境力学に基づく知識と LLM からのノイズの多いインターネットスケール情報とのブレンドに成功している。

Reinforcement learning (RL) agents typically learn tabula rasa, without prior knowledge of the world. However, if initialized with knowledge of high-level subgoals and transitions between subgoals, RL agents could utilize this Abstract World Model (AWM) for planning and exploration. We propose using few-shot large language models (LLMs) to hypothesize an AWM, that will be verified through world experience, to improve sample efficiency of RL agents. Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft in two phases: (1) the Dream phase where the agent uses an LLM to decompose a task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase where the agent learns a modular policy for each subgoal and verifies or corrects the hypothesized AWM. Our method of hypothesizing an AWM with LLMs and then verifying the AWM based on agent experience not only increases sample efficiency over contemporary methods by an order of magnitude but is also robust to and corrects errors in the LLM, successfully blending noisy internet-scale information from LLMs with knowledge grounded in environment dynamics.
翻訳日:2023-04-28 16:47:29 公開日:2023-04-27
# Baxter-Fendley自由パラフェミオンモデルにおける例外点

Exceptional Points in the Baxter-Fendley Free Parafermion Model ( http://arxiv.org/abs/2301.11031v4 )

ライセンス: Link先を確認
Robert A. Henry and Murray T. Batchelor(参考訳) 量子イジング鎖のような特定のスピン鎖は自由フェルミオンスペクトルを持ち、分離された2レベルフェルミオン系の和として表現できる。 自由パラフェルミオン(free parafermions)は、z(n)$-symmetric clockモデルへの単純な一般化である。 1989年、バクスターはイジングチェーンを直接一般化する非エルミート的だが$pt$対称モデルを発見したが、これは後にフェンドリーによって自由パラフェルミオンスペクトルであると認識された。 モデルの磁場パラメータを複素平面に拡張することにより、一連の例外点が出現し、自由スペクトルを定義する準エネルギーが縮退することを示した。 これらの点の位置に関する解析式を導出し,様々な数値解析を行った。 これらの例外点は、複雑な横体を持つイジング鎖にも存在する。 モデルは通常これらの例外点において$PT$対称ではないが、それらの近接性は$PT$対称実数直線上のモデルに大きな影響を与える。 さらに、モデルのある場合には、(負の場を持つ)実数直線上に例外点が現れることがある。

Certain spin chains, such as the quantum Ising chain, have free fermion spectra which can be expressed as the sum of decoupled two-level fermionic systems. Free parafermions are a simple generalisation of this idea to $Z(N)$-symmetric clock models. In 1989 Baxter discovered a non-Hermitian but $PT$-symmetric model directly generalising the Ising chain, which was much later recognised by Fendley to be a free parafermion spectrum. By extending the model's magnetic field parameter to the complex plane, it is shown that a series of exceptional points emerges, where the quasienergies defining the free spectrum become degenerate. An analytic expression for the locations of these points is derived, and various numerical investigations are performed. These exceptional points also exist in the Ising chain with a complex transverse field. Although the model is not in general $PT$-symmetric at these exceptional points, their proximity can have a profound impact on the model on the $PT$-symmetric real line. Furthermore, in certain cases of the model an exceptional point may appear on the real line (with negative field).
翻訳日:2023-04-28 16:47:04 公開日:2023-04-27
# GeCoNeRF:Geometric Consistencyによる数発のニューラルラジアンスフィールド

GeCoNeRF: Few-shot Neural Radiance Fields via Geometric Consistency ( http://arxiv.org/abs/2301.10941v3 )

ライセンス: Link先を確認
Min-seop Kwak, Jiuhn Song, Seungryong Kim(参考訳) 我々は、幾何認識整合性正規化を伴う数ショット設定でニューラルラジアンス場(NeRF)を正則化する新しいフレームワークを提案する。 提案手法は、未観測視点での深度マップを利用して、未観測視点にスパース入力画像をワープし、それらを擬似基底真理として与えて、NeRFの学習を容易にする。 画素レベルの再構成損失を使わずに機能レベルでの幾何的整合性を奨励することにより、NeRFを意味的および構造レベルで規則化し、ビュー依存放射率をモデル化し、視点間の色変化を考慮できる。 また,最適化中のトレーニングを安定させるトレーニング戦略とともに,誤った解をフィルタする効果的な手法を提案する。 本モデルは,最先端のnrfモデルと比較して,競争力のある結果が得られることを示す。 プロジェクトページはhttps://ku-cvlab.github.io/geconerf/。

We present a novel framework to regularize Neural Radiance Field (NeRF) in a few-shot setting with a geometry-aware consistency regularization. The proposed approach leverages a rendered depth map at unobserved viewpoint to warp sparse input images to the unobserved viewpoint and impose them as pseudo ground truths to facilitate learning of NeRF. By encouraging such geometry-aware consistency at a feature-level instead of using pixel-level reconstruction loss, we regularize the NeRF at semantic and structural levels while allowing for modeling view dependent radiance to account for color variations across viewpoints. We also propose an effective method to filter out erroneous warped solutions, along with training strategies to stabilize training during optimization. We show that our model achieves competitive results compared to state-of-the-art few-shot NeRF models. Project page is available at https://ku-cvlab.github.io/GeCoNeRF/.
翻訳日:2023-04-28 16:46:35 公開日:2023-04-27
# 反射型人工知能

Reflective Artificial Intelligence ( http://arxiv.org/abs/2301.10823v3 )

ライセンス: Link先を確認
Peter R. Lewis and Stefan Sarkadi(参考訳) 人工知能(AI)は、心ができるようなことをするコンピュータを作ることであり、この目標に向かって進むにつれて、人間のタスクを機械に委譲する傾向にある。 しかし、AIシステムは通常、洞察と理解の異常な不均衡でこれらのタスクを行う:新しい、より深い洞察は存在するが、人間の心が以前その活動に持ち込んだであろう重要な品質は、全く欠落している。 したがって、心のどの特徴が複製され、どれが欠落しているか、それが重要なのかを問うことが重要です。 あいまいさ、創発的な知識、そして世界が提示する社会的文脈を扱うとき、人間がタスクにもたらした重要な特徴の1つは、リフレクションである。 しかし、この能力は、現在の主流AIには全く欠落している。 本稿では、リフレクティブAIがどのようなものになるかを尋ねる。 次に、複雑なシステム、認知科学、エージェントにおけるリフレクションの概念を描き、リフレクションaiエージェントのアーキテクチャをスケッチし、今後の方向性を強調する。

Artificial Intelligence (AI) is about making computers that do the sorts of things that minds can do, and as we progress towards this goal, we tend to increasingly delegate human tasks to machines. However, AI systems usually do these tasks with an unusual imbalance of insight and understanding: new, deeper insights are present, yet many important qualities that a human mind would have previously brought to the activity are utterly absent. Therefore, it is crucial to ask which features of minds have we replicated, which are missing, and if that matters. One core feature that humans bring to tasks, when dealing with the ambiguity, emergent knowledge, and social context presented by the world, is reflection. Yet this capability is utterly missing from current mainstream AI. In this paper we ask what reflective AI might look like. Then, drawing on notions of reflection in complex systems, cognitive science, and agents, we sketch an architecture for reflective AI agents, and highlight ways forward.
翻訳日:2023-04-28 16:46:19 公開日:2023-04-27
# Universal Neural-Cracking-Machines:補助データからの自己構成可能なパスワードモデル

Universal Neural-Cracking-Machines: Self-Configurable Password Models from Auxiliary Data ( http://arxiv.org/abs/2301.07628v3 )

ライセンス: Link先を確認
Dario Pasquini, Giuseppe Ateniese and Carmela Troncoso(参考訳) パスワードモデル(Universal password model)の概念を導入し、一度事前訓練されたら、ターゲットシステムに基づいて推測戦略を自動的に変更できる。 これを実現するために、モデルはターゲットの認証情報から平文パスワードにアクセスする必要はない。 代わりに、メールアドレスなどのユーザの補助情報をプロキシ信号として利用して、基盤となるパスワードの配布を予測する。 具体的には、ディープラーニングを使用して、ユーザグループ(例えば、webアプリケーションのユーザ)の補助データとパスワードの相関関係をキャプチャする。 そしてそれらのパターンを利用して、推論時にターゲットシステム用に調整されたパスワードモデルを作成する。 さらなるトレーニングステップ、ターゲットデータ収集、コミュニティのパスワード配布に関する事前知識は不要である。 現在のパスワード強度推定技術や攻撃の改善に加えて、任意のエンドユーザ(例えばシステム管理者)が、適切なトレーニングデータを収集し、基盤となる機械学習モデルに適合するという、しばしば作業不能な要求を伴わずに、システム用にカスタマイズされたパスワードモデルを自律的に生成することができる。 最終的に、当社のフレームワークは、十分に調整されたパスワードモデルのコミュニティへの民主化を可能にし、大規模なパスワードセキュリティソリューションの展開における大きな課題に対処します。

We introduce the concept of "universal password model" -- a password model that, once pre-trained, can automatically change its guessing strategy based on the target system. To achieve this, the model does not need to access any plaintext passwords from the target credentials. Instead, it exploits users' auxiliary information, such as email addresses, as a proxy signal to predict the underlying password distribution. Specifically, the model uses deep learning to capture the correlation between the auxiliary data of a group of users (e.g., users of a web application) and their passwords. It then exploits those patterns to create a tailored password model for the target system at inference time. No further training steps, targeted data collection, or prior knowledge of the community's password distribution is required. Besides improving over current password strength estimation techniques and attacks, the model enables any end-user (e.g., system administrators) to autonomously generate tailored password models for their systems without the often unworkable requirements of collecting suitable training data and fitting the underlying machine learning model. Ultimately, our framework enables the democratization of well-calibrated password models to the community, addressing a major challenge in the deployment of password security solutions at scale.
翻訳日:2023-04-28 16:45:39 公開日:2023-04-27
# RGB画像からロボット関節角を復元するための距離幾何学的手法

A Distance-Geometric Method for Recovering Robot Joint Angles From an RGB Image ( http://arxiv.org/abs/2301.02051v2 )

ライセンス: Link先を確認
Ivan Bili\'c, Filip Mari\'c, Ivan Markovi\'c, Ivan Petrovi\'c(参考訳) 人間の介入が困難または不可能(例えば、水中、地球外、または危険な環境)な領域で動作する自律的な操作システムは、センシングや通信の失敗に対して高い堅牢性を必要とする。 重要なことに、動作計画と制御アルゴリズムは、ジョイントエンコーダによって提供される正確な関節角データのストリームを必要とする。 本稿では,ロボットマニピュレータの関節角度を現在の構成の1つのRGB画像のみを用いて検索する方法を提案する。 本手法は,検出された構造的キーポイントに関連する距離の2次元から3次元回帰を行う浅層ニューラルネットワークを訓練することを目的として,ロボットの運動モデルの知識を活用している。 結果として得られるユークリッド距離行列は観測された配置と一意に一致し、多次元スケーリングと単純な逆キネマティックス手順によって関節角度を回復できる。 本研究では,フランカ・エミカ・パンダマニピュレータの実際のRGB画像に対するアプローチの性能評価を行い,提案手法が効率的であり,高い一般化能力を示すことを示す。 さらに, この手法と高密度精錬技術とを組み合わせることで, 優れた結果が得られることを示す。

Autonomous manipulation systems operating in domains where human intervention is difficult or impossible (e.g., underwater, extraterrestrial or hazardous environments) require a high degree of robustness to sensing and communication failures. Crucially, motion planning and control algorithms require a stream of accurate joint angle data provided by joint encoders, the failure of which may result in an unrecoverable loss of functionality. In this paper, we present a novel method for retrieving the joint angles of a robot manipulator using only a single RGB image of its current configuration, opening up an avenue for recovering system functionality when conventional proprioceptive sensing is unavailable. Our approach, based on a distance-geometric representation of the configuration space, exploits the knowledge of a robot's kinematic model with the goal of training a shallow neural network that performs a 2D-to-3D regression of distances associated with detected structural keypoints. It is shown that the resulting Euclidean distance matrix uniquely corresponds to the observed configuration, where joint angles can be recovered via multidimensional scaling and a simple inverse kinematics procedure. We evaluate the performance of our approach on real RGB images of a Franka Emika Panda manipulator, showing that the proposed method is efficient and exhibits solid generalization ability. Furthermore, we show that our method can be easily combined with a dense refinement technique to obtain superior results.
翻訳日:2023-04-28 16:45:17 公開日:2023-04-27
# グラフニューラルネットワークを用いたグラフ要約に関する包括的調査

A Comprehensive Survey on Graph Summarization with Graph Neural Networks ( http://arxiv.org/abs/2302.06114v2 )

ライセンス: Link先を確認
Nasrin Shabani, Jia Wu, Amin Beheshti, Quan Z. Sheng, Jin Foo, Venus Haghighi, Ambreen Hanif, Maryam Shahabikargar(参考訳) 大規模グラフが普及するにつれて,大規模グラフデータの抽出,処理,解釈といった計算上の課題がますます顕在化しつつある。 したがって、これらの拡張グラフをその重要な特徴を保ちながら要約する方法を探すことは自然である。 過去のグラフ要約技術のほとんどは、グラフの最も重要な部分を統計的に捉えようとしていた。 しかし今日では、現代のグラフデータの高次元性と複雑さにより、ディープラーニング技術がより普及している。 そこで本稿では,グラフニューラルネットワーク(GNN)を利用した深層学習要約技術の進歩を包括的に調査する。 我々の調査は、GNN、畳み込みGNN、グラフオートエンコーダ、グラフアテンションネットワークなど、現在の最先端アプローチのレビューを含む。 グラフ強化学習を用いてグラフ要約の質を評価・改善する新たな研究ラインについても論じる。 さらに、調査では、ベンチマークデータセット、評価指標、実験設定によく使用されるオープンソースツールの詳細と、さまざまな分野におけるグラフ要約の実践的利用に関する議論が提供されている。 最後に、この調査は、この分野におけるさらなる研究の動機づけとなる多くのオープンリサーチの課題で締めくくられている。

As large-scale graphs become more widespread, more and more computational challenges with extracting, processing, and interpreting large graph data are being exposed. It is therefore natural to search for ways to summarize these expansive graphs while preserving their key characteristics. In the past, most graph summarization techniques sought to capture the most important part of a graph statistically. However, today, the high dimensionality and complexity of modern graph data are making deep learning techniques more popular. Hence, this paper presents a comprehensive survey of progress in deep learning summarization techniques that rely on graph neural networks (GNNs). Our investigation includes a review of the current state-of-the-art approaches, including recurrent GNNs, convolutional GNNs, graph autoencoders, and graph attention networks. A new burgeoning line of research is also discussed where graph reinforcement learning is being used to evaluate and improve the quality of graph summaries. Additionally, the survey provides details of benchmark datasets, evaluation metrics, and open-source tools that are often employed in experimentation settings, along with a discussion on the practical uses of graph summarization in different fields. Finally, the survey concludes with a number of open research challenges to motivate further study in this area.
翻訳日:2023-04-28 16:37:49 公開日:2023-04-27
# 半導体量子ドットからの光子の超微細相互作用制限偏光絡み

Hyperfine-interaction limits polarization entanglement of photons from semiconductor quantum dots ( http://arxiv.org/abs/2302.05983v3 )

ライセンス: Link先を確認
Christian Schimpf, Francesco Basso Basset, Maximilian Aigner, Wolfgang Atteneder, Laia G\'ines, Gabriel Undeutsch, Marcus Reindl, Daniel Huber, Dorian Gangloff, Evgeny Chekhovich, Christian Schneider, Sven H\"ofling, Ana Predojevi\'c, Rinaldo Trotta and Armando Rastelli(参考訳) 量子ドットの励起子は偏光子対の優れた源であるが、核スピン浴との相互作用の定量的な理解はまだ欠けている。 本稿では,実験的なパラメータを用いた超微細エネルギーシフトの役割について検討し,達成可能な絡み合いへの上限を導出する。 我々の結果はすべての文献と一致しており、スピンノイズがInGaAs量子ドットの絡み合いを制限する支配的な過程であることを示し、その効果を緩和するための経路を提案する。

Excitons in quantum dots are excellent sources of polarization-entangled photon pairs, but a quantitative understanding of their interaction with the nuclear spin bath is still missing. Here we investigate the role of hyperfine energy shifts using experimentally accessible parameters and derive an upper limit to the achievable entanglement fidelity. Our results are consistent with all available literature, indicate that spin-noise is often the dominant process limiting the entanglement in InGaAs quantum dots, and suggest routes to alleviate its effect.
翻訳日:2023-04-28 16:37:31 公開日:2023-04-27
# 多次元個人化エッジモデルによるより公平で効率的なフェデレーション学習を目指して

Towards Fairer and More Efficient Federated Learning via Multidimensional Personalized Edge Models ( http://arxiv.org/abs/2302.04464v2 )

ライセンス: Link先を確認
Yingchun Wang, Jingcai Guo, Jie Zhang, Song Guo, Weizhan Zhang, Qinghua Zheng(参考訳) フェデレーション学習(FL)は、プライバシーを維持しながら、大規模で地理的に分散したエッジデータをトレーニングする新興技術である。 しかし、FLはエッジの不均一性の増加による公平性や計算効率の面で固有の課題があり、それゆえ、最近のSOTA(State-of-the-art)ソリューションでは、通常、準最適性能が得られる。 本稿では,複数の次元からFLの不均一性を除去するカスタム・フェデレート・ラーニング(CFL)システムを提案する。 具体的には、cfltailorsは、オンライントレーニングされたモデル検索ヘルパーと新しい集約アルゴリズムによって、クライアント毎に特別に設計されたグローバルモデルからモデルをパーソナライズする。 広範な実験により、cflはflトレーニングとエッジ推論の両方にフルスタックの利点を持ち、somaモデル精度(非ヘテロゲン環境では最大7.2%、異質環境では最大21.8%)、効率、およびflフェアネスを大幅に改善できることが示されている。

Federated learning (FL) is an emerging technique that trains massive and geographically distributed edge data while maintaining privacy. However, FL has inherent challenges in terms of fairness and computational efficiency due to the rising heterogeneity of edges, and thus usually results in sub-optimal performance in recent state-of-the-art (SOTA) solutions. In this paper, we propose a Customized Federated Learning (CFL) system to eliminate FL heterogeneity from multiple dimensions. Specifically, CFL tailors personalized models from the specially designed global model for each client jointly guided by an online trained model-search helper and a novel aggregation algorithm. Extensive experiments demonstrate that CFL has full-stack advantages for both FL training and edge reasoning and significantly improves the SOTA performance w.r.t. model accuracy (up to 7.2% in the non-heterogeneous environment and up to 21.8% in the heterogeneous environment), efficiency, and FL fairness.
翻訳日:2023-04-28 16:36:53 公開日:2023-04-27
# hermiticity-preserving superoperatorsのための完全グラフィカル言語

Complete Graphical Language for Hermiticity-Preserving Superoperators ( http://arxiv.org/abs/2302.04212v2 )

ライセンス: Link先を確認
Titouan Carette, Timoth\'ee Hoffreumon, \'Emile Larroque, and Renaud Vilmart(参考訳) 普遍および完全グラフィカル言語は、ヒルベルト空間の間の線型写像に対応する純粋状態量子力学と、完全に正の超作用素に対応する混合状態量子力学のためにうまく設計されている。 本稿では、さらに一歩進んで、Hermiticity保存スーパーオペレータのための普遍的で完全なグラフィカル言語を提案する。 このような言語は、Choi-Jamio{\l}kowski同型、スピンフリップ、エンタングルメント目撃者など、様々な物理的状況で特徴付けられる反線型変換の図式的構成研究の可能性を開く。 我々の構成は、エルミート行列の正規形式を示すZW-計算の拡張に依存している。

Universal and complete graphical languages have been successfully designed for pure state quantum mechanics, corresponding to linear maps between Hilbert spaces, and mixed states quantum mechanics, corresponding to completely positive superoperators. In this paper, we go one step further and present a universal and complete graphical language for Hermiticity-preserving superoperators. Such a language opens the possibility of diagrammatic compositional investigations of antilinear transformations featured in various physical situations, such as the Choi-Jamio{\l}kowski isomorphism, spin-flip, or entanglement witnesses. Our construction relies on an extension of the ZW-calculus exhibiting a normal form for Hermitian matrices.
翻訳日:2023-04-28 16:36:34 公開日:2023-04-27
# 効用に基づく摂動勾配降下:連続学習のための最適化器

Utility-based Perturbed Gradient Descent: An Optimizer for Continual Learning ( http://arxiv.org/abs/2302.03281v2 )

ライセンス: Link先を確認
Mohamed Elsayed, A. Rupam Mahmood(参考訳) 現代の表現学習法は、破滅的な忘れ物と崩壊する塑性に苦しむため、非定常下で急速に適応するのに苦労することが多い。 このような問題は、有用な特徴を忘れたり、新しいものを学ぶのが難しいため、学習者が迅速な適応を妨げます。 したがって、これらの手法は連続学習には効果がない。 本稿では,連続学習エージェントに適したオンライン学習アルゴリズムであるUtility-based Perturbed Gradient Descent (UPGD)を提案する。 upgdは、有用度や機能を、そのユーティリティに基づいて、あまり有用でないものを忘れることから保護する。 実験の結果,UPGDは可塑性の低減と維持に有効であり,現代の表現学習手法が連続学習において効果的に機能することを示唆した。

Modern representation learning methods often struggle to adapt quickly under non-stationarity because they suffer from catastrophic forgetting and decaying plasticity. Such problems prevent learners from fast adaptation since they may forget useful features or have difficulty learning new ones. Hence, these methods are rendered ineffective for continual learning. This paper proposes Utility-based Perturbed Gradient Descent (UPGD), an online learning algorithm well-suited for continual learning agents. UPGD protects useful weights or features from forgetting and perturbs less useful ones based on their utilities. Our empirical results show that UPGD helps reduce forgetting and maintain plasticity, enabling modern representation learning methods to work effectively in continual learning.
翻訳日:2023-04-28 16:36:22 公開日:2023-04-27
# 非保守系に対するボヘミア視点によるエレンフェスト定理の数値検証

Numerical validation of Ehrenfest theorem in a Bohmian perspective for non-conservative systems ( http://arxiv.org/abs/2302.03127v2 )

ライセンス: Link先を確認
Matheus M. A. Paix\~ao and Henrique Santos Lima(参考訳) 本研究では、ボヘミア平均を実行する量子軌道から古典解を得るボヘミアアプローチを用いて、エレンフェストの定理の高精度な数値的研究を行う。 1次元量子高調波およびダフィング振動子の場合を分析し、時間依存のシュレーディンガー方程式と異なる初期条件の誘導方程式の数値解を見つけ、これらの結果を対応する古典解と結びつける。 また, 単純な定力, 高速に作用するガウスインパルス, 周波数の異なる振動力の3種類の外力を導入する効果についても検討した。 最後の例では、量子軌道の共鳴が観測された。

In this work we make a high precision numerical study of the Ehrenfest theorem using the Bohmian approach, where we obtain classical solutions from the quantum trajectories performing the Bohmian averages. We analyse the one-dimensional quantum harmonic and Duffing oscillator cases, finding numerical solutions of the time-dependent Schr\"odinger equation and the guidance equation for different sets of initial conditions and connects these results with the corresponding classical solutions. We also investigate the effect of introducing external forces of three types: a simple constant force, a fast-acting Gaussian impulse, and an oscillatory force with different frequencies. In the last case the resonance in the quantum trajectories was observed.
翻訳日:2023-04-28 16:36:08 公開日:2023-04-27
# メッセージパッシングニューラルネットワークにおけるオーバーカッシングについて:幅,深さ,トポロジーの影響

On Over-Squashing in Message Passing Neural Networks: The Impact of Width, Depth, and Topology ( http://arxiv.org/abs/2302.02941v2 )

ライセンス: Link先を確認
Francesco Di Giovanni, Lorenzo Giusti, Federico Barbero, Giulia Luise, Pietro Lio', Michael Bronstein(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフを利用してエッジにメッセージを送信するグラフニューラルネットワークのインスタンスである。 この帰納バイアスは、ノードの特徴が遠いノードに含まれる情報に敏感であるオーバー・スカッシングと呼ばれる現象を引き起こす。 この問題を軽減するために最近導入された手法にもかかわらず、過剰スワッシングの原因と可能な解決策の理解が不足している。 この理論的研究において、我々は次のように証明する。 (i)ニューラルネットワークの幅はオーバー・スクワッシングを緩和することができるが、ネットワーク全体をより敏感にするコストがかかる。 (ii)逆に、深さは、過剰なスキャッシングを軽減するのに役立ちません。層数の増加は、過剰スキャッシングが消滅する勾配によって支配されることになります。 (iii)高通勤時(アクセス時)にノード間でオーバースワッシングが発生するため、グラフトポロジーが最大の役割を果たす。 我々の分析は、オーバースカッシングに対処するために導入された様々な手法を研究するための統一されたフレームワークを提供し、'graph rewiring'に該当するメソッドのクラスを正当化する役割を果たします。

Message Passing Neural Networks (MPNNs) are instances of Graph Neural Networks that leverage the graph to send messages over the edges. This inductive bias leads to a phenomenon known as over-squashing, where a node feature is insensitive to information contained at distant nodes. Despite recent methods introduced to mitigate this issue, an understanding of the causes for over-squashing and of possible solutions are lacking. In this theoretical work, we prove that: (i) Neural network width can mitigate over-squashing, but at the cost of making the whole network more sensitive; (ii) Conversely, depth cannot help mitigate over-squashing: increasing the number of layers leads to over-squashing being dominated by vanishing gradients; (iii) The graph topology plays the greatest role, since over-squashing occurs between nodes at high commute (access) time. Our analysis provides a unified framework to study different recent methods introduced to cope with over-squashing and serves as a justification for a class of methods that fall under `graph rewiring'.
翻訳日:2023-04-28 16:35:56 公開日:2023-04-27
# 大規模言語モデルは、テーブルベースの推論のためのエビデンスと質問を分解する

Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning ( http://arxiv.org/abs/2301.13808v3 )

ライセンス: Link先を確認
Yunhu Ye, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, Yongbin Li(参考訳) 表に基づく推論は、深層モデルと離散的推論の組み合わせにおいて顕著な進歩を示しており、自由形式自然言語(NL)問題と構造化表データの両方を推論する必要がある。 しかしながら、従来のテーブルベースの推論ソリューションは通常、巨大なエビデンス(テーブル)の大幅な性能劣化に悩まされる。 さらに、既存のほとんどの手法は、必要な情報が様々な場所に散らばっているため、複雑な問題に対する推論に苦慮している。 上記の課題を緩和するため、我々はテーブルベースの効果的な推論のための分解器として大規模言語モデル(LLM)を利用する。 一 巨大な証拠(巨大な表)を小表(小表)に分解して、無用な情報によるテーブル推論の干渉を緩和すること。 (ii)複雑な質問をテキスト推論のより単純なサブ質問に分解する。 具体的には、まずLLMを使用して、現在の質問に関わる証拠(表)を分解し、関連する証拠を保持し、巨大なテーブルから残りの無関係な証拠を除外します。 さらに,各ステップで論理と数値計算を分離することにより,思考の連鎖の幻覚的ジレンマを軽減する「パーシング・エグゼクティオン・フィリング」戦略を提案する。 本手法は,TabFact,WikiTableQuestion,FetaQAデータセットにおいて,分解されたエビデンスや疑問を効果的に活用し,強力なベースラインを達成できることを示す。 特に、我々のモデルは、TabFactデータセットで人のパフォーマンスを初めて上回ります。

Table-based reasoning has shown remarkable progress in combining deep models with discrete reasoning, which requires reasoning over both free-form natural language (NL) questions and structured tabular data. However, previous table-based reasoning solutions usually suffer from significant performance degradation on huge evidence (tables). In addition, most existing methods struggle to reason over complex questions since the required information is scattered in different places. To alleviate the above challenges, we exploit large language models (LLMs) as decomposers for effective table-based reasoning, which (i) decompose huge evidence (a huge table) into sub-evidence (a small table) to mitigate the interference of useless information for table reasoning; and (ii) decompose complex questions into simpler sub-questions for text reasoning. Specifically, we first use the LLMs to break down the evidence (tables) involved in the current question, retaining the relevant evidence and excluding the remaining irrelevant evidence from the huge table. In addition, we propose a "parsing-execution-filling" strategy to alleviate the hallucination dilemma of the chain of thought by decoupling logic and numerical computation in each step. Extensive experiments show that our method can effectively leverage decomposed evidence and questions and outperforms the strong baselines on TabFact, WikiTableQuestion, and FetaQA datasets. Notably, our model outperforms human performance for the first time on the TabFact dataset.
翻訳日:2023-04-28 16:35:38 公開日:2023-04-27
# 近接場を超えた強フォトン-マグノン相互作用

Strong photon-magnon interaction beyond the near field ( http://arxiv.org/abs/2303.10925v2 )

ライセンス: Link先を確認
Jinwei Rao, C. Y. Wang, Bimu Yao, Z. J. Chen, K. X. Zhao, and Wei Lu(参考訳) マクロ距離の異なるシステム間の強い相互作用を達成することは、量子やニューラルネットワークを構築する上で重要であるが、従来の知恵では、強い結合は近接して常に達成される。 近年,レーザー媒介下でのカスケード強結合は,このシナリオを破るが,空間的距離との相互作用が著しく減衰するため,放射チャネルを通して直接長距離強結合を形成することは困難である。 新興の利得駆動分極に照らして、ここでは、システムの減衰が利得によって補償される場合、このパラダイムを破ることができることを示す。 その結果、室温でのメートルスケール光子-マグノンカップリングを実験的に実現した。 移動波への完全なアクセスにより、従来の知恵に従ってサブシステム自体を再構成するのではなく、走行波の位相と振幅を調節することで光子-マグノン結合を遠隔で制御する。 キャビティマグノニクスにおける1メートル範囲の強い相互作用を実現する手法は、他の物理要素に対して一般的なアイデアを与えるかもしれない。 本研究における実験成果は,空洞マグノニクスに基づく情報ネットワークの構築を促進する可能性がある。

Achieving strong interactions between distinct systems over macroscopic distances is important for constructing quantum or neural networks, but in conventional wisdom strong coupling is routinely achieved in close proximity. Recently, cascaded strong coupling under laser mediation breaks this scenario, but directly forming long-range strong coupling through radiation channels remains challenging because of the severe decay of the interaction with spatial distance. In light of the emerging gain-driven polartion, here we show that this paradigm can be breached if the system damping is compensated by a gain. Consequently, a meter-scale-strong photon-magnon coupling at room temperature is experimentally realized. With full access to traveling waves, we remotely control photon-magnon coupling by modulating the phases and amplitudes of traveling waves, rather than reconfiguring subsystems themselves following conventional wisdom. Our method for realizing one-meter range strong interactions in cavity magnonics may provide a general idea for other physical entities. The experimental achievements in our work may promote the construction of information networks based on cavity magnonics.
翻訳日:2023-04-28 16:28:46 公開日:2023-04-27
# グローバルヘルスにおける適応的介入のための合成データ生成装置

Synthetic Data Generator for Adaptive Interventions in Global Health ( http://arxiv.org/abs/2303.01954v3 )

ライセンス: Link先を確認
Aditya Rastogi, Juan Francisco Garamendi, Ana Fern\'andez del R\'io, Anna Guitart, Moiz Hassan Khan, Dexian Tang and \'Africa Peri\'a\~nez(参考訳) 人工知能とデジタルヘルスは、世界の健康を変える可能性がある。 しかし、現実的な実運用環境でアルゴリズムをテストし検証するために代表データにアクセスすることは不可欠である。 モバイルヘルス介入の文脈で強化学習アルゴリズムをテストするための,ユーザの行動のオープンソース合成データ生成装置であるHealthSynを紹介する。 ジェネレータはmarkovプロセスを使用してさまざまなユーザアクションを生成し、パーソナライズされた介入(リマインダー、レコメンデーション、インセンティブなど)に対する反応を変えることができる個々のユーザ行動パターンを生成する。 これらのアクションは、HealthKitに含まれるモバイルヘルスアプリケーション機能とオープンソースSDKに特有のML目的のデータスキーマを使用して、実際のログに変換される。 ログはパイプラインに送ってユーザメトリクスを取得することができる。 生成されたデータは、実世界の振る舞いとシミュレーション技術に基づいており、研究におけるMLアルゴリズムの開発とテスト、評価、およびエンドツーエンドのRLベースの介入配信フレームワークを使用することができる。

Artificial Intelligence and digital health have the potential to transform global health. However, having access to representative data to test and validate algorithms in realistic production environments is essential. We introduce HealthSyn, an open-source synthetic data generator of user behavior for testing reinforcement learning algorithms in the context of mobile health interventions. The generator utilizes Markov processes to generate diverse user actions, with individual user behavioral patterns that can change in reaction to personalized interventions (i.e., reminders, recommendations, and incentives). These actions are translated into actual logs using an ML-purposed data schema specific to the mobile health application functionality included with HealthKit, and open-source SDK. The logs can be fed to pipelines to obtain user metrics. The generated data, which is based on real-world behaviors and simulation techniques, can be used to develop, test, and evaluate, both ML algorithms in research and end-to-end operational RL-based intervention delivery frameworks.
翻訳日:2023-04-28 16:27:41 公開日:2023-04-27
# 重力波と量子物質間のエネルギー移動

Energy transfer between gravitational waves and quantum matter ( http://arxiv.org/abs/2302.14694v2 )

ライセンス: Link先を確認
Jonathan Gr\"afe, Falk Adamietz and Ralf Sch\"utzhold(参考訳) 重力波とボース・アインシュタイン凝縮、超流動ヘリウム、超低温固体などの量子物質との相互作用について検討し、重力波によって引き起こされるトラップ電位の変化を明示的に考慮した。 観測可能なものとしては、重力波によるエネルギーの変化を考察し、運動エネルギーと粒子数の観点から厳密な境界を導出する。 最後に,実験実験の可能性について考察する。

We study the interaction between gravitational waves and quantum matter such as Bose-Einstein condensates, super-fluid Helium, or ultra-cold solids, explicitly taking into account the changes of the trapping potential induced by the gravitational wave. As a possible observable, we consider the change of energy due to the gravitational wave, for which we derive rigorous bounds in terms of kinetic energy and particle number. Finally, we discuss implications for possible experimental tests.
翻訳日:2023-04-28 16:27:26 公開日:2023-04-27
# 統一計算法zxw係数の任意の有限次元に対する完全性

Completeness for arbitrary finite dimensions of ZXW-calculus, a unifying calculus ( http://arxiv.org/abs/2302.12135v2 )

ライセンス: Link先を確認
Boldizs\'ar Po\'or, Quanlong Wang, Razin A. Shaikh, Lia Yeh, Richie Yeung, Bob Coecke(参考訳) ZX-計算は、キュービット量子計算のための普遍的なグラフィカル言語であり、つまり、キュービット間のすべての線型写像はZX-計算で表現できる。 さらに、これは完全なグラフィカルリライトシステムであり、量子論のヒルベルト空間形式論で導出される線型写像を含む任意の方程式は、書き換えによって計算で導出することができる。 量子回路の最適化、誤り訂正、教育といった様々なタスクに量子産業や学術で広く使われている。 ZW-計算(ZW-calculus)は、量子ビット量子コンピューティングでも完備な汎用グラフィカル言語である。 実際、その完全性は ZX-計算が普遍的に完全であることを証明するために使われた。 この計算は、量子回路を業界内のフォトニックハードウェアアーキテクチャにコンパイルする方法を進歩させた。 近年、これら2つの計算を組み合わせることで、量子計算のための新しい計算法 zxw-calculus が誕生した。 この計算を用いて、グラフィカルな微分、-積分、-指数化が可能となり、量子機械学習と量子化学の領域における新しい技術の開発が可能になった。 ここで、zxw の計算を任意の有限次元、すなわち qudits に一般化する。 さらに,このグラフィカルリライトシステムは任意の有限次元に対して完全であることを示す。 これはqubits以外のユニバーサルグラフィカル言語における最初の完全性である。

The ZX-calculus is a universal graphical language for qubit quantum computation, meaning that every linear map between qubits can be expressed in the ZX-calculus. Furthermore, it is a complete graphical rewrite system: any equation involving linear maps that is derivable in the Hilbert space formalism for quantum theory can also be derived in the calculus by rewriting. It has widespread usage within quantum industry and academia for a variety of tasks such as quantum circuit optimisation, error-correction, and education. The ZW-calculus is an alternative universal graphical language that is also complete for qubit quantum computing. In fact, its completeness was used to prove that the ZX-calculus is universally complete. This calculus has advanced how quantum circuits are compiled into photonic hardware architectures in the industry. Recently, by combining these two calculi, a new calculus has emerged for qubit quantum computation, the ZXW-calculus. Using this calculus, graphical-differentiation, -integration, and -exponentiation were made possible, thus enabling the development of novel techniques in the domains of quantum machine learning and quantum chemistry. Here, we generalise the ZXW-calculus to arbitrary finite dimensions, that is, to qudits. Moreover, we prove that this graphical rewrite system is complete for any finite dimension. This is the first completeness result for any universal graphical language beyond qubits.
翻訳日:2023-04-28 16:27:18 公開日:2023-04-27
# 三対角トープリッツ行列と二部量子相関

Tridiagonal Toeplitz Matrices and Bipartite Quantum Correlations ( http://arxiv.org/abs/2302.10192v2 )

ライセンス: Link先を確認
Varsha S. Sambhaje, Suprabhat Sinha, Anju Chaurasia, Kapil K. Sharma(参考訳) 本稿では,量子情報によく用いられる有効なハミルトニアンの要件を満たす三対角トエプリッツエルミット行列に着目する。 このような行列の挙動を調べ、二部分級ヴェルナー状態と最大絡み合った混合状態に対する量子相関(絡み合いと量子不協和)のダイナミクスを追求する。 Toeplitz行列の主対角線項が両方の量子状態の量子相関に影響を与えないことは興味深い結果である。 しかし、超対角および亜対角項は力学において重要な役割を果たす。 突然の絡み合い死の現象を調査し,絡み合いがない場合の量子不協和の存在を観察した。 最も重要なことは、MEMSがワーナー状態よりも敏感であることである。

In this article, we focus on tridiagonal Toeplitz Hermitian matrices, which fulfill the requirement of a valid Hamiltonian often used in Quantum Information. We investigate the behavior of such matrices to pursue the dynamics of quantum correlations (entanglement and quantum discord) for bipartite Werner state and maximally entangled mixed states. We have found interesting results that the main diagonal terms in the Toeplitz matrices never affect the quantum correlations in both quantum states. However, super-diagonal and sub-diagonal terms play the important role in the dynamics. We investigate the phenomenon of entanglement sudden death and also observe the presence of quantum discord in the absence of entanglement. Most importantly it is found that MEMS is more sensitive in comparison to the Werner state.
翻訳日:2023-04-28 16:26:59 公開日:2023-04-27
# レイリー距離近傍における2つの非コヒーレント光点源の同時測定

Joint optimal measurement for locating two incoherent optical point sources near the Rayleigh distance ( http://arxiv.org/abs/2302.07606v2 )

ライセンス: Link先を確認
Yingying Shi and Xiao-Ming Lu(参考訳) セントロイド推定と2つの非コヒーレント光学点源の分離推定の同時最適化は、不整合係数によるトレードオフ関係によって制限される。 レイリー距離において、非可換係数は消滅するので、トレードオフ関係はジョイント推定のための測定の同時最適化をもはや制限しない。 我々は、対称対数微分の作用素代数に関する精巧な解析により、そのような合同最適測定を構築する。 本研究は,この特異なイメージングモデルに対する協調的最適測定の存在を確かめるだけでなく,一般マルチパラメータ推定問題に対する測定適合性の条件を特徴付ける有望な方法を与える。

The simultaneous optimization of the centroid estimation and the separation estimation of two incoherent optical point sources is restricted by a tradeoff relation through an incompatibility coefficient. At the Rayleigh distance the incompatibility coefficient vanishes and thus the tradeoff relation no longer restricts the simultaneous optimization of measurement for a joint estimation. We construct such a joint optimal measurement by an elaborated analysis on the operator algebra of the symmetric logarithmic derivative. Our work not only confirms the existence of a joint optimal measurement for this specific imaging model, but also gives a promising method to characterize the condition on measurement compatibility for general multiparameter estimation problems.
翻訳日:2023-04-28 16:26:47 公開日:2023-04-27
# コンセサイテッドシーンにおけるSAMストラグル-「セグメント」に関する実証的研究

SAM Struggles in Concealed Scenes -- Empirical Study on "Segment Anything" ( http://arxiv.org/abs/2304.06022v3 )

ライセンス: Link先を確認
Ge-Peng Ji, Deng-Ping Fan, Peng Xu, Ming-Ming Cheng, Bowen Zhou, Luc Van Gool(参考訳) セグメンテーションは人工知能に向けた画期的なステップであり、SAM(Segment Anything Model)はコンピュータビジョンの基礎モデルを大きく発展させる。 SAMのパフォーマンス特性を調べることに、これ以上興奮することはできませんでした。 特にSAMがうまく機能しない状況の探索は興味深い。 本報告では,隠れた3つのシーン,すなわちカモフラージュされた動物,工業的欠陥,医療的病変を選択し,SAMを未開の環境で評価する。 私たちの主な観察では、SAMは隠されたシーンではスキルがないように見えます。

Segmenting anything is a ground-breaking step toward artificial general intelligence, and the Segment Anything Model (SAM) greatly fosters the foundation models for computer vision. We could not be more excited to probe the performance traits of SAM. In particular, exploring situations in which SAM does not perform well is interesting. In this report, we choose three concealed scenes, i.e., camouflaged animals, industrial defects, and medical lesions, to evaluate SAM under unprompted settings. Our main observation is that SAM looks unskilled in concealed scenes.
翻訳日:2023-04-28 16:19:33 公開日:2023-04-27
# weaktr: 弱教師付き意味セグメンテーションのためのプレーンビジョントランスフォーマの検討

WeakTr: Exploring Plain Vision Transformer for Weakly-supervised Semantic Segmentation ( http://arxiv.org/abs/2304.01184v2 )

ライセンス: Link先を確認
Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin, Wenyu Liu, Xinggang Wang(参考訳) 本稿では,Wakly-supervised Semantic Segmentation (WSSS) のためのプレーンビジョン変換器 (ViT) の特性について検討する。 クラスアクティベーションマップ(CAM)は、分類ネットワークを理解してWSSSを起動する上で非常に重要である。 我々は、ViTの異なるアテンションヘッドが異なる画像領域に焦点を当てていることを観察する。 そこで, より完全な対象を持つ傾向のある高品質CAM結果に対して, 自己注意マップを適応的に融合させながら, 注目ヘッドの重要性をエンドツーエンドで推定する手法を提案する。 さらに,CAMの結果をオンラインリトレーニングしてWSSSタスクを完了するためのViTベースの勾配クリッピングデコーダを提案する。 我々はこの平易なTransformerベースのWeakly教師付き学習フレームワークをWeakTrと名付けた。 標準的なベンチマークでは、PASCAL VOC 2012のvalセットでは78.4% mIoU、COCO 2014のvalセットでは50.3% mIoUである。 コードはhttps://github.com/hustvl/WeakTr.comで入手できる。

This paper explores the properties of the plain Vision Transformer (ViT) for Weakly-supervised Semantic Segmentation (WSSS). The class activation map (CAM) is of critical importance for understanding a classification network and launching WSSS. We observe that different attention heads of ViT focus on different image areas. Thus a novel weight-based method is proposed to end-to-end estimate the importance of attention heads, while the self-attention maps are adaptively fused for high-quality CAM results that tend to have more complete objects. Besides, we propose a ViT-based gradient clipping decoder for online retraining with the CAM results to complete the WSSS task. We name this plain Transformer-based Weakly-supervised learning framework WeakTr. It achieves the state-of-the-art WSSS performance on standard benchmarks, i.e., 78.4% mIoU on the val set of PASCAL VOC 2012 and 50.3% mIoU on the val set of COCO 2014. Code is available at https://github.com/hustvl/WeakTr.
翻訳日:2023-04-28 16:18:41 公開日:2023-04-27
# 混合解像トークン化を用いた視覚変換器

Vision Transformers with Mixed-Resolution Tokenization ( http://arxiv.org/abs/2304.00287v2 )

ライセンス: Link先を確認
Tomer Ronen, Omer Levy, Avram Golbert(参考訳) Vision Transformer は入力画像を等サイズのパッチの空間的に規則的なグリッドに分割して処理する。 逆にトランスフォーマーは元々自然言語のシーケンス上に導入され、各トークンは任意のサイズの生データのチャンクであるサブワードを表す。 本研究では,この手法を視覚変換器に適用し,標準均一格子を任意の大きさのパッチを表す混合解像度のトークン列に置き換える,新しい画像トークン化方式を提案する。 そこで我々は,Quadtreeアルゴリズムと新しいサリエンシスコアラを用いて,画像の低解像度領域を低解像度で処理するパッチモザイクを構築し,モデルの容量を重要な画像領域にルーティングする。 我々のQuadformerモデルは,バニラ ViT と同じアーキテクチャを用いて,計算予算の制御において,画像分類の精度向上を実現している。 コードとモデルはhttps://github.com/TomerRonen34/mixed- resolution-vit で公開されている。

Vision Transformer models process input images by dividing them into a spatially regular grid of equal-size patches. Conversely, Transformers were originally introduced over natural language sequences, where each token represents a subword - a chunk of raw data of arbitrary size. In this work, we apply this approach to Vision Transformers by introducing a novel image tokenization scheme, replacing the standard uniform grid with a mixed-resolution sequence of tokens, where each token represents a patch of arbitrary size. Using the Quadtree algorithm and a novel saliency scorer, we construct a patch mosaic where low-saliency areas of the image are processed in low resolution, routing more of the model's capacity to important image regions. Using the same architecture as vanilla ViTs, our Quadformer models achieve substantial accuracy gains on image classification when controlling for the computational budget. Code and models are publicly available at https://github.com/TomerRonen34/mixed-resolution-vit .
翻訳日:2023-04-28 16:18:23 公開日:2023-04-27
# 大規模言語モデルに関する調査

A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v8 )

ライセンス: Link先を確認
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen(参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。 言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。 主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。 近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。 モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。 興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。 パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。 近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。 LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。 本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。 特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。 さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.
翻訳日:2023-04-28 16:18:06 公開日:2023-04-27
# 連続応答を伴う順序回帰のための解釈可能なニューラルネットワークに基づく非比例オッズモデル

An interpretable neural network-based non-proportional odds model for ordinal regression with continuous response ( http://arxiv.org/abs/2303.17823v2 )

ライセンス: Link先を確認
Akifumi Okuno, Kazuharu Harada(参考訳) 本研究は,順序回帰のための解釈可能なニューラルネットワークに基づく非確率オッズモデル(n3pom)を提案する。 モデルでは、応答変数は連続値を取ることができ、回帰係数は予測順序応答によって変化する。 離散応答から回帰の線形係数を直接推定する従来の手法とは対照的に、応答を入力として線形係数を出力する非線形ニューラルネットワークを訓練する。 ニューラルネットワークにより、N3POMは従来の順序回帰の解釈可能性を維持しながら柔軟性を持つ。 予測条件累積確率(ccp)が共変量空間におけるユーザ特定領域上の単調性制約を局所的に満たす十分条件を示す。 また、ニューラルネットワークを適切にトレーニングするための単調性保存確率(MPS)アルゴリズムも提供する。

This study proposes an interpretable neural network-based non-proportional odds model (N3POM) for ordinal regression. In the model, the response variable can take continuous values, and the regression coefficients vary depending on the predicting ordinal response. Contrary to conventional approaches, where the linear coefficients of regression are directly estimated from the discrete response, we train a non-linear neural network that outputs the linear coefficients by taking the response as its input. By virtue of the neural network, N3POM may have flexibility while preserving the interpretability of the conventional ordinal regression. We show a sufficient condition under which the predicted conditional cumulative probability (CCP) locally satisfies the monotonicity constraint over a user-specified region in the covariate space. We also provide a monotonicity-preserving stochastic (MPS) algorithm for adequately training the neural network.
翻訳日:2023-04-28 16:17:37 公開日:2023-04-27
# 人間よりもAIを好む自然選択

Natural Selection Favors AIs over Humans ( http://arxiv.org/abs/2303.16200v2 )

ライセンス: Link先を確認
Dan Hendrycks(参考訳) 何十億年もの間、進化は人間を含む生命の発展の原動力となっている。 進化は人類に高い知性を与え、地球上で最も成功した種の一つとなった。 今日では、人間は人間の知性を超えた人工知能システムを作ろうとしている。 人工知能(AI)が進化し、最終的にはすべての領域で私たちを追い越すにつれ、進化はAIとの関係をどう形作るのか? AIの進化を形作る環境を分析することによって、最も成功したAIエージェントは望ましくない特性を持つ可能性が高い、と私たちは主張する。 企業や軍隊の競争圧力は、人間の役割を自動化し、他人を欺き、権力を得るaiエージェントを生み出します。 もしそのようなエージェントが人間の知性を超えているなら、人類はその未来の支配を失うことになる。 より抽象的に、自然選択は競争力と多様性を持つシステムで作用し、利己的な種は他の種と利他的な種よりも有利であると主張する。 このダーウィンの論理は人工エージェントにも適用されうるが、エージェントが利己的に振る舞い、人間を軽視せずに自身の利益を追求することで、破滅的なリスクを生じさせる可能性がある。 これらのリスクとダーウィンの力に対抗するために、AIエージェントの本質的なモチベーションを慎重に設計し、その行動に制約を導入し、協力を促す制度など、介入を検討する。 人工知能の開発を確実にするためには、これらのステップ、あるいは私たちが直面する問題を解決する他のステップが必要である。

For billions of years, evolution has been the driving force behind the development of life, including humans. Evolution endowed humans with high intelligence, which allowed us to become one of the most successful species on the planet. Today, humans aim to create artificial intelligence systems that surpass even our own intelligence. As artificial intelligences (AIs) evolve and eventually surpass us in all domains, how might evolution shape our relations with AIs? By analyzing the environment that is shaping the evolution of AIs, we argue that the most successful AI agents will likely have undesirable traits. Competitive pressures among corporations and militaries will give rise to AI agents that automate human roles, deceive others, and gain power. If such agents have intelligence that exceeds that of humans, this could lead to humanity losing control of its future. More abstractly, we argue that natural selection operates on systems that compete and vary, and that selfish species typically have an advantage over species that are altruistic to other species. This Darwinian logic could also apply to artificial agents, as agents may eventually be better able to persist into the future if they behave selfishly and pursue their own interests with little regard for humans, which could pose catastrophic risks. To counteract these risks and Darwinian forces, we consider interventions such as carefully designing AI agents' intrinsic motivations, introducing constraints on their actions, and institutions that encourage cooperation. These steps, or others that resolve the problems we pose, will be necessary in order to ensure the development of artificial intelligence is a positive one.
翻訳日:2023-04-28 16:17:26 公開日:2023-04-27
# 都市コンピューティングにおける予測学習のための時空間グラフニューラルネットワーク

Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey ( http://arxiv.org/abs/2303.14483v2 )

ライセンス: Link先を確認
Guangyin Jin, Yuxuan Liang, Yuchen Fang, Jincai Huang, Junbo Zhang, Yu Zheng(参考訳) 近年のセンシング技術の進歩により、数多くの時空間データがスマートシティーで生成・記録されている。 時空間データの進化パターンを予測することは、交通、環境、気候、公共安全、医療など、様々な分野におけるインテリジェントな管理決定を強化することができる都市コンピューティングの重要な側面である。 従来の統計的および深層学習手法は、都市時空間データの複雑な相関を捉えるのに苦労する。 この目的のために、時空間グラフニューラルネットワーク(STGNN)が提案され、近年大きな成果を上げている。 STGNNは、グラフニューラルネットワーク(GNN)と様々な時間学習手法を統合することで、複雑な時空間依存の抽出を可能にする。 本稿では,都市コンピューティングにおける予測学習におけるSTGNN技術の最近の進歩を包括的に調査する。 まず、時空間グラフデータの構築方法とSTGNNで広く使われているディープラーニングアーキテクチャについて簡単な紹介を行う。 次に、既存の文献に基づいて、主要なアプリケーションドメインと特定の予測学習タスクを分類する。 その後,STGNNの設計と,最近の先進技術の組み合わせについて検討する。 最後に,既存の研究の限界を結論し,今後の研究の方向性を提案する。

With recent advances in sensing technologies, a myriad of spatio-temporal data has been generated and recorded in smart cities. Forecasting the evolution patterns of spatio-temporal data is an important yet demanding aspect of urban computing, which can enhance intelligent management decisions in various fields, including transportation, environment, climate, public safety, healthcare, and others. Traditional statistical and deep learning methods struggle to capture complex correlations in urban spatio-temporal data. To this end, Spatio-Temporal Graph Neural Networks (STGNN) have been proposed, achieving great promise in recent years. STGNNs enable the extraction of complex spatio-temporal dependencies by integrating graph neural networks (GNNs) and various temporal learning methods. In this manuscript, we provide a comprehensive survey on recent progress on STGNN technologies for predictive learning in urban computing. Firstly, we provide a brief introduction to the construction methods of spatio-temporal graph data and the prevalent deep-learning architectures used in STGNNs. We then sort out the primary application domains and specific predictive learning tasks based on existing literature. Afterward, we scrutinize the design of STGNNs and their combination with some advanced technologies in recent years. Finally, we conclude the limitations of existing research and suggest potential directions for future work.
翻訳日:2023-04-28 16:16:59 公開日:2023-04-27
# ロボットゴムハンドイリュージョンのための脳インスパイアされた身体自己受容モデル

Brain-inspired bodily self-perception model for robot rubber hand illusion ( http://arxiv.org/abs/2303.12259v3 )

ライセンス: Link先を確認
Yuxuan Zhao, Enmeng Lu, Yi Zeng(参考訳) 身体的自意識の核心は、自分の身体の所有に対する認識である。 近年、脳の自己のエンコーディングのメカニズムをより深く理解しようとする試みは、関連する行動と神経生理学的現象を説明するための統一的な理論的枠組みを開発する様々な試みにつながった。 説明すべき中心的な問題は、ゴムの手の錯覚のような身体錯覚が実際にどのように起こるかである。 身体的自己意識のメカニズムと関連する脳領域の概念的な記述にもかかわらず、既存の理論モデルは、脳が身体の知覚をエンコードする計算メカニズムと、私たちの主観的に知覚される身体の錯覚がニューラルネットワークによってどのように生成されるかの説明をまだ欠いている。 ここでは、身体自己意識の生物学的な知見を統合し、脳に触発された身体自己受容モデルを提案し、身体自己の知覚を監督信号なしで自律的に構築する。 6種類のゴムハンドイリュージョン実験とicubヒューマノイドロボットおよびシミュレーション環境を含むプラットフォーム上での障害実験により,シミュレーションモデルの有効性を検証した。 実験結果から, サルの行動と神経のデータを生物学的実験で十分に再現できるだけでなく, 生物学的解釈の優位性から, 神経レベルでのゴムの手の錯覚の原因と結果が合理的に説明でき, ゴムの手の錯覚の発生の根底にある計算と神経機構の解明に寄与することが示唆された。

At the core of bodily self-consciousness is the perception of the ownership of one's body. Recent efforts to gain a deeper understanding of the mechanisms behind the brain's encoding of the self-body have led to various attempts to develop a unified theoretical framework to explain related behavioral and neurophysiological phenomena. A central question to be explained is how body illusions such as the rubber hand illusion actually occur. Despite the conceptual descriptions of the mechanisms of bodily self-consciousness and the possible relevant brain areas, the existing theoretical models still lack an explanation of the computational mechanisms by which the brain encodes the perception of one's body and how our subjectively perceived body illusions can be generated by neural networks. Here we integrate the biological findings of bodily self-consciousness to propose a Brain-inspired bodily self-perception model, by which perceptions of bodily self can be autonomously constructed without any supervision signals. We successfully validated our computational model with six rubber hand illusion experiments and a disability experiment on platforms including a iCub humanoid robot and simulated environments. The experimental results show that our model can not only well replicate the behavioral and neural data of monkeys in biological experiments, but also reasonably explain the causes and results of the rubber hand illusion from the neuronal level due to advantages in biological interpretability, thus contributing to the revealing of the computational and neural mechanisms underlying the occurrence of the rubber hand illusion.
翻訳日:2023-04-28 16:16:41 公開日:2023-04-27
# 低線量ctのためのマルチフレーム・クロスドメイン画像デノージング

Multi-frame-based Cross-domain Image Denoising for Low-dose Computed Tomography ( http://arxiv.org/abs/2304.10839v2 )

ライセンス: Link先を確認
Yucheng Lu, Zhixin Xu, Moon Hyung Choi, Jimin Kim, and Seung-Won Jung(参考訳) CT(Computed tomography)は、診断支援において最も重要な非侵襲的検査の1つである。 しかしながら、X線被曝の電離性は、がんのような潜在的な健康リスクへの懸念を引き起こす。 放射線線量を減らすという欲求は、特にノイズやアーティファクトを除去することで、研究者に再建の質を改善するよう促した。 従来の低線量CT(LDCT)による研究は、学習に基づく手法の可能性を示しているが、そのほとんどはラドン変換を用いて収集したシミュレーションデータに基づいて開発された。 しかし、実世界のシナリオはシミュレーション領域とは大きく異なり、現代のCT画像再構成パイプラインとの協調最適化はいまだに欠落している。 本稿では,市販の第3世代マルチスライス・スパイラルCTスキャナに対して,異なる領域をまたがるLDCTの完全再構成パイプラインをよりよく活用する2段階の手法を提案する。 本手法は,従来のカスケードフレームワークにおける情報の崩壊を回避しつつ,マルチスライス射影とボリュームリコンストラクションの高冗長性を有効活用する。 専用設計はワークフローのより明確な解釈も提供する。 広範な評価を通じて,最先端手法に対する優れた性能を示す。

Computed tomography (CT) has been used worldwide for decades as one of the most important non-invasive tests in assisting diagnosis. However, the ionizing nature of X-ray exposure raises concerns about potential health risks such as cancer. The desire for lower radiation dose has driven researchers to improve the reconstruction quality, especially by removing noise and artifacts. Although previous studies on low-dose computed tomography (LDCT) denoising have demonstrated the potential of learning-based methods, most of them were developed on the simulated data collected using Radon transform. However, the real-world scenario significantly differs from the simulation domain, and the joint optimization of denoising with the modern CT image reconstruction pipeline is still missing. In this paper, for the commercially available third-generation multi-slice spiral CT scanners, we propose a two-stage method that better exploits the complete reconstruction pipeline for LDCT denoising across different domains. Our method makes good use of the high redundancy of both the multi-slice projections and the volumetric reconstructions while avoiding the collapse of information in conventional cascaded frameworks. The dedicated design also provides a clearer interpretation of the workflow. Through extensive evaluations, we demonstrate its superior performance against state-of-the-art methods.
翻訳日:2023-04-28 16:10:58 公開日:2023-04-27
# BioTrak: ブロックチェーンベースのフードチェーンロジスティクストレーサビリティプラットフォーム

BioTrak: A Blockchain-based Platform for Food Chain Logistics Traceability ( http://arxiv.org/abs/2304.09601v3 )

ライセンス: Link先を確認
A. Spitalleri, I. Kavasidis, V. Cartelli, R. Mineo, F. Rundo, S. Palazzo, C. Spampinato, D. Giordano(参考訳) グローバリゼーションに伴い、食品サプライチェーンは非常に複雑になっている。 このような複雑さは、中間製品と最終製品の品質に悪影響を及ぼす要因をもたらす。 維持温度や輸送時間などのパラメータに関する厳格な制約を尊重し、最高品質を確保し、公衆衛生への有害な影響を最小限に抑える必要がある。 これは多要素の努力であり、関与するすべての利害関係者は可能な限りの成果を達成するためにロジスティクスの負担を受け入れ、管理しなければならない。 しかし、こうした負担は、データストレージ、ビジネスプロセス管理、企業固有の標準運用手順に関する追加の複雑さやコストと結びつき、そのような侵入的操作の影響を軽減するために自動化方法を考案する必要がある。 以上の理由から,本論文では,原料原料から最終製品が消費者に届くまで,食品成分の冷チェーンロジスティクスの監視を含む,トランスフォーメーションおよび輸送プロセスの全チェーンを登録・可視化できるプラットフォームであるBioTrakについて述べる。 プラットフォームには、フードサプライチェーンのステークホルダーがプロセスの最適化を支援するBusiness Process Modellingメソッドと、データの整合性、透明性、説明責任を保証するブロックチェーンの統合が含まれている。

The food supply chain, following its globalization, has become very complex. Such complexities, introduce factors that influence adversely the quality of intermediate and final products. Strict constraints regarding parameters such as maintenance temperatures and transportation times must be respected in order to ensure top quality and reduce to a minimum the detrimental effects to public health. This is a multi-factorial endeavor and all of the involved stakeholders must accept and manage the logistics burden to achieve the best possible results. However, such burden comes together with additional complexities and costs regarding data storage, business process management and company specific standard operating procedures and as such, automated methods must be devised to reduce the impact of such intrusive operations. For the above reasons, in this paper we present BioTrak: a platform capable of registering and visualizing the whole chain of transformation and transportation processes including the monitoring of cold chain logistics of food ingredients starting from the raw material producers until the final product arrives to the end-consumer. The platform includes Business Process Modelling methods to aid food supply chain stakeholders to optimize their processes and also integrates a blockchain for guaranteeing the integrity, transparency and accountability of the data.
翻訳日:2023-04-28 16:10:38 公開日:2023-04-27
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v2 )

ライセンス: Link先を確認
Taeho Kim(参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。 しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。 さらに、モデルが幾何学的に無感な特徴を学習すると、位置情報を取得するのに苦労する可能性がある。 そこで我々は,4次元回転,ランダム作物,マルチクロップといった幾何学的変換に敏感な特徴を学習する幾何学的変換センシティブアーキテクチャを提案する。 本手法は,教師の特徴マップのプーリングと回転,回転予測を通じて,これらの変換に敏感な目標を用いて,感性的な特徴の学習を促す。 さらに,マルチクロップに対する非敏感なトレーニングは長期依存関係を捕捉する可能性があるため,長期依存関係をキャプチャしながら,パッチ対応損失を使ってモデルをセンシティブにトレーニングする。 提案手法は,非対象中心の画像を事前学習データとして用いる場合,幾何学的変換非感性表現を学習する他の方法と比較して,性能向上を示す。 DINO[\citet{caron2021emerging}]ベースラインを、画像分類、セマンティックセグメンテーション、検出、インスタンスセグメンテーションを含むタスクで上回り、6.1$Acc$、3.3 $mIoU$、3.4 $AP^b$、2.7 $AP^m$の改善がある。 コードおよび事前訓練されたモデルは以下で公開されている。

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model learns geometrically insensitive features, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture that learns features sensitive to geometric transformations, specifically four-fold rotation, random crop, and multi-crop. Our method encourages the student to learn sensitive features by using targets that are sensitive to those transforms via pooling and rotating of the teacher feature map and predicting rotation. Additionally, since training insensitively to multi-crop can capture long-term dependencies, we use patch correspondence loss to train the model sensitively while capturing long-term dependencies. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-insensitive representations. We surpass the DINO[\citet{caron2021emerging}] baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 6.1 $Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at:
翻訳日:2023-04-28 16:10:16 公開日:2023-04-27
# 不整合表現学習のためのスパースと共有特徴アクティベーションの活用

Leveraging sparse and shared feature activations for disentangled representation learning ( http://arxiv.org/abs/2304.07939v2 )

ライセンス: Link先を確認
Marco Fumero, Florian Wenzel, Luca Zancato, Alessandro Achille, Emanuele Rodol\`a, Stefano Soatto, Bernhard Sch\"olkopf, Francesco Locatello(参考訳) 高次元データの変動の潜在要因の回復は、これまで単純な合成設定に重点を置いてきた。 主に教師なしおよび弱教師付き目的に基づいて構築され、以前の研究は、実世界のデータにおける表現学習のポジティブな意味を欠いた。 本研究では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。 各教師付きタスクがばらつきの要因の未知の部分集合のみに依存すると仮定すると、私たちは教師付きマルチタスクモデルの機能空間を分断し、異なるタスク間で機能を活性化し、適切な情報を共有する。 重要なことは、我々は変化の要因を直接観察することはないが、複数のタスクへのアクセスは、十分かつ最小限の仮定の下での識別に十分であることを示す。 6つの実世界の分散シフトベンチマークと異なるデータモダリティ(画像、テキスト)のアプローチを検証し、異種表現を実環境に転送する方法を実証した。

Recovering the latent factors of variation of high dimensional data has so far focused on simple synthetic settings. Mostly building on unsupervised and weakly-supervised objectives, prior work missed out on the positive implications for representation learning on real world data. In this work, we propose to leverage knowledge extracted from a diversified set of supervised tasks to learn a common disentangled representation. Assuming each supervised task only depends on an unknown subset of the factors of variation, we disentangle the feature space of a supervised multi-task model, with features activating sparsely across different tasks and information being shared as appropriate. Importantly, we never directly observe the factors of variations but establish that access to multiple tasks is sufficient for identifiability under sufficiency and minimality assumptions. We validate our approach on six real world distribution shift benchmarks, and different data modalities (images, text), demonstrating how disentangled representations can be transferred to real settings.
翻訳日:2023-04-28 16:09:46 公開日:2023-04-27
# 非拘束ビデオに対するロバストなクロスモーダル知識蒸留

Robust Cross-Modal Knowledge Distillation for Unconstrained Videos ( http://arxiv.org/abs/2304.07775v2 )

ライセンス: Link先を確認
Wenke Xia, Xingjian Li, Andong Deng, Haoyi Xiong, Dejing Dou, Di Hu(参考訳) クロスモーダル蒸留は様々なモダリティの知識を伝達するために広く使われており、対象の非モダルの表現を豊かにしている。 最近の研究は、視覚と音の時間的同期とクロスモーダル蒸留のセマンティック一貫性を強く関連付けている。 しかし、同期からのそのような意味的一貫性は、無関係なモダリティノイズと区別された意味的相関のため、制約のないビデオでは保証が難しい。 この目的のために,まず教師モダリティの無関係ノイズをクロスモーダルコンテキストで消去する \textit{modality noise filter} (mnf) モジュールを提案する。 この浄化の後、我々は、異なるサンプル単位のセマンティックな相関を対照的に参照することで、ターゲットのモダリティに有用な知識を適応的に蒸留する「textit{Contrastive Semantic Calibration} (CSC)」モジュールを設計する。 広範な実験により,視覚動作認識と映像検索タスクの両方において,他の蒸留法と比較して性能向上が期待できることがわかった。 また,提案手法の一般化を証明するため,音声タグ処理にも拡張した。 ソースコードは \href{https://github.com/gewu-lab/cross-modal-distillation}{https://github.com/gewu-lab/cross-modal-distillation} で入手できる。

Cross-modal distillation has been widely used to transfer knowledge across different modalities, enriching the representation of the target unimodal one. Recent studies highly relate the temporal synchronization between vision and sound to the semantic consistency for cross-modal distillation. However, such semantic consistency from the synchronization is hard to guarantee in unconstrained videos, due to the irrelevant modality noise and differentiated semantic correlation. To this end, we first propose a \textit{Modality Noise Filter} (MNF) module to erase the irrelevant noise in teacher modality with cross-modal context. After this purification, we then design a \textit{Contrastive Semantic Calibration} (CSC) module to adaptively distill useful knowledge for target modality, by referring to the differentiated sample-wise semantic correlation in a contrastive fashion. Extensive experiments show that our method could bring a performance boost compared with other distillation methods in both visual action recognition and video retrieval task. We also extend to the audio tagging task to prove the generalization of our method. The source code is available at \href{https://github.com/GeWu-Lab/cross-modal-distillation}{https://github.com/GeWu-Lab/cross-modal-distillation}.
翻訳日:2023-04-28 16:09:03 公開日:2023-04-27
# 密集群集追跡における重度咬合の頭部集中による対処

Handling Heavy Occlusion in Dense Crowd Tracking by Focusing on the Heads ( http://arxiv.org/abs/2304.07705v2 )

ライセンス: Link先を確認
Yu Zhang, Huaming Chen, Wei Bao, Zhongzheng Lai, Zao Zhang, Dong Yuan(参考訳) ディープラーニングの急速な発展に伴い、オブジェクト検出と追跡は、今日の社会において重要な役割を果たす。 密集した群衆シーンのすべての歩行者をコンピュータビジョンのアプローチで識別し追跡することは、この分野で典型的な課題であり、Multiple Object Tracking(MOT)チャレンジとも呼ばれる。 現代のトラッカーは、より複雑なシーンで操作する必要がある。 MOT20チャレンジの結果によると、歩行者はMOT17チャレンジの4倍密度がある。 したがって、非常に混み合った場面で検出・追跡する能力を向上させることが、この研究の目的である。 人体に対する咬合問題に照らし合わせると、頭部は通常より識別が容易である。 本研究では,小型・中型ともに歩行者のリコールと精度の向上を図るために,アンカーレス方式のジョイントヘッドとボディ検出器を設計した。 また,本モデルでは,訓練用歩行者検出のための統計的頭部比に関する情報は不要である。 提案するモデルは,その比率を動的に学習する。 提案モデルの有効性を検証するため,MOT20,Crowd Human,HT21データセットなど,さまざまなデータセットに対する広範な実験を行った。 その結果,提案手法は中小歩行者のリコール率と精度を著しく改善し,これらの課題データセットにおいて最先端の結果を得ることができた。

With the rapid development of deep learning, object detection and tracking play a vital role in today's society. Being able to identify and track all the pedestrians in the dense crowd scene with computer vision approaches is a typical challenge in this field, also known as the Multiple Object Tracking (MOT) challenge. Modern trackers are required to operate on more and more complicated scenes. According to the MOT20 challenge result, the pedestrian is 4 times denser than the MOT17 challenge. Hence, improving the ability to detect and track in extremely crowded scenes is the aim of this work. In light of the occlusion issue with the human body, the heads are usually easier to identify. In this work, we have designed a joint head and body detector in an anchor-free style to boost the detection recall and precision performance of pedestrians in both small and medium sizes. Innovatively, our model does not require information on the statistical head-body ratio for common pedestrians detection for training. Instead, the proposed model learns the ratio dynamically. To verify the effectiveness of the proposed model, we evaluate the model with extensive experiments on different datasets, including MOT20, Crowdhuman, and HT21 datasets. As a result, our proposed method significantly improves both the recall and precision rate on small & medium sized pedestrians and achieves state-of-the-art results in these challenging datasets.
翻訳日:2023-04-28 16:08:38 公開日:2023-04-27
# PI-FL:パーソナライズド・インセンティブド・フェデレーションラーニング

PI-FL: Personalized and Incentivized Federated Learning ( http://arxiv.org/abs/2304.07514v2 )

ライセンス: Link先を確認
Ahmad Faraz Khan, Xinran Wang, Qi Le, Azal Ahmad Khan, Haider Ali, Jie Ding, Ali Butt, Ali Anwar(参考訳) パーソナライズされたFLは、非IIDデータによる異種性の課題に対応するために広く用いられている。 主な障害は、クライアントの視点からパーソナライズプロセスを考慮し、自律性を維持することである。 クライアントがパーソナライズされたFL決定に参加することは、クライアントが高品質なパーソナライズされたモデルを作成するのに必要な個人情報を共有する自由がないというプライバシーとセキュリティ上の懸念から重要になる。 さらに、高品質のデータとリソースを持つクライアントは、合理的なインセンティブなしにflプロセスに参加することを嫌っている。 本稿では,個人化学習に報いるトークンベースのインセンティブメカニズムを補完するワンショットパーソナライズソリューションPI-FLを提案する。 PI-FLは他の最先端アプローチよりも優れており、クライアントのプライバシーを尊重しながら高品質なパーソナライズされたモデルを生成することができる。

Personalized FL has been widely used to cater to heterogeneity challenges with non-IID data. A primary obstacle is considering the personalization process from the client's perspective to preserve their autonomy. Allowing the clients to participate in personalized FL decisions becomes significant due to privacy and security concerns, where the clients may not be at liberty to share private information necessary for producing good quality personalized models. Moreover, clients with high-quality data and resources are reluctant to participate in the FL process without reasonable incentive. In this paper, we propose PI-FL, a one-shot personalization solution complemented by a token-based incentive mechanism that rewards personalized training. PI-FL outperforms other state-of-the-art approaches and can generate good-quality personalized models while respecting clients' privacy.
翻訳日:2023-04-28 16:08:18 公開日:2023-04-27
# 乳癌画像の深層学習 : 進歩と今後の方向性

Deep Learning in Breast Cancer Imaging: A Decade of Progress and Future Directions ( http://arxiv.org/abs/2304.06662v2 )

ライセンス: Link先を確認
Luyang Luo, Xi Wang, Yi Lin, Xiaoqi Ma, Andong Tan, Ronald Chan, Varut Vardhanabhuti, Winnie CW Chu, Kwang-Ting Cheng, Hao Chen(参考訳) 乳がんは2020年以降、世界中のすべての悪性腫瘍の中で最高率に達している。 乳がん患者の早期診断と治療の介入において乳房画像は重要な役割を担っている。 過去10年間で、深層学習は乳がん画像解析の顕著な進歩を示し、乳がん画像の豊富な情報と複雑な文脈を解釈する上で大きな可能性を秘めている。 深層学習技術の急速な進歩と乳癌の重症度の増加を考えると、過去の進歩を要約し、対処すべき今後の課題を特定することが重要である。 本稿では,過去10年間のマンモグラム,超音波,磁気共鳴画像,およびデジタル病理画像の研究を対象とする,ディープラーニングに基づく乳癌イメージング研究の広範な調査を行う。 画像ベースのスクリーニング、診断、治療反応予測、予後予測における主要なディープラーニング手法、公開データセット、および応用について詳述する。 本稿では,本研究の結果から,ディープラーニングを用いた乳がんイメージングにおける今後の研究の課題と可能性について総合的な考察を行う。

Breast cancer has reached the highest incidence rate worldwide among all malignancies since 2020. Breast imaging plays a significant role in early diagnosis and intervention to improve the outcome of breast cancer patients. In the past decade, deep learning has shown remarkable progress in breast cancer imaging analysis, holding great promise in interpreting the rich information and complex context of breast imaging modalities. Considering the rapid improvement in the deep learning technology and the increasing severity of breast cancer, it is critical to summarize past progress and identify future challenges to be addressed. In this paper, we provide an extensive survey of deep learning-based breast cancer imaging research, covering studies on mammogram, ultrasound, magnetic resonance imaging, and digital pathology images over the past decade. The major deep learning methods, publicly available datasets, and applications on imaging-based screening, diagnosis, treatment response prediction, and prognosis are described in detail. Drawn from the findings of this survey, we present a comprehensive discussion of the challenges and potential avenues for future research in deep learning-based breast cancer imaging.
翻訳日:2023-04-28 16:08:04 公開日:2023-04-27
# rsirトランスフォーマー:ランダムサンプリングウィンドウと重要領域ウィンドウを用いた階層的視覚トランスフォーマー

RSIR Transformer: Hierarchical Vision Transformer using Random Sampling Windows and Important Region Windows ( http://arxiv.org/abs/2304.06250v3 )

ライセンス: Link先を確認
Zhemin Zhang, Xun Gong(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 しかし、グローバル・セルフ・アテンションの高コストはトランスフォーマー、特に高解像度視覚タスクにとって依然として困難である。 局所的な自己注意は、効率性のために限られた領域内で注意計算を実行するため、受容場が小さいためコンテキストモデリングが不十分となる。 本研究では,階層型視覚変換器のグローバルなモデリング機能,すなわちランダムサンプリングウィンドウ(RS-Win)と重要な領域ウィンドウ(IR-Win)の2つの新しいアテンションモジュールを導入する。 特に、rs-winのサンプルランダムイメージパッチは、一様分布、すなわち、rs-winのパッチは、画像の任意の位置から来ることができる。 IR-Winは、アテンションマップ内の画像パッチの重みに応じてウィンドウを構成する。 特にRS-Winは、初期の高解像度の段階でも、モデル全体を通してグローバルな情報をキャプチャすることができる。 IR-Winは、自己認識モジュールが画像の重要な領域に集中し、より情報的な特徴をキャプチャすることを可能にする。 これらの設計を取り入れたRSIR-Win Transformerは、一般的な視覚タスクにおける競合性能を示す。

Recently, Transformers have shown promising performance in various vision tasks. However, the high costs of global self-attention remain challenging for Transformers, especially for high-resolution vision tasks. Local self-attention runs attention computation within a limited region for the sake of efficiency, resulting in insufficient context modeling as their receptive fields are small. In this work, we introduce two new attention modules to enhance the global modeling capability of the hierarchical vision transformer, namely, random sampling windows (RS-Win) and important region windows (IR-Win). Specifically, RS-Win sample random image patches to compose the window, following a uniform distribution, i.e., the patches in RS-Win can come from any position in the image. IR-Win composes the window according to the weights of the image patches in the attention map. Notably, RS-Win is able to capture global information throughout the entire model, even in earlier, high-resolution stages. IR-Win enables the self-attention module to focus on important regions of the image and capture more informative features. Incorporated with these designs, RSIR-Win Transformer demonstrates competitive performance on common vision tasks.
翻訳日:2023-04-28 16:07:47 公開日:2023-04-27
# マルチモーダルモデリングと異種GNNを用いた性能最適化

Performance Optimization using Multimodal Modeling and Heterogeneous GNN ( http://arxiv.org/abs/2304.12568v2 )

ライセンス: Link先を確認
Akash Dutta, Jordi Alcaraz, Ali TehraniJamsaz, Eduardo Cesar, Anna Sikora, Ali Jannesari(参考訳) HPCアーキテクチャにおける不均一性と構成性の向上は、これらのシステムにおける自動チューニングアプリケーションとランタイムパラメータを非常に複雑にしている。 ユーザはパラメータを設定するためのオプションを多数提示する。 アプリケーション固有のソリューションに加えて、汎用的な検索戦略を使用することも一般的なアプローチであり、最良の構成や収束までの時間を特定することが大きな障壁となることが多い。 したがって、様々なチューニングタスクに容易にスケールして適応できる汎用的で効率的なチューニングアプローチが必要となる。 本稿では,複数のタスクに適応できるほど汎用的な並列コード領域のチューニング手法を提案する。 本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。 この目的のために,多モードグラフニューラルネットワークとオートエンコーダ(MGA)チューナを提案する。これは,異種グラフニューラルネットワークに適応したマルチモーダル深層学習に基づくアプローチであり,別個のモダリティとして機能するIRベースのコード表現をモデル化するための自動エンコーダをデノライズする。 このアプローチは、並列コード領域/カーネルをチューニングするための構文、セマンティクス、構造対応irベースのコード表現をモデル化するパイプラインの一部として使用します。 我々はPolyBench, Rodinia, STREAM, DataRaceBench, AMD SDK, NPB, NVIDIA SDK, Parboil, SHOC, LULESHベンチマークから得られたOpenMPおよびOpenCLコード領域/カーネルを広範囲に実験した。 タスクにマルチモーダル学習技術を適用する。 i)openmpループにおけるスレッド数、スケジューリングポリシー、チャンクサイズを最適化すること。 ii)openclカーネルの異種デバイスマッピングのための最善のデバイスを特定すること。 実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験で最先端技術を上回ることがわかった。

Growing heterogeneity and configurability in HPC architectures has made auto-tuning applications and runtime parameters on these systems very complex. Users are presented with a multitude of options to configure parameters. In addition to application specific solutions, a common approach is to use general purpose search strategies, which often might not identify the best configurations or their time to convergence is a significant barrier. There is, thus, a need for a general purpose and efficient tuning approach that can be easily scaled and adapted to various tuning tasks. We propose a technique for tuning parallel code regions that is general enough to be adapted to multiple tasks. In this paper, we analyze IR-based programming models to make task-specific performance optimizations. To this end, we propose the Multimodal Graph Neural Network and Autoencoder (MGA) tuner, a multimodal deep learning based approach that adapts Heterogeneous Graph Neural Networks and Denoizing Autoencoders for modeling IR-based code representations that serve as separate modalities. This approach is used as part of our pipeline to model a syntax, semantics, and structure-aware IR-based code representation for tuning parallel code regions/kernels. We extensively experiment on OpenMP and OpenCL code regions/kernels obtained from PolyBench, Rodinia, STREAM, DataRaceBench, AMD SDK, NPB, NVIDIA SDK, Parboil, SHOC, and LULESH benchmarks. We apply our multimodal learning techniques to the tasks of i) optimizing the number of threads, scheduling policy and chunk size in OpenMP loops and, ii) identifying the best device for heterogeneous device mapping of OpenCL kernels. Our experiments show that this multimodal learning based approach outperforms the state-of-the-art in all experiments.
翻訳日:2023-04-28 16:01:35 公開日:2023-04-27
# 3次元画像分割のための位相認識焦点損失

Topology-Aware Focal Loss for 3D Image Segmentation ( http://arxiv.org/abs/2304.12223v2 )

ライセンス: Link先を確認
Andac Demir, Elie Massaad, Bulent Kiziltan(参考訳) セグメンテーションアルゴリズムの有効性は、重複する領域、切断された接続、空白などの位相誤差によってしばしば損なわれる。 この問題に対処するために,従来の音声損失を,地上の真実と予測セグメンテーションマスクの永続図とのワッサーシュタイン距離に基づく位相的制約項に組み込んだ新しい損失関数,Topology-Aware Focal Loss (TAFL)を導入する。 基底の真実と同一の位相を強制することにより、位相的制約はトポロジカルな誤りを効果的に解決し、フォカル・ロスはクラス不均衡に取り組む。 まず、基底真理のフィルターされた立方体錯体と予測セグメンテーションマスクから永続図を構築する。 次に,Sinkhorn-Knoppアルゴリズムを用いて2つの永続化ダイアグラム間の最適輸送計画を決定する。 結果として生じる輸送計画は、質量をある分布から他方へ輸送するコストを最小化し、2つの永続化図の点間のマッピングを提供する。 次に、この旅行計画に基づいてワッサーシュタイン距離を計算し、基底真理と予測マスクの間の位相的相似性を測定する。 我々は, 悪性脳腫瘍の正確な同定と追跡のために, 3次元MRIスキャンの正確なセグメンテーションを必要とする, MICCAI Brain tumor Segmentation (BraTS) Challenge Validationデータセットを用いて3D U-Netをトレーニングすることにより, アプローチを評価する。 次に,局所的制約をペナルティ項として加えることにより,局所的損失を正則化し,セグメンテーション性能の質を高めることを実証する。

The efficacy of segmentation algorithms is frequently compromised by topological errors like overlapping regions, disrupted connections, and voids. To tackle this problem, we introduce a novel loss function, namely Topology-Aware Focal Loss (TAFL), that incorporates the conventional Focal Loss with a topological constraint term based on the Wasserstein distance between the ground truth and predicted segmentation masks' persistence diagrams. By enforcing identical topology as the ground truth, the topological constraint can effectively resolve topological errors, while Focal Loss tackles class imbalance. We begin by constructing persistence diagrams from filtered cubical complexes of the ground truth and predicted segmentation masks. We subsequently utilize the Sinkhorn-Knopp algorithm to determine the optimal transport plan between the two persistence diagrams. The resultant transport plan minimizes the cost of transporting mass from one distribution to the other and provides a mapping between the points in the two persistence diagrams. We then compute the Wasserstein distance based on this travel plan to measure the topological dissimilarity between the ground truth and predicted masks. We evaluate our approach by training a 3D U-Net with the MICCAI Brain Tumor Segmentation (BraTS) challenge validation dataset, which requires accurate segmentation of 3D MRI scans that integrate various modalities for the precise identification and tracking of malignant brain tumors. Then, we demonstrate that the quality of segmentation performance is enhanced by regularizing the focal loss through the addition of a topological constraint as a penalty term.
翻訳日:2023-04-28 16:00:01 公開日:2023-04-27
# BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる

The Disharmony Between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation Between Activations ( http://arxiv.org/abs/2304.11692v2 )

ライセンス: Link先を確認
Inyoung Paik, Jaesik Choi(参考訳) バッチ正規化とReLUライクなアクティベーション関数に基づくディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定を経験することができる。 本稿では,ReLUが期待以上に分散を減少させる方法と,バッチ正規化が回復過程の勾配を増幅する方法について説明する。 さらに,学習中のディープニューラルネットワークのダイナミクスがどう変化するか,入力間の相関がこの問題をいかに緩和するかについて議論する。 最後に,2次最適化アルゴリズムに触発された適応学習率アルゴリズムを提案する。大規模バッチトレーニングでは既存の学習率スケーリング手法を上回り,小規模バッチトレーニングではウォームアップを置き換えることができる。

Deep neural networks based on batch normalization and ReLU-like activation functions can experience instability during the early stages of training due to the high gradient induced by temporal gradient explosion. We explain how ReLU reduces variance more than expected, and how batch normalization amplifies the gradient during recovery, which causes gradient explosion while forward propagation remains stable. Additionally, we discuss how the dynamics of a deep neural network change during training and how the correlation between inputs can alleviate this problem. Lastly, we propose a better adaptive learning rate algorithm inspired by second-order optimization algorithms, which outperforms existing learning rate scaling methods in large batch training and can also replace WarmUp in small batch training.
翻訳日:2023-04-28 15:59:21 公開日:2023-04-27
# テキスト分類のためのグラフニューラルネットワーク:調査

Graph Neural Networks for Text Classification: A Survey ( http://arxiv.org/abs/2304.11534v2 )

ライセンス: Link先を確認
Kunze Wang, Yihao Ding, Soyeon Caren Han(参考訳) テキスト分類は自然言語処理において最も重要かつ根本的な問題である。 最近の多くのテキスト分類モデルがシーケンシャルなディープラーニング技術を適用しているが、グラフニューラルネットワークベースのモデルは複雑な構造化テキストデータを直接扱うことができ、グローバル情報を活用することができる。 多くの実際のテキスト分類アプリケーションは自然にグラフにキャストされ、単語、文書、コーパスのグローバル特徴をキャプチャする。 本稿では,コーパスレベルおよび文書レベルグラフニューラルネットワークを含む2023年までの手法について報告する。 グラフ構築機構とグラフに基づく学習プロセスについて,これらの手法について詳細に検討する。 技術調査に加えて,グラフニューラルネットワークを用いたテキスト分類における課題と今後の方向性についても検討する。 また、データセット、評価メトリクス、実験設計についても取り上げ、公開ベンチマークで公開されたパフォーマンスの概要を示す。 本調査では,異なる手法の総合的な比較を行い,様々な評価指標の長所と短所を同定する。

Text Classification is the most essential and fundamental problem in Natural Language Processing. While numerous recent text classification models applied the sequential deep learning technique, graph neural network-based models can directly deal with complex structured text data and exploit global information. Many real text classification applications can be naturally cast into a graph, which captures words, documents, and corpus global features. In this survey, we bring the coverage of methods up to 2023, including corpus-level and document-level graph neural networks. We discuss each of these methods in detail, dealing with the graph construction mechanisms and the graph-based learning process. As well as the technological survey, we look at issues behind and future directions addressed in text classification using graph neural networks. We also cover datasets, evaluation metrics, and experiment design and present a summary of published performance on the publicly available benchmarks. Note that we present a comprehensive comparison between different techniques and identify the pros and cons of various evaluation metrics in this survey.
翻訳日:2023-04-28 15:59:06 公開日:2023-04-27
# チェスゲームにおける統計的解析 : 空間制御と先端点

Statistical analysis of chess games: space control and tipping points ( http://arxiv.org/abs/2304.11425v2 )

ライセンス: Link先を確認
Marc Barthelemy(参考訳) チェスゲームの動作は通常、プロのプレイヤーによってケースバイケースで分析されるが、大規模なゲームデータベースが利用可能であるため、ゲームの別のアプローチを想定できる。 ここで、我々は全く異なる視点を採用し、統計学的観点からチェスゲームの動きを分析する。 まず,空間的特性とピースの位置に着目し,ゲーム中の可能な動き数とその結果に正の相関性を示す。 次に、部品のヒートマップを調査して、部品の空間分布が、エンジン(ストックフィッシュなど)よりも人間のプレイヤーによって異なることを示した: エンジンは、何世紀にもわたって人間が行ったのとは全く異なる方法で部品を使用しているように見える。 これらのヒートマップは、プレイヤーが自分のピースの使い方を特徴づける距離を作ることもできます。 第2部では、stockfishが見つけた最良の動きと第2の最良の動きに注目し、その評価の差を調査します。 チェスの試合中に 異なる体制を見つけました quiet' では$\delta$ は小さく、両方のプレイヤーに多くのパスが可能だことを示している。 対照的に 'tipping point' が特徴の 'volatile' も存在し、$\Delta$ が大きくなる。 このチップングポイントでは、選択した動きによって結果が完全に切り替えられる。 また、多くのゲームにおいて、$\Delta$の分布は、$P(\Delta)\sim \Delta^{-\beta}$と、ユニバーサルな(人間プレイヤーやエンジンのための)指数、約$\beta\approx 1.8$の電力法によっても適用できることがわかった。 したがって、ゲームにおいてチップポイントに遭遇する確率は無視できない。 最後に, ポーン鎖の構造, 部品間の相互作用グラフ, 臨界点の定量的定義など, チェスゲームについて定量的に理解するための研究の方向性について述べる。

Moves in chess games are usually analyzed on a case-by-case basis by professional players, but thanks to the availability of large game databases, we can envision another approach of the game. Here, we indeed adopt a very different point of view, and analyze moves in chess games from a statistical point of view. We first focus on spatial properties and the location of pieces and show that the number of possible moves during a game is positively correlated with its outcome. We then study heatmaps of pieces and show that the spatial distribution of pieces varies less between human players than with engines (such as Stockfish): engines seem to use pieces in a very different way as human did for centuries. These heatmaps also allow us to construct a distance between players that characterizes how they use their pieces. In a second part, we focus on the best move and the second best move found by Stockfish and study the difference $\Delta$ of their evaluation. We found different regimes during a chess game. In a `quiet' regime, $\Delta$ is small, indicating that many paths are possible for both players. In contrast, there are also `volatile' regimes characterized by a `tipping point', for which $\Delta$ becomes large. At these tipping points, the outcome could then switch completely depending on the move chosen. We also found that for a large number of games, the distribution of $\Delta$ can be fitted by a power law $P(\Delta)\sim \Delta^{-\beta}$ with an exponent that seems to be universal (for human players and engines) and around $\beta\approx 1.8$. The probability to encounter a tipping point in a game is therefore far from being negligible. Finally, we conclude by mentioning possible directions of research for a quantitative understanding of chess games such as the structure of the pawn chain, the interaction graph between pieces, or a quantitative definition of critical points.
翻訳日:2023-04-28 15:58:51 公開日:2023-04-27
# 消滅のデコヒーレンスというパズルの扉を閉じる

Closing the Door on the Puzzle of Decoherence of Annihilation Quanta ( http://arxiv.org/abs/2304.11362v2 )

ライセンス: Link先を確認
Siddharth Parashari, Damir Bosnar, Ivica Fri\v{s}\v{c}i\'c, Zdenka Kuncic, Mihael Makek(参考訳) パラポジトロニウム消滅では、ポジトロントモグラフィを用いた医療画像における信号対バックグラウンドを改善する可能性から、新興ガンマ量子の偏光相関の探索が注目されている。 消滅量子は直交分極を持ち、絡み合った状態であると予測され、この性質を利用して背景に寄与する2つの非相関ガンマ光子と区別することができる。 先行コンプトン散乱による脱コヒーレンス過程後の脱コヒーレンス量子の偏極相関に関する最近の実験的研究は、脱コヒーレンス後の相関の強さに関してかなり異なる結論を示し、そのパズリングの性質を示した。 本研究は,単層ガンマ線偏光計を用いた角距離$0^\circ-50^\circ$におけるコンプトン散乱による脱コヒーレンス後の消滅量子の偏光相関を初めて行う。 さらに,30^\circ$でのコンプトン散乱後の偏光相関を,アクティブおよびパッシブ散乱素子と比較した。 その結果、偏光変調係数で表される相関は、直接光子で測定された相関値と比較して小さな散乱角(0^\circ-30^\circ$)では有意な差は見られず、50^\circ$散乱角では低い変調が観測された。

In para-positronium annihilation, exploration of the polarization correlations of the emerging gamma quanta has gained interest, since it offers a possibility to improve signal-to-background in medical imaging using Positron Emission Tomography. The annihilation quanta have orthogonal polarizations and are predicted to be in an entangled state and this property may be exploited to discriminate them from two uncorrelated gamma photons contributing to the background. Recent experimental studies of polarization correlations of the annihilation quanta after a decoherence process induced by a prior Compton scattering of one of them, had rather different conclusions regarding the strength of the correlation after the decoherence, showing its puzzling nature. In the present work, we perform for the first time, a study of the polarization correlations of annihilation quanta after decoherence via Compton scattering in the angular range $0^\circ-50^\circ$ using single-layer gamma ray polarimeters. In addition, we compare the measured polarization correlations after Compton scattering at $30^\circ$ with an active and a passive scatterer element. The results indicate that the correlation, expressed in terms of the polarimetric modulation factor, shows no significant difference at small scattering angles ($0^\circ-30^\circ$) compared to the correlation measured for direct photons, while lower modulation was observed for $50^\circ$ scattering angle.
翻訳日:2023-04-28 15:58:15 公開日:2023-04-27
# 脳-コンピュータインタフェースにおけるジェスチャー認識のための畳み込みスパイクネットワーク

A Convolutional Spiking Network for Gesture Recognition in Brain-Computer Interfaces ( http://arxiv.org/abs/2304.11106v2 )

ライセンス: Link先を確認
Yiming Ai, Bipin Rajendran(参考訳) 脳-コンピューターインターフェースは、様々な治療用途のために研究されている。 通常、これは外部装置を駆動するために、脳波(ECoG)や脳波(EEG)などの技術を用いて、連続的な脳活動を測定し、分析する。 しかし、測定結果のノイズや変動性から、これらの信号の分析は困難であり、重要な計算資源を持つオフライン処理を必要とする。 本稿では,脳信号に基づく手ジェスチャー分類の例題問題に対する,シンプルながら効率的な機械学習に基づくアプローチを提案する。 スパイク領域で符号化されたアナログ信号の教師なし特徴学習に、生体インスパイアされたイベント駆動シナプス可塑性規則を用いた畳み込みスパイクニューラルネットワークを用いたハイブリッド機械学習手法を用いる。 本手法は脳波データとECoGデータの両方で異なる対象に一般化し,手動作のクラスや運動画像のタスクを識別する上で,92.74-97.07%の範囲で優れた精度を実現する。

Brain-computer interfaces are being explored for a wide variety of therapeutic applications. Typically, this involves measuring and analyzing continuous-time electrical brain activity via techniques such as electrocorticogram (ECoG) or electroencephalography (EEG) to drive external devices. However, due to the inherent noise and variability in the measurements, the analysis of these signals is challenging and requires offline processing with significant computational resources. In this paper, we propose a simple yet efficient machine learning-based approach for the exemplary problem of hand gesture classification based on brain signals. We use a hybrid machine learning approach that uses a convolutional spiking neural network employing a bio-inspired event-driven synaptic plasticity rule for unsupervised feature learning of the measured analog signals encoded in the spike domain. We demonstrate that this approach generalizes to different subjects with both EEG and ECoG data and achieves superior accuracy in the range of 92.74-97.07% in identifying different hand gesture classes and motor imagery tasks.
翻訳日:2023-04-28 15:57:49 公開日:2023-04-27
# DIN-SQL: 自己補正によるテキストからSQLへのインコンテキスト学習

DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction ( http://arxiv.org/abs/2304.11015v2 )

ライセンス: Link先を確認
Mohammadreza Pourreza, Davood Rafiei(参考訳) 複雑なテキストからスカルタスクを小さなサブタスクに分解する問題と、そのような分解が推論過程におけるLarge Language Models (LLMs) の性能を大幅に向上させる方法について検討する。 現在、微調整されたモデルのパフォーマンスと、Spiderのようなテキスト間データセットに挑戦するLLMを使ったアプローチの間には、大きなギャップがある。 宣言的構造にもかかわらず、SQLクエリはサブプロブレムに分解でき、それらのサブプロブレムのソリューションはLLMに供給され、パフォーマンスを著しく向上させることができる。 3つのLLMを用いた実験により、このアプローチはおよそ10%の性能向上を図り、LLMの精度を最先端に向けて押し上げ、さらにはホールドアウトスパイダーデータセット上での大きめの微調整モデルを打ち負かした。

We study the problem of decomposing a complex text-to-sql task into smaller sub-tasks and how such a decomposition can significantly improve the performance of Large Language Models (LLMs) in the reasoning process. There is currently a significant gap between the performance of fine-tuned models and prompting approaches using LLMs on challenging text-to-sql datasets such as Spider. We show that SQL queries, despite their declarative structure, can be broken down into sub-problems and the solutions of those sub-problems can be fed into LLMs to significantly improve their performance. Our experiments with three LLMs show that this approach consistently improves their performance by roughly 10%, pushing the accuracy of LLMs towards state-of-the-art, and even beating large fine-tuned models on the holdout Spider dataset.
翻訳日:2023-04-28 15:57:33 公開日:2023-04-27
# Multi-View Stereo Representation Revisit: Region-Aware MVSNet

Multi-View Stereo Representation Revisit: Region-Aware MVSNet ( http://arxiv.org/abs/2304.13614v2 )

ライセンス: Link先を確認
Yisu Zhang and Jianke Zhu and Lixiang Lin(参考訳) 深層学習に基づく多視点ステレオは,全幾何学的詳細オブジェクトを多視点から再構成するための強力なパラダイムとして登場した。 既存のアプローチのほとんどは、予測された点と、通常表面トポロジーを無視する線と表面の交点とのギャップを最小化することによって、ピクセルの深さ値を推定するだけである。 テクスチャのない地域や、適切に再構築できない表面境界には不可欠である。 この問題に対処するために,モデルがより広い範囲の表面を知覚できるように,点-面間距離を利用することを提案する。 この目的のために,コスト体積から表面近傍の点の符号付き距離を推定するために距離体積を推定する。 提案するRA-MVSNetは,表面のパッチと仮説平面を関連付けることにより知覚範囲が拡張されるため,パッチアワードである。 したがって、無テクスチャ領域の完成度を高め、境界における外れ値を減らすことができる。 さらに、導入した距離体積によって詳細なメッシュトポロジを生成することができる。 従来の深層学習に基づく多視点ステレオ手法と比較して, RA-MVSNet手法は, 符号付き距離監視を利用して, より完全な再構成結果を得る。 DTU と Tanks \& Temples のデータセットを用いた実験により,提案手法が最先端の成果をもたらすことを示す。

Deep learning-based multi-view stereo has emerged as a powerful paradigm for reconstructing the complete geometrically-detailed objects from multi-views. Most of the existing approaches only estimate the pixel-wise depth value by minimizing the gap between the predicted point and the intersection of ray and surface, which usually ignore the surface topology. It is essential to the textureless regions and surface boundary that cannot be properly reconstructed. To address this issue, we suggest to take advantage of point-to-surface distance so that the model is able to perceive a wider range of surfaces. To this end, we predict the distance volume from cost volume to estimate the signed distance of points around the surface. Our proposed RA-MVSNet is patch-awared, since the perception range is enhanced by associating hypothetical planes with a patch of surface. Therefore, it could increase the completion of textureless regions and reduce the outliers at the boundary. Moreover, the mesh topologies with fine details can be generated by the introduced distance volume. Comparing to the conventional deep learning-based multi-view stereo methods, our proposed RA-MVSNet approach obtains more complete reconstruction results by taking advantage of signed distance supervision. The experiments on both the DTU and Tanks \& Temples datasets demonstrate that our proposed approach achieves the state-of-the-art results.
翻訳日:2023-04-28 15:52:33 公開日:2023-04-27
# 強い長距離スピンスピン結合を有する臨界キャビティ-マグノンポラリトン

Critical Cavity-Magnon Polariton Mediated Strong Long-Distance Spin-Spin Coupling ( http://arxiv.org/abs/2304.13553v2 )

ライセンス: Link先を確認
Miao Tian, Mingfeng Wang, Guo-Qiang Zhang, Hai-Chao Li, and Wei Xiong(参考訳) 固体量子情報処理では、長距離スピンスピンスピンカップリングが必死に求められているが、まだ課題である。 本稿では,コプラナー導波路共振器(CPW)共振器をダイヤモンド中の単一窒素空隙スピンに弱結合するハイブリッド量子系と,カーマグノンを有するイットリウム-鉄-ガーネット(YIG)ナノスフィアを用いて,強い長距離スピン結合を実現する。 マグノンの強い駆動場により、カー効果はマグノンを圧縮し、CPW共振器と圧縮マグノンの結合を指数関数的に増強し、2つのキャビティ-マグノン偏光子、すなわち高周波偏光子(HP)と低周波偏光子(LP)を生成する。 強化キャビティ-マグノン結合が臨界値に近づくと、スピンはHPから完全に分離され、スピンとLPのカップリングは大幅に改善される。 分散状態において、強いスピンスピンカップリングはアクセス可能なパラメータで達成され、結合距離は最大$\sim$cmとなる。 本提案は,弱結合ハイブリッドシステムにおいてリモートソリッドスピンを操作し,量子情報処理を行う有望な方法を提供する。

Strong long-distance spin-spin coupling is desperately demanded for solid-state quantum information processing, but it is still challenged. Here, we propose a hybrid quantum system, consisting of a coplanar waveguide (CPW) resonator weakly coupled to a single nitrogen-vacancy spin in diamond and a yttrium-iron-garnet (YIG) nanosphere holding Kerr magnons, to realize strong long-distance spin-spin coupling. With a strong driving field on magnons, the Kerr effect can squeeze magnons, and thus exponentially enhance the coupling between the CPW resonator and the squeezed magnons, which produces two cavity-magnon polaritons, i.e., the high-frequency polariton (HP) and low-frequency polariton (LP). When the enhanced cavity-magnon coupling approaches to the critical value, the spin is fully decoupled from the HP, while the coupling between the spin and the LP is significantly improved. In the dispersive regime, a strong spin-spin coupling is achieved with accessible parameters, and the coupling distance can be up to $\sim$cm. Our proposal provides a promising way to manipulate remote solid spins and perform quantum information processing in weakly coupled hybrid systems.
翻訳日:2023-04-28 15:52:10 公開日:2023-04-27
# 生成モデルのための平均場ゲーム実験室

A mean-field games laboratory for generative modeling ( http://arxiv.org/abs/2304.13534v2 )

ライセンス: Link先を確認
Benjamin J. Zhang and Markos A. Katsoulakis(参考訳) 本稿では,生成モデルの説明,拡張,設計のための数学的枠組みとして,平均場ゲーム(MFG)の汎用性を実証する。 生成モデルコミュニティには、様々な流れと拡散に基づく生成モデルがいくつかの基礎的な共通構造と相互関係を持つという広義の感覚がある。 我々は,MFGと,連続時間正規化フロー,スコアベースモデル,ワッサーシュタイン勾配フローを含む拡散型生成モデルとの接続を確立する。 粒子動力学とコスト関数の異なる選択を通して、これら3つの生成モデルのクラスを導出する。 さらに,結合型非線形偏微分方程式(pdes)の組であるmfgの最適性条件を解析し,各生成モデルの数学的構造と性質について検討した。 したがって、MFGの理論は、非線形PDEの理論を通じて生成モデルの研究を可能にする。 この観点から,正規化フローの適切性と構造,スコアベース生成モデリングの数学的構造を解明し,ワッサースタイン勾配流れの平均場ゲーム定式化を導出する。 アルゴリズムの観点からは、MFGの最適条件により、より広範な生成モデルのクラスを訓練するためのHJB正規化器を導入することもできる。 本稿では,本フレームワークをMFG実験室として紹介し,新たな実験方法と生成モデルの創出の場として機能する。 この研究所は、数式とアルゴリズムのツールが開発できる一貫した理論的枠組みを提供する、多種多様なよく考えられた生成的モデリングの定式化を生み出します。

In this paper, we demonstrate the versatility of mean-field games (MFGs) as a mathematical framework for explaining, enhancing, and designing generative models. There is a pervasive sense in the generative modeling community that the various flow and diffusion-based generative models have some foundational common structure and interrelationships. We establish connections between MFGs and major classes of flow and diffusion-based generative models including continuous-time normalizing flows, score-based models, and Wasserstein gradient flows. We derive these three classes of generative models through different choices of particle dynamics and cost functions. Furthermore, we study the mathematical structure and properties of each generative model by studying their associated MFG's optimality condition, which is a set of coupled nonlinear partial differential equations (PDEs). The theory of MFGs, therefore, enables the study of generative models through the theory of nonlinear PDEs. Through this perspective, we investigate the well-posedness and structure of normalizing flows, unravel the mathematical structure of score-based generative modeling, and derive a mean-field game formulation of the Wasserstein gradient flow. From an algorithmic perspective, the optimality conditions of MFGs also allow us to introduce HJB regularizers for enhanced training a broader class of generative models. We present this framework as an MFG laboratory which serves as a platform for revealing new avenues of experimentation and invention of generative models. This laboratory will give rise to a multitude of well-posed generative modeling formulations, providing a consistent theoretical framework upon which numerical and algorithmic tools may be developed.
翻訳日:2023-04-28 15:51:44 公開日:2023-04-27
# From Chaos Comes Order: オブジェクト検出のためのイベント表現の順序付け

From Chaos Comes Order: Ordering Event Representations for Object Detection ( http://arxiv.org/abs/2304.13455v2 )

ライセンス: Link先を確認
Nikola Zubi\'c, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza(参考訳) 今日では、イベントを処理する最先端のディープニューラルネットワークは、まずそれらを、オフザシェルフネットワークを使用する前に、密度の高いグリッドのような入力表現に変換する。 しかし、伝統的にタスクの適切な表現を選択するには、各表現のためのニューラルネットワークをトレーニングし、検証スコアに基づいて最適なものを選択する必要がある。 本研究では,Gromov-Wasserstein Discrepancy (GWD) に基づいた表現を生イベントとそれらの表現の間で選択することで,このボトルネックを解消する。 ニューラルネットワークのトレーニングよりも計算が約200倍高速で、複数の表現、ネットワークバックボーン、データセットにわたるイベント表現のタスクパフォーマンスランキングを保存する。 つまり、高いタスクスコアを持つ表現を見つけることは、低いGWDを持つ表現を見つけることと等価である。 私たちはこの洞察を初めて、大きなイベント表現のファミリーでハイパーパラメータ検索を実行し、最先端を超えた新しい強力な表現を明らかにするために使用します。 オブジェクト検出において、最適化された表現は、1Mpxデータセットでは1.9% mAP、Gen1データセットでは8.6% mAP、Gen1では1.8% mAP、そして1Mpxデータセットでは6.0% mAPの最先端フィードフォワードメソッドでは、既存の表現よりも優れています。 この研究は、イベントベース学習手法の明示的表現最適化の新しい未探索分野を開く。

Today, state-of-the-art deep neural networks that process events first convert them into dense, grid-like input representations before using an off-the-shelf network. However, selecting the appropriate representation for the task traditionally requires training a neural network for each representation and selecting the best one based on the validation score, which is very time-consuming. In this work, we eliminate this bottleneck by selecting the best representation based on the Gromov-Wasserstein Discrepancy (GWD) between the raw events and their representation. It is approximately 200 times faster to compute than training a neural network and preserves the task performance ranking of event representations across multiple representations, network backbones, and datasets. This means that finding a representation with a high task score is equivalent to finding a representation with a low GWD. We use this insight to, for the first time, perform a hyperparameter search on a large family of event representations, revealing new and powerful representations that exceed the state-of-the-art. On object detection, our optimized representation outperforms existing representations by 1.9% mAP on the 1 Mpx dataset and 8.6% mAP on the Gen1 dataset and even outperforms the state-of-the-art by 1.8% mAP on Gen1 and state-of-the-art feed-forward methods by 6.0% mAP on the 1 Mpx dataset. This work opens a new unexplored field of explicit representation optimization for event-based learning methods.
翻訳日:2023-04-28 15:51:19 公開日:2023-04-27
# 強化学習を用いた不確実性外乱下におけるメトロシステムのエネルギー効率の最適化

Optimizing Energy Efficiency in Metro Systems Under Uncertainty Disturbances Using Reinforcement Learning ( http://arxiv.org/abs/2304.13443v2 )

ライセンス: Link先を確認
Haiqin Xie, Cheng Wang, Shicheng Li, Yue Zhang, Shanshan Wang, Xiaoping Lu(参考訳) 都市交通の分野では、地下鉄は公共交通の重要かつ持続可能な手段となっている。 しかし、その実質的なエネルギー消費は持続可能性の目標に挑戦する。 遅延や乗客の流れの変化などの障害は、メトロシステムのエネルギー効率に悪影響を及ぼすことで、この問題をさらに悪化させる可能性がある。 そこで本研究では,列車の走行時間と走行速度を調整し,外乱下におけるメトロシステムのエネルギー効率を最適化し,メトロタイムテーブルを再スケジュールする政策ベース強化学習手法を提案する。 シミュレーション環境で行った実験は,本手法がベースライン法よりも優れていることを示し,トラクションエネルギーを最大10.9%削減し,再生制動エネルギー利用率を最大47.9%向上させた。 本研究は,都市交通の省エネルギー問題に対する効果的な解決法を提供する。

In the realm of urban transportation, metro systems serve as crucial and sustainable means of public transit. However, their substantial energy consumption poses a challenge to the goal of sustainability. Disturbances such as delays and passenger flow changes can further exacerbate this issue by negatively affecting energy efficiency in metro systems. To tackle this problem, we propose a policy-based reinforcement learning approach that reschedules the metro timetable and optimizes energy efficiency in metro systems under disturbances by adjusting the dwell time and cruise speed of trains. Our experiments conducted in a simulation environment demonstrate the superiority of our method over baseline methods, achieving a traction energy consumption reduction of up to 10.9% and an increase in regenerative braking energy utilization of up to 47.9%. This study provides an effective solution to the energy-saving problem of urban rail transit.
翻訳日:2023-04-28 15:50:50 公開日:2023-04-27
# stir:画像検索後処理のためのsiamese transformer

STIR: Siamese Transformer for Image Retrieval Postprocessing ( http://arxiv.org/abs/2304.13393v2 )

ライセンス: Link先を確認
Aleksei Shabanov, Aleksei Tarasov, Sergey Nikolenko(参考訳) 画像検索のための現在の計量学習アプローチは、通常、コサイン距離のような単純なアプローチがうまく機能する情報的潜在表現の空間を学習することに基づいている。 HypViTのような最近の技術手法は、より良い結果をもたらすが生産環境にスケールするのが困難であるより複雑な埋め込み空間へと移行している。 本研究は,まず,芸術レベルでは機能するが,欠点は持たない,ハードネガマイニングを伴う三重項損失に基づく簡易モデルを構築した。 次に,Samese Transformer for Image Retrieval (STIR) と呼ばれる画像検索後処理のための新しい手法を提案する。 以前提案されたリカレントトランスフォーマーとは異なり、STIRはグローバル/ローカルな特徴抽出に頼らず、クエリ画像と検索候補を直接ピクセルレベルで比較し、アテンション機構を使用する。 その結果得られたアプローチは、標準的な画像検索データセットであるstanford online productsとdeepfashion in-shopの新しい最先端を定義する。 また、ソースコードはhttps://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/で公開しています。

Current metric learning approaches for image retrieval are usually based on learning a space of informative latent representations where simple approaches such as the cosine distance will work well. Recent state of the art methods such as HypViT move to more complex embedding spaces that may yield better results but are harder to scale to production environments. In this work, we first construct a simpler model based on triplet loss with hard negatives mining that performs at the state of the art level but does not have these drawbacks. Second, we introduce a novel approach for image retrieval postprocessing called Siamese Transformer for Image Retrieval (STIR) that reranks several top outputs in a single forward pass. Unlike previously proposed Reranking Transformers, STIR does not rely on global/local feature extraction and directly compares a query image and a retrieved candidate on pixel level with the usage of attention mechanism. The resulting approach defines a new state of the art on standard image retrieval datasets: Stanford Online Products and DeepFashion In-shop. We also release the source code at https://github.com/OML-Team/open-metric-learning/tree/main/pipelines/postprocessing/ and an interactive demo of our approach at https://dapladoc-oml-postprocessing-demo-srcappmain-pfh2g0.streamlit.app/
翻訳日:2023-04-28 15:50:38 公開日:2023-04-27
# 関連から生成へ:教師なしクロスモーダルマッピングによるテキストのみのキャプション

From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping ( http://arxiv.org/abs/2304.13273v2 )

ライセンス: Link先を確認
Junyang Wang and Ming Yan and Yi Zhang and Jitao Sang(参考訳) CLIPとALIGNに代表されるVLPM(Vision-Language Pre-Training Model)の開発により、CLIPのゼロショット機能による画像分類や画像テキスト検索といった連想に基づく視覚タスクにおいて、微調整なしで大きなブレークスルーが達成されている。 しかし、CLIPは世代ベースのタスクには適用が難しい。 これはデコーダアーキテクチャと生成のための事前トレーニングタスクが欠如しているためである。 以前の研究は、追加の言語モデルを通じてCLIPの生成能力を生み出したが、異なるモダリティのCLIP表現と、このギャップのオフセットをモデル化できないCLIPのモダリティギャップは、モダリティ間の転送を失敗する。 この問題を解決するために,画像や映像を言語モダリティにマッピングし,言語モダリティからキャプションを生成する。 本稿では,K-nearest-neighbor Cross-modality Mapping (Knight)を提案する。 テキストのみの教師なしのトレーニングにより、Knightは画像キャプションとビデオキャプションのためのゼロショットメソッドで最先端のパフォーマンスを達成する。 私たちのコードはhttps://github.com/junyangwang0410/knightで利用可能です。

With the development of Vision-Language Pre-training Models (VLPMs) represented by CLIP and ALIGN, significant breakthroughs have been achieved for association-based visual tasks such as image classification and image-text retrieval by the zero-shot capability of CLIP without fine-tuning. However, CLIP is hard to apply to generation-based tasks. This is due to the lack of decoder architecture and pre-training tasks for generation. Although previous works have created generation capacity for CLIP through additional language models, a modality gap between the CLIP representations of different modalities and the inability of CLIP to model the offset of this gap, which fails the concept to transfer across modalities. To solve the problem, we try to map images/videos to the language modality and generate captions from the language modality. In this paper, we propose the K-nearest-neighbor Cross-modality Mapping (Knight), a zero-shot method from association to generation. With text-only unsupervised training, Knight achieves state-of-the-art performance in zero-shot methods for image captioning and video captioning. Our code is available at https://github.com/junyangwang0410/Knight.
翻訳日:2023-04-28 15:50:13 公開日:2023-04-27
# cn-dhf:3次元形状のコンパクトニューラルダブルハイプフィールド表現

CN-DHF: Compact Neural Double Height-Field Representations of 3D Shapes ( http://arxiv.org/abs/2304.13141v2 )

ライセンス: Link先を確認
Eric Hedlin, Jinfan Yang, Nicholas Vining, Kwang Moo Yi, Alla Sheffer(参考訳) CN-DHF(Compact Neural Double-Height-Field)は,従来の技術よりも劇的にコンパクトな,新しいハイブリッド型ニューラル暗黙3次元形状表現である。 我々の表現はDHF(Double-Height-Field)ジオメトリ(DHF)を利用しており、DHFはDHFの軸に沿った最大高さと最小高さを捉える2Dニューラル暗黙としてコンパクトに符号化され、典型的なクローズド3D形状はDHFのごく少数(3つ以下)の交叉としてよく表される。 まず、各入力形状をよく近似したDHFの集合を計算し、その後、ニューラルネットワークを介してこれらのDHFを符号化することで、入力ジオメトリをCNDHFとして表現する。 提案手法は高品質な再構築を行い,同じパラメータ数やストレージ容量を考慮すれば,平均で2:5の再構成誤差を低減できる。 提案手法は,400個の入力形状とパラメータ数の組み合わせの94%に対して,精度の高いモデルを構築した。

We introduce CN-DHF (Compact Neural Double-Height-Field), a novel hybrid neural implicit 3D shape representation that is dramatically more compact than the current state of the art. Our representation leverages Double-Height-Field (DHF) geometries, defined as closed shapes bounded by a pair of oppositely oriented height-fields that share a common axis, and leverages the following key observations: DHFs can be compactly encoded as 2D neural implicits that capture the maximal and minimal heights along the DHF axis; and typical closed 3D shapes are well represented as intersections of a very small number (three or fewer) of DHFs. We represent input geometries as CNDHFs by first computing the set of DHFs whose intersection well approximates each input shape, and then encoding these DHFs via neural fields. Our approach delivers high-quality reconstructions, and reduces the reconstruction error by a factor of 2:5 on average compared to the state-of-the-art, given the same parameter count or storage capacity. Compared to the best-performing alternative, our method produced higher accuracy models on 94% of the 400 input shape and parameter count combinations tested.
翻訳日:2023-04-28 15:49:48 公開日:2023-04-27
# 量子機械学習アーキテクチャにおけるショット最適化によるトレーニングの高速化

Shot Optimization in Quantum Machine Learning Architectures to Accelerate Training ( http://arxiv.org/abs/2304.12950v2 )

ライセンス: Link先を確認
Koustubh Phalak, Swaroop Ghosh(参考訳) 本稿では,モデル性能への影響を最小限に抑えて,qmlモデルのショット最適化手法を提案する。 分類タスクをmnistとfmnistのデータセットのテストケースとして,ハイブリッド量子古典qmlモデルを用いた。 まず、データセットのショートバージョンとフルバージョンのショット数を最大化します。 フルバージョンのトレーニングでは、トレーニング用のショット数が最大10倍の短いバージョンのデータセットよりも、5~6%高いテスト精度が提供されます。 そのため、データセットのサイズを縮小してトレーニング時間を短縮することができる。 次に,ショートバージョンデータセットのアダプティブショットアロケーションを提案し,訓練エポックにおけるショット数を最適化し,分類精度への影響を評価する。 使用します。 (a)ショット数がエポックとともに直線的に減少する直線関数、 b) ショット数がエポックのステップで減少するステップ関数。 我々は,従来のmnistデータセットの定ショット関数と比較して,最大100倍(10倍)のリニアショット関数によるショット削減の精度が0.01(1%)程度,損失が0.05(5~7%)程度向上し,fmnistデータセットのリニア(ステップ)ショット関数を用いたテスト精度が約5.7%(5~7%)低下していることに注意した。 比較のために,提案するショット最適化法を用いて異なる分子の基底状態エネルギー推定を行い,ステップ関数が1000倍のショット数で最良かつ最も安定な基底状態エネルギー予測を与えることを観測する。

In this paper, we propose shot optimization method for QML models at the expense of minimal impact on model performance. We use classification task as a test case for MNIST and FMNIST datasets using a hybrid quantum-classical QML model. First, we sweep the number of shots for short and full versions of the dataset. We observe that training the full version provides 5-6% higher testing accuracy than short version of dataset with up to 10X higher number of shots for training. Therefore, one can reduce the dataset size to accelerate the training time. Next, we propose adaptive shot allocation on short version dataset to optimize the number of shots over training epochs and evaluate the impact on classification accuracy. We use a (a) linear function where the number of shots reduce linearly with epochs, and (b) step function where the number of shots reduce in step with epochs. We note around 0.01 increase in loss and around 4% (1%) reduction in testing accuracy for reduction in shots by up to 100X (10X) for linear (step) shot function compared to conventional constant shot function for MNIST dataset, and 0.05 increase in loss and around 5-7% (5-7%) reduction in testing accuracy with similar reduction in shots using linear (step) shot function on FMNIST dataset. For comparison, we also use the proposed shot optimization methods to perform ground state energy estimation of different molecules and observe that step function gives the best and most stable ground state energy prediction at 1000X less number of shots.
翻訳日:2023-04-28 15:49:24 公開日:2023-04-27
# MF-NeRF:混合ハッシュテーブルを用いたメモリ効率の良いNeRF

MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table ( http://arxiv.org/abs/2304.12587v3 )

ライセンス: Link先を確認
Yongjae Lee, Li Yang and Deliang Fan(参考訳) ニューラル・ラディアンス・フィールド(NeRF)はフォトリアリスティック・ノベルビューの生成において顕著な性能を示した。 NeRFの出現以来,多層パーセプトロン(MLP)ネットワークの複雑さを減らし,グリッドなどの明示的な構造を持つ特徴を管理することで,極めて高速なトレーニングを実現している研究が数多く行われている。 しかし、高密度グリッドに格納するには大きなメモリスペースが必要であり、それによってコンピュータシステムのメモリボトルネックが発生し、トレーニング時間も大きくなる。 この問題に対処するため,本研究では,メモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークであるMF-NeRFを提案する。 まず,マルチレベル特徴グリッドの一部を1つに適応的に混合し,単一のハッシュテーブルにマップする混合特徴ハッシュテーブルの設計を行った。 その後、グリッド点の正しいインデックスを得るために、任意のレベルグリッドのインデックスを標準グリッドのインデックスに変換するインデックス変換法をさらに設計する。 最先端のInstant-NGP、TensoRF、DVGOとベンチマークした大規模な実験は、我々のMF-NeRFが、同じGPUハードウェア上で同じまたはそれ以上の再構築品質のトレーニングタイムを達成できることを示している。 ソースコードはhttps://github.com/nfyfamr/MF-NeRFで入手できる。

Neural radiance field (NeRF) has shown remarkable performance in generating photo-realistic novel views. Since the emergence of NeRF, many studies have been conducted, among which managing features with explicit structures such as grids has achieved exceptionally fast training by reducing the complexity of multilayer perceptron (MLP) networks. However, storing features in dense grids requires significantly large memory space, which leads to memory bottleneck in computer systems and thus large training time. To address this issue, in this work, we propose MF-NeRF, a memory-efficient NeRF framework that employs a mixed-feature hash table to improve memory efficiency and reduce training time while maintaining reconstruction quality. We first design a mixed-feature hash table to adaptively mix part of multi-level feature grids into one and map it to a single hash table. Following that, in order to obtain the correct index of a grid point, we further design an index transformation method that transforms indices of an arbitrary level grid to those of a canonical grid. Extensive experiments benchmarking with state-of-the-art Instant-NGP, TensoRF, and DVGO, indicate our MF-NeRF could achieve the fastest training time on the same GPU hardware with similar or even higher reconstruction quality. Source code is available at https://github.com/nfyfamr/MF-NeRF.
翻訳日:2023-04-28 15:48:59 公開日:2023-04-27
# LLMの実践力のハーネス: ChatGPTとそれ以上の調査結果

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ( http://arxiv.org/abs/2304.13712v2 )

ライセンス: Link先を確認
Jingfeng Yang, Hongye Jin, Ruixiang Tang, Xiaotian Han, Qizhang Feng, Haoming Jiang, Bing Yin, Xia Hu(参考訳) 本稿では、下流自然言語処理(NLP)タスクにおいて、LLM(Large Language Models)を扱う実践者やエンドユーザのための包括的で実践的なガイドを示す。 我々は、モデル、データ、下流タスクの観点から、LLMの使用に関する議論と洞察を提供する。 まず,現在の GPT および BERT スタイル LLM の概要を紹介する。 次に,事前学習データ,トレーニングデータ,テストデータの影響について検討する。 より重要なことは、知識集約タスク、従来の自然言語理解タスク、自然言語生成タスク、創発能力、特定のタスクに対する考慮など、様々な自然言語処理タスクにおける大規模言語モデルの使用事例と非使用事例について詳細な議論を行い、実世界のシナリオにおけるLLMの実践的応用と限界を説明するために、様々なユースケースと非使用事例を提示したことである。 また,各NLPタスクにおけるデータの重要性や課題の解明も試みている。 さらに, LLMの展開に関する包括的理解を確保するため, LLMに対する急激なバイアスの影響について検討し, 効率, コスト, 遅延など, その他の重要な考察を掘り下げる。 この包括的なガイドは、研究者や実践者にllmを扱うための貴重な洞察とベストプラクティスを提供し、幅広いnlpタスクでこれらのモデルの実装を成功させることを目的としている。 LLMの実践的ガイドリソースのキュレートされたリストは、定期的に更新され、 \url{https://github.com/Mooler0410/LLMsPracticalGuide} で見ることができる。

This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing (NLP) tasks. We provide discussions and insights into the usage of LLMs from the perspectives of models, data, and downstream tasks. Firstly, we offer an introduction and brief summary of current GPT- and BERT-style LLMs. Then, we discuss the influence of pre-training data, training data, and test data. Most importantly, we provide a detailed discussion about the use and non-use cases of large language models for various natural language processing tasks, such as knowledge-intensive tasks, traditional natural language understanding tasks, natural language generation tasks, emergent abilities, and considerations for specific tasks.We present various use cases and non-use cases to illustrate the practical applications and limitations of LLMs in real-world scenarios. We also try to understand the importance of data and the specific challenges associated with each NLP task. Furthermore, we explore the impact of spurious biases on LLMs and delve into other essential considerations, such as efficiency, cost, and latency, to ensure a comprehensive understanding of deploying LLMs in practice. This comprehensive guide aims to provide researchers and practitioners with valuable insights and best practices for working with LLMs, thereby enabling the successful implementation of these models in a wide range of NLP tasks. A curated list of practical guide resources of LLMs, regularly updated, can be found at \url{https://github.com/Mooler0410/LLMsPracticalGuide}.
翻訳日:2023-04-28 15:39:02 公開日:2023-04-27
# 協調型aiの可能性を解き放つ ---連合機械学習の社会技術的課題-

Unlocking the Potential of Collaborative AI -- On the Socio-technical Challenges of Federated Machine Learning ( http://arxiv.org/abs/2304.13688v2 )

ライセンス: Link先を確認
Tobias M\"uller, Milena Zahn and Florian Matthes(参考訳) AIシステムの破壊的なポテンシャルは、ビッグデータの出現に根ざしている。 しかし、かなりの部分が散らばってデータサイロに閉じ込められ、その潜在能力は失われている。 Federated Machine Learningは、分散化された潜在的サイロデータからAIモデルを作成することができる、新しいAIパラダイムである。 したがって、フェデレーション機械学習は技術的にデータサイロを開放し、経済的な可能性を開くことができる。 しかし、これはデータサイロを所有する複数のパーティ間のコラボレーションを必要とする。 協調型ビジネスモデルのセットアップは複雑であり、しばしば失敗の原因となる。 現在の文献には、協調AIプロジェクトを成功させるために考慮すべき側面のガイドラインが欠けている。 本研究では,協調型ビジネスモデルの普及の課題と,連合機械学習の異なる側面について検討する。 体系的な文献レビュー、フォーカスグループ、エキスパートインタビューを通じて、社会技術的課題の体系化されたコレクションと、協調aiプロジェクトの初期実行可能性評価のための拡張ビジネスモデルキャンバスを提供する。

The disruptive potential of AI systems roots in the emergence of big data. Yet, a significant portion is scattered and locked in data silos, leaving its potential untapped. Federated Machine Learning is a novel AI paradigm enabling the creation of AI models from decentralized, potentially siloed data. Hence, Federated Machine Learning could technically open data silos and therefore unlock economic potential. However, this requires collaboration between multiple parties owning data silos. Setting up collaborative business models is complex and often a reason for failure. Current literature lacks guidelines on which aspects must be considered to successfully realize collaborative AI projects. This research investigates the challenges of prevailing collaborative business models and distinct aspects of Federated Machine Learning. Through a systematic literature review, focus group, and expert interviews, we provide a systemized collection of socio-technical challenges and an extended Business Model Canvas for the initial viability assessment of collaborative AI projects.
翻訳日:2023-04-28 15:38:36 公開日:2023-04-27
# ATMキャッシュリサイクルプロセスの多目的ロジスティックス最適化

Multiobjective Logistics Optimization for Automated ATM Cash Replenishment Process ( http://arxiv.org/abs/2304.13671v2 )

ライセンス: Link先を確認
Bui Tien Thanh, Dinh Van Tuan, Tuan Anh Chi, Nguyen Van Dai, Nguyen Tai Quang Dinh, and Nguyen Thu Thuy(参考訳) デジタルトランスフォーメーションの時代、銀行業務のあらゆる側面にデジタル技術を統合することで、プロセスの自動化、コスト効率、サービスレベルの改善が向上します。 ATMキャッシュのロジスティクスは、運用コストと消費者満足度に影響を与える重要なタスクであるが、それを強化する努力はほとんどなかった。 特にベトナムでは、ATMが全国で2万台以上あるため、この問題を解決できる研究と技術ソリューションは依然として乏しい。 本稿では,ATMキャッシュ補充のための車両ルーティング問題を一般化し,数学的モデルを提案し,様々な状況を評価するためのツールを提供した。 シミュレーションデータセットで評価すると,ATMキャッシュの運用コストを削減することで,提案手法とモデルが有効であることがわかった。

In the digital transformation era, integrating digital technology into every aspect of banking operations improves process automation, cost efficiency, and service level improvement. Although logistics for ATM cash is a crucial task that impacts operating costs and consumer satisfaction, there has been little effort to enhance it. Specifically, in Vietnam, with a market of more than 20,000 ATMs nationally, research and technological solutions that can resolve this issue remain scarce. In this paper, we generalized the vehicle routing problem for ATM cash replenishment, suggested a mathematical model and then offered a tool to evaluate various situations. When being evaluated on the simulated dataset, our proposed model and method produced encouraging results with the benefits of cutting ATM cash operating costs.
翻訳日:2023-04-28 15:38:22 公開日:2023-04-27
# コンテキスト依存型テキストからSQLへの制御可能なデータ拡張

Controllable Data Augmentation for Context-Dependent Text-to-SQL ( http://arxiv.org/abs/2304.13902v1 )

ライセンス: Link先を確認
Dingzirui Wang, Longxu Dou, Wanxiang Che(参考訳) 注釈付きデータの限られたスケールは、ラベル付けの複雑さのため、既存のコンテキスト依存のテキスト-SQLモデルに制約を与える。 データ拡張法はこの問題を解決するのによく使われる方法である。 しかし、現在の拡張手法によって生成されたデータは、しばしば多様性を欠いている。 本稿では,対話型質問とそれに対応するSQL結果を生成するConDAを紹介する。 状態遷移を通じてデータの多様性を高めるためにsql対話状態を設計した。 また,接地モデルによってデータ品質を保証するフィルタ手法を提案する。 さらに,状態情報にミスマッチする低品質な質問を識別・フィルタリングするために,接地モデルを用いる。 SParCとCoSQLデータセットの実験結果によると、ConDAはベースラインモデルを強化し、複雑な問題に対して平均3.3\%の改善を達成する。 さらに,SQLテンプレートの硬度,型,ターン,質問整合性の両方において,ConDAが生成するデータが高品質であることを明らかにする。

The limited scale of annotated data constraints existing context-dependent text-to-SQL models because of the complexity of labeling. The data augmentation method is a commonly used method to solve this problem. However, the data generated by current augmentation methods often lack diversity. In this paper, we introduce ConDA, which generates interactive questions and corresponding SQL results. We designed the SQL dialogue state to enhance the data diversity through the state transition. Meanwhile, we also present a filter method to ensure the data quality by a grounding model. Additionally, we utilize a grounding model to identify and filter low-quality questions that mismatch the state information. Experimental results on the SParC and CoSQL datasets show that ConDA boosts the baseline model to achieve an average improvement of $3.3\%$ on complex questions. Moreover, we analyze the augmented data, which reveals that the data generated by ConDA are of high quality in both SQL template hardness and types, turns, and question consistency.
翻訳日:2023-04-28 14:44:45 公開日:2023-04-27
# 2部アドホックイベントツリーの階層表現によるうわさ検出

Rumor Detection with Hierarchical Representation on Bipartite Adhoc Event Trees ( http://arxiv.org/abs/2304.13895v1 )

ライセンス: Link先を確認
Qi Zhang, Yayi Yang, Chongyang Shi, An Lao, Liang Hu, Shoujin Wang, Usman Naseem(参考訳) ソーシャルメディアの急速な成長は、情報伝達に大きな影響を与え、噂を検出するという極端な課題を提起している。 既存のうわさ検出方法は、通常、うわさ候補への全てのリポストを時間系列とし、リポストシーケンスのセマンティクス表現を学習することにより、うわさ候補のリポスト伝播を検知に利用する。 しかし, 伝播のトポロジカルな構造から情報的支援を抽出し, 噂を広めるための再投稿者の影響は極めて重要であり, 従来の手法では十分に対処されていない。 本稿では,アドホックなイベントツリーとして流通するクレームポストを整理し,イベント要素を抽出し,ポストと著者,すなわち著者ツリーとポストツリーの両面で,アドホックなイベントツリーに変換する。 そこで本稿では,BAET と呼ばれる二部構成のイベントツリーを階層的に表現した新しい噂検出モデルを提案する。 具体的には,著者とポストツリーに対して,それぞれ単語埋め込みと特徴エンコーダを導入し,ノード表現を行うルートアウェアアテンションモジュールを設計する。 次に,構造相関を捉えるために木に似たrnnモデルを採用し,著者木とポストツリーのツリー表現を学習するための木認識アテンションモジュールを提案する。 2つの公開Twitterデータセットに対する大規模な実験結果から、BAETが噂の伝播構造を探索・活用し、最先端のベースライン法よりも優れたBAET検出性能を示した。

The rapid growth of social media has caused tremendous effects on information propagation, raising extreme challenges in detecting rumors. Existing rumor detection methods typically exploit the reposting propagation of a rumor candidate for detection by regarding all reposts to a rumor candidate as a temporal sequence and learning semantics representations of the repost sequence. However, extracting informative support from the topological structure of propagation and the influence of reposting authors for debunking rumors is crucial, which generally has not been well addressed by existing methods. In this paper, we organize a claim post in circulation as an adhoc event tree, extract event elements, and convert it to bipartite adhoc event trees in terms of both posts and authors, i.e., author tree and post tree. Accordingly, we propose a novel rumor detection model with hierarchical representation on the bipartite adhoc event trees called BAET. Specifically, we introduce word embedding and feature encoder for the author and post tree, respectively, and design a root-aware attention module to perform node representation. Then we adopt the tree-like RNN model to capture the structural correlations and propose a tree-aware attention module to learn tree representation for the author tree and post tree, respectively. Extensive experimental results on two public Twitter datasets demonstrate the effectiveness of BAET in exploring and exploiting the rumor propagation structure and the superior detection performance of BAET over state-of-the-art baseline methods.
翻訳日:2023-04-28 14:44:32 公開日:2023-04-27
# CNNベースのIoTデバイス識別

CNN based IoT Device Identification ( http://arxiv.org/abs/2304.13894v1 )

ライセンス: Link先を確認
Kahraman Kostas(参考訳) モノのインターネット(Internet of Things, IoT)の利用がますます人気になっているが、多くのセキュリティ脆弱性が出現し、多くのデバイスが市場に投入されている。 この環境では、IoTデバイス識別方法は、これらのデバイスを特定し、彼らが苦しむ脆弱性を検出する上で重要な要素として、予防的セキュリティ対策を提供する。 本研究では,畳み込みニューラルネットワーク(CNN)を用いて,Aaltoデータセット内のデバイスを識別する手法を提案する。

While the use of the Internet of Things is becoming more and more popular, many security vulnerabilities are emerging with the large number of devices being introduced to the market. In this environment, IoT device identification methods provide a preventive security measure as an important factor in identifying these devices and detecting the vulnerabilities they suffer from. In this study, we present a method that identifies devices in the Aalto dataset using the convolutional neural network (CNN).
翻訳日:2023-04-28 14:44:04 公開日:2023-04-27
# 画素からの物体中心一般化値関数の発見

Discovering Object-Centric Generalized Value Functions From Pixels ( http://arxiv.org/abs/2304.13892v1 )

ライセンス: Link先を確認
Somjit Nath, Gopeshh Raaj Subbaraj, Khimya Khetarpal, Samira Ebrahimi Kahou(参考訳) 深層強化学習は,手作り補助課題と擬似報酬を用いて,高次元入力から有用な表現を抽出する上で大きな進歩を見せている。 制御と高速適応を指向したオブジェクト中心の表現を自動学習することは、オープンな研究課題である。 本稿では,対象物から意味のある特徴を発見し,時間的コヒーレントな「探索」関数に翻訳し,次に学習した一般値関数を制御に活用する手法を提案する。 提案手法と最先端技術の比較を行い,定常条件と非定常条件の双方で競合性能を示す。 最後に, 検出された一般値関数についても検討し, 定性解析により, 学習表現は解釈可能なだけでなく, タスク間の変化に不変なオブジェクトを中心に, 適応が速いことを示す。

Deep Reinforcement Learning has shown significant progress in extracting useful representations from high-dimensional inputs albeit using hand-crafted auxiliary tasks and pseudo rewards. Automatically learning such representations in an object-centric manner geared towards control and fast adaptation remains an open research problem. In this paper, we introduce a method that tries to discover meaningful features from objects, translating them to temporally coherent "question" functions and leveraging the subsequent learned general value functions for control. We compare our approach with state-of-the-art techniques alongside other ablations and show competitive performance in both stationary and non-stationary settings. Finally, we also investigate the discovered general value functions and through qualitative analysis show that the learned representations are not only interpretable but also, centered around objects that are invariant to changes across tasks facilitating fast adaptation.
翻訳日:2023-04-28 14:43:55 公開日:2023-04-27
# 動的処理による異種プライベートクラスタリングの有用性向上

Improving the Utility of Differentially Private Clustering through Dynamical Processing ( http://arxiv.org/abs/2304.13886v1 )

ライセンス: Link先を確認
Junyoung Byun, Yujin Choi, Jaewook Lee(参考訳) 本研究は,個人クラスタリングにおけるユーティリティとプライバシのトレードオフを軽減することを目的としている。 既存の作業では,非凸クラスタに対するクラスタリング性能の低下を示す,単純なクラスタリング手法に重点を置いている。 モース理論を利用して、我々はガウス部分クラスタを複素クラスタ分布に適合させるために階層的に結合する。 差分的にプライベートなサブクラスタは既存の手法で得られるため、提案手法はプライバシーを損なうことがほとんどあるいは全くない。 提案手法が帰納的であり,任意の数のクラスタを実現できることを示す理論的背景を提供する。 さまざまなデータセットで実験した結果,既存の手法と比較して,プライバシレベルでのクラスタリング性能が向上していることがわかった。

This study aims to alleviate the trade-off between utility and privacy in the task of differentially private clustering. Existing works focus on simple clustering methods, which show poor clustering performance for non-convex clusters. By utilizing Morse theory, we hierarchically connect the Gaussian sub-clusters to fit complex cluster distributions. Because differentially private sub-clusters are obtained through the existing methods, the proposed method causes little or no additional privacy loss. We provide a theoretical background that implies that the proposed method is inductive and can achieve any desired number of clusters. Experiments on various datasets show that our framework achieves better clustering performance at the same privacy level, compared to the existing methods.
翻訳日:2023-04-28 14:43:38 公開日:2023-04-27
# ニューラルキーフレーズの生成 : 解析と評価

Neural Keyphrase Generation: Analysis and Evaluation ( http://arxiv.org/abs/2304.13883v1 )

ライセンス: Link先を確認
Tuhin Kundu, Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) keyphrase生成は、元のテキスト(現在のkeyphrases)からコピーするか、テキストの意味的意味をキャプチャする新しいkeyphrases(absent keyphrases)を生成することによって、所定のテキストからトピック句を生成することを目的としている。 エンコーダ-デコーダモデルはキーフレーズ生成ができないため、このタスクに最も広く使われている。 しかし,キーフレーズ生成のためのモデルの性能と動作に関する分析はほとんど行われていない。 本稿では,T5(事前学習型トランス),CatSeq-Transformer(非事前学習型トランス),ExHiRD(リカレントニューラルネットワーク)の3つのモデルで表されるさまざまな傾向について検討する。 予測信頼度,モデルの校正,およびキーフレーズ生成に対するトークン位置の影響を解析した。 さらに,ソフトスコアを用いて2つのキーフレーズ間の類似性を評価し,部分的マッチングと意味的類似性を考慮した新しい計量フレームワークSoftKeyScoreを提案する。 softkeyscoreは、与えられたキーフレーズの2セットを評価するのに、標準のf1メトリックよりも適している。

Keyphrase generation aims at generating topical phrases from a given text either by copying from the original text (present keyphrases) or by producing new keyphrases (absent keyphrases) that capture the semantic meaning of the text. Encoder-decoder models are most widely used for this task because of their capabilities for absent keyphrase generation. However, there has been little to no analysis on the performance and behavior of such models for keyphrase generation. In this paper, we study various tendencies exhibited by three strong models: T5 (based on a pre-trained transformer), CatSeq-Transformer (a non-pretrained Transformer), and ExHiRD (based on a recurrent neural network). We analyze prediction confidence scores, model calibration, and the effect of token position on keyphrases generation. Moreover, we motivate and propose a novel metric framework, SoftKeyScore, to evaluate the similarity between two sets of keyphrases by using softscores to account for partial matching and semantic similarity. We find that SoftKeyScore is more suitable than the standard F1 metric for evaluating two sets of given keyphrases.
翻訳日:2023-04-28 14:43:26 公開日:2023-04-27
# qBangによる変分量子アルゴリズムの最適化: タックルフラットエネルギー景観への効率よくインターウィービングとモーメント

Optimizing Variational Quantum Algorithms with qBang: Efficiently Interweaving Metric and Momentum to Tackle Flat Energy Landscapes ( http://arxiv.org/abs/2304.13882v1 )

ライセンス: Link先を確認
David Fitzek, Robert S. Jonsson, Werner Dobrautz, Christian Sch\"afer(参考訳) 変分量子アルゴリズム(VQA)は、現在の量子コンピューティングインフラを利用するための有望なアプローチである。 VQAは古典的アルゴリズムによる閉ループに最適化されたパラメータ化量子回路に基づいている。 このハイブリッドアプローチは、量子処理ユニットの負荷を減らすが、フラットエネルギーランドスケープを特徴とする古典的な最適化のコストがかかる。 既存の最適化手法(想像的時間プロパゲーション、自然勾配、運動量に基づくアプローチなど)は有望な候補であるが、量子デバイスに重大な負担をかけるか、しばしば収束が遅くなる。 本研究では,量子ブロイデン適応型自然勾配(qBang)アプローチを提案する。 broydenアプローチを使ってfisher情報マトリックスの更新を近似し、それを運動量に基づくアルゴリズムと組み合わせることで、qbangはリソース要求の代替品よりも優れた性能で量子リソース要件を削減できる。 バレン台地、量子化学、最大カット問題のベンチマークは、フラットな最適化ランドスケープの場合の既存の技術よりも明らかに改善され、全体的な安定した性能を示している。 qBangは、グラデーションベースのVQAの新しい開発戦略を導入し、多くの改善が考えられる。

Variational quantum algorithms (VQAs) represent a promising approach to utilizing current quantum computing infrastructures. VQAs are based on a parameterized quantum circuit optimized in a closed loop via a classical algorithm. This hybrid approach reduces the quantum processing unit load but comes at the cost of a classical optimization that can feature a flat energy landscape. Existing optimization techniques, including either imaginary time-propagation, natural gradient, or momentum-based approaches, are promising candidates but place either a significant burden on the quantum device or suffer frequently from slow convergence. In this work, we propose the quantum Broyden adaptive natural gradient (qBang) approach, a novel optimizer that aims to distill the best aspects of existing approaches. By employing the Broyden approach to approximate updates in the Fisher information matrix and combining it with a momentum-based algorithm, qBang reduces quantum-resource requirements while performing better than more resource-demanding alternatives. Benchmarks for the barren plateau, quantum chemistry, and the max-cut problem demonstrate an overall stable performance with a clear improvement over existing techniques in the case of flat optimization landscapes. qBang introduces a new development strategy for gradient-based VQAs with a plethora of possible improvements.
翻訳日:2023-04-28 14:43:06 公開日:2023-04-27
# NIMS-OS:材料科学における人工知能とロボット実験のクローズドループを実装する自動化ソフトウェア

NIMS-OS: An automation software to implement a closed loop between artificial intelligence and robotic experiments in materials science ( http://arxiv.org/abs/2304.13927v1 )

ライセンス: Link先を確認
Ryo Tamura, Koji Tsuda, Shoichi Matsuda(参考訳) NIMS-OS (NIMS Orchestration System) は、ロボット実験と人工知能(AI)のクローズドループを実現するために作られたPythonライブラリである。 様々な組み合わせのモジュールを使って自律的に動作する。 各モジュールは、材料探索のためのAIや、ロボット実験のためのコントローラとして機能する。 AI技術としては、ベイズ最適化(PHYSBO)、無拘束客観的探索(BLOX)、位相図構築(PDC)、ランダム探索(RE)などを用いることができる。 さらに、NIMS自動ロボット電気化学実験(NAREE)と呼ばれるシステムが、ロボット実験機器のセットとして利用可能である。 結果の可視化ツールも含まれているので、ユーザはリアルタイムで最適化結果をチェックできる。 AIとロボット実験のための新しいモジュールは、システムの機能を拡張するために簡単に追加できる。 さらに, NIMS-OSの動作を実証するGUIアプリケーションを開発した。 NIMS-OSはhttps://github.com/nimsos-dev/nimsosで入手できる。

NIMS-OS (NIMS Orchestration System) is a Python library created to realize a closed loop of robotic experiments and artificial intelligence (AI) without human intervention for automated materials exploration. It uses various combinations of modules to operate autonomously. Each module acts as an AI for materials exploration or a controller for a robotic experiments. As AI techniques, Bayesian optimization (PHYSBO), boundless objective-free exploration (BLOX), phase diagram construction (PDC), and random exploration (RE) methods can be used. Moreover, a system called NIMS automated robotic electrochemical experiments (NAREE) is available as a set of robotic experimental equipment. Visualization tools for the results are also included, which allows users to check the optimization results in real time. Newly created modules for AI and robotic experiments can be added easily to extend the functionality of the system. In addition, we developed a GUI application to control NIMS-OS.To demonstrate the operation of NIMS-OS, we consider an automated exploration for new electrolytes. NIMS-OS is available at https://github.com/nimsos-dev/nimsos.
翻訳日:2023-04-28 14:36:12 公開日:2023-04-27
# 検索に基づく知識強化視覚言語事前学習

Retrieval-based Knowledge Augmented Vision Language Pre-training ( http://arxiv.org/abs/2304.13923v1 )

ライセンス: Link先を確認
Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang(参考訳) 大規模ビジョンと言語表現学習の最近の進歩により、視覚言語事前学習(VLP)モデルは様々なマルチモーダル下流タスクにおいて有望な改善を実現している。 強力ではあるが、これらの事前学習モデルは、マルチモーダルデータでは暗黙的だが、豊富で補完的な情報を含む世界知識をまだ活用していない。 本研究では,知識グラフ(KG)から世界知識を抽出し,それを視覚言語事前学習に組み込むREAVL(Retrieval-based Knowledge Augmented Vision Language Pre-training Model)を提案する。 REAVLは、与えられたマルチモーダルデータから知識を抽出する知識検索器と、マルチモーダルデータと知識を融合する知識拡張モデルという2つのコアコンポーネントを備えている。 新規に4つの知識認識型自己教師タスクを統合することで、REAVLは、マスク付きマルチモーダルデータモデリングとKGリレーショナル推論のための視覚言語ペアに明示的な知識を融合させることにより、マルチモーダルデータと知識の相互統合を促進する。 実証実験により、REAVLは知識に基づく視覚言語理解とマルチモーダルな実体リンクタスク、および一般的な視覚言語タスクにおける競合結果に対して、最高のモデルの0.2%の事前学習データのみを使用しながら、新しい最先端のパフォーマンスを達成することが示された。

With recent progress in large-scale vision and language representation learning, Vision Language Pretraining (VLP) models have achieved promising improvements on various multi-modal downstream tasks. Albeit powerful, these pre-training models still do not take advantage of world knowledge, which is implicit in multi-modal data but comprises abundant and complementary information. In this work, we propose a REtrieval-based knowledge Augmented Vision Language Pre-training model (REAVL), which retrieves world knowledge from knowledge graphs (KGs) and incorporates them in vision-language pre-training. REAVL has two core components: a knowledge retriever that retrieves knowledge given multi-modal data, and a knowledge-augmented model that fuses multi-modal data and knowledge. By novelly unifying four knowledge-aware self-supervised tasks, REAVL promotes the mutual integration of multi-modal data and knowledge by fusing explicit knowledge with vision-language pairs for masked multi-modal data modeling and KG relational reasoning. Empirical experiments show that REAVL achieves new state-of-the-art performance uniformly on knowledge-based vision-language understanding and multimodal entity linking tasks, and competitive results on general vision-language tasks while only using 0.2% pre-training data of the best models.
翻訳日:2023-04-28 14:35:55 公開日:2023-04-27
# マルコフ決定過程としてのレベルアセンブリ

Level Assembly as a Markov Decision Process ( http://arxiv.org/abs/2304.13922v1 )

ライセンス: Link先を確認
Colan F. Biemer and Seth Cooper(参考訳) 多くのゲームでは、プレイヤーに適応しないレベルが進行している。 進行が難しすぎると立ち往生してしまう選手もいれば、進行が遅すぎると退屈な選手もいるので、これは問題となる可能性がある。 これは、プレイヤーのパフォーマンスと好みに基づいたレベルを構築することで対処できる。 本研究では、マルコフ決定過程(MDP)としてプレイヤーのレベルを生成する問題を定式化し、適応動的プログラミング(ADP)を用いてレベルを組み立てる前にMDPを解決する。 2つのケーススタディでADPの使用が2つのベースラインを上回っていることを確認した。 さらに, プレイヤープロキシを実験し, プレイ途中に切り替えた結果, ADPを走らせる前に簡単な修正を行った結果, 迅速な適応が得られた。 MDP全体を検索するADPを使用することで、プレイヤーに適応するレベルの動的進行を生成する。

Many games feature a progression of levels that doesn't adapt to the player. This can be problematic because some players may get stuck if the progression is too difficult, while others may find it boring if the progression is too slow to get to more challenging levels. This can be addressed by building levels based on the player's performance and preferences. In this work, we formulate the problem of generating levels for a player as a Markov Decision Process (MDP) and use adaptive dynamic programming (ADP) to solve the MDP before assembling a level. We tested with two case studies and found that using an ADP outperforms two baselines. Furthermore, we experimented with player proxies and switched them in the middle of play, and we show that a simple modification prior to running ADP results in quick adaptation. By using ADP, which searches the entire MDP, we produce a dynamic progression of levels that adapts to the player.
翻訳日:2023-04-28 14:35:31 公開日:2023-04-27
# 時系列画像データにおける逆物理攻撃の検出

Detection of Adversarial Physical Attacks in Time-Series Image Data ( http://arxiv.org/abs/2304.13919v1 )

ライセンス: Link先を確認
Ramneet Kaur, Yiannis Kantaros, Wenwen Si, James Weimer, Insup Lee(参考訳) 深層ニューラルネットワーク(DNN)は、入力画像が与えられた環境を意味的に知覚できるため、自律システムにおいて一般的な知覚モダリティとなっている。 それでも、DNNモデルは敵のデジタル攻撃や物理的攻撃に弱いことが証明されている。 この問題を軽減するために,1つの入力画像が逆デジタルノイズによって操作されているか否かを検出するために,複数の検出フレームワークが提案されている。 本研究では,DNNモデルに対する単一入力画像に対する対角的物理的攻撃に対して,VG(VisionGuard)と呼ばれるリアルタイム検出器を提案する。 この研究に基づいて、VGと多数投票法を結合したVisionGuard*(VG)を提案し、時系列画像データ(例えばビデオ)における逆物理的攻撃を検出する。 これは、意思決定のためにオンボードセンサーを使用して画像が時間とともに収集される自律システムアプリケーションによって動機付けられている。 多数投票機構は、例えばオブジェクト検出のための自律運転スタックにおいて、(他の多くのアプリケーションと同様に)自律システムアプリケーションで非常に一般的なものであることを強調する。 本稿では, 理論的, 実験的に, この広く利用されている機構を, 対向検出器の性能向上に活用する方法について検討する。 我々は,最先端のロバストな物理的攻撃によって生成された,クリーンで物理的に攻撃された交通標識の映像でvg*を評価した。 分散データやデジタルアタック画像用に設計された検出器に対する広範な比較実験を行う。

Deep neural networks (DNN) have become a common sensing modality in autonomous systems as they allow for semantically perceiving the ambient environment given input images. Nevertheless, DNN models have proven to be vulnerable to adversarial digital and physical attacks. To mitigate this issue, several detection frameworks have been proposed to detect whether a single input image has been manipulated by adversarial digital noise or not. In our prior work, we proposed a real-time detector, called VisionGuard (VG), for adversarial physical attacks against single input images to DNN models. Building upon that work, we propose VisionGuard* (VG), which couples VG with majority-vote methods, to detect adversarial physical attacks in time-series image data, e.g., videos. This is motivated by autonomous systems applications where images are collected over time using onboard sensors for decision-making purposes. We emphasize that majority-vote mechanisms are quite common in autonomous system applications (among many other applications), as e.g., in autonomous driving stacks for object detection. In this paper, we investigate, both theoretically and experimentally, how this widely used mechanism can be leveraged to enhance the performance of adversarial detectors. We have evaluated VG* on videos of both clean and physically attacked traffic signs generated by a state-of-the-art robust physical attack. We provide extensive comparative experiments against detectors that have been designed originally for out-of-distribution data and digitally attacked images.
翻訳日:2023-04-28 14:35:17 公開日:2023-04-27
# Time-to-Event-Margin Propagationを用いたAERによるニューロモルフィックコンピューティング

Neuromorphic Computing with AER using Time-to-Event-Margin Propagation ( http://arxiv.org/abs/2304.13918v1 )

ライセンス: Link先を確認
Madhuvanthi Srivatsav R, Shantanu Chakrabartty and Chetan Singh Thakur(参考訳) Address-Event-Representation (AER)はスパイクルーティングプロトコルで、ニューロモルフィックおよびスパイクニューラルネットワーク(SNN)アーキテクチャをデジタルニューラルネットワークアーキテクチャに匹敵するサイズにスケーリングすることができる。 しかし、従来のニューロモルフィックアーキテクチャでは、AERプロトコルや一般的な仮想相互接続は、スパイクやイベントをルーティングするためにのみ、計算においてパッシブな役割を果たす。 本稿では,AERプロトコル自体に固有の遅延,トリガー,ソートといった因果的時間的プリミティブを,TEMP(Time-to-Event Margin Propagation)と呼ばれる手法を用いて,スケーラブルなニューロモルフィックコンピューティングに活用する方法を示す。 提案したTEMPベースのAERアーキテクチャは完全に非同期であり、従来のMAC(Multiply-and-accumulate)操作とは対照的に、メモリとコンピューティングの相互接続遅延に依存する。 TEMPニューラルネットワークにおける時間に基づく符号化は、多くの識別パターンを符号化できる時空間表現を生成することを示す。 概念実証として、トレーニングされたTEMPベースの畳み込みニューラルネットワーク(CNN)が、MNISTデータセット上で99%以上の精度を示すことを示す。 全体として、我々の研究は生物学的にインスパイアされたコンピューティングパラダイムであり、ニューロモルフィックコンピューティングの分野に新たな次元の研究をもたらす。

Address-Event-Representation (AER) is a spike-routing protocol that allows the scaling of neuromorphic and spiking neural network (SNN) architectures to a size that is comparable to that of digital neural network architectures. However, in conventional neuromorphic architectures, the AER protocol and, in general, any virtual interconnect plays only a passive role in computation, i.e., only for routing spikes and events. In this paper, we show how causal temporal primitives like delay, triggering, and sorting inherent in the AER protocol itself can be exploited for scalable neuromorphic computing using our proposed technique called Time-to-Event Margin Propagation (TEMP). The proposed TEMP-based AER architecture is fully asynchronous and relies on interconnect delays for memory and computing as opposed to conventional and local multiply-and-accumulate (MAC) operations. We show that the time-based encoding in the TEMP neural network produces a spatio-temporal representation that can encode a large number of discriminatory patterns. As a proof-of-concept, we show that a trained TEMP-based convolutional neural network (CNN) can demonstrate an accuracy greater than 99% on the MNIST dataset. Overall, our work is a biologically inspired computing paradigm that brings forth a new dimension of research to the field of neuromorphic computing.
翻訳日:2023-04-28 14:34:53 公開日:2023-04-27
# 代表的クラスタリング

Proportionally Representative Clustering ( http://arxiv.org/abs/2304.13917v1 )

ライセンス: Link先を確認
Haris Aziz and Barton E. Lee and Sean Morota Chu(参考訳) 近年、機械学習における公平性の概念を形式化する取り組みが急増している。 クラスタリングは、教師なし機械学習における基本的なタスクのひとつです。 本稿では,比例表現公平性(PRF)を捉える新しい公理を提案する。 我々は、この概念が文学におけるいくつかの既存の概念の放射d'{\^{e}}treを、より説得力のある方法で達成したとする。 我々のフェアネスの概念は、既存のフェアクラスタリングアルゴリズムで満たされていない。 制約のないクラスタ化問題と離散的なクラスタリング問題の両方に対して,prfを実現するための効率的なアルゴリズムを設計した。

In recent years, there has been a surge in effort to formalize notions of fairness in machine learning. We focus on clustering -- one of the fundamental tasks in unsupervised machine learning. We propose a new axiom that captures proportional representation fairness (PRF). We make a case that the concept achieves the raison d'{\^{e}}tre of several existing concepts in the literature in an arguably more convincing manner. Our fairness concept is not satisfied by existing fair clustering algorithms. We design efficient algorithms to achieve PRF both for unconstrained and discrete clustering problems.
翻訳日:2023-04-28 14:34:26 公開日:2023-04-27
# MIPI 2023 RGB+ToF深度補完の課題:方法と結果

MIPI 2023 Challenge on RGB+ToF Depth Completion: Methods and Results ( http://arxiv.org/abs/2304.13916v1 )

ライセンス: Link先を確認
Qingpeng Zhu, Wenxiu Sun, Yuekun Dai, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Qianhui Sun, Chen Change Loy, Jinwei Gu, Yi Yu, Yangke Huang, Kang Zhang, Meiya Chen, Yu Wang, Yongchao Li, Hao Jiang, Amrit Kumar Muduli, Vikash Kumar, Kunal Swami, Pankaj Kumar Bajpai, Yunchao Ma, Jiajun Xiao, Zhi Ling(参考訳) コンピュータビジョンやロボティクスにおいて,RGB画像からの深度補正と疎度飛行時間(ToF)測定は重要な問題である。 従来の奥行き完了の方法はステレオビジョンや構造化光技術に依存しているが、最近のディープラーニングの進歩により、rgb画像からの奥行きマップの精度と効率のよい補完が可能となり、sparse tof測定も可能になった。 異なる深度補完法の性能を評価するため,RGB+スパースToF深度補完コンペティションを組織した。 このコンペティションは、さまざまなアプローチの精度を比較するための標準化されたデータセットと評価指標を提供することで、この分野の研究を促進することを目的としていた。 本報告では,競争の結果を提示し,トップパフォーマンス手法の強みと弱みについて分析する。 また,RGB+スパースToF深度化における今後の研究の意義についても論じる。 この競争と報告が、この重要な研究分野における最先端の進展に役立つことを期待している。 この課題の詳細とデータセットへのリンクは、https://mipi-challenge.org/mipi2023にある。

Depth completion from RGB images and sparse Time-of-Flight (ToF) measurements is an important problem in computer vision and robotics. While traditional methods for depth completion have relied on stereo vision or structured light techniques, recent advances in deep learning have enabled more accurate and efficient completion of depth maps from RGB images and sparse ToF measurements. To evaluate the performance of different depth completion methods, we organized an RGB+sparse ToF depth completion competition. The competition aimed to encourage research in this area by providing a standardized dataset and evaluation metrics to compare the accuracy of different approaches. In this report, we present the results of the competition and analyze the strengths and weaknesses of the top-performing methods. We also discuss the implications of our findings for future research in RGB+sparse ToF depth completion. We hope that this competition and report will help to advance the state-of-the-art in this important area of research. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2023.
翻訳日:2023-04-28 14:34:18 公開日:2023-04-27
# ベル差分サンプリングによる安定化器推定の改善

Improved Stabilizer Estimation via Bell Difference Sampling ( http://arxiv.org/abs/2304.13915v1 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 安定化器の定式化に関して、量子状態の学習の複雑さについて研究し、以下の結果を得る。 - 計算的に擬似ランダムな量子状態を作成するためには、任意のクリフォード+T$回路に$\Omega(n)$$T$-gatesが必要であることを証明します。 この境界は、線形時間量子安全な擬ランダム関数が存在する場合、漸近的に厳密である。 -n$-qubit の純粋な量子状態 $|\psi\rangle$ が与えられたとき、少なくとも$\tau$ と安定化状態との忠実性を持つアルゴリズムを与え、少なくとも $\tau - \varepsilon$ の忠実性を示す安定化状態の簡潔な記述を出力する。 このアルゴリズムは、$O(n/(\varepsilon^2\tau^4))$サンプルと$\exp\left(O(n/\tau^4)\right) / \varepsilon^2$ timeを使用する。 このアルゴリズムは、$\tau$定数の状態では、全ての安定化状態におけるna\"ive $\exp(o(n^2))$-time brute-forceアルゴリズムよりもかなり高速に安定化器の忠実度を推定する。 -Gross,Nezami,Walter[Comms. Math. Phys. 385 (2021)]による安定化状態特性試験アルゴリズムの音質解析を改善した。 適用例として、安定化状態に対する耐久性試験アルゴリズムを示す。 すべての結果の基本的なアルゴリズムプリミティブはベル差分サンプリングです。 この結果を証明するために,ベル差分サンプリング,シンプレクティックフーリエ解析,グラフ理論の接続を確立および/または強化する。

We study the complexity of learning quantum states in various models with respect to the stabilizer formalism and obtain the following results: - We prove that $\Omega(n)$ $T$-gates are necessary for any Clifford+$T$ circuit to prepare computationally pseudorandom quantum states, an exponential improvement over the previously known bound. This bound is asymptotically tight if linear-time quantum-secure pseudorandom functions exist. - Given an $n$-qubit pure quantum state $|\psi\rangle$ that has fidelity at least $\tau$ with some stabilizer state, we give an algorithm that outputs a succinct description of a stabilizer state that witnesses fidelity at least $\tau - \varepsilon$. The algorithm uses $O(n/(\varepsilon^2\tau^4))$ samples and $\exp\left(O(n/\tau^4)\right) / \varepsilon^2$ time. In the regime of $\tau$ constant, this algorithm estimates stabilizer fidelity substantially faster than the na\"ive $\exp(O(n^2))$-time brute-force algorithm over all stabilizer states. - We improve the soundness analysis of the stabilizer state property testing algorithm due to Gross, Nezami, and Walter [Comms. Math. Phys. 385 (2021)]. As an application, we exhibit a tolerant property testing algorithm for stabilizer states. The underlying algorithmic primitive in all of our results is Bell difference sampling. To prove our results, we establish and/or strengthen connections between Bell difference sampling, symplectic Fourier analysis, and graph theory.
翻訳日:2023-04-28 14:34:00 公開日:2023-04-27
# LLM応答改善のためのフェデレーションプロンプティングとチェーン・オブ・サート推論

Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs Answering ( http://arxiv.org/abs/2304.13911v1 )

ライセンス: Link先を確認
Xiangyang Liu, Tianqi Pang, Chenyou Fan(参考訳) クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討した。 本研究は,同じ数学的推論ステップと問題解決手順を含む類似クエリをユーザが質問する典型的な状況に焦点を当てる。 LLMのゼロショットに対する不満足な精度のため,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語問題を改善することを提案する。 具体的には,まずクラウドソースデータベースから同義語質問を抽出し,連合質問プールを作成する。 これらを同一または異なるパラメータsp-questionまたはdp-questionの連合同義語問題と呼ぶ。 この手法をFed-SP-SCとFed-DP-CoTと呼び、洗練されたモデルチューニングを必要とせず、全てのユーザクエリに対してはるかに正確な回答を生成できる。 より広範な実験により,提案手法は質問の同義性や回答の一貫性を十分に探求することにより,質問精度を大幅に向上させることができることを示した。

We investigate how to enhance answer precision in frequently asked questions posed by distributed users using cloud-based Large Language Models (LLMs). Our study focuses on a typical situations where users ask similar queries that involve identical mathematical reasoning steps and problem-solving procedures. Due to the unsatisfactory accuracy of LLMs' zero-shot prompting with standalone questions, we propose to improve the distributed synonymous questions using Self-Consistency (SC) and Chain-of-Thought (CoT) techniques. Specifically, we first retrieve synonymous questions from a crowd-sourced database and create a federated question pool. We call these federated synonymous questions with the same or different parameters SP-questions or DP-questions, respectively. We refer to our methods as Fed-SP-SC and Fed-DP-CoT, which can generate significantly more accurate answers for all user queries without requiring sophisticated model-tuning. Through extensive experiments, we demonstrate that our proposed methods can significantly enhance question accuracy by fully exploring the synonymous nature of the questions and the consistency of the answers.
翻訳日:2023-04-28 14:33:32 公開日:2023-04-27
# LSTMによるIoTデバイス識別

LSTM based IoT Device Identification ( http://arxiv.org/abs/2304.13905v1 )

ライセンス: Link先を確認
Kahraman Kostas(参考訳) モノのインターネット(Internet of Things, IoT)の利用がますます人気になっているが、多くのセキュリティ脆弱性が出現し、多くのデバイスが市場に投入されている。 この環境では、IoTデバイス識別方法は、これらのデバイスを特定し、彼らが苦しむ脆弱性を検出する上で重要な要素として、予防的セキュリティ対策を提供する。 本研究では,Long Short-term memory(LSTM)を用いて,Aaltoデータセット内のデバイスを識別する手法を提案する。

While the use of the Internet of Things is becoming more and more popular, many security vulnerabilities are emerging with the large number of devices being introduced to the market. In this environment, IoT device identification methods provide a preventive security measure as an important factor in identifying these devices and detecting the vulnerabilities they suffer from. In this study, we present a method that identifies devices in the Aalto dataset using Long short-term memory (LSTM)
翻訳日:2023-04-28 14:33:13 公開日:2023-04-27
# インド農村地域における貧困推定と生活能力に関する多面的・縦断的データの学習と推論

Learning and Reasoning Multifaceted and Longitudinal Data for Poverty Estimates and Livelihood Capabilities of Lagged Regions in Rural India ( http://arxiv.org/abs/2304.13958v1 )

ライセンス: Link先を確認
Atharva Kulkarni, Raya Das, Ravi S. Srivastava, Tanmoy Chakraborty(参考訳) 貧困は、家庭が持続可能な生活を送る能力の欠如と結びついた多面的な現象であり、多次元指標を用いて評価されることが増えている。 その空間パターンは、社会、経済、政治、地域変数に依存する。 人工知能は、貧困の複雑さとニュアンスを分析している。 提案プロジェクトは,生活の質と生活指標に基づく1990-2022年のインド農村の貧困状況を検討することを目的としている。 地区は、'advanced'、'catching up'、'falling behind'、'lagged'リージョンに分けられる。 本研究は, 従来型の全国規模の大規模世帯調査, 国勢調査調査, 昼時などのプロキシ変数, 衛星画像からの夜間データ, 通信ネットワークなど複数のデータソースを統合し, 地域レベルでの貧困を総合的に把握することを提案する。 また、貧困の理由を調べるため、因果関係や縦断分析も行おうとしている。 人口統計と成長集約政策により、発展途上国では貧困と不平等が拡大する可能性がある。 したがって、貧困を根絶し、「ゼロ貧困」の目標を達成するために生活の質を向上させるためには、遅れている地域や脆弱な人口を狙うことが不可欠である。 また,これらの地域における開発指標の性能と貧困との関連を追究するため,人口の限界部分の比率が全国平均よりも高い地域に焦点を当てた。

Poverty is a multifaceted phenomenon linked to the lack of capabilities of households to earn a sustainable livelihood, increasingly being assessed using multidimensional indicators. Its spatial pattern depends on social, economic, political, and regional variables. Artificial intelligence has shown immense scope in analyzing the complexities and nuances of poverty. The proposed project aims to examine the poverty situation of rural India for the period of 1990-2022 based on the quality of life and livelihood indicators. The districts will be classified into `advanced', `catching up', `falling behind', and `lagged' regions. The project proposes to integrate multiple data sources, including conventional national-level large sample household surveys, census surveys, and proxy variables like daytime, and nighttime data from satellite images, and communication networks, to name a few, to provide a comprehensive view of poverty at the district level. The project also intends to examine causation and longitudinal analysis to examine the reasons for poverty. Poverty and inequality could be widening in developing countries due to demographic and growth-agglomerating policies. Therefore, targeting the lagging regions and the vulnerable population is essential to eradicate poverty and improve the quality of life to achieve the goal of `zero poverty'. Thus, the study also focuses on the districts with a higher share of the marginal section of the population compared to the national average to trace the performance of development indicators and their association with poverty in these regions.
翻訳日:2023-04-28 14:26:50 公開日:2023-04-27
# $\mathcal{PT}$-activated non-Hermitian skin modes

$\mathcal{PT}$-activated non-Hermitian skin modes ( http://arxiv.org/abs/2304.13955v1 )

ライセンス: Link先を確認
Zhoutao Lei, Ching Hua Lee, Linhu Li(参考訳) パリティ時(\mathcal{PT}$)対称性は非エルミート現象の安定な実験的実現のための真のエネルギーを保証するため、非エルミート物理学の基盤となる。 本研究では,一意なバルク,曲面,ヒンジあるいはコーナーダイナミクスを持つ高次元非エルミート状態の新しい族を設計するためのパラダイムとして,$\mathcal{pt}$ symmetryを提案する。 システムの異なるセクターで$\mathcal{PT}$対称性を体系的に破壊または復元することにより、我々は 'activate' を選択するか、バルク境界状態と位相境界状態の両方で非エルミート皮膚効果(NHSE)を操ることができる。 いくつかの興味深い新しい現象は、NHSEの方向トグルリング、本質的なハイブリッド皮膚トポロジー効果、キラルポンプやダイナミックポンプのない境界状態の流れである。 以上の結果から, 3次元以上に拡張し, ハイブリッド皮膚トポロジカルな局在と$\mathcal{CP}$対称性との相互作用を改良した。 非相互作用格子に基づいて、$\mathcal{PT}$-activated NHSE現象はゲイン/ロスと非相互性を持つ様々な光学、フォトニック、電気および量子プラットフォームで観測できる。

Parity-time ($\mathcal{PT}$) symmetry is a cornerstone of non-Hermitian physics as it ensures real energies for stable experimental realization of non-Hermitian phenomena. In this work, we propose $\mathcal{PT}$ symmetry as a paradigm for designing new families of higher-dimensional non-Hermitian states with unique bulk, surface, hinge or corner dynamics. Through systematically breaking or restoring $\mathcal{PT}$ symmetry in different sectors of a system, we can selectively ``activate'' or manipulate the non-Hermitian skin effect (NHSE) in both the bulk and topological boundary states. Some fascinating new phenomena include the directional toggling of the NHSE, an intrinsic hybrid skin-topological effect and the flow of boundary states without chiral or dynamical pumping. Our results extend richly into 3D or higher, with more sophisticated interplay with hybrid skin-topological localizations and $\mathcal{CP}$ symmetry. Based on non-interacting lattices, $\mathcal{PT}$-activated NHSE phenomena can be observed in various optical, photonic, electric and quantum platforms that admit gain/loss and non-reciprocity.
翻訳日:2023-04-28 14:26:27 公開日:2023-04-27
# カメラ撮影に抵抗するロバストな画像透かしに対する自動位置推定と検出

Automatic Localization and Detection Applicable to Robust Image Watermarking Resisting against Camera Shooting ( http://arxiv.org/abs/2304.13953v1 )

ライセンス: Link先を確認
Ming Liu(参考訳) 近年,コンピュータ画面に表示されるセンシティブな情報を捕捉する必要性が高まっているため,カメラ撮影に抵抗できるロバストな画像透かしが活発に研究されている。 しかし、多くの主流のスキームは透かし検出プロセス中に人間の助けを必要とし、多数の画像を処理する必要のあるシナリオに適応できない。 ディープラーニングベースのスキームは、エンドツーエンドの透かし埋め込みと検出を可能にするが、その限定的な一般化能力により、複雑なシナリオにおける障害に対して脆弱である。 本稿では,カメラの撮影に抵抗できる電子透かしシステムを提案する。 提案手法は,AWL(Automatic Watermark Localization)とAWD(Automatic Watermark Detection)の2つの重要な問題を扱う。 AWLは、局所統計特性を分析して、カメラ撮影画像中の透かし情報を含む関心領域(RoI)を自動的に識別する。 一方、AWDは、視点補正を適用した後、特定されたRoIから隠れた透かしを抽出する。 従来の作業と比較すると、提案手法は完全に自動化されており、アプリケーションのシナリオに最適である。 さらに,提案手法は特定の透かし埋め込み戦略に限定されず,透かし埋め込みおよび抽出手順の改善が可能となった。 広汎な実験結果と分析により, カメラ撮影画像から, 組込み透かしを自動的に, 確実に抽出できることが示され, 提案手法の優位性と適用性を示す。

Robust image watermarking that can resist camera shooting has become an active research topic in recent years due to the increasing demand for preventing sensitive information displayed on computer screens from being captured. However, many mainstream schemes require human assistance during the watermark detection process and cannot adapt to scenarios that require processing a large number of images. Although deep learning-based schemes enable end-to-end watermark embedding and detection, their limited generalization ability makes them vulnerable to failure in complex scenarios. In this paper, we propose a carefully crafted watermarking system that can resist camera shooting. The proposed scheme deals with two important problems: automatic watermark localization (AWL) and automatic watermark detection (AWD). AWL automatically identifies the region of interest (RoI), which contains watermark information, in the camera-shooting image by analyzing the local statistical characteristics. Meanwhile, AWD extracts the hidden watermark from the identified RoI after applying perspective correction. Compared with previous works, the proposed scheme is fully automatic, making it ideal for application scenarios. Furthermore, the proposed scheme is not limited to any specific watermark embedding strategy, allowing for improvements in the watermark embedding and extraction procedure. Extensive experimental results and analysis show that the embedded watermark can be automatically and reliably extracted from the camera-shooting image in different scenarios, demonstrating the superiority and applicability of the proposed approach.
翻訳日:2023-04-28 14:26:03 公開日:2023-04-27
# Fairness Uncertainity Quantification: モデルがフェアであることを、どの程度確信していますか?

Fairness Uncertainty Quantification: How certain are you that the model is fair? ( http://arxiv.org/abs/2304.13950v1 )

ライセンス: Link先を確認
Abhishek Roy, Prasant Mohapatra(参考訳) 公正を意識した機械学習は、司法システムのようなセンシティブなアプリケーションに機械学習を多用したため、近年大きな注目を集めている。 様々なヒューリスティック、最適化フレームワークが、分類における公平性(fairness)を強制するために提案されており、後者のアプローチは経験的結果を提供するか、目的関数 \cite{celis2019分類(英語版)} の正確な最小化に対する公平性を保証する。 現代の機械学習では、SGD(Stochastic Gradient Descent)型アルゴリズムは学習されたモデルがランダムであることを暗示する訓練アルゴリズムとして、ほぼ常に使われている。 したがって、特に重要な応用においては、学習モデルの公平性のために信頼区間(CI)を構築することが不可欠である。 本研究では,グループフェアネスを意識したCI,特にDI(Disparate Impact)とDM(Disparate Mistreatment)を意識した線形二項分類器をオンラインSGD型アルゴリズムでトレーニングした場合に,テストの不公平性をテストする。 漸近的に中央極限定理がdiおよびdm-awareモデルの推定モデルパラメータに対して成立することを示す。 オンラインciを構成する漸近共分散を推定するためのオンラインマルチプライアブートストラップ法を提案する。 そこで本稿では,制約のないSGDに対するオンラインブートストラップ手法の整合性に関する既知の理論的保証を,独立性のある制約付き最適化に拡張する。 結果は、合成データと実際のデータセットで示します。

Fairness-aware machine learning has garnered significant attention in recent years because of extensive use of machine learning in sensitive applications like judiciary systems. Various heuristics, and optimization frameworks have been proposed to enforce fairness in classification \cite{del2020review} where the later approaches either provides empirical results or provides fairness guarantee for the exact minimizer of the objective function \cite{celis2019classification}. In modern machine learning, Stochastic Gradient Descent (SGD) type algorithms are almost always used as training algorithms implying that the learned model, and consequently, its fairness properties are random. Hence, especially for crucial applications, it is imperative to construct Confidence Interval (CI) for the fairness of the learned model. In this work we provide CI for test unfairness when a group-fairness-aware, specifically, Disparate Impact (DI), and Disparate Mistreatment (DM) aware linear binary classifier is trained using online SGD-type algorithms. We show that asymptotically a Central Limit Theorem holds for the estimated model parameter of both DI and DM-aware models. We provide online multiplier bootstrap method to estimate the asymptotic covariance to construct online CI. To do so, we extend the known theoretical guarantees shown on the consistency of the online bootstrap method for unconstrained SGD to constrained optimization which could be of independent interest. We illustrate our results on synthetic and real datasets.
翻訳日:2023-04-28 14:25:37 公開日:2023-04-27
# UCF: 一般化可能なディープフェイク検出のための共通機能を明らかにする

UCF: Uncovering Common Features for Generalizable Deepfake Detection ( http://arxiv.org/abs/2304.13949v1 )

ライセンス: Link先を確認
Zhiyuan Yan, Yong Zhang, Yanbo Fan, Baoyuan Wu(参考訳) ディープフェイク検出は、新しいタイプの偽造物への一般化が困難であるため、依然として困難な課題である。 この問題は、主に既存の検出手法の過剰適合から、偽りのない特徴やメソッド固有のパターンに起因している。 後者はしばしば前作では無視される。 本稿では,2種類のオーバーフィッティング問題に共通の偽造特徴を明らかにすることによって対処する手法を提案する。 具体的には、まず、画像情報を3つの異なる要素(forgery-irrelevant、method-specific forgery、common forgery)に分解する異角化フレームワークを提案する。 メソッド固有の一般的な偽造特徴の分離を確保するために、偽造方法のカテゴリを予測するマルチクラス分類と、実と偽物とを区別するバイナリ分類を含むマルチタスク学習戦略を採用する。 さらに、条件付きデコーダは、forgery-unrelevant featuresと共に条件としてforgery機能を利用するように設計され、再構成された画像を生成する。 さらに, 共通および特異な偽造特徴の絡み合いを促進するために, 対照的な正則化手法を提案する。 最終的には、一般化可能なディープフェイク検出のためにのみ、一般的な偽造機能を利用する。 広範な評価は、現在の最先端メソッドよりも優れた一般化を実現することができることを示した。

Deepfake detection remains a challenging task due to the difficulty of generalizing to new types of forgeries. This problem primarily stems from the overfitting of existing detection methods to forgery-irrelevant features and method-specific patterns. The latter is often ignored by previous works. This paper presents a novel approach to address the two types of overfitting issues by uncovering common forgery features. Specifically, we first propose a disentanglement framework that decomposes image information into three distinct components: forgery-irrelevant, method-specific forgery, and common forgery features. To ensure the decoupling of method-specific and common forgery features, a multi-task learning strategy is employed, including a multi-class classification that predicts the category of the forgery method and a binary classification that distinguishes the real from the fake. Additionally, a conditional decoder is designed to utilize forgery features as a condition along with forgery-irrelevant features to generate reconstructed images. Furthermore, a contrastive regularization technique is proposed to encourage the disentanglement of the common and specific forgery features. Ultimately, we only utilize the common forgery features for the purpose of generalizable deepfake detection. Extensive evaluations demonstrate that our framework can perform superior generalization than current state-of-the-art methods.
翻訳日:2023-04-28 14:25:10 公開日:2023-04-27
# 1ビット行列補完のための正規化最小化ガウスニュートン法

A Majorization-Minimization Gauss-Newton Method for 1-Bit Matrix Completion ( http://arxiv.org/abs/2304.13940v1 )

ライセンス: Link先を確認
Xiaoqian Liu, Xu Han, Eric C. Chi, and Boaz Nadler(参考訳) 1ビットマトリクスの完備化では、基礎となる低ランクマトリクスをバイナリ観測の部分集合から推定することを目的としている。 MMGNと呼ばれる新しい1ビット行列補完法を提案する。 本手法は,本手法において標準低ランク行列補完問題の列を導出するメジャー化最小化(mm)原理に基づいている。 我々は,これらの部分問題のそれぞれを,仮定された低ランク構造を明示的に強制し,ガウス・ニュートン法を適用する因子化アプローチによって解決する。 我々の数値的な研究と実データへの応用は、MMGNがより正確に見積もっても同等に出力し、しばしば著しく高速であり、既存の手法よりも基礎となる行列のスパイク性に敏感でないことを示している。

In 1-bit matrix completion, the aim is to estimate an underlying low-rank matrix from a partial set of binary observations. We propose a novel method for 1-bit matrix completion called MMGN. Our method is based on the majorization-minimization (MM) principle, which yields a sequence of standard low-rank matrix completion problems in our setting. We solve each of these sub-problems by a factorization approach that explicitly enforces the assumed low-rank structure and then apply a Gauss-Newton method. Our numerical studies and application to a real-data example illustrate that MMGN outputs comparable if not more accurate estimates, is often significantly faster, and is less sensitive to the spikiness of the underlying matrix than existing methods.
翻訳日:2023-04-28 14:24:50 公開日:2023-04-27
# 関節リウマチにおける関節腔狭義化進展の精密定量化のための深部レジストレーション法

A Deep Registration Method for Accurate Quantification of Joint Space Narrowing Progression in Rheumatoid Arthritis ( http://arxiv.org/abs/2304.13938v1 )

ライセンス: Link先を確認
Haolin Wang, Yafei Ou, Wanxuan Fang, Prasoon Ambalathankandy, Naoto Goto, Gen Ota, Masayuki Ikebe and Tamotsu Kamishima(参考訳) 関節リウマチ(ra)は慢性自己免疫性炎症性疾患であり、進行性関節破壊と重度の障害を引き起こす。 関節間隙短縮(JSN)の進行は,RA進行の重要な指標とされ,引き続き注目されている。 RAの診断とモニタリングにおいて,放射線学は関節腔のモニタリングにおいて重要な役割を担っている。 画像登録によるJSN進行の定量化による関節領域のモニタリングのための新しいフレームワークを開発した。 このフレームワークは高精度の利点を提供するが、ミスマッチの低減と信頼性の向上には課題がある。 本研究では, RAの初期におけるJSN進行を自動的に定量化するために, 深部剛性登録網を提案する。 実験では, 移動画像と固定画像のユークリッド距離の平均2乗誤差は0.0031, 標準偏差は0.0661mm, ミスマッチ率は0.48\%であった。 提案手法は, サブピクセルレベルの精度が高く, 手動測定をはるかに超え, 関節の騒音, 回転, スケーリングに対する免疫性を備えている。 さらに本研究は, 放射線科医やリウマチ医が定量化の信頼性を評価するのに役立つロス・ビジュアライゼーションを提供し, 将来の臨床応用に重要な意味を持つ。 その結果,提案手法がraにおけるjsn進行の自動定量化に多大な貢献をすることを期待した。

Rheumatoid arthritis (RA) is a chronic autoimmune inflammatory disease that results in progressive articular destruction and severe disability. Joint space narrowing (JSN) progression has been regarded as an important indicator for RA progression and has received sustained attention. In the diagnosis and monitoring of RA, radiology plays a crucial role to monitor joint space. A new framework for monitoring joint space by quantifying JSN progression through image registration in radiographic images has been developed. This framework offers the advantage of high accuracy, however, challenges do exist in reducing mismatches and improving reliability. In this work, a deep intra-subject rigid registration network is proposed to automatically quantify JSN progression in the early stage of RA. In our experiments, the mean-square error of Euclidean distance between moving and fixed image is 0.0031, standard deviation is 0.0661 mm, and the mismatching rate is 0.48\%. The proposed method has sub-pixel level accuracy, exceeding manual measurements by far, and is equipped with immune to noise, rotation, and scaling of joints. Moreover, this work provides loss visualization, which can aid radiologists and rheumatologists in assessing quantification reliability, with important implications for possible future clinical applications. As a result, we are optimistic that this proposed work will make a significant contribution to the automatic quantification of JSN progression in RA.
翻訳日:2023-04-28 14:24:36 公開日:2023-04-27
# 味覚クラスタ学習による説明可能な協調フィルタリング

Towards Explainable Collaborative Filtering with Taste Clusters Learning ( http://arxiv.org/abs/2304.13937v1 )

ライセンス: Link先を確認
Yuntao Du, Jianxun Lian, Jing Yao, Xiting Wang, Mingqi Wu, Lu Chen, Yunjun Gao, Xing Xie(参考訳) コラボレーティブフィルタリング(cf)は、レコメンダシステムで広く使われ、効果的な手法である。 近年、マトリックスの分解、ニューラルコラボレーティブフィルタリング、LightGCNなどの精度向上のための潜伏型CF法が大幅に進歩している。 しかし、これらのモデルの説明可能性については完全には研究されていない。 レコメンデーションモデルへの説明可能性の追加は、意思決定プロセスへの信頼を高めるだけでなく、アイテムレコメンデーションに対する説得力のある説明の提供、ユーザとアイテムの明示的なプロファイルの作成、デザイン改善におけるアイテムプロデューサの支援など、複数のメリットがある。 本稿では,解釈可能なクラスタ学習を活用して最も要求される2つの目的を達成できる,巧妙かつ効果的なECFモデルを提案する。(1)正確性 - 説明可能性追求において精度を損なうべきではない;(2)自己説明可能 - モデルの説明は,ポストホック法からではなく,その決定過程を真に反映すべきである。 ecfの中核は、ユーザとアイテムの相互作用から味覚クラスタを抽出し、各ユーザとアイテムを、味覚クラスタのスパース集合にマップし、味覚クラスタをいくつかの代表タグで区別する。 ユーザ・イテムの嗜好、ユーザ・イテムのクラスタアフィリエイト、および味覚クラスタの生成は、エンドツーエンドで共同最適化される。 さらに,モデル精度,説明可能性,多様性を確保するための森林機構を提案する。 味覚クラスタの説明可能性の品質を総合的に評価するために,クラスタ内項目のカバレッジ,タグ利用,シルエット,情報性など,いくつかの定量的指標を設計する。 本モデルの有効性は,実世界の3つのデータセットに対する広範な実験を通じて実証される。

Collaborative Filtering (CF) is a widely used and effective technique for recommender systems. In recent decades, there have been significant advancements in latent embedding-based CF methods for improved accuracy, such as matrix factorization, neural collaborative filtering, and LightGCN. However, the explainability of these models has not been fully explored. Adding explainability to recommendation models can not only increase trust in the decisionmaking process, but also have multiple benefits such as providing persuasive explanations for item recommendations, creating explicit profiles for users and items, and assisting item producers in design improvements. In this paper, we propose a neat and effective Explainable Collaborative Filtering (ECF) model that leverages interpretable cluster learning to achieve the two most demanding objectives: (1) Precise - the model should not compromise accuracy in the pursuit of explainability; and (2) Self-explainable - the model's explanations should truly reflect its decision-making process, not generated from post-hoc methods. The core of ECF is mining taste clusters from user-item interactions and item profiles.We map each user and item to a sparse set of taste clusters, and taste clusters are distinguished by a few representative tags. The user-item preference, users/items' cluster affiliations, and the generation of taste clusters are jointly optimized in an end-to-end manner. Additionally, we introduce a forest mechanism to ensure the model's accuracy, explainability, and diversity. To comprehensively evaluate the explainability quality of taste clusters, we design several quantitative metrics, including in-cluster item coverage, tag utilization, silhouette, and informativeness. Our model's effectiveness is demonstrated through extensive experiments on three real-world datasets.
翻訳日:2023-04-28 14:24:13 公開日:2023-04-27
# 機械学習モデルトレーニング中の高性能マイノリティのオーバーサンプリングによる副作用の低減とモデル精度の低減

Oversampling Higher-Performing Minorities During Machine Learning Model Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy ( http://arxiv.org/abs/2304.13933v1 )

ライセンス: Link先を確認
Louis Hickman, Jason Kuruzovich, Vincent Ng, Kofi Arhin, Danielle Wilson(参考訳) 組織は人事評価に機械学習(ML)をますます採用している。 しかし、MLアセスメントの設計と実装の公平性には懸念がある。 教師付きMLモデルは、データ内のパターンをモデル化するように訓練される。つまり、MLモデルは、サブグループの違いの根底にある原因に関係なく、トレーニングデータにおけるサブグループ属性のサブグループ差を反映する予測を与える傾向にある。 本研究では,少数者(黒人およびヒスパニック系)を対象に,トレーニングデータにおける悪影響率の操作を系統的に過小評価し,トレーニングデータの悪影響比がMLモデルの悪影響と正確性に与える影響について検討した。 応募者(n=2,501)の自己報告と面接記録を用いて9,702mlモデルのトレーニングを行い,スクリーニング判断の予測を行った。 トレーニングデータによる影響は,MLモデルの悪影響と線形に関連していた。 しかし、トレーニングデータから悪影響を取り除くことは、MLモデルの悪影響をわずかに減らし、MLモデルの精度に悪影響を及ぼす傾向があった。 我々は,自己申告書と面接書にまたがる一貫した効果を観察し,実物(ブートストレッピング)のオーバーサンプリングや合成観察を行った。 本研究は, ある組織からの限られた予測器セットに依存するため, より正確なMLモデルでは, 有害な影響が抑制される可能性がある。

Organizations are increasingly adopting machine learning (ML) for personnel assessment. However, concerns exist about fairness in designing and implementing ML assessments. Supervised ML models are trained to model patterns in data, meaning ML models tend to yield predictions that reflect subgroup differences in applicant attributes in the training data, regardless of the underlying cause of subgroup differences. In this study, we systematically under- and oversampled minority (Black and Hispanic) applicants to manipulate adverse impact ratios in training data and investigated how training data adverse impact ratios affect ML model adverse impact and accuracy. We used self-reports and interview transcripts from job applicants (N = 2,501) to train 9,702 ML models to predict screening decisions. We found that training data adverse impact related linearly to ML model adverse impact. However, removing adverse impact from training data only slightly reduced ML model adverse impact and tended to negatively affect ML model accuracy. We observed consistent effects across self-reports and interview transcripts, whether oversampling real (i.e., bootstrapping) or synthetic observations. As our study relied on limited predictor sets from one organization, the observed effects on adverse impact may be attenuated among more accurate ML models.
翻訳日:2023-04-28 14:23:43 公開日:2023-04-27
# デジタル世界における教育 : ミレニアム学習者のレンズから

Education in the Digital World: From the Lens of Millennial Learners ( http://arxiv.org/abs/2304.13930v1 )

ライセンス: Link先を確認
Jonelle Angelo S. Cenita, Zyra R. De Guzman(参考訳) 本研究の目的は,ミレニアル世代学習者のレンズからデジタル世界の教育を決定することである。 これはまた、デジタル教育における問題のサイバーゴジカルな意味を、アウトリアーのレンズを通して示している。 本研究は, 逐次的説明設計の混合手法を用いる。 第1フェーズでは定量的な手法が採用され,研究機器はgoogle formsを用いて配布された。 調査は85の回答を得たが、結果は記述的手法を用いて分析された。 定性的手法に追従して,第2相の間に,外乱点を調査し,その解析をテーマ分析を用いて行った。 混合手法の結果は、サイバーゴジカルな意味の形で解釈された。 E-Learning and Students Perceptions of E Learning におけるミレニアル学習者のレンズによるデジタル教育は, 総合平均3.68 であり, 言語的に高い許容度と解釈された。 その結果、ミレニアル世代におけるデジタル教育の認知は、時間と場所の利便性、オンラインインタラクションによるコラボレーションの成果、デジタルリソースを用いて獲得するスキルと知識、そして将来自分達を改善する能力に影響されていることが明らかとなった。 ミレニアル世代の学習者は、eラーニングの使い方を取り入れて学んだ。 また、自己ペース学習なので、eラーニングはいつでもどこでもアクセスできるので、自分自身の時間とスケジュールで学習することができる。 しかし,eラーニングの実装においては,学習者の技術資源を考慮する必要がある。

The objective of this study is to determine Education in the Digital World from the lens of millennial learners. This also identifies the cybergogical implications of the issue with digital education as seen through the lens of the outlier. This study uses a mixed methods sequential explanatory design. A quantitative method was employed during the first phase and the instruments of the study were distributed using google forms. The survey received a total of 85 responses and the results were analyzed using descriptive methods. Following up with a qualitative method, during the second phase the outliers were interviewed,and the results were analyzed using thematic analysis. The results of the mixed methods were interpreted in the form of cybergogical implications. The digital education from the lens of millennial learners in terms of the Benefits of E-Learning and Students Perceptions of E Learning received an overall mean of 3.68 which was verbally interpreted as Highly acceptable. The results reveal that millennial learners perceptions of digital education are influenced by the convenience in time and location, the fruit of collaboration using online interaction, the skills and knowledge they will acquire using digital resources, and the capability of improving themselves for the future. Millennial learners were able to adopt and learned how to use e learning. Also, since it is self paced learning,it allows them to study on their own time and schedule since e learning can be accessed anytime and anywhere. However, the technological resources of the learners should be considered in the implementation of e learning.
翻訳日:2023-04-28 14:23:17 公開日:2023-04-27
# POSタガーのクロスドメイン評価:ウォールストリートジャーナルからファンダムウィキへ

Cross-Domain Evaluation of POS Taggers: From Wall Street Journal to Fandom Wiki ( http://arxiv.org/abs/2304.13989v1 )

ライセンス: Link先を確認
Kia Kirstein Hansen, Rob van der Goot(参考訳) Penn Treebank の Wall Street Journal のセクションは POS タグを長い間評価するためのデファクトスタンダードであり、97 % 以上の精度が報告されている。 しかし、特にきめ細かいラベルセットでは、ドメイン外タグのパフォーマンスについてはあまり知られていない。 the stanford tagger (toutanova et al. 2003) と bilty (plank et al. 2016) という2つのposタグのクロスドメインパフォーマンスを定性的に評価するための控えめなデータセットを作成しました。 分析の結果、トレーニング中に見られたトークンのパフォーマンスはドメイン内のパフォーマンスとほぼ同等であるが、未知のトークンの精度は90.37%から78.37%(スタンフォード)、87.84\%(ビルティ)に低下した。 両方のタグガーは適切な名詞と矛盾しない資本化と戦っている。

The Wall Street Journal section of the Penn Treebank has been the de-facto standard for evaluating POS taggers for a long time, and accuracies over 97\% have been reported. However, less is known about out-of-domain tagger performance, especially with fine-grained label sets. Using data from Elder Scrolls Fandom, a wiki about the \textit{Elder Scrolls} video game universe, we create a modest dataset for qualitatively evaluating the cross-domain performance of two POS taggers: the Stanford tagger (Toutanova et al. 2003) and Bilty (Plank et al. 2016), both trained on WSJ. Our analyses show that performance on tokens seen during training is almost as good as in-domain performance, but accuracy on unknown tokens decreases from 90.37% to 78.37% (Stanford) and 87.84\% to 80.41\% (Bilty) across domains. Both taggers struggle with proper nouns and inconsistent capitalization.
翻訳日:2023-04-28 14:17:29 公開日:2023-04-27
# 変圧器による輪郭補完とベクトルフォントデータへの応用

Contour Completion by Transformers and Its Application to Vector Font Data ( http://arxiv.org/abs/2304.13988v1 )

ライセンス: Link先を確認
Yusuke Nagata, Brian Kenji Iwana, Seiichi Uchida(参考訳) 文書やグラフィックでは、輪郭は特定の形状を記述するための一般的なフォーマットである。 例えば、true type font (ttf) ファイルフォーマットでは、contours はフォントの形状のベクトルアウトラインを記述する。 各輪郭はしばしば点の列として定義される。 本稿では,輪郭完成タスクに取り組む。 このタスクでは、入力は欠点のある輪郭列であり、出力は生成された完成輪郭である。 この処理は、画像に対して欠落したピクセルを示すため、画像補完よりも難しい。 輪郭完了タスクにはそのような表示がないため、欠落部分の検出と完了を同時に解決しなければならない。 本稿では,この問題を解決するためのトランスフォーマーに基づく手法を提案し,フォントの輪郭補完結果を示す。

In documents and graphics, contours are a popular format to describe specific shapes. For example, in the True Type Font (TTF) file format, contours describe vector outlines of typeface shapes. Each contour is often defined as a sequence of points. In this paper, we tackle the contour completion task. In this task, the input is a contour sequence with missing points, and the output is a generated completed contour. This task is more difficult than image completion because, for images, the missing pixels are indicated. Since there is no such indication in the contour completion task, we must solve the problem of missing part detection and completion simultaneously. We propose a Transformer-based method to solve this problem and show the results of the typeface contour completion.
翻訳日:2023-04-28 14:17:06 公開日:2023-04-27
# 圧縮センシングのための最適化インスパイアクロスタッチトランス

Optimization-Inspired Cross-Attention Transformer for Compressive Sensing ( http://arxiv.org/abs/2304.13986v1 )

ライセンス: Link先を確認
Jiechong Song, Chong Mou, Shiqi Wang, Siwei Ma, Jian Zhang(参考訳) 特定の最適化ソルバをディープニューラルネットワークに統合することにより、深い展開ネットワーク(DUN)の解釈性と高いパフォーマンスが向上し、圧縮センシング(CS)に注目が集まっている。 しかし、既存のダンは、多くのパラメーターの値段で視覚品質を改善し、イテレーション中に特徴情報を失うという問題を抱えることが多い。 本稿では,OCTモジュールを反復処理として提案し,OCTUF(OCT-based Unfolding Framework)を画像CSに導入する。 具体的には、Inertia-Supplied Cross Attention (ISCA) ブロックと Projection-Guided Cross Attention (PGCA) ブロックからなる新しいDual Cross Attention (Dual-CA) サブモジュールを設計する。 ISCAブロックはマルチチャネル慣性力を導入し、隣接イテレーション間のクロスアテンション機構によりメモリ効果を高める。 また、PGCAブロックは情報相互作用の強化を実現し、クロスアテンションブロックを介して勾配降下ステップに慣性力を導入する。 CS実験により, OCTUFは最先端の手法に比べて高い性能を示しながら, より低い複雑さを訓練した。 コードはhttps://github.com/songjiechong/octufで入手できる。

By integrating certain optimization solvers with deep neural networks, deep unfolding network (DUN) with good interpretability and high performance has attracted growing attention in compressive sensing (CS). However, existing DUNs often improve the visual quality at the price of a large number of parameters and have the problem of feature information loss during iteration. In this paper, we propose an Optimization-inspired Cross-attention Transformer (OCT) module as an iterative process, leading to a lightweight OCT-based Unfolding Framework (OCTUF) for image CS. Specifically, we design a novel Dual Cross Attention (Dual-CA) sub-module, which consists of an Inertia-Supplied Cross Attention (ISCA) block and a Projection-Guided Cross Attention (PGCA) block. ISCA block introduces multi-channel inertia forces and increases the memory effect by a cross attention mechanism between adjacent iterations. And, PGCA block achieves an enhanced information interaction, which introduces the inertia force into the gradient descent step through a cross attention block. Extensive CS experiments manifest that our OCTUF achieves superior performance compared to state-of-the-art methods while training lower complexity. Codes are available at https://github.com/songjiechong/OCTUF.
翻訳日:2023-04-28 14:16:55 公開日:2023-04-27
# 移動型マッピングポイントクラウドのためのpanopticセグメンテーションの検討

A Review of Panoptic Segmentation for Mobile Mapping Point Clouds ( http://arxiv.org/abs/2304.13980v1 )

ライセンス: Link先を確認
Binbin Xiang, Yuanwen Yue, Torben Peters, Konrad Schindler(参考訳) 3dポイントクラウド パンオプティカルセグメンテーションは、結合タスクである (i)各点を意味クラスに割り当て、 (ii)各クラスのポイントをオブジェクトインスタンスに分割する。 近年,深層ニューラルネットワークの出現によるセマンティックセグメンテーションの急速な進歩を基盤として,このような総合的な3Dシーン理解への関心が高まっている。 しかし、今のところ、屋外のモバイル・マッピングデータの単眼セグメンテーションに関する研究はほとんどなく、体系的な比較は行われていない。 本論文はその隙間を塞ごうとする。 汎視的セグメンテーションパイプラインの組み立てに必要なビルディングブロックと関連する文献をレビューする。 さらに、路面マッピングの文脈における汎視的セグメンテーションの状態を評価するために、網羅的で体系的な実験を行うためにモジュールパイプラインを設置する。 副産物として、NPM3Dデータセットをインスタンスラベルを含むように拡張することで、そのタスクのための最初のパブリックデータセットも提供します。

3D point cloud panoptic segmentation is the combined task to (i) assign each point to a semantic class and (ii) separate the points in each class into object instances. Recently there has been an increased interest in such comprehensive 3D scene understanding, building on the rapid advances of semantic segmentation due to the advent of deep 3D neural networks. Yet, to date there is very little work about panoptic segmentation of outdoor mobile-mapping data, and no systematic comparisons. The present paper tries to close that gap. It reviews the building blocks needed to assemble a panoptic segmentation pipeline and the related literature. Moreover, a modular pipeline is set up to perform comprehensive, systematic experiments to assess the state of panoptic segmentation in the context of street mapping. As a byproduct, we also provide the first public dataset for that task, by extending the NPM3D dataset to include instance labels.
翻訳日:2023-04-28 14:16:33 公開日:2023-04-27
# 不確実な特徴を有する乾燥道路と負障害物の分離のための適応マスク融合ネットワーク

Adaptive-Mask Fusion Network for Segmentation of Drivable Road and Negative Obstacle With Untrustworthy Features ( http://arxiv.org/abs/2304.13979v1 )

ライセンス: Link先を確認
Zhen Feng, Yuchao Feng, Yanning Guo, Yuxiang Sun(参考訳) ドライビング可能な道路と負の障害物のセグメンテーションは、自動運転車の安全な運転に不可欠である。 現在、RGBや深度画像の融合など、セグメンテーション精度を向上させるために多くのマルチモーダル融合法が提案されている。 しかし、信頼できない特徴を持つ2つのモーダルデータを融合する場合、マルチモーダルネットワークの性能は単一のモーダルを使用するよりも低下する可能性がある。 本稿では,不確実な特徴として,深度画像における不確定深度データ(すなわち0ピクセル値)を持つ領域(例えば,深度測定範囲を超えている遠方物体)から抽出した特徴について述べる。 信頼できない特徴はセグメンテーションの結果を混乱させ、その結果は劣る結果をもたらす。 そこで本研究では,RGBと深度画像とを不整合で融合するために,適応重み付きマスクを融合モジュールに導入し,適応マスク融合ネットワーク(AMFNet)を提案する。 さらに,drivable road と negative obstacles segmentation のための npo データセットに基づく,手作業による基底真理のラベル付き大規模 rgb-depth データセットをリリースする。 広範な実験結果から,本ネットワークは他のネットワークと比較して最先端の性能が得られた。 私たちのコードとデータセットは以下の通りです。

Segmentation of drivable roads and negative obstacles is critical to the safe driving of autonomous vehicles. Currently, many multi-modal fusion methods have been proposed to improve segmentation accuracy, such as fusing RGB and depth images. However, we find that when fusing two modals of data with untrustworthy features, the performance of multi-modal networks could be degraded, even lower than those using a single modality. In this paper, the untrustworthy features refer to those extracted from regions (e.g., far objects that are beyond the depth measurement range) with invalid depth data (i.e., 0 pixel value) in depth images. The untrustworthy features can confuse the segmentation results, and hence lead to inferior results. To provide a solution to this issue, we propose the Adaptive-Mask Fusion Network (AMFNet) by introducing adaptive-weight masks in the fusion module to fuse features from RGB and depth images with inconsistency. In addition, we release a large-scale RGB-depth dataset with manually-labeled ground truth based on the NPO dataset for drivable roads and negative obstacles segmentation. Extensive experimental results demonstrate that our network achieves state-of-the-art performance compared with other networks. Our code and dataset are available at: https://github.com/lab-sun/AMFNet.
翻訳日:2023-04-28 14:16:16 公開日:2023-04-27
# 領域一般化のための適度な分布探索

Moderately Distributional Exploration for Domain Generalization ( http://arxiv.org/abs/2304.13976v1 )

ライセンス: Link先を確認
Rui Dai, Yonggang Zhang, Zhen Fang, Bo Han, Xinmei Tian(参考訳) ドメイン一般化(DG)は、トレーニングドメインと未知のターゲットドメイン間の分散シフトに取り組むことを目的としている。 新しいドメインの生成は最も効果的なアプローチの1つであるが、その性能向上は生成されたドメインと対象ドメインの分布差に依存する。 分布的ロバストな最適化は、不確実性集合内の領域を探索することで分布の不一致に取り組むことを約束する。 しかし、不確実性集合は圧倒的に大きくなり、DGの低信頼予測につながる。 これは、大きな不確実性セットが、トレーニングドメインと意味的に異なる要素を含むドメインを導入する可能性があるためである。 この問題に対処するために、ドメインの一般化のために$\textbf{mo}$derately $\textbf{d}$istributional $\textbf{e}$xploration (mode)を実行することを提案する。 具体的には、MODEはトレーニングドメインと同じ意味的要素を共有する不確実性$\textit{subset}$で分散探索を行う。 MODEは、未知のターゲット領域上で、証明可能な一般化性能を持つモデルを提供することができることを示す。 実験結果から,MODEは最先端のベースラインに比べて競争性能が高いことがわかった。

Domain generalization (DG) aims to tackle the distribution shift between training domains and unknown target domains. Generating new domains is one of the most effective approaches, yet its performance gain depends on the distribution discrepancy between the generated and target domains. Distributionally robust optimization is promising to tackle distribution discrepancy by exploring domains in an uncertainty set. However, the uncertainty set may be overwhelmingly large, leading to low-confidence prediction in DG. It is because a large uncertainty set could introduce domains containing semantically different factors from training domains. To address this issue, we propose to perform a $\textbf{mo}$derately $\textbf{d}$istributional $\textbf{e}$xploration (MODE) for domain generalization. Specifically, MODE performs distribution exploration in an uncertainty $\textit{subset}$ that shares the same semantic factors with the training domains. We show that MODE can endow models with provable generalization performance on unknown target domains. The experimental results show that MODE achieves competitive performance compared to state-of-the-art baselines.
翻訳日:2023-04-28 14:15:54 公開日:2023-04-27
# skinsam: segment anythingモデルによる皮膚がんのセグメント化の促進

SkinSAM: Empowering Skin Cancer Segmentation with Segment Anything Model ( http://arxiv.org/abs/2304.13973v1 )

ライセンス: Link先を確認
Mingzhe Hu, Yuheng Li, Xiaofeng Yang(参考訳) 皮膚がんは重篤で致命的な疾患であり、正確かつ効率的な診断と治療を必要とする。 手動追跡は診療所の現在の標準であるが、人的労力を削減し、精度を向上させるための自動化ツールが望まれている。 しかし、こうしたツールの開発は、背景の皮膚がんや複雑な物体の出現が極めて変化するため、困難である。 本稿では,セグメンテーション性能に優れたセグメンテーション・オールモデルに基づく微調整モデルであるskinsamを提案する。 モデルは10015の皮膚鏡画像を含むham10000データセットで検証される。 大型モデル (ViT_L, ViT_H) は小型モデル (ViT_b) よりも優れた性能を示したが, 微調整モデル (ViT_b_finetuned) は平均画素精度0.945, 平均ダイススコア0.8879, 平均IoUスコア0.7843であった。 病変のタイプでは血管病変が最良なセグメンテーション結果を示した。 本研究は,SAMを医用画像分割タスクに適用する可能性を示す。

Skin cancer is a prevalent and potentially fatal disease that requires accurate and efficient diagnosis and treatment. Although manual tracing is the current standard in clinics, automated tools are desired to reduce human labor and improve accuracy. However, developing such tools is challenging due to the highly variable appearance of skin cancers and complex objects in the background. In this paper, we present SkinSAM, a fine-tuned model based on the Segment Anything Model that showed outstanding segmentation performance. The models are validated on HAM10000 dataset which includes 10015 dermatoscopic images. While larger models (ViT_L, ViT_H) performed better than the smaller one (ViT_b), the finetuned model (ViT_b_finetuned) exhibited the greatest improvement, with a Mean pixel accuracy of 0.945, Mean dice score of 0.8879, and Mean IoU score of 0.7843. Among the lesion types, vascular lesions showed the best segmentation results. Our research demonstrates the great potential of adapting SAM to medical image segmentation tasks.
翻訳日:2023-04-28 14:15:34 公開日:2023-04-27
# 緩和仮定によるアダムの収束

Convergence of Adam Under Relaxed Assumptions ( http://arxiv.org/abs/2304.13972v1 )

ライセンス: Link先を確認
Haochuan Li, Ali Jadbabaie, Alexander Rakhlin(参考訳) 本稿では,適応モーメント推定(adam)アルゴリズムの幅広い最適化対象に対する収束の厳密な証明を提案する。 ディープニューラルネットワークのトレーニングにおけるアダムアルゴリズムの人気と効率性にもかかわらず、その理論的性質はまだ完全には理解されておらず、既存の収束証明は静止点への収束を示すために、グローバル境界勾配のような非現実的に強い仮定を必要とする。 本稿では、Adamがより現実的な条件下で、$\epsilon$-stationary points と $\mathcal{O}(\epsilon^{-4})$ gradient complexity に確実に収束することを示す。 我々の分析の鍵は最適化軌道に沿った勾配の有界性(英語版)(boundedness)の新たな証明であり、局所滑らか性(英語版)(hessian norm)が勾配ノルムの部分二次函数によって有界となる一般化された滑らか性仮定(英語版)の下でである。 さらに、Adamの分散還元版を$\mathcal{O}(\epsilon^{-3})$の加速勾配複雑性で提案する。

In this paper, we provide a rigorous proof of convergence of the Adaptive Moment Estimate (Adam) algorithm for a wide class of optimization objectives. Despite the popularity and efficiency of the Adam algorithm in training deep neural networks, its theoretical properties are not yet fully understood, and existing convergence proofs require unrealistically strong assumptions, such as globally bounded gradients, to show the convergence to stationary points. In this paper, we show that Adam provably converges to $\epsilon$-stationary points with $\mathcal{O}(\epsilon^{-4})$ gradient complexity under far more realistic conditions. The key to our analysis is a new proof of boundedness of gradients along the optimization trajectory, under a generalized smoothness assumption according to which the local smoothness (i.e., Hessian norm when it exists) is bounded by a sub-quadratic function of the gradient norm. Moreover, we propose a variance-reduced version of Adam with an accelerated gradient complexity of $\mathcal{O}(\epsilon^{-3})$.
翻訳日:2023-04-28 14:15:14 公開日:2023-04-27
# 表面欠陥検出に基づく少数データ学習のためのヒューマンマシン知識ハイブリッド化手法

Human-machine knowledge hybrid augmentation method for surface defect detection based few-data learning ( http://arxiv.org/abs/2304.13963v1 )

ライセンス: Link先を確認
Yu Gonga, Xiaoqiao Wanga, Chichun Zhou(参考訳) 視覚に基づく欠陥検出は,産業品質管理において極めて重要な課題である。 ほとんどの主流の手法は、補助情報として大量の既存または関連するドメインデータに依存している。 しかし、実際の工業生産では、タスク要求が急速に変化するマルチバッチで低ボリュームな製造シナリオがしばしばあり、十分かつ多様な欠陥データを得るのが困難である。 本稿では,人間と機械の知識のハイブリッド化手法を用いて,未知の重要な特徴の抽出を支援する並列解を提案する。 具体的には、専門家の異常に関する知識を取り入れて、豊富な特徴、位置、サイズ、背景を持つデータを作成することで、スクラッチから大量のデータを迅速に蓄積し、少数データ学習の事前知識としてモデルに提供することができる。 提案手法は,磁気タイルデータセット上で評価され,2,5,10,15のトレーニング画像を用いて,それぞれ60.73%,70.82%,77.09%,82.81%のf1スコアを達成した。 従来の拡張法F1スコアの64.59%と比較して, 提案法は18.22%向上し, 少数データ産業欠陥検出の可能性と有効性を示した。

Visual-based defect detection is a crucial but challenging task in industrial quality control. Most mainstream methods rely on large amounts of existing or related domain data as auxiliary information. However, in actual industrial production, there are often multi-batch, low-volume manufacturing scenarios with rapidly changing task demands, making it difficult to obtain sufficient and diverse defect data. This paper proposes a parallel solution that uses a human-machine knowledge hybrid augmentation method to help the model extract unknown important features. Specifically, by incorporating experts' knowledge of abnormality to create data with rich features, positions, sizes, and backgrounds, we can quickly accumulate an amount of data from scratch and provide it to the model as prior knowledge for few-data learning. The proposed method was evaluated on the magnetic tile dataset and achieved F1-scores of 60.73%, 70.82%, 77.09%, and 82.81% when using 2, 5, 10, and 15 training images, respectively. Compared to the traditional augmentation method's F1-score of 64.59%, the proposed method achieved an 18.22% increase in the best result, demonstrating its feasibility and effectiveness in few-data industrial defect detection.
翻訳日:2023-04-28 14:14:53 公開日:2023-04-27
# トランスフォーマーのsgdとアダムのギャップの主な要因はノイズではなく、サイン降下かもしれない

Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on Transformers, but Sign Descent Might Be ( http://arxiv.org/abs/2304.13960v1 )

ライセンス: Link先を確認
Frederik Kunstner, Jacques Chen, Jonathan Wilder Lavington, Mark Schmidt(参考訳) 幅広いアーキテクチャでadamオプティマイザが成功したことで、確率的勾配降下(sgd)がパフォーマンスの悪い設定ではデフォルトとなった。 しかし、この違いに対する理論的理解は遅れており、どちらのアルゴリズムにも大きな改善が生じるのを防いでいる。 最近の研究は、サンプリングによって引き起こされるエラーの分布が重く、アダムや他のヒューリスティックス、例えばグラデーション・クリッピングが言語タスクのsgdよりも優れているという仮説を推し進めている。 これは、アダムがより堅牢な勾配推定を使用するため、SGDより優れていることを示唆している。 バッチサイズをデータセット全体まで変更し,確率性を制御することにより,この仮説を評価する。 我々は,sgdとadamの性能差において,確率性や重み付き雑音は大きな要因ではないことを示す。 むしろ、Adamはバッチサイズが大きくなるにつれて性能が向上する一方、SGDはノイズ低減の利点を生かしにくい。 これはAdamがフルバッチ環境でSGDを上回った理由に関する疑問を提起する。 SGDのより単純な変種に関するさらなる研究により、大きなバッチを持つAdamの挙動は運動量を持つ符号降下と似ていることが判明した。

The success of the Adam optimizer on a wide array of architectures has made it the default in settings where stochastic gradient descent (SGD) performs poorly. However, our theoretical understanding of this discrepancy is lagging, preventing the development of significant improvements on either algorithm. Recent work advances the hypothesis that Adam and other heuristics like gradient clipping outperform SGD on language tasks because the distribution of the error induced by sampling has heavy tails. This suggests that Adam outperform SGD because it uses a more robust gradient estimate. We evaluate this hypothesis by varying the batch size, up to the entire dataset, to control for stochasticity. We present evidence that stochasticity and heavy-tailed noise are not major factors in the performance gap between SGD and Adam. Rather, Adam performs better as the batch size increases, while SGD is less effective at taking advantage of the reduction in noise. This raises the question as to why Adam outperforms SGD in the full-batch setting. Through further investigation of simpler variants of SGD, we find that the behavior of Adam with large batches is similar to sign descent with momentum.
翻訳日:2023-04-28 14:14:32 公開日:2023-04-27
# 感度曲線最大化によるロバスト分散学習方式の攻撃

Attacks on Robust Distributed Learning Schemes via Sensitivity Curve Maximization ( http://arxiv.org/abs/2304.14024v1 )

ライセンス: Link先を確認
Christian A. Schroth and Stefan Vlaski and Abdelhak M. Zoubir(参考訳) 分散学習パラダイム(federated あるいは decentralized learning)は、エージェントの集まりが、限られた局所的な相互作用を通じてグローバル学習と最適化の問題を解決することを可能にする。 このような戦略のほとんどは、ピア間や中央融合センターにおいて、局所的な適応と集約のステップの混合に依存している。 古典的には、分散学習における集約は、統計的に効率的だが少数の悪意のあるエージェントによる攻撃を受けやすい平均化に基づいている。 この観察は、平均のロバストなバリエーションを用いてロバストな集約スキームを開発する最近の多くの研究の動機となっている。 本研究では,感度曲線最大化(scm)に基づく新たな攻撃を提示し,小さいが効果的な摂動を注入することで,既存のロバストアグリゲーションスキームをディスラプトできることを実証する。

Distributed learning paradigms, such as federated or decentralized learning, allow a collection of agents to solve global learning and optimization problems through limited local interactions. Most such strategies rely on a mixture of local adaptation and aggregation steps, either among peers or at a central fusion center. Classically, aggregation in distributed learning is based on averaging, which is statistically efficient, but susceptible to attacks by even a small number of malicious agents. This observation has motivated a number of recent works, which develop robust aggregation schemes by employing robust variations of the mean. We present a new attack based on sensitivity curve maximization (SCM), and demonstrate that it is able to disrupt existing robust aggregation schemes by injecting small, but effective perturbations.
翻訳日:2023-04-28 14:07:06 公開日:2023-04-27
# 熱力学的非定常測定におけるメトロロジー

Metrology in the Presence of Thermodynamically Consistent Measurements ( http://arxiv.org/abs/2304.14022v1 )

ライセンス: Link先を確認
Muthumanimaran Vetrivelan, Abhisek Panda and Sai Vinjanampathy(参考訳) 熱力学的に一貫した測定は、統計(偏りのない)を保持するか、限界状態(侵襲的でない)を保存するかのどちらかである。 ここでは、上記各測定タイプを不平等に好む大局的タスクの存在を示す。 我々は,弱値増幅法と再設定のない繰り返し計測法という,二つの異なるメトロロジー課題を考える。 前者にとって非侵襲的測定よりも非侵襲的測定の方が優れており,後者は逆である。 本研究では,実際の計測に必要な冷却量を推定するトランスモンセンサの有限温度シミュレーションを提案する。

Thermodynamically consistent measurements can either preserve statistics (unbiased) or preserve marginal states (non-invasive) but not both. Here we show the existence of metrological tasks which unequally favor each of the aforementioned measurement types. We consider two different metrology tasks, namely weak value amplification technique and repeated metrology without resetting. We observe that unbiased measurement is better than non-invasive measurement for the former and the converse is true for the latter. We provide finite temperature simulations of transmon sensors which estimate how much cooling, a resource for realistic measurements, is required to perform these metrology tasks.
翻訳日:2023-04-28 14:06:52 公開日:2023-04-27
# XAIを用いた音声イベント分類のための入力表現の比較

XAI-based Comparison of Input Representations for Audio Event Classification ( http://arxiv.org/abs/2304.14019v1 )

ライセンス: Link先を確認
Annika Frommholz, Fabian Seipel, Sebastian Lapuschkin, Wojciech Samek, Johanna Vielhaben(参考訳) ディープニューラルネットワークは、オーディオイベントの分類に有望なツールである。 自然画像のような他のデータとは対照的に、これらのモデルへの入力として機能する音声データには、多くの知覚可能で観測不能な表現がある。 ブラックボックスの性質から,従来は異なる入力表現の効果を分類性能の測定によって検討してきた。 本研究では、eXplainable AI(XAI)を活用し、異なる入力表現に基づいてトレーニングされたモデルの基本的な分類戦略を理解する。 具体的には,2つのモデルアーキテクチャと,音声イベント検出に用いる入力特性を比較した。1つは信号を直接生波形として処理し,もう1つは時間周波数スペクトル表現を取る。 siren"{layer-wise associated propagation} によって得られた関連ヒートマップが,表現依存的決定戦略を明らかにする方法を示す。 これらの知見により、ロバスト性や表現性の観点から最良の入力表現について十分な情報を得た決定を行い、モデルの分類戦略が人間の要求と一致していることを確認することができる。

Deep neural networks are a promising tool for Audio Event Classification. In contrast to other data like natural images, there are many sensible and non-obvious representations for audio data, which could serve as input to these models. Due to their black-box nature, the effect of different input representations has so far mostly been investigated by measuring classification performance. In this work, we leverage eXplainable AI (XAI), to understand the underlying classification strategies of models trained on different input representations. Specifically, we compare two model architectures with regard to relevant input features used for Audio Event Detection: one directly processes the signal as the raw waveform, and the other takes in its time-frequency spectrogram representation. We show how relevance heatmaps obtained via "Siren"{Layer-wise Relevance Propagation} uncover representation-dependent decision strategies. With these insights, we can make a well-informed decision about the best input representation in terms of robustness and representativity and confirm that the model's classification strategies align with human requirements.
翻訳日:2023-04-28 14:06:39 公開日:2023-04-27
# 異種エージェントのシステムにおける情報通信とシステムのダイナミクス

communication of information in systems of heterogenious agents and systems' dynamics ( http://arxiv.org/abs/2304.14013v1 )

ライセンス: Link先を確認
Inga Ivanova(参考訳) 複雑なシステムにおける情報通信は、システムの進化の主要な要因とみなすことができる。 重要なのは、通信された情報そのものではなく、情報に供給される意味です。 しかし、異なる意味処理構造を持つ情報の符号化と復号を行う異種エージェントのシステムにおける情報交換は、単純な入出力モデルよりも複雑である。 3つ以上のエージェントからなるシステムにおけるコーディングとデコーディングのアルゴリズムの構造的な違いは、異なる通信コードのセットを楽しませ、システムのダイナミクスに影響を与える追加のオプションのソースを提供する。 意味と情報処理のメカニズムをモデルフレームワークとして分析的に評価することができる。 その結果, モデル予測は, 経験的に観察されたデータを異なる論理系に適合させることがわかった。

Communication of information in complex systems can be considered as major driver of systems evolution. What matters is not the communicated information by itself but rather the meaning that is supplied to the information. However informational exchange in a system of heterogenious agents, which code and decode information with different meaning processing structures, is more complex than simple input-output model. The structural difference of coding and decoding algorithms in a system of three or more groups of agents, entertaining different sets of communication codes,provide a source of additional options which has an impact on system's dynamics. The mechanisms of meaning and information processing can be evaluated analytically ion a model framework. The results show that model predictions acccurately fit empirically observed data in systems of different origions.
翻訳日:2023-04-28 14:06:23 公開日:2023-04-27
# 編集はすべて:画像編集のためのテキストガイド生成システム

Edit Everything: A Text-Guided Generative System for Images Editing ( http://arxiv.org/abs/2304.14006v1 )

ライセンス: Link先を確認
Defeng Xie, Ruichen Wang, Jian Ma, Chen Chen, Haonan Lu, Dong Yang, Fobo Shi, Xiaodong Lin(参考訳) 我々は、画像とテキストの入力を取り込み、画像出力を生成できるEdit Everythingと呼ばれる新しい生成システムを導入する。 Edit Everythingを使えばユーザーは簡単なテキストで画像を編集できる。 システム設計では,要求画像の生成において視覚モジュールを誘導する。 実験では、すべての編集が、Segment AnythingモデルとCLIPを使用して、安定拡散の視覚的側面の実装を促進することを示した。 私たちのシステムはhttps://github.com/DefengXie/Edit_Everything.comで公開されています。

We introduce a new generative system called Edit Everything, which can take image and text inputs and produce image outputs. Edit Everything allows users to edit images using simple text instructions. Our system designs prompts to guide the visual module in generating requested images. Experiments demonstrate that Edit Everything facilitates the implementation of the visual aspects of Stable Diffusion with the use of Segment Anything model and CLIP. Our system is publicly available at https://github.com/DefengXie/Edit_Everything.
翻訳日:2023-04-28 14:06:12 公開日:2023-04-27
# ContraNeRF: Unsupervised Implicit Pose Embeddingを用いたコントラスト学習による3次元認識生成モデル

ContraNeRF: 3D-Aware Generative Model via Contrastive Learning with Unsupervised Implicit Pose Embedding ( http://arxiv.org/abs/2304.14005v1 )

ライセンス: Link先を確認
Mijeoong Kim, Hyunjoon Lee, Bohyung Han(参考訳) ニューラルラディアンス場に基づく3D認識型GANは競争性能は高いが、その適用性は、明確に定義された標準カメラのポーズに対して、接地真実や予測モデルを持つオブジェクトやシーンに限られている。 適用可能なデータセットの範囲を拡大するため,暗黙のポーズ埋め込みを用いたコントラスト学習による新しい3D対応GAN最適化手法を提案する。 この目的のために,まず識別器の設計を改訂し,地上カメラのポーズへの依存を除去した。 そして,複雑な3次元シーン構造をより効果的に捉えるため,識別器は画像から隠れた高次元の暗黙のポーズを推定し,ポーズの埋め込みについてコントラスト学習を行う。 提案手法は、カメラのポーズを検索したり推定したりしないため、標準カメラのポーズが未定義であるデータセットに使用できる。 実験の結果,本アルゴリズムは,複数の対象カテゴリと非整合な正準カメラポーズを持つデータセットにおいて,既存の手法を大きなマージンで上回っていることがわかった。

Although 3D-aware GANs based on neural radiance fields have achieved competitive performance, their applicability is still limited to objects or scenes with the ground-truths or prediction models for clearly defined canonical camera poses. To extend the scope of applicable datasets, we propose a novel 3D-aware GAN optimization technique through contrastive learning with implicit pose embeddings. To this end, we first revise the discriminator design and remove dependency on ground-truth camera poses. Then, to capture complex and challenging 3D scene structures more effectively, we make the discriminator estimate a high-dimensional implicit pose embedding from a given image and perform contrastive learning on the pose embedding. The proposed approach can be employed for the dataset, where the canonical camera pose is ill-defined because it does not look up or estimate camera poses. Experimental results show that our algorithm outperforms existing methods by large margins on the datasets with multiple object categories and inconsistent canonical camera poses.
翻訳日:2023-04-28 14:06:05 公開日:2023-04-27
# Mimic-IV-ICD: eXtreme MultiLabel 分類の新しいベンチマーク

Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification ( http://arxiv.org/abs/2304.13998v1 )

ライセンス: Link先を確認
Thanh-Tung Nguyen, Viktor Schlegel, Abhinav Kashyap, Stefan Winkler, Shao-Syuan Huang, Jie-Jyun Liu, Chih-Jen Lin(参考訳) 臨床ノートにはicdコード(診断と処置のための一連のコード)が割り当てられている。 近年、自動ICD符号化のための予測機械学習モデルが構築されている。 しかし、大規模な公開EHRデータに基づく自動ICD符号化モデルに対する広く受け入れられているベンチマークは欠如している。 本稿では,最新の公開EHRデータセットであるMIMIC-IVから派生した大規模なEHRデータセットを用いて,ICD-10の公開ベンチマークスイートを提案する。 我々は,icd符号化予測タスクのための一般的な手法をいくつか実装・比較し,データプリプロセッシングを標準化し,総合的なicd符号化ベンチマークデータセットを構築した。 このアプローチは再現性とモデルの比較を助長し、将来の研究でicdコーディングを自動化するための進歩を加速する。 さらに、MIMIC-IVデータを用いた新しいICD-9ベンチマークを作成し、MIMIC-IIIよりもより多くのデータポイントと多くのICDコードを提供する。 我々のオープンソースコードは、MIMIC-IVアクセスを持つ人々に対して、データ処理ステップへの容易にアクセス、ベンチマーク作成、実験レプリケーションを提供し、ICDコーディングモデルを効率的に開発するための洞察、ガイダンス、プロトコルを提供します。

Clinical notes are assigned ICD codes - sets of codes for diagnoses and procedures. In the recent years, predictive machine learning models have been built for automatic ICD coding. However, there is a lack of widely accepted benchmarks for automated ICD coding models based on large-scale public EHR data. This paper proposes a public benchmark suite for ICD-10 coding using a large EHR dataset derived from MIMIC-IV, the most recent public EHR dataset. We implement and compare several popular methods for ICD coding prediction tasks to standardize data preprocessing and establish a comprehensive ICD coding benchmark dataset. This approach fosters reproducibility and model comparison, accelerating progress toward employing automated ICD coding in future studies. Furthermore, we create a new ICD-9 benchmark using MIMIC-IV data, providing more data points and a higher number of ICD codes than MIMIC-III. Our open-source code offers easy access to data processing steps, benchmark creation, and experiment replication for those with MIMIC-IV access, providing insights, guidance, and protocols to efficiently develop ICD coding models.
翻訳日:2023-04-28 14:05:45 公開日:2023-04-27
# 暗黙的表現を用いた回転および変換不変表現学習

Rotation and Translation Invariant Representation Learning with Implicit Neural Representations ( http://arxiv.org/abs/2304.13995v1 )

ライセンス: Link先を確認
Sehyun Kwon, Joo Young Choi, Ernest K. Ryu(参考訳) 多くのコンピュータビジョンアプリケーションでは、画像は任意またはランダムな回転と変換で取得され、そのような設定では、画像の向きから切り離された意味表現を得ることが望ましい。 そのような応用例としては、半導体ウェハ欠陥検査、プランクトン顕微鏡像、単結晶電子顕微鏡(cryo-EM)マイクログラフの推測がある。 Invariant Representation Learning with Implicit Neural Representation (IRL-INR) は、暗黙的ニューラル表現(INR)とハイパーネットワークを用いて、画像の向きから切り離された意味表現を得る。 IRL-INRは,従来検討されていたものと比較して,より複雑な画像上の不整合セマンティック表現を効果的に学習できることを示し,これらのセマンティック表現がSCANとうまく相乗して,最先端の教師なしクラスタリング結果を生成することを示す。

In many computer vision applications, images are acquired with arbitrary or random rotations and translations, and in such setups, it is desirable to obtain semantic representations disentangled from the image orientation. Examples of such applications include semiconductor wafer defect inspection, plankton microscope images, and inference on single-particle cryo-electron microscopy (cryo-EM) micro-graphs. In this work, we propose Invariant Representation Learning with Implicit Neural Representation (IRL-INR), which uses an implicit neural representation (INR) with a hypernetwork to obtain semantic representations disentangled from the orientation of the image. We show that IRL-INR can effectively learn disentangled semantic representations on more complex images compared to those considered in prior works and show that these semantic representations synergize well with SCAN to produce state-of-the-art unsupervised clustering results.
翻訳日:2023-04-28 14:05:28 公開日:2023-04-27
# SweCTRL-Mini:スウェーデンにおける制御可能なテキスト生成のためのデータ透過トランスフォーマーに基づく大規模言語モデル

SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish ( http://arxiv.org/abs/2304.13994v1 )

ライセンス: Link先を確認
Dmytro Kalpakchi, Johan Boye(参考訳) SweCTRL-Miniは,1つのコンシューマグレードGPU上での推論と微調整に使用できる,スウェーデンの大規模言語モデルである。 このモデルはKeskar, McCann, Varshney, Xiong, Socher (2019)によるCTRLアーキテクチャに基づいており、SweCTRL-Miniモデルのユーザは生成プロンプトに特別なトークンを挿入することで生成されたテキストのジャンルを制御できる。 SweCTRL-MiniはスウェーデンのmC4コーパスのサブセットとスウェーデンの小説のセットで訓練されている。 本稿では,(1)使用済みの訓練データとテキストの前処理ステップの詳細な説明,(2)特定のフレーズ/ソースが訓練データの一部であったかどうかの確認,(2)自動評価手法と生成課題を用いた判別作業におけるモデルの評価について述べる。 また,モデル生成能力とGPT-3の比較を行った。 SweCTRL-Miniは完全にオープンで、ダウンロードできる。

We present SweCTRL-Mini, a large Swedish language model that can be used for inference and fine-tuning on a single consumer-grade GPU. The model is based on the CTRL architecture by Keskar, McCann, Varshney, Xiong, and Socher (2019), which means that users of the SweCTRL-Mini model can control the genre of the generated text by inserting special tokens in the generation prompts. SweCTRL-Mini is trained on a subset of the Swedish part of the mC4 corpus and a set of Swedish novels. In this article, we provide (1) a detailed account of the utilized training data and text pre-processing steps, to the extent that it is possible to check whether a specific phrase/source was a part of the training data, and (2) an evaluation of the model on both discriminative tasks, using automatic evaluation methods, and generative tasks, using human referees. We also compare the generative capabilities of the model with those of GPT-3. SweCTRL-Mini is fully open and available for download.
翻訳日:2023-04-28 14:05:08 公開日:2023-04-27
# Vision Conformer: Vision Transformer層にコンボリューションを組み込む

Vision Conformer: Incorporating Convolutions into Vision Transformer Layers ( http://arxiv.org/abs/2304.13991v1 )

ライセンス: Link先を確認
Brian Kenji Iwana, Akihiro Kusuda(参考訳) トランスフォーマーは、組み込みトークンを備えた自己アテンションと完全接続ノードのレイヤを使用する一般的なニューラルネットワークモデルである。 視覚トランスフォーマー(vit)は画像認識タスクにトランスフォーマーを適応させる。 これを行うために、イメージはパッチに分割され、トークンとして使用される。 ViTの1つの問題は、画像構造に対する帰納バイアスの欠如である。 ViTは言語モデリングからの画像データに適応しているため、ローカル翻訳、ピクセル情報、複数パッチで共有される構造や特徴の情報損失といった問題に明示的に対応していない。 逆に、畳み込みニューラルネットワーク(CNN)はこの情報を取り入れている。 そこで本稿では,ViT内における畳み込み層の利用を提案する。 具体的には,vit層の多層パーセプトロン(mlp)をcnnに置き換える視覚適合器(vic)と呼ばれるモデルを提案する。 また,cnnを利用するために,逆埋め込み層における自己付着後の画像データの再構成を提案する。 評価を通じて,提案した畳み込みは,ViTの分類能力の向上に役立つことを示す。

Transformers are popular neural network models that use layers of self-attention and fully-connected nodes with embedded tokens. Vision Transformers (ViT) adapt transformers for image recognition tasks. In order to do this, the images are split into patches and used as tokens. One issue with ViT is the lack of inductive bias toward image structures. Because ViT was adapted for image data from language modeling, the network does not explicitly handle issues such as local translations, pixel information, and information loss in the structures and features shared by multiple patches. Conversely, Convolutional Neural Networks (CNN) incorporate this information. Thus, in this paper, we propose the use of convolutional layers within ViT. Specifically, we propose a model called a Vision Conformer (ViC) which replaces the Multi-Layer Perceptron (MLP) in a ViT layer with a CNN. In addition, to use the CNN, we proposed to reconstruct the image data after the self-attention in a reverse embedding layer. Through the evaluation, we demonstrate that the proposed convolutions help improve the classification ability of ViT.
翻訳日:2023-04-28 14:04:46 公開日:2023-04-27
# 解釈可能なニューラルシンボリック概念推論

Interpretable Neural-Symbolic Concept Reasoning ( http://arxiv.org/abs/2304.14068v1 )

ライセンス: Link先を確認
Pietro Barbiero, Gabriele Ciravegna, Francesco Giannini, Mateo Espinosa Zarlenga, Lucie Charlotte Magister, Alberto Tonda, Pietro Lio', Frederic Precioso, Mateja Jamnik, Giuseppe Marra(参考訳) ディープラーニングの手法は非常に正確だが、その不透明な決定プロセスは、完全な人間の信頼を得ることを妨げている。 概念ベースのモデルは、人間の理解可能な概念のセットに基づいてタスクを学習することでこの問題に対処しようとしている。 しかし、最先端の概念に基づくモデルは、明確な意味的意味を欠いた高次元概念埋め込み表現に依存するため、決定プロセスの解釈可能性に疑問を呈する。 この制限を克服するために,概念埋め込みに基づく最初の解釈可能な概念ベースモデルであるDeep Concept Reasoner (DCR)を提案する。 DCRでは、ニューラルネットワークはタスク予測を直接行うのではなく、概念埋め込みを使用して構文ルール構造を構築する。 DCRはこれらのルールを意味のある概念の真理度で実行し、最終的な解釈可能かつ意味的に一貫性のある予測を微分可能な方法で提供する。 我々の実験はDCRが示す。 i) 挑戦的ベンチマーク上での最先端の解釈可能な概念ベースモデルに最大25%の改善 (ii)訓練中の概念監督がなくても、既知の根拠の真理に合致する有意義な論理規則を発見し、 (iii) 学習ルールをガイダンスとして提供する反実例の生成を促進する。

Deep learning methods are highly accurate, yet their opaque decision process prevents them from earning full human trust. Concept-based models aim to address this issue by learning tasks based on a set of human-understandable concepts. However, state-of-the-art concept-based models rely on high-dimensional concept embedding representations which lack a clear semantic meaning, thus questioning the interpretability of their decision process. To overcome this limitation, we propose the Deep Concept Reasoner (DCR), the first interpretable concept-based model that builds upon concept embeddings. In DCR, neural networks do not make task predictions directly, but they build syntactic rule structures using concept embeddings. DCR then executes these rules on meaningful concept truth degrees to provide a final interpretable and semantically-consistent prediction in a differentiable manner. Our experiments show that DCR: (i) improves up to +25% w.r.t. state-of-the-art interpretable concept-based models on challenging benchmarks (ii) discovers meaningful logic rules matching known ground truths even in the absence of concept supervision during training, and (iii), facilitates the generation of counterfactual examples providing the learnt rules as guidance.
翻訳日:2023-04-28 13:59:01 公開日:2023-04-27
# リモートセンシング時系列用軽量予習変圧器

Lightweight, Pre-trained Transformers for Remote Sensing Timeseries ( http://arxiv.org/abs/2304.14065v1 )

ライセンス: Link先を確認
Gabriel Tseng, Ivan Zvonkov, Mirali Purohit, David Rolnick, Hannah Kerner(参考訳) リモートセンシングデータを解析する機械学習アルゴリズムには、社会的に関係のある幅広い応用があるが、これらのアルゴリズムを訓練するのに使われるラベルは、取得が困難または不可能である。 この課題は、ラベル付きデータセットが小さい地理的領域やアプリケーション領域での機械学習の使用を解き放つことを目的とした、リモートセンシングデータの自己教師あり学習の研究を促した。 リモートセンシングデータに対する現在の自己教師付き学習アプローチは、自然画像に適用された技術から大きなインスピレーションを得ている。 しかし、リモートセンシングデータには、自然画像との重要な違いがある。例えば、時間次元は多くのタスクに重要であり、多くの補完センサーからデータが収集される。 リモートセンシングデータに特化して設計したモデルと自己教師型トレーニング技術により,より小型かつ高性能なモデルが得られることを示す。 本稿では,リモートセンシング画素時系列データに基づくトランスモデルであるPretrained Remote Sensing Transformer(Presto)を紹介する。 Prestoは世界中に分散したリモートセンシングタスクに優れ、はるかに大きなモデルより優れている。 Prestoは、転送学習や単純なモデルの機能抽出に使用することができ、大規模に効率的にデプロイできる。

Machine learning algorithms for parsing remote sensing data have a wide range of societally relevant applications, but labels used to train these algorithms can be difficult or impossible to acquire. This challenge has spurred research into self-supervised learning for remote sensing data aiming to unlock the use of machine learning in geographies or application domains where labelled datasets are small. Current self-supervised learning approaches for remote sensing data draw significant inspiration from techniques applied to natural images. However, remote sensing data has important differences from natural images -- for example, the temporal dimension is critical for many tasks and data is collected from many complementary sensors. We show that designing models and self-supervised training techniques specifically for remote sensing data results in both smaller and more performant models. We introduce the Pretrained Remote Sensing Transformer (Presto), a transformer-based model pre-trained on remote sensing pixel-timeseries data. Presto excels at a wide variety of globally distributed remote sensing tasks and outperforms much larger models. Presto can be used for transfer learning or as a feature extractor for simple models, enabling efficient deployment at scale.
翻訳日:2023-04-28 13:58:43 公開日:2023-04-27
# PAC学習のパラメータ化理論

A Parameterized Theory of PAC Learning ( http://arxiv.org/abs/2304.14058v1 )

ライセンス: Link先を確認
Cornelius Brand, Robert Ganian, Kirill Simonov(参考訳) おそらくおよそ正しい(すなわち、PAC学習は標本複雑性理論の中核概念であり、PAC学習性は古典的な計算複雑性においてクラスPと自然に相反するものとしてしばしば見なされる。 しかし、パラメータ化複雑性の初期の理論により、古典的な計算複雑性におけるP-NP ``dichotomy'' を超えて、多くの問題に対するトラクタビリティの正確な境界を特定できるようになったが、効率的なPAC学習可能性を超えることができるサンプル複雑性の領域に類似性はない。 このギャップを埋めるために、パラメータ化されたPAC学習の理論を開発し、パラメータ化された複雑性の要素を組み込んだ最近のPAC学習結果に新たな光を当てることができる。 この理論では、パラメータ化複雑性パラダイムの中心にあるFPTクラスと異なる相違点を形成する固定パラメータ学習性の概念を1つではなく2つ同定し、固定パラメータ学習性を排除するために必要な機械を開発する。 次に,CNF と DNF 学習におけるトラクタビリティの洗練された境界と,グラフ上での学習問題について,この理論の適用例を示す。

Probably Approximately Correct (i.e., PAC) learning is a core concept of sample complexity theory, and efficient PAC learnability is often seen as a natural counterpart to the class P in classical computational complexity. But while the nascent theory of parameterized complexity has allowed us to push beyond the P-NP ``dichotomy'' in classical computational complexity and identify the exact boundaries of tractability for numerous problems, there is no analogue in the domain of sample complexity that could push beyond efficient PAC learnability. As our core contribution, we fill this gap by developing a theory of parameterized PAC learning which allows us to shed new light on several recent PAC learning results that incorporated elements of parameterized complexity. Within the theory, we identify not one but two notions of fixed-parameter learnability that both form distinct counterparts to the class FPT -- the core concept at the center of the parameterized complexity paradigm -- and develop the machinery required to exclude fixed-parameter learnability. We then showcase the applications of this theory to identify refined boundaries of tractability for CNF and DNF learning as well as for a range of learning problems on graphs.
翻訳日:2023-04-28 13:58:27 公開日:2023-04-27
# 非線形データ駆動ダイナミクスモデルにおけるカーネル曖昧性集合の伝播

Propagating Kernel Ambiguity Sets in Nonlinear Data-driven Dynamics Models ( http://arxiv.org/abs/2304.14057v1 )

ライセンス: Link先を確認
Jia-Jie Zhu(参考訳) 例えば、カーネル条件付き平均埋め込み(CME)やクープマン演算子のような非線形データ駆動力学系モデルを考えると、複数のステップに対して曖昧性集合をどう伝播させるのか? この問題は、データ分散シフトの下で、そのような学習システムモデルの分散ロバストな制御と学習に基づく制御を解決する鍵となる。 静的な曖昧性集合、例えば固定されたワッサースタイン球体や既知の区分線形(あるいはアフィン)力学の下で動的曖昧性集合を使用する以前の作品とは異なり、コオプマン作用素とcmeを用いて非線形データ駆動モデルを通じて、カーネルの最大平均偏差幾何学を介して、曖昧性集合を正確に伝播するアルゴリズムを提案する。 理論と数値解析の両方を通して、我々の核曖昧性集合は学習データ駆動力学系モデルの自然な幾何学的構造であることを示した。

This paper provides answers to an open problem: given a nonlinear data-driven dynamical system model, e.g., kernel conditional mean embedding (CME) and Koopman operator, how can one propagate the ambiguity sets forward for multiple steps? This problem is the key to solving distributionally robust control and learning-based control of such learned system models under a data-distribution shift. Different from previous works that use either static ambiguity sets, e.g., fixed Wasserstein balls, or dynamic ambiguity sets under known piece-wise linear (or affine) dynamics, we propose an algorithm that exactly propagates ambiguity sets through nonlinear data-driven models using the Koopman operator and CME, via the kernel maximum mean discrepancy geometry. Through both theoretical and numerical analysis, we show that our kernel ambiguity sets are the natural geometric structure for the learned data-driven dynamical system models.
翻訳日:2023-04-28 13:58:07 公開日:2023-04-27
# T1強調MRIにおけるFat-free Thigh muscle Segmentationの精度

Precise Few-shot Fat-free Thigh Muscle Segmentation in T1-weighted MRI ( http://arxiv.org/abs/2304.14053v1 )

ライセンス: Link先を確認
Sheng Chen, Zihao Tang, Dongnan Liu, Ch\'e Fornusek, Michael Barnett, Chenyu Wang, Mariano Cabezas, Weidong Cai(参考訳) 重症大腿筋量(英語版)は、種々の大腿筋喪失を引き起こす疾患患者の運動機能を監視するために重要である。 T1強調MRIは、筋信号と脂肪信号のコントラストにより、大腿筋マスクを得るためのデフォルトのサロゲートである。 ディープラーニングのアプローチは最近、セグメンテーションを通じてこれらのマスクを取得するために広く使われている。 しかし, 詳細な注釈が不十分なため, 深層学習による大腿筋マスクは筋容積分析に影響を及ぼす筋肉として筋内脂肪 (IMF) を誤分類する傾向にある。 IMFは筋肉の中に浸透しているため、人間のアノテーションには専門知識と時間が必要である。 したがって、imfを除外した正確な筋肉マスクは実際に限定される。 そこで本研究では,imf を除いた大腿筋マスク生成のための数ショットセグメンテーションフレームワークを提案する。 提案手法では,新しい擬似ラベル補正と評価手法を設計し,高確実性領域を活用できる新しいノイズロバスト損失を設計する。 提案フレームワークは,細かな注釈付きトレーニングデータセットの1~%$しか受け取らず,実験結果に従えば,完全な教師付き手法で同等のパフォーマンスを達成している。

Precise thigh muscle volumes are crucial to monitor the motor functionality of patients with diseases that may result in various degrees of thigh muscle loss. T1-weighted MRI is the default surrogate to obtain thigh muscle masks due to its contrast between muscle and fat signals. Deep learning approaches have recently been widely used to obtain these masks through segmentation. However, due to the insufficient amount of precise annotations, thigh muscle masks generated by deep learning approaches tend to misclassify intra-muscular fat (IMF) as muscle impacting the analysis of muscle volumetrics. As IMF is infiltrated inside the muscle, human annotations require expertise and time. Thus, precise muscle masks where IMF is excluded are limited in practice. To alleviate this, we propose a few-shot segmentation framework to generate thigh muscle masks excluding IMF. In our framework, we design a novel pseudo-label correction and evaluation scheme, together with a new noise robust loss for exploiting high certainty areas. The proposed framework only takes $1\%$ of the fine-annotated training dataset, and achieves comparable performance with fully supervised methods according to the experimental results.
翻訳日:2023-04-28 13:57:47 公開日:2023-04-27
# 人間の3次元姿勢推定のための間隙グラフと注意ネットワーク

Interweaved Graph and Attention Network for 3D Human Pose Estimation ( http://arxiv.org/abs/2304.14045v1 )

ライセンス: Link先を確認
Ti Wang, Hong Liu, Runwei Ding, Wenhao Li, Yingxuan You, Xia Li(参考訳) 単視点画像からの3次元人物ポーズ推定のかなりの進歩にもかかわらず、先行研究は地球的および局所的な相関をほとんど探求せず、人間の骨格表現の学習が不十分になってしまう。 この問題に対処するために、我々は、グラフ畳み込みネットワーク(GCN)と注目の間の双方向通信を可能にする、新しいIGANet(Interweaved Graph and Attention Network)を提案する。 具体的には、GCNのローカル情報とGCNのローカル情報と、注意情報からグローバル情報とを注入するIGAモジュールを導入する。 さらに,生体関節のマルチグラニュラ情報をキャプチャ可能な,単純かつ効果的なu型多層パーセプトロン(umlp)を設計した。 提案手法を評価するために,2つの一般的なベンチマークデータセット(Human3.6MとMPI-INF-3DHP)の大規模な実験を行った。 コードはhttps://github.com/xiu-cs/IGANetで入手できる。

Despite substantial progress in 3D human pose estimation from a single-view image, prior works rarely explore global and local correlations, leading to insufficient learning of human skeleton representations. To address this issue, we propose a novel Interweaved Graph and Attention Network (IGANet) that allows bidirectional communications between graph convolutional networks (GCNs) and attentions. Specifically, we introduce an IGA module, where attentions are provided with local information from GCNs and GCNs are injected with global information from attentions. Additionally, we design a simple yet effective U-shaped multi-layer perceptron (uMLP), which can capture multi-granularity information for body joints. Extensive experiments on two popular benchmark datasets (i.e. Human3.6M and MPI-INF-3DHP) are conducted to evaluate our proposed method.The results show that IGANet achieves state-of-the-art performance on both datasets. Code is available at https://github.com/xiu-cs/IGANet.
翻訳日:2023-04-28 13:57:28 公開日:2023-04-27
# 手書きケベック教区記録からの大規模系図情報抽出

Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records ( http://arxiv.org/abs/2304.14044v1 )

ライセンス: Link先を確認
Sol\`ene Tarride and Martin Maarand and M\'elodie Boillet and James McGrath and Eug\'enie Capel and H\'el\`ene V\'ezina and Christopher Kermorvant(参考訳) 本稿では,ケベック州手書き教区登録簿から情報を抽出するための完全なワークフローを提案する。 これらの文書には、ケベック住民の遺伝的、人口統計学的、社会的な研究に非常に価値のある個人情報と家族情報が含まれている。 教区記録の画像から、我々のワークフローは行動を特定し、個人情報を抽出することができる。 ワークフローは、ページ分類、テキストライン検出、手書きテキスト認識、名前付きエンティティ認識、行動検出および行動分類の3段階に分けられる。 これらすべてのステップで、異なる機械学習モデルを比較します。 情報が抽出されると、専門家によって設計された検証ルールが適用され、抽出された情報を標準化し、その行動(出産、結婚、死亡)と整合性を確保する。 この検証ステップでは、無効あるいはマージと見なされるレコードを拒否することができる。 完全なワークフローは、19世紀から20世紀にかけてケベック郡登録簿の200万ページ以上を処理するために使われてきた。 65%のレジスタからなるサンプルでは、320万件の行為が認められた。 このサンプルからの出生・死亡行為の検証は、74%が完全かつ有効なものであることを示している。 これらのレコードはBALSACデータベースに統合され、家族と系譜の関係を大規模に再現する。

This paper presents a complete workflow designed for extracting information from Quebec handwritten parish registers. The acts in these documents contain individual and family information highly valuable for genetic, demographic and social studies of the Quebec population. From an image of parish records, our workflow is able to identify the acts and extract personal information. The workflow is divided into successive steps: page classification, text line detection, handwritten text recognition, named entity recognition and act detection and classification. For all these steps, different machine learning models are compared. Once the information is extracted, validation rules designed by experts are then applied to standardize the extracted information and ensure its consistency with the type of act (birth, marriage, and death). This validation step is able to reject records that are considered invalid or merged. The full workflow has been used to process over two million pages of Quebec parish registers from the 19-20th centuries. On a sample comprising 65% of registers, 3.2 million acts were recognized. Verification of the birth and death acts from this sample shows that 74% of them are considered complete and valid. These records will be integrated into the BALSAC database and linked together to recreate family and genealogical relations at large scale.
翻訳日:2023-04-28 13:57:08 公開日:2023-04-27
# タイトフレームに割り当てられた量子チャネルの準確率とアンレーブリングについて

On Kirkwood-Dirac quasiprobabilities and unravelings of quantum channel assigned to a tight frame ( http://arxiv.org/abs/2304.14038v1 )

ライセンス: Link先を確認
Alexey E. Rastegin(参考訳) 近年注目を集めている問題はカークウッド・ディラック準確率である。 彼らの使用の一覧には、量子情報処理に関するいくつかの質問が含まれている。 このような準確率は自然に量子チャネルのアンレーブリングの文脈に現れる。 複雑なタイトフレームは量子情報にも潜在的な応用がある。 フレームベクトルの主クラウス作用素の構築は、興味深い性質を持つ準確率を生成する。 等角的強フレームに対しては、ヒルベルト・シュミットと対応する行列のスペクトルノルムを特徴付ける。 したがって、不確実性関係はR\'{e}nyi と Tsallis のエントロピーによって定式化される。 固有値の位置を特徴付ける新しい不等式が導出される。 彼らはGer\v{s}gorinの定理に基づく推定の代替を与える。 提示された不等式は、2次元の対称的な情報的完備な測定で例示される。

An issue which has attracted increasing attention in recent years are Kirkwood-Dirac quasiprobabilities. List of their use includes several questions of quantum information processing. Such quasiprobabilities naturally appear in the context of unravelings of a quantum channel. Complex tight frames also have potential applications in quantum information. Building principal Kraus operators of the frame vectors generates quasiprobabilities with interesting properties. For an equiangular tight frame, we characterize the Hilbert-Schmidt and spectral norms of the corresponding matrix. Hence, uncertainty relations are formulated in terms of R\'{e}nyi and Tsallis entropies. New inequalities for characterizing the location of eigenvalues are derived. They give an alternative to estimation on the base of Ger\v{s}gorin's theorem. The presented inequalities are exemplified with symmetric informationally complete measurement in dimension two.
翻訳日:2023-04-28 13:56:37 公開日:2023-04-27
# 直交分解ガウス過程の球面誘導特性

Spherical Inducing Features for Orthogonally-Decoupled Gaussian Processes ( http://arxiv.org/abs/2304.14034v1 )

ライセンス: Link先を確認
Louis C. Tiao, Vincent Dutordoir, Victor Picheny(参考訳) 多くの望ましい性質にもかかわらず、ガウス過程(GP)は表現を学習する能力がないため、しばしば深層ニューラルネットワーク(NN)と比較される。 GPとディープNNのギャップを埋める最近の試みは、新しいタイプのドメイン間変動型GPを生み出し、誘導変数はフィードフォワードNNの隠れ単位に対応する。 そこで本研究では,GPの直交分解を利用してこれらの制約を緩和する拡張法を提案する。 特に、GP近似の主成分と直交成分の両方に対して、より柔軟なデータ依存基底関数を構築するための球面間機能を導入し、これらの欠点を緩和するだけでなく、代替戦略よりもスケーラブルであることを示す。 複数のベンチマークデータセットの実験は、我々のアプローチの有効性を示す。

Despite their many desirable properties, Gaussian processes (GPs) are often compared unfavorably to deep neural networks (NNs) for lacking the ability to learn representations. Recent efforts to bridge the gap between GPs and deep NNs have yielded a new class of inter-domain variational GPs in which the inducing variables correspond to hidden units of a feedforward NN. In this work, we examine some practical issues associated with this approach and propose an extension that leverages the orthogonal decomposition of GPs to mitigate these limitations. In particular, we introduce spherical inter-domain features to construct more flexible data-dependent basis functions for both the principal and orthogonal components of the GP approximation and show that incorporating NN activation features under this framework not only alleviates these shortcomings but is more scalable than alternative strategies. Experiments on multiple benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2023-04-28 13:56:26 公開日:2023-04-27
# COSST: 包括的スーパービジョンと自己学習を用いた部分ラベル付きデータセットによるマルチ組織セグメンテーション

COSST: Multi-organ Segmentation with Partially Labeled Datasets Using Comprehensive Supervisions and Self-training ( http://arxiv.org/abs/2304.14030v1 )

ライセンス: Link先を確認
Han Liu, Zhoubing Xu, Riqiang Gao, Hao Li, Jianing Wang, Guillaume Chabin, Ipek Oguz, Sasa Grbic(参考訳) ディープラーニングモデルでは、マルチオーガンセグメンテーションが著しく成功したが、一般的には、関心のあるすべての臓器が注釈付きで大規模なデータセットを必要とする。 しかし、医用画像データセットは、しばしばサンプルサイズが低く、部分的にラベル付けされているのみである。 したがって、利用可能な部分ラベル付きデータセットの統一モデルをどのように学習し、それらの相乗的ポテンシャルを活用するかを検討することが重要である。 本稿では,既存手法の詳細な分析による部分ラベルセグメンテーションを実証的かつ体系的に研究し,地上の真理と擬似ラベルの2つの信号を含む3つの異なる種類の監視信号を特定する。 我々は,包括的監視信号と自己学習を効果的かつ効率的に統合する,COSSTと呼ばれる新しいトレーニングフレームワークを提案する。 具体的には、2つの真実に基づく信号を用いて初期統一モデルを訓練し、その後、自己学習を用いて擬似ラベル信号を初期モデルに反復的に組み込む。 信頼できない擬似ラベルによる性能劣化を軽減するため,潜在空間における異常検出による擬似ラベルの信頼性を評価し,各自己学習イテレーションから最も信頼できない擬似ラベルを除外する。 3つの部分ラベル分割タスクのための6つのctデータセットについて広範な実験を行った。 実験の結果,提案したCOSSTはベースライン法,すなわち各部分ラベル付きデータセットでトレーニングされた個々のネットワークに対して,大幅な改善が得られた。 COSSTは、最先端部分ラベルセグメンテーション法と比較して、様々なセグメンテーションタスクと異なるトレーニングデータサイズで一貫した優れた性能を示す。

Deep learning models have demonstrated remarkable success in multi-organ segmentation but typically require large-scale datasets with all organs of interest annotated. However, medical image datasets are often low in sample size and only partially labeled, i.e., only a subset of organs are annotated. Therefore, it is crucial to investigate how to learn a unified model on the available partially labeled datasets to leverage their synergistic potential. In this paper, we empirically and systematically study the partial-label segmentation with in-depth analyses on the existing approaches and identify three distinct types of supervision signals, including two signals derived from ground truth and one from pseudo label. We propose a novel training framework termed COSST, which effectively and efficiently integrates comprehensive supervision signals with self-training. Concretely, we first train an initial unified model using two ground truth-based signals and then iteratively incorporate the pseudo label signal to the initial model using self-training. To mitigate performance degradation caused by unreliable pseudo labels, we assess the reliability of pseudo labels via outlier detection in latent space and exclude the most unreliable pseudo labels from each self-training iteration. Extensive experiments are conducted on six CT datasets for three partial-label segmentation tasks. Experimental results show that our proposed COSST achieves significant improvement over the baseline method, i.e., individual networks trained on each partially labeled dataset. Compared to the state-of-the-art partial-label segmentation methods, COSST demonstrates consistent superior performance on various segmentation tasks and with different training data size.
翻訳日:2023-04-28 13:56:07 公開日:2023-04-27
# $n$-qubitユニタリ行列に対するスケーラブル量子回路

Scalable quantum circuits for $n$-qubit unitary matrices ( http://arxiv.org/abs/2304.14096v1 )

ライセンス: Link先を確認
Rohit Sarma Sarkar, Bibhas Adhikari(参考訳) 本研究は、最適化に基づくスケーラブルな量子ニューラルネットワークフレームワークで、ユニタリの一般的なパラメトリック表現を通じて、n$-qubitのユニタリを近似し、ポーリの弦基底の代替として提案する新しい基底の指数的基底要素の積として得られる。 我々は、この基底を標準再帰的ブロック基底と呼び、再帰的手法を用いて構築し、その要素は、ブロックエルミートユニタリ行列に類似している。

This work presents an optimization-based scalable quantum neural network framework for approximating $n$-qubit unitaries through generic parametric representation of unitaries, which are obtained as product of exponential of basis elements of a new basis that we propose as an alternative to Pauli string basis. We call this basis as the Standard Recursive Block Basis, which is constructed using a recursive method, and its elements are permutation-similar to block Hermitian unitary matrices.
翻訳日:2023-04-28 13:49:02 公開日:2023-04-27
# 説明可能なAIの分類的基礎:構造と意味論の形式主義の統合

Categorical Foundations of Explainable AI: A Unifying Formalism of Structures and Semantics ( http://arxiv.org/abs/2304.14094v1 )

ライセンス: Link先を確認
Pietro Barbiero, Stefano Fioravanti, Francesco Giannini, Alberto Tonda, Pietro Lio, Elena Di Lavore(参考訳) 説明可能なAI(XAI)は、AIモデルの展開に関連する倫理的および法的問題に答えることを目的としている。 しかし、多くのドメイン固有のレビューは、「説明」という用語でさえ正確な定義が欠けていることを考慮し、この分野の重要な概念に対する数学的基礎の必要性を強調している。 これらのレビューはまた、説明可能なAIのための健全で統一的な形式主義を提唱し、不適切な質問の出現を避け、研究者が急速に成長する知識の体系をナビゲートする手助けをする。 本論文は,xaiの統一理論を定式化することで,このギャップを埋める最初の試みである。 カテゴリー論の枠組み、特にフィードバックモノイド圏を用いて、まず説明可能なAIにおけるすべての必須用語について公式な定義を提供する。 そこで本研究では,本研究で現在研究されているXAIシステムの主要クラスをすべて分類するために,導入理論を用いて,その分野の分類法を提案する。 要約して,本論文で提案されているXAIの基礎は,今後の研究線を適切に構築するための重要なツールであり,新たな研究者がこの分野に近づくための重要なガイダンスである。

Explainable AI (XAI) aims to answer ethical and legal questions associated with the deployment of AI models. However, a considerable number of domain-specific reviews highlight the need of a mathematical foundation for the key notions in the field, considering that even the term "explanation" still lacks a precise definition. These reviews also advocate for a sound and unifying formalism for explainable AI, to avoid the emergence of ill-posed questions, and to help researchers navigate a rapidly growing body of knowledge. To the authors knowledge, this paper is the first attempt to fill this gap by formalizing a unifying theory of XAI. Employing the framework of category theory, and feedback monoidal categories in particular, we first provide formal definitions for all essential terms in explainable AI. Then we propose a taxonomy of the field following the proposed structure, showing how the introduced theory can be used to categorize all the main classes of XAI systems currently studied in literature. In summary, the foundation of XAI proposed in this paper represents a significant tool to properly frame future research lines, and a precious guidance for new researchers approaching the field.
翻訳日:2023-04-28 13:48:52 公開日:2023-04-27
# RegHEC: 任意物体の同時多視点雲登録によるハンドアイ校正

RegHEC: Hand-Eye Calibration via Simultaneous Multi-view Point Clouds Registration of Arbitrary Object ( http://arxiv.org/abs/2304.14092v1 )

ライセンス: Link先を確認
Shiyu Xing, Fengshui Jing, Min Tan(参考訳) RegHECは、正確な校正リグを必要とせず、任意の使用可能なオブジェクトを登録ベースで校正する技術であり、眼と眼の両方のケースに適用できる。 任意のシーンの多視点点雲を共通の参照フレームの下で同時登録する手目関係を見つけようとする。 RegHEC はまずベイズ最適化により多視点雲の初期アライメントを達成し、登録問題は手目関係上のガウス過程としてモデル化され、共分散関数は3次元運動空間 SE(3) において距離メートル法に適合するように修正され、その後アンダーソン加速度ICP 変種に対する手目関係の最初の推測をパスして後続の細かな登録と正確な校正を行う。 RegHECは校正対象にはほとんど要求がなく、球面、円錐、シリンダー、さらには単純な平面にも適用可能である。 多くの3Dビジョンガイドタスクには適しているが、RegHECは校正と複数視点の雲による再構成対象の登録が単一のプロセスに統合されるため、ロボット3D再構成に特に適している。 本手法は,任意の物体と実眼システムを用いた広範囲な実験により検証した。 我々はRegHECのオープンソースC++実装をリリースする。

RegHEC is a registration-based hand-eye calibration technique with no need for accurate calibration rig but arbitrary available objects, applicable for both eye-in-hand and eye-to-hand cases. It tries to find the hand-eye relation which brings multi-view point clouds of arbitrary scene into simultaneous registration under a common reference frame. RegHEC first achieves initial alignment of multi-view point clouds via Bayesian optimization, where registration problem is modeled as a Gaussian process over hand-eye relation and the covariance function is modified to be compatible with distance metric in 3-D motion space SE(3), then passes the initial guess of hand-eye relation to an Anderson Accelerated ICP variant for later fine registration and accurate calibration. RegHEC has little requirement on calibration object, it is applicable with sphere, cone, cylinder and even simple plane, which can be quite challenging for correct point cloud registration and sensor motion estimation using existing methods. While suitable for most 3-D vision guided tasks, RegHEC is especially favorable for robotic 3-D reconstruction, as calibration and multi-view point clouds registration of reconstruction target are unified into a single process. Our technique is verified with extensive experiments using varieties of arbitrary objects and real hand-eye system. We release an open-source C++ implementation of RegHEC.
翻訳日:2023-04-28 13:48:32 公開日:2023-04-27
# JaxPruner: 空間研究のための簡潔なライブラリ

JaxPruner: A concise library for sparsity research ( http://arxiv.org/abs/2304.14082v1 )

ライセンス: Link先を確認
Joo Hyung Lee, Wonpyo Park, Nicole Mitchell, Jonathan Pilault, Johan Obando-Ceron, Han-Byul Kim, Namhoon Lee, Elias Frantar, Yun Long, Amir Yazdanbakhsh, Shivani Agrawal, Suvinay Subramanian, Xin Wang, Sheng-Chun Kao, Xingyao Zhang, Trevor Gale, Aart Bik, Woohyun Han, Milen Ferev, Zhonglin Han, Hong-Seok Kim, Yann Dauphin, Karolina Dziugaite, Pablo Samuel Castro, Utku Evci(参考訳) 本稿では、オープンソースのJAXベースのプルーニングおよびスパーストレーニングライブラリであるJaxPrunerを紹介する。 jaxprunerは、メモリとレイテンシのオーバーヘッドを最小限に抑えながら、人気のあるpruningとsparseトレーニングアルゴリズムの簡潔な実装を提供することで、スパースニューラルネットワークの研究を加速することを目指している。 jaxprunerに実装されたアルゴリズムは共通のapiを使用して、人気のある最適化ライブラリであるopaxとシームレスに連携する。 この統合の容易さを4つの異なるコードベースで例示することで実証し、人気のあるベンチマークに関するベースライン実験を提供する。

This paper introduces JaxPruner, an open-source JAX-based pruning and sparse training library for machine learning research. JaxPruner aims to accelerate research on sparse neural networks by providing concise implementations of popular pruning and sparse training algorithms with minimal memory and latency overhead. Algorithms implemented in JaxPruner use a common API and work seamlessly with the popular optimization library Optax, which, in turn, enables easy integration with existing JAX based libraries. We demonstrate this ease of integration by providing examples in four different codebases: Scenic, t5x, Dopamine and FedJAX and provide baseline experiments on popular benchmarks.
翻訳日:2023-04-28 13:48:04 公開日:2023-04-27
# クラスタフロー:階層的クラスタリングレイヤにより、deep-nnsはハッキングにレジリエンスが向上し、人間らしく、リレーショナル推論の実装が容易になる

Cluster Flow: how a hierarchical clustering layer make allows deep-NNs more resilient to hacking, more human-like and easily implements relational reasoning ( http://arxiv.org/abs/2304.14081v1 )

ライセンス: Link先を確認
Ella Gale, Oliver Matthews(参考訳) 人工知能(特に深い畳み込みネットワーク)のためのニューラルネットワーク(nns)における最近の大きなブレークスルーにもかかわらず、そのようなnnは人間レベルのパフォーマンスを達成していない。 人間レベルの知能の基盤は、異なるオブジェクトの比較、類似度の測定、オブジェクトとコンバースの関係の把握、オブジェクトの集合内の奇妙なものを見つけるという、人間による関係推論を行う能力である、と論じられている。 人類は今まで見たことのない物体でもこれを行うことができる。 ここでは、半教師付き階層的クラスタリングフレームワークであるClusterFlowが、SoftMax以前のレイヤで見つかったリッチな多次元クラスと特徴データを利用して、トレーニングされたNN上でどのように動作するかを示す。 これを3つのタスクで示します。 1 猫・犬の画像に臨む幼児の「ミステイク」に基づく統計的学習。 2. 画像ハッキングのレジリエンス向上とディープnnの確実性測定の精度向上 3.NNに知らないものや、これまで見たことのないものを含む、一連の画像に対する関係推論。 また、clusterflowが非nnデータで動作し、化学データセット上でテストすることで欠落データを扱うことができることを実証する。 この研究は、現代のディープNNは、NNを再訓練することなく、より人間らしくすることができることを示唆している。 ディープNNや畳み込みNNで使用されるメソッドが生物学的に妥当でないことや、おそらくベストなアプローチとしても知られているように、ClusterFlowフレームワークはあらゆるNNの上に置かれることができ、この点においてNNが改良されるにつれて、追加するための便利なツールとなるだろう。

Despite the huge recent breakthroughs in neural networks (NNs) for artificial intelligence (specifically deep convolutional networks) such NNs do not achieve human-level performance: they can be hacked by images that would fool no human and lack `common sense'. It has been argued that a basis of human-level intelligence is mankind's ability to perform relational reasoning: the comparison of different objects, measuring similarity, grasping of relations between objects and the converse, figuring out the odd one out in a set of objects. Mankind can even do this with objects they have never seen before. Here we show how ClusterFlow, a semi-supervised hierarchical clustering framework can operate on trained NNs utilising the rich multi-dimensional class and feature data found at the pre-SoftMax layer to build a hyperspacial map of classes/features and this adds more human-like functionality to modern deep convolutional neural networks. We demonstrate this with 3 tasks. 1. the statistical learning based `mistakes' made by infants when attending to images of cats and dogs. 2. improving both the resilience to hacking images and the accurate measure of certainty in deep-NNs. 3. Relational reasoning over sets of images, including those not known to the NN nor seen before. We also demonstrate that ClusterFlow can work on non-NN data and deal with missing data by testing it on a Chemistry dataset. This work suggests that modern deep NNs can be made more human-like without re-training of the NNs. As it is known that some methods used in deep and convolutional NNs are not biologically plausible or perhaps even the best approach: the ClusterFlow framework can sit on top of any NN and will be a useful tool to add as NNs are improved in this regard.
翻訳日:2023-04-28 13:47:51 公開日:2023-04-27
# ganX -- 人工的に新しいXRFを生成し、RGB画像からMA-XRFの生データを生成する

ganX -- generate artificially new XRF a python library to generate MA-XRF raw data out of RGB images ( http://arxiv.org/abs/2304.14078v1 )

ライセンス: Link先を確認
Alessandro Bombini(参考訳) 本稿では、ganxの最初のバージョン -- 人工的に新しいxrfを生成する - カラーrgb画像からx線蛍光マクロマップ(ma-xrf)を生成するpythonライブラリ。 そのため、各MA-XRF画素信号をXRF信号確率関数からサンプリングするモンテカルロ法を用いる。 このような確率関数は、画像RGBと顔料特性RGBとの近接による顔料XRF信号の重み付け和により、カップルのデータベース(ピグメント特性XRF信号、RGB)を用いて計算される。 ライブラリはPyPiにリリースされ、コードはGitHubでオープンソース公開されている。

In this paper we present the first version of ganX -- generate artificially new XRF, a Python library to generate X-ray fluorescence Macro maps (MA-XRF) from a coloured RGB image. To do that, a Monte Carlo method is used, where each MA-XRF pixel signal is sampled out of an XRF signal probability function. Such probability function is computed using a database of couples (pigment characteristic XRF signal, RGB), by a weighted sum of such pigment XRF signal by proximity of the image RGB to the pigment characteristic RGB. The library is released to PyPi and the code is available open source on GitHub.
翻訳日:2023-04-28 13:47:17 公開日:2023-04-27
# フランスのtwittosphereにおけるヒドロキシクロロキン論争の時間的・地理的解析

Temporal and geographic analysis of the Hydroxychloroquine controversy in the French Twittosphere ( http://arxiv.org/abs/2304.14075v1 )

ライセンス: Link先を確認
Mauro Faccin, Emilien Schultz, Floriana Gargiulo(参考訳) 新型コロナウイルス(covid-19)パンデミックの始まりに、治療法を見つけるという衝動が、既知の薬物を再利用する国際的な競争を引き起こした。 クロロキンと次のヒドロキシクロロキンは、有望な治療としてすぐに現れた。 その後の臨床研究でその非効率性と潜在的に危険な副作用が示されたが、この薬物は国際的な規模で熱く政治的議論を引き起こし、ソーシャルメディアはこれらの論争において重要な役割を担っているように見えた。 しかし、状況は国によって大きく異なっていた。 フランスとしての処遇を素早く拒絶する者もいたが、ブラジルのような国策に頼っていた者もいた。 このような国際論争が各国の状況にどう展開するか、より深く理解する必要がある。 欧米諸国とアフリカ諸国の関係に着目し,国際論争と国民の動態との関係を考察するために,フランス語を話すtwitter上でのヒドロキシクロロキンに関する議論を分析した。 議論の地理的次元の分析により、Twitterのリツイートハイパーグラフを通じて国間での情報の流れが明らかになった。 ハッシュタグの使用のテンソル分解は、議論が地元の政治選択と結びついていることを指摘する。 議論の的となっている議論はヨーロッパ、特にフランスで中心となっているが、フランコフォンアフリカは、親しみやすいヒドロキシクロロキンの早期採用とwhoの推奨の拒否に続いて、議論への関与が低かった。

At the beginning of the COVID-19 pandemic, the urge to find a cure triggered an international race to repurpose known drugs. Chloroquine, and next Hydroxychloroquine, emerged quickly as a promising treatment. While later clinical studies demonstrated its inefficacy and possible dangerous side effects, the drug caused heated and politicized debates at an international scale, and social media appeared to play a crucial role in those controversies. Nevertheless, the situation was largely different between countries. While some of them rejected quickly this treatment as France, others relied on it for their national policies, as Brazil. There is a need to better understand how such international controversies unfold in different national context. To study the relation between the international controversy and its national dynamics, we analyze those debates on Hydroxychloroquine on the French-speaking part of Twitter, focusing on the relation between francophone European and African countries. The analysis of the geographic dimension of the debate revealed the information flow across countries through Twitter's retweet hypergraph. Tensor decomposition of hashtag use across time points out that debates are linked to the local political choices. We demonstrate that the controversial debates find their center in Europe, in particular in France, while francophone Africa has a lower participation to the debates, following their early adoption of the familiar Hydroxychloroquine and rejection of WHO recommendations.
翻訳日:2023-04-28 13:47:03 公開日:2023-04-27
# LLMの起源追跡と検出

Origin Tracing and Detecting of LLMs ( http://arxiv.org/abs/2304.14072v1 )

ライセンス: Link先を確認
Linyang Li, Pengyu Wang, Ke Ren, Tianxiang Sun, Xipeng Qiu(参考訳) 大規模言語モデル(LLM)の異常なパフォーマンスは、コンテキストがAIシステムによって生成されるかどうかを検出する重要性を高める。 さらに重要なのは、多くの企業や機関がLSMをリリースする一方で、その起源を突き止めるのは難しいことだ。 LLMは、人類学の原点追跡と同様、AGIの時代に向かっているため、LLMの起源を辿ることは非常に重要である。 本稿では,まず,llmの起源追跡に関する懸念を提起し,ai生成コンテキストの追跡と検出に有効な手法を提案する。 本稿では,llm間の対比的特徴を活用し,モデルワイズ特徴を抽出してテキスト起源を追跡する新しいアルゴリズムを提案する。 提案手法はホワイトボックスとブラックボックスの両方で動作し,様々なLSMを検出するために広く一般化することができる。 (例えば、GPT-3モデルなしでGPT-3モデルを検出するように一般化することができる)。 また,提案手法は教師付き学習法と比較して限られたデータしか必要とせず,新たなモデルの起源を追究できる。 我々は、与えられたテキストの起源を追跡できるかどうかを調べるために、広範囲な実験を行う。 我々は、AI起源追跡の難易度やAI起源の類似性などの実験結果に基づく貴重な観察を行い、LLMプロバイダの倫理的懸念を求める。 将来のAIの原点追跡と検出のためのツールキットとベンチマークとして、すべてのコードとデータをリリースしています。 私たちはすべての利用可能なリソースを \url{https://github.com/openlmlab/} でリリースしています。 }

The extraordinary performance of large language models (LLMs) heightens the importance of detecting whether the context is generated by an AI system. More importantly, while more and more companies and institutions release their LLMs, the origin can be hard to trace. Since LLMs are heading towards the time of AGI, similar to the origin tracing in anthropology, it is of great importance to trace the origin of LLMs. In this paper, we first raise the concern of the origin tracing of LLMs and propose an effective method to trace and detect AI-generated contexts. We introduce a novel algorithm that leverages the contrastive features between LLMs and extracts model-wise features to trace the text origins. Our proposed method works under both white-box and black-box settings therefore can be widely generalized to detect various LLMs.(e.g. can be generalized to detect GPT-3 models without the GPT-3 models). Also, our proposed method requires only limited data compared with the supervised learning methods and can be extended to trace new-coming model origins. We construct extensive experiments to examine whether we can trace the origins of given texts. We provide valuable observations based on the experimental results, such as the difficulty level of AI origin tracing, and the AI origin similarities, and call for ethical concerns of LLM providers. We are releasing all codes and data as a toolkit and benchmark for future AI origin tracing and detecting studies. \footnote{We are releasing all available resource at \url{https://github.com/OpenLMLab/}.}
翻訳日:2023-04-28 13:46:40 公開日:2023-04-27
# 境界集中型nnU-Netを用いたLGE-MRIからの左心房とスカーの自動分離

Automatically Segment the Left Atrium and Scars from LGE-MRIs Using a Boundary-focused nnU-Net ( http://arxiv.org/abs/2304.14071v1 )

ライセンス: Link先を確認
Yuchen Zhang, Yanda Meng, Yalin Zheng(参考訳) 心房細動 (AF) が最も多い不整脈である。 左心房(LA)とLAの傷痕の正確なセグメンテーションは、AFの治療成績を予測する貴重な情報を提供することができる。 本稿では,後期ガドリニウム強調磁気共鳴画像(LGE-MRI)を用いて,LAの空洞を自動的に分離し,LAの傷跡を定量化する手法を提案する。 ベースラインモデルとしてnnU-Netを採用し,損失関数としてTopK損失を用いたLA境界特性の重要性を生かした。 具体的には、LA境界画素の焦点をトレーニング中に達成し、より正確な境界予測を提供する。 一方、予測されたLA境界の距離マップ変換は、スカーロケーションに限界制約を与えるLAスカー予測のための追加入力と見なされる。 さらに,不確実性の高い予測結果を生成するために,新たな不確実性認識モジュール (uam) を設計した。 lascarqs 2022データセットの実験により,laキャビティおよびlaスカーセグメンテーションにおいて,モデルが優れた性能を示した。 具体的には, LA空洞およびスカーセグメンテーションにおいて, 88.98\%, 64.08\%のDice係数を得た。 私たちは実装コードをhttps://github.com/level6626/Boundary- focused-nnU-Netで公開します。

Atrial fibrillation (AF) is the most common cardiac arrhythmia. Accurate segmentation of the left atrial (LA) and LA scars can provide valuable information to predict treatment outcomes in AF. In this paper, we proposed to automatically segment LA cavity and quantify LA scars with late gadolinium enhancement Magnetic Resonance Imagings (LGE-MRIs). We adopted nnU-Net as the baseline model and exploited the importance of LA boundary characteristics with the TopK loss as the loss function. Specifically, a focus on LA boundary pixels is achieved during training, which provides a more accurate boundary prediction. On the other hand, a distance map transformation of the predicted LA boundary is regarded as an additional input for the LA scar prediction, which provides marginal constraint on scar locations. We further designed a novel uncertainty-aware module (UAM) to produce better results for predictions with high uncertainty. Experiments on the LAScarQS 2022 dataset demonstrated our model's superior performance on the LA cavity and LA scar segmentation. Specifically, we achieved 88.98\% and 64.08\% Dice coefficient for LA cavity and scar segmentation, respectively. We will make our implementation code public available at https://github.com/level6626/Boundary-focused-nnU-Net.
翻訳日:2023-04-28 13:46:17 公開日:2023-04-27
# 合成3次元人物体ニューラルアニメーション

Compositional 3D Human-Object Neural Animation ( http://arxiv.org/abs/2304.14070v1 )

ライセンス: Link先を確認
Zhi Hou, Baosheng Yu, Dacheng Tao(参考訳) 人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。 既存の手法は主にHOIの捕獲を探索するため、HOIのレンダリングは研究されていない。 本稿では,新しいインタラクション,新しい人間,新しいポーズシーケンスによって駆動される新しいオブジェクトを含む,新しいHOIをアニメーションする,という構成的視点から,HOIアニメーションにおけるこの課題に対処する。 具体的には、暗黙の神経表現に基づいてhoiダイナミクスをモデル化しレンダリングするために、ニューラルネットワークオブジェクトの変形を採用する。 次に,人間と物体の相互作用ポーズの伝達を可能にするために,新しい構成条件付き神経放射場(cc-nerf)を考案し,潜在コードを用いて人間と物体の相互依存性を分解し,新規hoisの合成アニメーション制御を可能にする。 提案手法が様々なhoiアニメーション設定にうまく適用できることを示す実験を行った。 プロジェクトページはhttps://zhihou7.github.io/chona/です。

Human-object interactions (HOIs) are crucial for human-centric scene understanding applications such as human-centric visual generation, AR/VR, and robotics. Since existing methods mainly explore capturing HOIs, rendering HOI remains less investigated. In this paper, we address this challenge in HOI animation from a compositional perspective, i.e., animating novel HOIs including novel interaction, novel human and/or novel object driven by a novel pose sequence. Specifically, we adopt neural human-object deformation to model and render HOI dynamics based on implicit neural representations. To enable the interaction pose transferring among different persons and objects, we then devise a new compositional conditional neural radiance field (or CC-NeRF), which decomposes the interdependence between human and object using latent codes to enable compositionally animation control of novel HOIs. Experiments show that the proposed method can generalize well to various novel HOI animation settings. Our project page is https://zhihou7.github.io/CHONA/
翻訳日:2023-04-28 13:45:58 公開日:2023-04-27
# MCLFIQ:携帯の非接触指紋画像品質

MCLFIQ: Mobile Contactless Fingerprint Image Quality ( http://arxiv.org/abs/2304.14123v1 )

ライセンス: Link先を確認
Jannis Priesnitz, Axel Wei{\ss}enfeld, Christian Rathgeb, Bernhard Strobl, Ralph Lessmann, Christoph Busch1(参考訳) 我々は,モバイルコンタクトレス指紋検体における最初の品質評価アルゴリズムである,モバイルコンタクトレス指紋画像品質(MCLFIQ)を提案する。 そこで我々はNIST Fingerprint Image Quality (NFIQ) 2法を再訓練した。 得られたMCLFIQモデルの予測性能をError-vsを用いて評価する。 2つの認識アルゴリズムを用いた実世界の接触指紋データベース上でのカード特性(EDC)曲線 実験では,MCLFIQ法を元のNFIQ 2法と接触指紋画像のシャープネスに基づく品質評価アルゴリズムと比較した。 得られた結果から,NFIQ 2の合成データに対する再学習は,実際のデータベースでのトレーニングの代替となる可能性が示唆された。 さらに, MCLFIQ法は, NFIQ 2 やシャープネスに基づく品質評価に比べて精度が高く, 頑健であることを示す。 我々は,接触のない指紋品質評価のための新しい標準アルゴリズムの候補として,MCLFIQ法を提案する。

We propose MCLFIQ: Mobile Contactless Fingerprint Image Quality, the first quality assessment algorithm for mobile contactless fingerprint samples. To this end, we retrained the NIST Fingerprint Image Quality (NFIQ) 2 method, which was originally designed for contact-based fingerprints, with a synthetic contactless fingerprint database. We evaluate the predictive performance of the resulting MCLFIQ model in terms of Error-vs.-Discard Characteristic (EDC) curves on three real-world contactless fingerprint databases using two recognition algorithms. In experiments, the MCLFIQ method is compared against the original NFIQ 2 method and a sharpness-based quality assessment algorithm developed for contactless fingerprint images. Obtained results show that the re-training of NFIQ 2 on synthetic data is a viable alternative to training on real databases. Moreover, the evaluation shows that our MCLFIQ method works more accurate and robust compared to NFIQ 2 and the sharpness-based quality assessment. We suggest considering the proposed MCLFIQ method as a candidate for a new standard algorithm for contactless fingerprint quality assessment.
翻訳日:2023-04-28 13:40:30 公開日:2023-04-27
# 映像ベース人物再同定のための空間-時間相補学習を用いた深結合畳み込み変換器

Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification ( http://arxiv.org/abs/2304.14122v1 )

ライセンス: Link先を確認
Xuehu Liu, Chenyang Yu, Pingping Zhang and Huchuan Lu(参考訳) 高度な深層畳み込みニューラルネットワーク(CNN)は、ビデオベースの人物認識(Re-ID)において大きな成功を収めている。 しかし、通常は、グローバルな表現能力に制限のある人々の最も明白な領域に焦点を当てる。 近年、トランスフォーマーはパフォーマンス改善のためのグローバルな観測とパッチ間関係を探求している。 そこで本研究では,両側面から深層結合型畳み込み変換器(dcct)という新しい空間-時間相補学習フレームワークを提案する。 まず, cnnとトランスフォーマーを結合して2種類の視覚特徴を抽出し, その相補性を実験的に検証した。 さらに,空間的補完学習において,結合構造の利点を活かし,独立した特徴を導出するための補完コンテンツ注意(CCA)を提案する。 時間的階層的テンポラルアグリゲーション(HTA)は,フレーム間の依存関係を段階的に捕捉し,時間的情報をエンコードするために提案される。 さらに,CNNおよびTransformerブランチに集約された時間情報を提供することにより,時間的補完学習を行う。 最後に,より高精度で効率の良い空間時間知識をバックボーンネットワークに転送するための自己蒸留学習手法を提案する。 このように、同じビデオから得られる2種類の典型的特徴が機械的に統合され、より情報的な表現が可能となる。 4つの公開re-idベンチマークに関する広範囲な実験は、我々のフレームワークがほとんどの最先端のメソッドよりも優れたパフォーマンスを達成できることを示しています。

Advanced deep Convolutional Neural Networks (CNNs) have shown great success in video-based person Re-Identification (Re-ID). However, they usually focus on the most obvious regions of persons with a limited global representation ability. Recently, it witnesses that Transformers explore the inter-patch relations with global observations for performance improvements. In this work, we take both sides and propose a novel spatial-temporal complementary learning framework named Deeply-Coupled Convolution-Transformer (DCCT) for high-performance video-based person Re-ID. Firstly, we couple CNNs and Transformers to extract two kinds of visual features and experimentally verify their complementarity. Further, in spatial, we propose a Complementary Content Attention (CCA) to take advantages of the coupled structure and guide independent features for spatial complementary learning. In temporal, a Hierarchical Temporal Aggregation (HTA) is proposed to progressively capture the inter-frame dependencies and encode temporal information. Besides, a gated attention is utilized to deliver aggregated temporal information into the CNN and Transformer branches for temporal complementary learning. Finally, we introduce a self-distillation training strategy to transfer the superior spatial-temporal knowledge to backbone networks for higher accuracy and more efficiency. In this way, two kinds of typical features from same videos are integrated mechanically for more informative representations. Extensive experiments on four public Re-ID benchmarks demonstrate that our framework could attain better performances than most state-of-the-art methods.
翻訳日:2023-04-28 13:40:14 公開日:2023-04-27
# パラメータ誘導チャネルアテンションを用いたニューラルPDE解の学習

Learning Neural PDE Solvers with Parameter-Guided Channel Attention ( http://arxiv.org/abs/2304.14118v1 )

ライセンス: Link先を確認
Makoto Takamoto, Francesco Alesiani, and Mathias Niepert(参考訳) 科学機械学習(SciML)は、偏微分方程式(PDE)によって制御される物理系の学習エミュレータの開発に関係している。 天気予知、分子動力学、逆設計といったアプリケーション領域では、MLベースのサロゲートモデルは非効率でしばしば微分不可能な数値シミュレーションアルゴリズムの強化や置き換えにますます利用されている。 PDEの解を近似するMLベースの方法が近年提案されているが、一般的にはPDEのパラメータに適応せず、トレーニング中に見られないPDEパラメータに一般化することが困難である。 本稿では,ニューラルサロゲートモデルのためのPDEパラメータ埋め込み(CAPE)コンポーネントでガイドされるチャネルアテンション機構と,シンプルで効果的なカリキュラム学習戦略を提案する。 CAPEモジュールは、未知のPDEパラメータに適応できるように、ニューラルPDEソルバと組み合わせることができる。 カリキュラム学習戦略は、教師強制と完全自己回帰トレーニングのシームレスな移行を提供する。 一般的なPDEベンチマークを用いたカリキュラム学習戦略と組み合わせてCAPEを比較し,ベースラインモデルよりも一貫した,重要な改善点を得た。 実験では、推論時間やパラメータ数を大きく増加させることなく、PDEパラメータに一般化する能力の増大など、CAPEのいくつかの利点も示している。

Scientific Machine Learning (SciML) is concerned with the development of learned emulators of physical systems governed by partial differential equations (PDE). In application domains such as weather forecasting, molecular dynamics, and inverse design, ML-based surrogate models are increasingly used to augment or replace inefficient and often non-differentiable numerical simulation algorithms. While a number of ML-based methods for approximating the solutions of PDEs have been proposed in recent years, they typically do not adapt to the parameters of the PDEs, making it difficult to generalize to PDE parameters not seen during training. We propose a Channel Attention mechanism guided by PDE Parameter Embeddings (CAPE) component for neural surrogate models and a simple yet effective curriculum learning strategy. The CAPE module can be combined with neural PDE solvers allowing them to adapt to unseen PDE parameters. The curriculum learning strategy provides a seamless transition between teacher-forcing and fully auto-regressive training. We compare CAPE in conjunction with the curriculum learning strategy using a popular PDE benchmark and obtain consistent and significant improvements over the baseline models. The experiments also show several advantages of CAPE, such as its increased ability to generalize to unseen PDE parameters without large increases inference time and parameter count.
翻訳日:2023-04-28 13:39:48 公開日:2023-04-27
# 多目的強化学習における実証からの評価:動的重みに基づくアプローチ

Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning: A Dynamic Weight-based Approach ( http://arxiv.org/abs/2304.14115v1 )

ライセンス: Link先を確認
Junlin Lu, Patrick Mannion, Karl Mason(参考訳) 多くの意思決定問題には複数の目的がある。 このような問題では、異なる目的に対する意思決定者の好みを知ることは必ずしも不可能である。 しかし、意思決定者の行動を観察することはしばしば可能である。 多目的意思決定において、選好推論とは、異なる目的に対する意思決定者の選好を推測するプロセスである。 本研究では,多目的意思決定問題に作用するエージェントの選好を,環境中の観察行動軌跡に基づいて推定できる動的重みに基づく選好推論(DWPI)アルゴリズムを提案する。 提案手法は, 深海宝, 交通, アイテム収集の3つの多目的マルコフ決定過程について評価する。 提案手法の性能は文献から得られた2つの既存の選好推定手法と比較し, 実験結果から推定された選好の時間要件と精度の両面において, ベースラインアルゴリズムと比較して有意な改善が得られた。 動的重みに基づくPreference Inferenceアルゴリズムは、準最適動作実証の選好を推論する際の性能も維持する。 その印象的なパフォーマンスに加えて、Dynamic WeightベースのPreference Inferenceアルゴリズムは、好みを推測するエージェントとのトレーニング中にいかなる相互作用も必要とせず、必要なものは観察された振る舞いの軌跡である。

Many decision-making problems feature multiple objectives. In such problems, it is not always possible to know the preferences of a decision-maker for different objectives. However, it is often possible to observe the behavior of decision-makers. In multi-objective decision-making, preference inference is the process of inferring the preferences of a decision-maker for different objectives. This research proposes a Dynamic Weight-based Preference Inference (DWPI) algorithm that can infer the preferences of agents acting in multi-objective decision-making problems, based on observed behavior trajectories in the environment. The proposed method is evaluated on three multi-objective Markov decision processes: Deep Sea Treasure, Traffic, and Item Gathering. The performance of the proposed DWPI approach is compared to two existing preference inference methods from the literature, and empirical results demonstrate significant improvements compared to the baseline algorithms, in terms of both time requirements and accuracy of the inferred preferences. The Dynamic Weight-based Preference Inference algorithm also maintains its performance when inferring preferences for sub-optimal behavior demonstrations. In addition to its impressive performance, the Dynamic Weight-based Preference Inference algorithm does not require any interactions during training with the agent whose preferences are inferred, all that is required is a trajectory of observed behavior.
翻訳日:2023-04-28 13:39:28 公開日:2023-04-27
# 文脈情報の対話的コントラスト学習による物体検出の精度向上に向けて

Towards Precise Weakly Supervised Object Detection via Interactive Contrastive Learning of Context Information ( http://arxiv.org/abs/2304.14114v1 )

ライセンス: Link先を確認
Lai Qi(参考訳) weakly supervised object detection (wsod) は、画像レベルのタグだけで正確な物体検出を学習することを目的としている。 近年,ディープラーニング (DL) のアプローチに関する研究が盛んに行われているが,WSOD と完全教師付きオブジェクト検出との間には,依然として大きなパフォーマンスギャップがある。 実際、既存のwsodメソッドのほとんどは、各領域の提案の視覚的な外観のみを考慮しつつ、画像内の有用なコンテキスト情報を使用することを無視している。 そこで本研究では,JLWSODという対話型エンドツーエンドWSDOフレームワークを提案する。 i)wsodフレームワークに2種類のwsod固有のコンテキスト情報(すなわち、インスタンス毎の相関関係及びsemantic-wise correlation)を提案し、導入する。 二 対話型グラフコントラッシブラーニング(iGCL)機構は、視覚的外観と文脈情報を協調的に最適化し、WSODの性能を向上させる。 特に、iGCLメカニズムは、WSODの補完的な解釈、すなわちインスタンスワイド検出とセマンティックワイド予測タスクを最大限に活用し、より包括的なソリューションを形成する。 広く使われているPASCAL VOCとMS COCOベンチマークの広範な実験は、JLWSODの代替の最先端アプローチとベースラインモデル(それぞれmAPが3.6%〜23.3%、CorLocが3.4%~19.7%)よりも優れていることを検証している。

Weakly supervised object detection (WSOD) aims at learning precise object detectors with only image-level tags. In spite of intensive research on deep learning (DL) approaches over the past few years, there is still a significant performance gap between WSOD and fully supervised object detection. In fact, most existing WSOD methods only consider the visual appearance of each region proposal but ignore employing the useful context information in the image. To this end, this paper proposes an interactive end-to-end WSDO framework called JLWSOD with two innovations: i) two types of WSOD-specific context information (i.e., instance-wise correlation andsemantic-wise correlation) are proposed and introduced into WSOD framework; ii) an interactive graph contrastive learning (iGCL) mechanism is designed to jointly optimize the visual appearance and context information for better WSOD performance. Specifically, the iGCL mechanism takes full advantage of the complementary interpretations of the WSOD, namely instance-wise detection and semantic-wise prediction tasks, forming a more comprehensive solution. Extensive experiments on the widely used PASCAL VOC and MS COCO benchmarks verify the superiority of JLWSOD over alternative state-of-the-art approaches and baseline models (improvement of 3.6%~23.3% on mAP and 3.4%~19.7% on CorLoc, respectively).
翻訳日:2023-04-28 13:39:06 公開日:2023-04-27
# 付加的親因果性(scary)データセットを持つ構造的複雑度

The Structurally Complex with Additive Parent Causality (SCARY) Dataset ( http://arxiv.org/abs/2304.14109v1 )

ライセンス: Link先を確認
Jarry Chen, Haytham M.Fayek(参考訳) 因果データセットは因果関係の分野を進める上で重要な役割を果たす。 しかし、既存のデータセットは、選択バイアス、不適切なデータ、結合といった現実世界の問題の複雑さを欠いていることが多い。 このギャップに対処するために、以下の特徴を含む新しい合成因果データセット、Structurely Complex with Additive paRent causalitY (SCary) データセットを提案する。 データセットは40のシナリオで構成され、それぞれが3つの異なるシードで生成され、研究者はデータセットの関連するサブセットを活用することができる。 さらに,親と子ノードの因果関係を生成するために,複数のサブタイプと線形および混合因果機構を含む2つの異なるデータ生成機構を用いる。 データセットジェネレータはCausal Discovery Toolboxにインスパイアされ、追加モデルのみを生成する。 データセットのバラエティは0.5である。 われわれのSCARYデータセットは、研究者がより現実的なシナリオの下で因果発見を探求するための貴重なリソースを提供する。 データセットはhttps://github.com/JayJayc/SCARYで公開されている。

Causal datasets play a critical role in advancing the field of causality. However, existing datasets often lack the complexity of real-world issues such as selection bias, unfaithful data, and confounding. To address this gap, we propose a new synthetic causal dataset, the Structurally Complex with Additive paRent causalitY (SCARY) dataset, which includes the following features. The dataset comprises 40 scenarios, each generated with three different seeds, allowing researchers to leverage relevant subsets of the dataset. Additionally, we use two different data generation mechanisms for generating the causal relationship between parents and child nodes, including linear and mixed causal mechanisms with multiple sub-types. Our dataset generator is inspired by the Causal Discovery Toolbox and generates only additive models. The dataset has a Varsortability of 0.5. Our SCARY dataset provides a valuable resource for researchers to explore causal discovery under more realistic scenarios. The dataset is available at https://github.com/JayJayc/SCARY.
翻訳日:2023-04-28 13:38:39 公開日:2023-04-27
# datacomp: 次世代のマルチモーダルデータセットの探索

DataComp: In search of the next generation of multimodal datasets ( http://arxiv.org/abs/2304.14108v1 )

ライセンス: Link先を確認
Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, Eyal Orgad, Rahim Entezari, Giannis Daras, Sarah Pratt, Vivek Ramanujan, Yonatan Bitton, Kalyani Marathe, Stephen Mussmann, Richard Vencu, Mehdi Cherti, Ranjay Krishna, Pang Wei Koh, Olga Saukh, Alexander Ratner, Shuran Song, Hannaneh Hajishirzi, Ali Farhadi, Romain Beaumont, Sewoong Oh, Alex Dimakis, Jenia Jitsev, Yair Carmon, Vaishaal Shankar, Ludwig Schmidt(参考訳) 大規模なマルチモーダルデータセットは、CLIP、Stable Diffusion、GPT-4といった最近のブレークスルーにおいて有効である。 同時にデータセットは、モデルアーキテクチャやトレーニングアルゴリズムと同じ研究の注目を集めることは滅多にない。 機械学習エコシステムにおけるこの欠点に対処するために、トレーニングコードを修正し、研究者が新しいトレーニングセットを提案することで革新するベンチマークであるDataCompを紹介します。 Common Crawlの12.8Bイメージテキストペアの候補プールを中心にしたデータセット実験用のテストベッドを提供する。 ベンチマーク参加者は、新しいフィルタリングテクニックを設計し、新しいデータソースをキュレートし、標準化されたCLIPトレーニングコードを実行し、38の下流テストセットでテストすることで、新しいデータセットを評価します。 私たちのベンチマークは、複数のスケールで構成されており、4つの候補プールサイズと関連する計算予算は、トレーニング中に見られる12.8Mから12.8Bまでである。 このマルチスケール設計は、スケーリングトレンドの研究を容易にし、様々なリソースを持つ研究者がベンチマークにアクセスできるようにする。 我々のベースライン実験は、DataCompワークフローがマルチモーダルデータセットを改善するための有望な方法であることを示している。 本稿では,12.8B候補プールに単純なフィルタリングアルゴリズムを適用したデータセットDataComp-1Bを紹介する。 1.4Bサブセットにより、ImageNet上でCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることができる。 我々の新しいViT-L/14モデルは、LAION-2Bでトレーニングされたより大きなViT-g/14を0.7%向上させ、トレーニング計算を9倍削減する。 また、OpenAIのCLIP ViT-L/14を3.7%上回り、当社のモデルと同じ計算予算でトレーニングしています。 これらの成果は、トレーニングセットを慎重にキュレートすることで、モデルパフォーマンスを改善する可能性を強調します。 DataComp-1Bは最初のステップにすぎないと考えており、DataCompが次世代のマルチモーダルデータセットへの道を開くことを願っています。

Large multimodal datasets have been instrumental in recent breakthroughs such as CLIP, Stable Diffusion, and GPT-4. At the same time, datasets rarely receive the same research attention as model architectures or training algorithms. To address this shortcoming in the machine learning ecosystem, we introduce DataComp, a benchmark where the training code is fixed and researchers innovate by proposing new training sets. We provide a testbed for dataset experiments centered around a new candidate pool of 12.8B image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing on 38 downstream test sets. Our benchmark consists of multiple scales, with four candidate pool sizes and associated compute budgets ranging from 12.8M to 12.8B samples seen during training. This multi-scale design facilitates the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow is a promising way of improving multimodal datasets. We introduce DataComp-1B, a dataset created by applying a simple filtering algorithm to the 12.8B candidate pool. The resulting 1.4B subset enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet. Our new ViT-L/14 model outperforms a larger ViT-g/14 trained on LAION-2B by 0.7 percentage points while requiring 9x less training compute. We also outperform OpenAI's CLIP ViT-L/14 by 3.7 percentage points, which is trained with the same compute budget as our model. These gains highlight the potential for improving model performance by carefully curating training sets. We view DataComp-1B as only the first step and hope that DataComp paves the way toward the next generation of multimodal datasets.
翻訳日:2023-04-28 13:38:22 公開日:2023-04-27
# chatlog: chatgptを時間にわたって記録および分析する

ChatLog: Recording and Analyzing ChatGPT Across Time ( http://arxiv.org/abs/2304.14106v1 )

ライセンス: Link先を確認
Shangqing Tu, Chunyang Li, Jifan Yu, Xiaozhi Wang, Lei Hou, Juanzi Li(参考訳) chatgptを自然言語理解と生成タスクで評価する研究は豊富であるが、chatgptの行動が時間とともにどのように変化するかの研究はほとんどない。 本稿では、ChatLog-Monthlyという、毎月と毎日更新される2つの部分からなる、粗い時間間データセットを収集する。 一方ChatLog-Dailyは、ChatGPTの回答から、毎日1000の同じ質問に対して長文生成を行う。 chatgpt進化パターンの存在の証拠を提供するため、包括的な自動的および人間的評価を行う。 さらに,その知識と言語的特徴を抽出することにより,ChatGPTの経時変化特性を解析する。 我々は,ChatGPTの新バージョンにおけるRoBERTa型検出器のロバスト性を向上させるための安定な特徴を見出した。 プロジェクトをhttps://github.com/thu-keg/chatlogで継続的にメンテナンスします。

While there are abundant researches about evaluating ChatGPT on natural language understanding and generation tasks, few studies have investigated how ChatGPT's behavior changes over time. In this paper, we collect a coarse-to-fine temporal dataset called ChatLog, consisting of two parts that update monthly and daily: ChatLog-Monthly is a dataset of 38,730 question-answer pairs collected every month including questions from both the reasoning and classification tasks. ChatLog-Daily, on the other hand, consists of ChatGPT's responses to 1000 identical questions for long-form generation every day. We conduct comprehensive automatic and human evaluation to provide the evidence for the existence of ChatGPT evolving patterns. We further analyze the unchanged characteristics of ChatGPT over time by extracting its knowledge and linguistic features. We find some stable features to improve the robustness of a RoBERTa-based detector on new versions of ChatGPT. We will continuously maintain our project at https://github.com/THU-KEG/ChatLog.
翻訳日:2023-04-28 13:37:54 公開日:2023-04-27
# 弱いテキストによる画像の人間-人間間相互作用の学習

Learning Human-Human Interactions in Images from Weak Textual Supervision ( http://arxiv.org/abs/2304.14104v1 )

ライセンス: Link先を確認
Morris Alper and Hadar Averbuch-Elor(参考訳) 人間間の相互作用は多様で文脈に依存しないが、以前の研究はそれらをカテゴリー的扱いし、可能な相互作用の重みを無視している。 本研究では,人間と人間の相互作用を自由テキストとして学習する新たなパラダイムを提案する。 本課題に特有なラベル付きデータの欠如を克服するために,大言語モデルによって生成された合成キャプションデータに対して,明示的な監督なしに知識蒸留を行う。 本手法により作成した擬似ラベルは,画像中の人間と人間の相互作用を効果的に理解するためのキャプションモデルを訓練するために使用することができることを示す。 さらに本手法は,SOTA画像のキャプションや状況認識モデルよりも優れていることを示す。 コードと擬似ラベルをwaldoとwendaと共にリリースします。これは、静止画の人間と人間とのインタラクションを理解するための手動によるテストセットです。

Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding.
翻訳日:2023-04-28 13:37:37 公開日:2023-04-27
# SocNavGym:ソーシャルナビゲーションのための強化学習ジム

SocNavGym: A Reinforcement Learning Gym for Social Navigation ( http://arxiv.org/abs/2304.14102v1 )

ライセンス: Link先を確認
Aditya Kapoor, Sushant Swamy, Luis Manso and Pilar Bachiller(参考訳) 自律ロボットは、人口の多い環境で移動しながら社会に適応することが不可欠である。 機械学習、特にDeep Reinforcement Learningは、最近、ソーシャルナビゲーションの分野で大きな注目を集めている。 これは部分的には、コードの複雑さや処理される変数の数という観点で、人間の制限に縛られないポリシーに起因する可能性がある。 残念ながら、安全保証の欠如とDRLアルゴリズムによる大量のデータ要求により、現実世界での学習は不可能である。 このギャップを埋めるために、シミュレーション環境が頻繁に使用される。 ソーシャルナビゲーションのための高度なシミュレーション環境であるSocNavGymを提案し、多様なソーシャルナビゲーションシナリオを生成し、インテリジェントなソーシャルエージェントの開発を容易にする。 SocNavGymは軽量で、高速で使いやすく、さまざまなタイプのソーシャルナビゲーションシナリオを生成するために努力的に設定できる。 また、さまざまな手作りおよびデータ駆動型社会報酬信号と連携し、ベンチマークエージェントのパフォーマンスに様々な評価指標を与えるように設定することもできる。 また,SocNavGymを用いてDueling-DQNエージェントを用いてソーシャルナビゲーションポリシーを学習するケーススタディも提供する。 結果は、SocNavGymがエージェントをスクラッチからトレーニングして、シンプルで複雑な社会的シナリオでナビゲートできることを示す。 また,データ駆動型報酬関数を用いて訓練したエージェントは,ヒューリスティック型報酬関数と比較して,より高度な社会コンプライアンスを示すことを示した。

It is essential for autonomous robots to be socially compliant while navigating in human-populated environments. Machine Learning and, especially, Deep Reinforcement Learning have recently gained considerable traction in the field of Social Navigation. This can be partially attributed to the resulting policies not being bound by human limitations in terms of code complexity or the number of variables that are handled. Unfortunately, the lack of safety guarantees and the large data requirements by DRL algorithms make learning in the real world unfeasible. To bridge this gap, simulation environments are frequently used. We propose SocNavGym, an advanced simulation environment for social navigation that can generate a wide variety of social navigation scenarios and facilitates the development of intelligent social agents. SocNavGym is light-weight, fast, easy-to-use, and can be effortlessly configured to generate different types of social navigation scenarios. It can also be configured to work with different hand-crafted and data-driven social reward signals and to yield a variety of evaluation metrics to benchmark agents' performance. Further, we also provide a case study where a Dueling-DQN agent is trained to learn social-navigation policies using SocNavGym. The results provides evidence that SocNavGym can be used to train an agent from scratch to navigate in simple as well as complex social scenarios. Our experiments also show that the agents trained using the data-driven reward function displays more advanced social compliance in comparison to the heuristic-based reward function.
翻訳日:2023-04-28 13:37:20 公開日:2023-04-27
# Brauer's Group Equivariant Neural Network Layers を用いた計算アルゴリズム

An Algorithm for Computing with Brauer's Group Equivariant Neural Network Layers ( http://arxiv.org/abs/2304.14165v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 学習可能で線形なニューラルネットワーク層は、直交群、o(n)$、特別な直交群、$so(n)$、シンプレクティック群、$sp(n)$に同値な$\mathbb{r}^{n}$のテンソルパワー空間の間に存在し、arxiv:2212.08630で特徴付けられる。 本稿では,各群に対して任意の重み行列でベクトルを乗算するアルゴリズムを提案する。 クロネッカー積行列を用いて乗算を行うことにより,計算コストの大幅な削減を実現する。 このアプローチは対称群$s_n$まで拡張され、arxiv:2303.06208のアルゴリズムを復元する。

The learnable, linear neural network layers between tensor power spaces of $\mathbb{R}^{n}$ that are equivariant to the orthogonal group, $O(n)$, the special orthogonal group, $SO(n)$, and the symplectic group, $Sp(n)$, were characterised in arXiv:2212.08630. We present an algorithm for multiplying a vector by any weight matrix for each of these groups, using category theoretic constructions to implement the procedure. We achieve a significant reduction in computational cost compared with a naive implementation by making use of Kronecker product matrices to perform the multiplication. We show that our approach extends to the symmetric group, $S_n$, recovering the algorithm of arXiv:2303.06208 in the process.
翻訳日:2023-04-28 13:29:59 公開日:2023-04-27
# IM/DDシステムのスパイキングニューラルネットワーク決定フィードバック等化

Spiking Neural Network Decision Feedback Equalization for IM/DD Systems ( http://arxiv.org/abs/2304.14152v1 )

ライセンス: Link先を確認
Alexander von Bank and Eike-Manuel Edelmann and Laurent Schmalen(参考訳) 様々なパラメータを持つIM/DDリンクに、決定フィードバック構造を有するスパイキングニューラルネットワーク(SNN)等化器を適用する。 SNNは、線形および人工ニューラルネットワーク(ANN)ベースの等化器よりも優れている。

A spiking neural network (SNN) equalizer with a decision feedback structure is applied to an IM/DD link with various parameters. The SNN outperforms linear and artificial neural network (ANN) based equalizers.
翻訳日:2023-04-28 13:29:41 公開日:2023-04-27
# グループ同変ニューラルネットワークの分類

Categorification of Group Equivariant Neural Networks ( http://arxiv.org/abs/2304.14144v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 深層学習におけるカテゴリ理論の新しい応用法を提案する。 群 $S_n$, $O(n)$, $Sp(n)$, $SO(n)$ に対して、あるテンソルパワー空間が $\mathbb{R}^{n}$ であるような群同変ニューラルネットワークの線形層関数をどのように理解して扱うことができるかを示す。 カテゴリー論的構造を用いることで、これらのニューラルネットワークの元々の定式化には見られないよりリッチな構造を構築し、新たな洞察をもたらす。 特に,各群に対して等変線形層を通過するベクトルの結果を高速に計算するアルゴリズムの開発について概説する。 このアプローチの成功は、カテゴリ理論がディープラーニングの他の領域に有益であることを示唆している。

We present a novel application of category theory for deep learning. We show how category theory can be used to understand and work with the linear layer functions of group equivariant neural networks whose layers are some tensor power space of $\mathbb{R}^{n}$ for the groups $S_n$, $O(n)$, $Sp(n)$, and $SO(n)$. By using category theoretic constructions, we build a richer structure that is not seen in the original formulation of these neural networks, leading to new insights. In particular, we outline the development of an algorithm for quickly computing the result of a vector that is passed through an equivariant, linear layer for each group in question. The success of our approach suggests that category theory could be beneficial for other areas of deep learning.
翻訳日:2023-04-28 13:29:38 公開日:2023-04-27
# figments and misalignments: きめ細かなクロスモーダル情報検出のための枠組み

Figments and Misalignments: A Framework for Fine-grained Crossmodal Misinformation Detection ( http://arxiv.org/abs/2304.14133v1 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Panagiotis C. Petrantonakis(参考訳) マルチメディアコンテンツはソーシャルメディアプラットフォーム上で広く普及し、マルチモーダルな誤った情報や、その拡散を検知し防止するための効果的な戦略の必要性が急速に高まっている。 本研究では,イメージとキャプチャのペアが連携して偽りを広めるクロスモーダル誤報(cmm)に着目した。 我々は,cmmと非対称マルチモーダル誤情報(asymmetric multimodal misinformation, amm)の対比を行った。 ammは、テキストのみまたは画像のみの検出器が本質的にマルチモーダルなタスクにおいて、マルチモーダルな対象を上回ることができるユニモーダルバイアスを悪化させながら、トレーニングと評価プロセスにノイズを追加する。 この問題に対処するため,実世界の誤報事例からなるCMMの頑健な評価ベンチマークであるFIGMENTSを収集・キュレートし,AMMを除外し,モダリティバランスを利用して不動バイアスを軽減した。 figmentsはまた、trueful、out-of-context、miscaptioned image-captionの3つのクラスを含むことで、きめ細かいcmm検出への第一歩を提供する。 さらに,Crossmodal HArd Synthetic MisAlignment (CHASMA) と呼ぶ正像と偽人書き字幕との相互関係を維持するリアルな合成トレーニングデータを生成する手法を提案する。 トランスベースアーキテクチャを用いた大規模比較研究を行う。 その結果、CHASMAを他の生成されたデータセットと組み合わせることで、バイナリ(+6.26%)とマルチクラス設定(+15.8%)の両方で、FIGMENTSの全体的なパフォーマンスが一貫して改善された。 コードはhttps://github.com/stevejpapad/figments-and-misalignmentsでリリースします。

Multimedia content has become ubiquitous on social media platforms, leading to the rise of multimodal misinformation and the urgent need for effective strategies to detect and prevent its spread. This study focuses on CrossModal Misinformation (CMM) where image-caption pairs work together to spread falsehoods. We contrast CMM with Asymmetric Multimodal Misinformation (AMM), where one dominant modality propagates falsehoods while other modalities have little or no influence. We show that AMM adds noise to the training and evaluation process while exacerbating the unimodal bias, where text-only or image-only detectors can seemingly outperform their multimodal counterparts on an inherently multimodal task. To address this issue, we collect and curate FIGMENTS, a robust evaluation benchmark for CMM, which consists of real world cases of misinformation, excludes AMM and utilizes modality balancing to successfully alleviate unimodal bias. FIGMENTS also provides a first step towards fine-grained CMM detection by including three classes: truthful, out-of-context, and miscaptioned image-caption pairs. Furthermore, we introduce a method for generating realistic synthetic training data that maintains crossmodal relations between legitimate images and false human-written captions that we term Crossmodal HArd Synthetic MisAlignment (CHASMA). We conduct extensive comparative study using a Transformer-based architecture. Our results show that incorporating CHASMA in conjunction with other generated datasets consistently improved the overall performance on FIGMENTS in both binary (+6.26%) and multiclass settings (+15.8%).We release our code at: https://github.com/stevejpapad/figments-and-misalignments
翻訳日:2023-04-28 13:29:22 公開日:2023-04-27
# ミリ波レーダスパースポイント雲を用いた人間の意味セグメンテーション

Human Semantic Segmentation using Millimeter-Wave Radar Sparse Point Clouds ( http://arxiv.org/abs/2304.14132v1 )

ライセンス: Link先を確認
Pengfei Song, Luoyu MEI, Han Cheng(参考訳) 本稿では,ミリ波レーダの粗い逐次点雲のセマンティックセグメンテーションのためのフレームワークを提案する。 カメラやライダーと比較すると、ミリ波レーダーはプライバシーを明らかにせず、強力な干渉防止能力を持ち、検出距離が長いという利点がある。 mmWaveデータの空間性と時間的トポロジ的特徴は依然として問題である。 しかし、人間の意味セグメンテーションタスクで時間的トポロジー結合の特徴を捉える問題により、従来の高度なセグメンテーション手法(pointnet、pointcnn、point transformerなど)が実用的なシナリオでうまく利用できない。 データのスパース性と時間的トポロジー的特徴に起因する課題に対処するために,我々は,その課題について述べる。 (i)点雲にグラフ構造と位相的特徴を導入する。 (ii)グローバル機能抽出モジュールとシーケンシャル機能抽出モジュールを含むセマンティックセグメンテーションフレームワークを提案する。 さらに,グラフクラスタリングに基づくより優れたトレーニングプロセスとセグメンテーション結果のための,効率的で適合性の高い損失関数を設計する。 実験では,汎用セマンティックセグメンテーションアルゴリズム(Transformer,GCNNなど)をカスタムデータセット上に展開する。 実験結果から,本モデルはカスタムデータセットの平均精度を$\mathbf{82.31}\%$で達成し,最先端アルゴリズムよりも優れていることがわかった。 さらに、モデルの堅牢性を検証するために、よく知られたS3DISデータセットにモデルをデプロイする。 S3DISデータセットでは、平均精度を$\mathbf{92.6}\%$で達成し、ベースラインアルゴリズムより優れている。

This paper presents a framework for semantic segmentation on sparse sequential point clouds of millimeter-wave radar. Compared with cameras and lidars, millimeter-wave radars have the advantage of not revealing privacy, having a strong anti-interference ability, and having long detection distance. The sparsity and capturing temporal-topological features of mmWave data is still a problem. However, the issue of capturing the temporal-topological coupling features under the human semantic segmentation task prevents previous advanced segmentation methods (e.g PointNet, PointCNN, Point Transformer) from being well utilized in practical scenarios. To address the challenge caused by the sparsity and temporal-topological feature of the data, we (i) introduce graph structure and topological features to the point cloud, (ii) propose a semantic segmentation framework including a global feature-extracting module and a sequential feature-extracting module. In addition, we design an efficient and more fitting loss function for a better training process and segmentation results based on graph clustering. Experimentally, we deploy representative semantic segmentation algorithms (Transformer, GCNN, etc.) on a custom dataset. Experimental results indicate that our model achieves mean accuracy on the custom dataset by $\mathbf{82.31}\%$ and outperforms the state-of-the-art algorithms. Moreover, to validate the model's robustness, we deploy our model on the well-known S3DIS dataset. On the S3DIS dataset, our model achieves mean accuracy by $\mathbf{92.6}\%$, outperforming baseline algorithms.
翻訳日:2023-04-28 13:28:45 公開日:2023-04-27
# tempee: 自己回帰を超えたレーダーエコー推定のための時空間並列トランス

TempEE: Temporal-Spatial Parallel Transformer for Radar Echo Extrapolation Beyond Auto-Regression ( http://arxiv.org/abs/2304.14131v1 )

ライセンス: Link先を確認
Shengchao Chen, Ting Shu, Huan Zhao, Guo Zhong and Xunlai Chen(参考訳) 気象レーダー反射率データ(エコー)は降水予測において重要な役割を担い、複雑な数値気象予測(NWP)モデルを必要としない短期豪雨の正確かつ迅速な予測を可能にする。 従来のモデルと比較して、ディープラーニング(DL)ベースのレーダエコー外挿アルゴリズムの方が効率的で効率的である。 しかし、高信頼で一般化されたアルゴリズムの開発は、累積誤差拡散、疎エコー分布の不正確な表現、非定常運動過程の不正確な記述という3つの主なボトルネックによって妨げられている。 これらの問題に対処するために,時空間相関機能とトランスフォーマー技術を利用した新しいレーダエコー外挿アルゴリズムを提案する。 このアルゴリズムは降水予測のために非定常運動過程を正確に表現した多フレームエコー画像から特徴を抽出する。 提案手法はトランスフォーマー技術に基づく新しい並列エンコーダを用いて,エコーの時間空間的特徴を有効かつ自動的に抽出する。 さらに、グローバルなローカル情報を知覚し、タスク関連特徴領域を軽量に強調する能力を高めるために、マルチレベル時空間アテンション機構を採用した。 提案手法の有効性は,実世界のデータセットを用いた古典的なレーダエコー推定タスクで検証されている。 提案手法の各種成分の有効性と必要性を実証する実験が数多く行われている。

The meteorological radar reflectivity data, also known as echo, plays a crucial role in predicting precipitation and enabling accurate and fast forecasting of short-term heavy rainfall without the need for complex Numerical Weather Prediction (NWP) model. Compared to conventional model, Deep Learning (DL)-based radar echo extrapolation algorithms are more effective and efficient. However, the development of highly reliable and generalized algorithms is hindered by three main bottlenecks: cumulative error spreading, imprecise representation of sparse echo distribution, and inaccurate description of non-stationary motion process. To address these issues, this paper presents a novel radar echo extrapolation algorithm that utilizes temporal-spatial correlation features and the Transformer technology. The algorithm extracts features from multi-frame echo images that accurately represent non-stationary motion processes for precipitation prediction. The proposed algorithm uses a novel parallel encoder based on Transformer technology to effectively and automatically extract echoes' temporal-spatial features. Furthermore, a Multi-level Temporal-Spatial attention mechanism is adopted to enhance the ability to perceive global-local information and highlight the task-related feature regions in a lightweight way. The proposed method's effectiveness has been valided on the classic radar echo extrapolation task using the real-world dataset. Numerous experiments have further demonstrated the effectiveness and necessity of various components of the proposed method.
翻訳日:2023-04-28 13:28:22 公開日:2023-04-27
# 両方じゃないの? 不確実性を伴う説明の補完とヒューマン・aiコラボレーションにおける自信の役割

Why not both? Complementing explanations with uncertainty, and the role of self-confidence in Human-AI collaboration ( http://arxiv.org/abs/2304.14130v1 )

ライセンス: Link先を確認
Ioannis Papantonis, Vaishak Belle(参考訳) AIやMLモデルは、医療や刑事司法など、多くの重要な分野にすでに応用されている。 しかし、そのような高度なアプリケーションを完全に自動化することは倫理的、公正な懸念を引き起こす可能性がある。 そのような場合、人間は自動化されたシステムによって支援され、両者が協力関係から引き起こされる共同決定にたどり着くべきである。 本研究は,不確実性評価とモデル説明がモデルに対するユーザの信頼,理解,信頼にどのように影響するかを明らかにするための実証的研究である。 さらに, 利用者の行動が, 自己の自信によって, 特定のタスクを遂行する能力にどのように影響するかを評価するとともに, 合意や切り換え率に基づいて分析結果がいかに歪んでいるかについても検討する。

AI and ML models have already found many applications in critical domains, such as healthcare and criminal justice. However, fully automating such high-stakes applications can raise ethical or fairness concerns. Instead, in such cases, humans should be assisted by automated systems so that the two parties reach a joint decision, stemming out of their interaction. In this work we conduct an empirical study to identify how uncertainty estimates and model explanations affect users' reliance, understanding, and trust towards a model, looking for potential benefits of bringing the two together. Moreover, we seek to assess how users' behaviour is affected by their own self-confidence in their abilities to perform a certain task, while we also discuss how the latter may distort the outcome of an analysis based on agreement and switching percentages.
翻訳日:2023-04-28 13:28:01 公開日:2023-04-27
# 多目的マルチエージェント意思決定における実証からの推定

Preference Inference from Demonstration in Multi-objective Multi-agent Decision Making ( http://arxiv.org/abs/2304.14126v1 )

ライセンス: Link先を確認
Junlin Lu(参考訳) 多目的意思決定問題において、異なる目的に対する数値的選好を定量化することは困難である。 しかし、ユーザのデモは、しばしばアクセス可能である。 最適または近最適のデモンストレーションから線形選好重みを推定するアルゴリズムを提案する。 このアルゴリズムは2つのベースライン法を用いて3つの環境で評価される。 実験結果から,推定された選好の時間要件と精度の両面で,ベースラインアルゴリズムと比較して有意な改善が得られた。 今後は,エージェントの1つが選好推論アルゴリズムを用いて相手の選好を推測できるマルチエージェントシステムにおいて,アルゴリズムの有効性を評価することを計画している。

It is challenging to quantify numerical preferences for different objectives in a multi-objective decision-making problem. However, the demonstrations of a user are often accessible. We propose an algorithm to infer linear preference weights from either optimal or near-optimal demonstrations. The algorithm is evaluated in three environments with two baseline methods. Empirical results demonstrate significant improvements compared to the baseline algorithms, in terms of both time requirements and accuracy of the inferred preferences. In future work, we plan to evaluate the algorithm's effectiveness in a multi-agent system, where one of the agents is enabled to infer the preferences of an opponent using our preference inference algorithm.
翻訳日:2023-04-28 13:27:48 公開日:2023-04-27
# ニューロモルフィック地球観測のための密度不変コントラスト最大化

Density Invariant Contrast Maximization for Neuromorphic Earth Observations ( http://arxiv.org/abs/2304.14125v1 )

ライセンス: Link先を確認
Sami Arja, Alexandre Marcireau, Richard L. Balthazor, Matthew G. McHarg, Saeed Afshar and Gregory Cohen(参考訳) コントラスト最大化(CMax)技術は、イベントベースの視覚システムにおいて、カメラの運動パラメータを推定し、高コントラスト画像を生成するために広く用いられている。 しかし、これらの手法は耐雑音性があり、シーンが構造よりもノイズの多いイベントを含む場合に発生する多重極端問題に悩まされ、複数の場所でコントラストが高くなる。 これにより、運動パラメータの適切な推定がなければ、高コントラストの地図を生成できず、重要な詳細が失われてしまうため、神経形態的地球観測の課題であるカメラ動作の推定が極めて困難になる。 cmaxを使用する同様の方法は、目的関数を正しい動きパラメータに収束させるために変更または拡張することでこの問題に対処した。 提案手法は、コントラストを計算する前に歪んだイベントを補正することにより、複数の過度および耐雑音性問題を克服し、イベントデータに依存しない、カメラの動きに関する事前情報を必要としない、CMaxパイプラインの残りの部分を変更しないといった利点を提供する。 これは、コントラストが正しい動きパラメータの周りでのみ高いことを保証するためである。 本手法は,国際宇宙ステーション(ISS)の新たなデータセットを用いた解析的補償手法により,より優れた動き補償マップの作成を可能にする。 コードは \url{https://github.com/neuromorphicsystems/event_warping} で入手できる。

Contrast maximization (CMax) techniques are widely used in event-based vision systems to estimate the motion parameters of the camera and generate high-contrast images. However, these techniques are noise-intolerance and suffer from the multiple extrema problem which arises when the scene contains more noisy events than structure, causing the contrast to be higher at multiple locations. This makes the task of estimating the camera motion extremely challenging, which is a problem for neuromorphic earth observation, because, without a proper estimation of the motion parameters, it is not possible to generate a map with high contrast, causing important details to be lost. Similar methods that use CMax addressed this problem by changing or augmenting the objective function to enable it to converge to the correct motion parameters. Our proposed solution overcomes the multiple extrema and noise-intolerance problems by correcting the warped event before calculating the contrast and offers the following advantages: it does not depend on the event data, it does not require a prior about the camera motion, and keeps the rest of the CMax pipeline unchanged. This is to ensure that the contrast is only high around the correct motion parameters. Our approach enables the creation of better motion-compensated maps through an analytical compensation technique using a novel dataset from the International Space Station (ISS). Code is available at \url{https://github.com/neuromorphicsystems/event_warping}
翻訳日:2023-04-28 13:27:38 公開日:2023-04-27
# 変圧器のインダクティブバイアスを利用した点雲分類とセグメンテーション

Exploiting Inductive Bias in Transformer for Point Cloud Classification and Segmentation ( http://arxiv.org/abs/2304.14124v1 )

ライセンス: Link先を確認
Zihao Li, Pan Gao, Hui Yuan, Ran Wei, Manoranjan Paul(参考訳) 点座標から効率的な高次元特徴抽出のための点間接続の発見は、点クラウド処理における重要な課題である。 既存のほとんどの手法は、グローバル接続を無視しながら効率的なローカル特徴抽出器を設計することに焦点を当てている。 本稿では,局所的および大域的に注目される3次元点間関係を学習するための新しいインダクティブバイアス支援トランスフォーマ(ibt)法を考案する。 具体的には、局所的空間的コヒーレンスを考慮した相対的位置符号化と注意的特徴プーリングにより局所的特徴学習を行う。 学習した局所性をtransformerモジュールに組み込む。 局所的特徴は変圧器の値成分に影響を与え、各点のチャネル間の関係を変調する。 分類と分割作業において,その優位性を実験的に示す。 コードは https://github.com/jiamang/IBT

Discovering inter-point connection for efficient high-dimensional feature extraction from point coordinate is a key challenge in processing point cloud. Most existing methods focus on designing efficient local feature extractors while ignoring global connection, or vice versa. In this paper, we design a new Inductive Bias-aided Transformer (IBT) method to learn 3D inter-point relations, which considers both local and global attentions. Specifically, considering local spatial coherence, local feature learning is performed through Relative Position Encoding and Attentive Feature Pooling. We incorporate the learned locality into the Transformer module. The local feature affects value component in Transformer to modulate the relationship between channels of each point, which can enhance self-attention mechanism with locality based channel interaction. We demonstrate its superiority experimentally on classification and segmentation tasks. The code is available at: https://github.com/jiamang/IBT
翻訳日:2023-04-28 13:27:14 公開日:2023-04-27
# ゼロサムゲームのための対数回帰量子学習アルゴリズム

Logarithmic-Regret Quantum Learning Algorithms for Zero-Sum Games ( http://arxiv.org/abs/2304.14197v1 )

ライセンス: Link先を確認
Minbo Gao, Zhengfeng Ji, Tongyang Li, and Qisheng Wang(参考訳) 我々は,ゲーム環境下では$\tilde o(1)$ regretを持つゼロサムゲームに対する最初のオンライン量子アルゴリズムを提案する。 さらに、量子アルゴリズムは、量子時間$\tilde o(\sqrt{m+n}/\varepsilon^{2.5})$において、$m \times n$行列ゼロサムゲームの$\varepsilon$-approximate nash平衡を計算し、m, n$という観点で古典的アルゴリズムを二乗的に改善する。 本アルゴリズムは、標準量子入力を使用し、簡潔な記述で古典的な出力を生成し、エンドツーエンドのアプリケーションを容易にする。 応用として,高速な量子線形計画解法を求める。 理論的には、オンライン量子アルゴリズムは楽観的乗法重み更新法に基づく古典的アルゴリズムを「量子化する」。 我々のアルゴリズムの核心は、ギブスサンプリング問題に対する高速な量子マルチサンプリング手順であり、これは独立した関心事かもしれない。

We propose the first online quantum algorithm for zero-sum games with $\tilde O(1)$ regret under the game setting. Moreover, our quantum algorithm computes an $\varepsilon$-approximate Nash equilibrium of an $m \times n$ matrix zero-sum game in quantum time $\tilde O(\sqrt{m+n}/\varepsilon^{2.5})$, yielding a quadratic improvement over classical algorithms in terms of $m, n$. Our algorithm uses standard quantum inputs and generates classical outputs with succinct descriptions, facilitating end-to-end applications. As an application, we obtain a fast quantum linear programming solver. Technically, our online quantum algorithm "quantizes" classical algorithms based on the optimistic multiplicative weight update method. At the heart of our algorithm is a fast quantum multi-sampling procedure for the Gibbs sampling problem, which may be of independent interest.
翻訳日:2023-04-28 13:21:54 公開日:2023-04-27
# LiDARオドメトリー・マッピング・ローカライゼーションのための擬似表現法

Quadric Representations for LiDAR Odometry, Mapping and Localization ( http://arxiv.org/abs/2304.14190v1 )

ライセンス: Link先を確認
Chao Xia, Chenfeng Xu, Patrick Rim, Mingyu Ding, Nanning Zheng, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan(参考訳) 現在のLiDARオードメトリ、マッピング、ローカライズ手法は、3Dシーンのポイントワイズ表現を活用し、自律走行タスクにおいて高い精度を達成する。 しかし、ポイントワイズ表現を用いた手法の空間効率は、実用化における開発と利用を制限している。 特に、スキャンサブマップマッチングとグローバルマップ表現方法は、大容量の点雲に対する近接探索(NNS)の非効率性によって制限される。 時空間効率を向上させるために,従来の点雲よりもはるかにコンパクトな3dオブジェクト表現である二次曲面を用いたシーン記述法を提案する。 ポイントクラウドベースの手法とは対照的に,3dシーンを疎4次パッチの集まりに分解し,ストレージ効率を向上し,低速なポイントワイズnns処理を回避する。 まず,与えられた点群をパッチに分割し,各点群を二次暗黙関数に適合させる。 それぞれの関数はパッチの中心位置や共分散行列など、他の幾何学的記述子と結合される。 これらのパッチ表現は、元のポイントクラウドの代わりに使用でき、LiDARオドメトリー、マッピング、ローカライゼーションアルゴリズムで使用できる3Dシーンを完全に記述している。 さらに、元の点雲から2次曲面を繰り返し再適合させる必要がなくなる新しい二次表現の漸進的成長法を設計する。 KITTIおよびUrbanLocoデータセットにおける大規模点雲の大規模計測,マッピング,ローカライゼーション実験により,本手法が低レイテンシとメモリ効率を維持しつつ,競争力,さらに優れた精度を実現していることを示す。

Current LiDAR odometry, mapping and localization methods leverage point-wise representations of 3D scenes and achieve high accuracy in autonomous driving tasks. However, the space-inefficiency of methods that use point-wise representations limits their development and usage in practical applications. In particular, scan-submap matching and global map representation methods are restricted by the inefficiency of nearest neighbor searching (NNS) for large-volume point clouds. To improve space-time efficiency, we propose a novel method of describing scenes using quadric surfaces, which are far more compact representations of 3D objects than conventional point clouds. In contrast to point cloud-based methods, our quadric representation-based method decomposes a 3D scene into a collection of sparse quadric patches, which improves storage efficiency and avoids the slow point-wise NNS process. Our method first segments a given point cloud into patches and fits each of them to a quadric implicit function. Each function is then coupled with other geometric descriptors of the patch, such as its center position and covariance matrix. Collectively, these patch representations fully describe a 3D scene, which can be used in place of the original point cloud and employed in LiDAR odometry, mapping and localization algorithms. We further design a novel incremental growing method for quadric representations, which eliminates the need to repeatedly re-fit quadric surfaces from the original point cloud. Extensive odometry, mapping and localization experiments on large-volume point clouds in the KITTI and UrbanLoco datasets demonstrate that our method maintains low latency and memory utility while achieving competitive, and even superior, accuracy.
翻訳日:2023-04-28 13:21:33 公開日:2023-04-27
# UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages

UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages ( http://arxiv.org/abs/2304.14189v1 )

ライセンス: Link先を確認
Egil R{\o}nningstad(参考訳) 2023 afrisenti-semeval shared task 12: sentiment analysis for african languages(アフリカ言語に対する感情分析)に対する我々の貢献は、多言語大言語モデルが、事前学習中に見ることができない言語における感情分析のリソースとしてどのように役立つかについての洞察を提供する。 共有タスクは、異なる言語ファミリーから様々なアフリカの言語のデータセットを提供する。 言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。 最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。

Our contribution to the 2023 AfriSenti-SemEval shared task 12: Sentiment Analysis for African Languages, provides insight into how a multilingual large language model can be a resource for sentiment analysis in languages not seen during pretraining. The shared task provides datasets of a variety of African languages from different language families. The languages are to various degrees related to languages used during pretraining, and the language data contain various degrees of code-switching. We experiment with both monolingual and multilingual datasets for the final fine-tuning, and find that with the provided datasets that contain samples in the thousands, monolingual fine-tuning yields the best results.
翻訳日:2023-04-28 13:21:02 公開日:2023-04-27
# ClusterNet: 散乱データに対する知覚ベースのクラスタリングモデル

ClusterNet: A Perception-Based Clustering Model for Scattered Data ( http://arxiv.org/abs/2304.14185v1 )

ライセンス: Link先を確認
Sebastian Hartwig, Christian van Onzenoodt, Pedro Hermosilla, Timo Ropinski(参考訳) クラスタ分離は一般的に、k-meansやDBSCANといった広く使われているクラスタリング技術によって取り組まれるタスクである。 しかしながら、これらのアルゴリズムは非知覚的メトリクスに基づいているため、その出力は人間のクラスタ認識を反映しないことが多い。 人間のクラスタ認識と機械計算クラスタのギャップを埋めるために,分散データを直接操作する学習戦略を提案する。 このデータに対する知覚的クラスタ分離を学ぶために,384人のクラウドワーカーがラベル付けした2変量データに対する7,320個のポイントワイズクラスタアフィリエイションからなる大規模データセットをクラウドソースした。 このデータに基づいて、ポイントベースのディープラーニングモデルであるclusternetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練しました。 注釈付きデータでClusterNetをトレーニングするために、2Dキャンバス上でのスキャッタプロットのレンダリングを省略する代わりに、ポイントクラウドを直接推論できるPointNet++アーキテクチャを使用します。 本研究では、データセットの収集方法の詳細と、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的一致について検討する。 さらに,クラスタネットの学習と評価プロトコルを報告し,クラスタリング手法と人間の注釈器群との精度を測定する新しい指標を提案する。 最後に、我々のアプローチを既存の最先端クラスタリング技術と比較する。

Cluster separation in scatterplots is a task that is typically tackled by widely used clustering techniques, such as for instance k-means or DBSCAN. However, as these algorithms are based on non-perceptual metrics, their output often does not reflect human cluster perception. To bridge the gap between human cluster perception and machine-computed clusters, we propose a learning strategy which directly operates on scattered data. To learn perceptual cluster separation on this data, we crowdsourced a large scale dataset, consisting of 7,320 point-wise cluster affiliations for bivariate data, which has been labeled by 384 human crowd workers. Based on this data, we were able to train ClusterNet, a point-based deep learning model, trained to reflect human perception of cluster separability. In order to train ClusterNet on human annotated data, we omit rendering scatterplots on a 2D canvas, but rather use a PointNet++ architecture enabling inference on point clouds directly. In this work, we provide details on how we collected our dataset, report statistics of the resulting annotations, and investigate perceptual agreement of cluster separation for real-world data. We further report the training and evaluation protocol of ClusterNet and introduce a novel metric, that measures the accuracy between a clustering technique and a group of human annotators. Finally, we compare our approach against existing state-of-the-art clustering techniques.
翻訳日:2023-04-28 13:20:46 公開日:2023-04-27
# NAP at SemEval-2023 Task 3: より少ないか? (背)説得技術検出のためのデータ拡張戦略としての翻訳

NAP at SemEval-2023 Task 3: Is Less Really More? (Back-)Translation as Data Augmentation Strategies for Detecting Persuasion Techniques ( http://arxiv.org/abs/2304.14179v1 )

ライセンス: Link先を確認
Neele Falk, Annerose Eichel, Prisca Piccirilli(参考訳) マルチランガルなセットアップでニュースを検出する説得テクニックは簡単ではなく、ほとんどトレーニングデータを含む課題が伴う。 本システムでは,多言語変換器モデルを用いたデータ拡張戦略として(バック-バック)翻訳をうまく活用し,説得手法を検出する。 拡張データの自動的および人的評価により、(バック)翻訳支援がパフォーマンスを阻害するかどうかを調査できる。 我々の詳細な分析によると、データ拡張戦略はどちらもパフォーマンスを向上するが、人為的なデータと機械によるデータのバランスは重要と思われる。

Persuasion techniques detection in news in a multi-lingual setup is non-trivial and comes with challenges, including little training data. Our system successfully leverages (back-)translation as data augmentation strategies with multi-lingual transformer models for the task of detecting persuasion techniques. The automatic and human evaluation of our augmented data allows us to explore whether (back-)translation aid or hinder performance. Our in-depth analyses indicate that both data augmentation strategies boost performance; however, balancing human-produced and machine-generated data seems to be crucial.
翻訳日:2023-04-28 13:20:22 公開日:2023-04-27
# mPLUG-Owl:マルチモーダリティを持つ大規模言語モデルを実現するモジュール化

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality ( http://arxiv.org/abs/2304.14178v1 )

ライセンス: Link先を確認
Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang(参考訳) 大規模言語モデル(LLM)は、様々なオープンエンドタスクにおいて印象的なゼロショット能力を示し、最近の研究では、マルチモーダル生成にLLMを使うことも検討されている。 本研究では,基礎LLMのモジュール化学習,視覚知識モジュール,視覚抽象モジュールなどを通じて,LLMにマルチモーダル能力を持たせる新しいトレーニングパラダイムであるmPLUG-Owlを紹介する。 このアプローチは、複数のモダリティをサポートし、モダリティコラボレーションを通じて、多様なユニモーダルおよびマルチモーダル能力を促進することができる。 mPLUG-Owlのトレーニングパラダイムは、画像とテキストの整列のための2段階の手法で、LLMの生成能力を維持し、改善しながら、LLMの助けを借りて視覚知識を学ぶ。 第1段階では、視覚知識モジュールと抽象モジュールが凍結LDMモジュールで訓練され、画像とテキストが整列される。 第2段階では、言語のみおよびマルチモーダル監視データセットを使用して、視覚的知識モジュールを凍結することにより、LLMと抽象モジュールの低ランク適応(LoRA)モジュールを協調的に微調整する。 我々は、視覚関連命令評価セットOwlEvalを慎重に構築する。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れており,mplug-owlの印象的なインストラクションと視覚理解能力,マルチターン会話能力,知識推論能力を示す。 さらに,複数画像の相関やシーンテキストの理解など,予期せぬ,エキサイティングな能力が観察され,視覚のみの文書理解など,より複雑なシナリオに活用できるようになった。 我々のコード、事前学習モデル、命令調整モデル、評価セットはhttps://github.com/X-PLUG/mPLUG-Owl.comで入手できる。 オンラインデモはhttps://www.modelscope.cn/studios/damo/mplug-owlで見ることができる。

Large language models (LLMs) have demonstrated impressive zero-shot abilities on a variety of open-ended tasks, while recent research has also explored the use of LLMs for multi-modal generation. In this study, we introduce mPLUG-Owl, a novel training paradigm that equips LLMs with multi-modal abilities through modularized learning of foundation LLM, a visual knowledge module, and a visual abstractor module. This approach can support multiple modalities and facilitate diverse unimodal and multimodal abilities through modality collaboration. The training paradigm of mPLUG-Owl involves a two-stage method for aligning image and text, which learns visual knowledge with the assistance of LLM while maintaining and even improving the generation abilities of LLM. In the first stage, the visual knowledge module and abstractor module are trained with a frozen LLM module to align the image and text. In the second stage, language-only and multi-modal supervised datasets are used to jointly fine-tune a low-rank adaption (LoRA) module on LLM and the abstractor module by freezing the visual knowledge module. We carefully build a visually-related instruction evaluation set OwlEval. Experimental results show that our model outperforms existing multi-modal models, demonstrating mPLUG-Owl's impressive instruction and visual understanding ability, multi-turn conversation ability, and knowledge reasoning ability. Besides, we observe some unexpected and exciting abilities such as multi-image correlation and scene text understanding, which makes it possible to leverage it for harder real scenarios, such as vision-only document comprehension. Our code, pre-trained model, instruction-tuned models, and evaluation set are available at https://github.com/X-PLUG/mPLUG-Owl. The online demo is available at https://www.modelscope.cn/studios/damo/mPLUG-Owl.
翻訳日:2023-04-28 13:20:11 公開日:2023-04-27
# chatgpt対最先端モデル:keyphrase生成タスクにおけるベンチマーク研究

ChatGPT vs State-of-the-Art Models: A Benchmarking Study in Keyphrase Generation Task ( http://arxiv.org/abs/2304.14177v1 )

ライセンス: Link先を確認
Roberto Mart\'inez-Cruz, Alvaro J. L\'opez-L\'opez, Jos\'e Portela(参考訳) ChatGPTを含むトランスフォーマーベースの言語モデルは、様々な自然言語生成タスクにおいて例外的な性能を示した。 しかし、ChatGPTのキーフレーズ生成能力は、文書の内容を正確に反映した情報的フレーズを識別する、限定的な研究がなされている。 本研究では,ChatGPTのキーフレーズ生成性能を最先端モデルと比較し,ドメイン適応と長文からのキーフレーズ生成という2つの重要な課題に対する解決策としての可能性をテストする。 学術論文やニュースドメインから入手可能な6つのデータセットについて実験を行い,短い文書と長い文書の両方のパフォーマンスを分析した。 以上の結果から,ChatGPTはすべてのテストデータセットや環境において現在の最先端モデルよりも優れており,多様なドメインやドキュメント長に順応する高品質なキーフレーズを生成する。

Transformer-based language models, including ChatGPT, have demonstrated exceptional performance in various natural language generation tasks. However, there has been limited research evaluating ChatGPT's keyphrase generation ability, which involves identifying informative phrases that accurately reflect a document's content. This study seeks to address this gap by comparing ChatGPT's keyphrase generation performance with state-of-the-art models, while also testing its potential as a solution for two significant challenges in the field: domain adaptation and keyphrase generation from long documents. We conducted experiments on six publicly available datasets from scientific articles and news domains, analyzing performance on both short and long documents. Our results show that ChatGPT outperforms current state-of-the-art models in all tested datasets and environments, generating high-quality keyphrases that adapt well to diverse domains and document lengths.
翻訳日:2023-04-28 13:19:38 公開日:2023-04-27
# 強化学習によるクォークとレプトンの風味構造探索

Exploring the flavor structure of quarks and leptons with reinforcement learning ( http://arxiv.org/abs/2304.14176v1 )

ライセンス: Link先を確認
Satsuki Nishimura, Coh Miyao, Hajime Otsuka(参考訳) クォークとレプトンの風味構造を強化学習を用いて探索する手法を提案する。 具体的なモデルとして、$U(1)$フレーバー対称性を持つモデルに基本ポリシーに基づくアルゴリズムを用いる。 クォークとレプトンの$u(1)$電荷でニューラルネットワークを訓練することで、エージェントは21のモデルが実験的に測定された質量とクォークとレプトンの混合角と一致することを発見した。 特に、正規順序の固有値は、逆順序よりも大きくなりがちであり、正規順序は、逆順序とは対照的に、現在の実験データによく適合する。 フラボンフィールドの角成分によって誘導されるニュートリノレス二重ベータ崩壊に対する有効質量の特定の値と大きなレプトニックCP違反は、エージェントの自律的挙動によって予測される。

We propose a method to explore the flavor structure of quarks and leptons with reinforcement learning. As a concrete model, we utilize a basic policy-based algorithm for models with $U(1)$ flavor symmetry. By training neural networks on the $U(1)$ charges of quarks and leptons, the agent finds 21 models to be consistent with experimentally measured masses and mixing angles of quarks and leptons. In particular, an intrinsic value of normal ordering tends to be larger than that of inverted ordering, and the normal ordering is well fitted with the current experimental data in contrast to the inverted ordering. A specific value of effective mass for the neutrinoless double beta decay and a sizable leptonic CP violation induced by an angular component of flavon field are predicted by autonomous behavior of the agent.
翻訳日:2023-04-28 13:19:07 公開日:2023-04-27
# 2レベルワイル半金属系におけるアナログホーキング放射

Analogue Hawking radiation in a two-level Weyl semimetal system ( http://arxiv.org/abs/2304.14174v1 )

ライセンス: Link先を確認
Bijan Bagchi, Rahul Ghosh, and Sauvik Sen}(参考訳) 非エルミート的$\mathcal{pt}$-symmetric hamiltonianの一般的なスキームに照らして、四面体に基づく方法を適用して、ワイル半金属ブラックホールの類似性を調べる。 我々は, 従来のヌル測地法を用いて, ホーキング放射を, 事象の地平線が課す古典的に禁止されたポテンシャル障壁を越える量子トンネル過程として記述したトンネリング確率を評価する。 トンネル確率の推定値は誘導ハミルトニアンに現れる非エルミートパラメータとは独立である。

In the light of a general scheme of non-Hermitian $\mathcal{PT}$-symmetric Hamiltonian we apply the tetrad-based method to probe the idea of Weyl semimetal black hole analogy. We evaluate the tunneling probability by making use of the conventional null-geodesic approach wherein the associated Hawking radiation is described as a quantum tunneling process across a classically forbidden potential barrier which the event horizon imposes. Our estimate for the tunneling probability is independent of the non-Hermitian parameter that appears in the guiding Hamiltonian.
翻訳日:2023-04-28 13:18:51 公開日:2023-04-27
# 80Kで動作するダイヤモンドSiV$^-$-中心遷移における単一および絡み合った光子の固体源

A solid-state source of single and entangled photons at diamond SiV$^-$-center transitions operating at 80K ( http://arxiv.org/abs/2304.14170v1 )

ライセンス: Link先を確認
Xin Cao (1), Jingzhong Yang (1), Tom Fandrich (1), Yiteng Zhang (1), Eddy P. Rugeramigabo (1), Benedikt Brechtken (1), Rolf J. Haug (1 and 2), Michael Zopf (1), Fei Ding (1 and 2)(参考訳) 大規模量子ネットワークは、光の量子ビットと相互作用する定常ノードとして、長寿命の量子メモリを実装する必要がある。 エピタキシャルに成長した量子ドットは、高い純度と非識別性を持つ単一および絡み合った光子をオンデマンドで生成する大きな可能性を秘めている。 これらのエミッタを長いコヒーレンス時間でメモリに結合することで、両方のシステムの利点を組み込んだハイブリッドナノフォトニクスデバイスの開発が可能になる。 本稿では,シリコン空孔中心のゼロフォノン線に近い波長分布(736.2$\pm$ 1.7 nm)の単一光子を放出する,液滴エッチング法とナノホール充填法により成長したGaAs/AlGaAs量子ドットについて報告する。 偏光絡み合った光子は、ビエクシトン・エクシトンカスケード(0.73$\pm$ 0.09)によって生成される。 高単一光子純度は、4k(g$^($$^2$$$^)$(0) = 0.07$\pm$ 0.02)から80k(g$^($$$^2$$$^)$(0) = 0.11$\pm$ 0.01)まで維持されるため、このハイブリッドシステムは実世界の量子フォトニクスアプリケーションにとって技術的に魅力的である。

Large-scale quantum networks require the implementation of long-lived quantum memories as stationary nodes interacting with qubits of light. Epitaxially grown quantum dots hold great potential for the on-demand generation of single and entangled photons with high purity and indistinguishability. Coupling these emitters to memories with long coherence times enables the development of hybrid nanophotonic devices incorporating the advantages of both systems. Here we report the first GaAs/AlGaAs quantum dots grown by droplet etching and nanohole infilling method, emitting single photons with a narrow wavelength distribution (736.2 $\pm$ 1.7 nm) close to the zero-phonon line of Silicon-vacancy centers. Polarization entangled photons are generated via the biexciton-exciton cascade with a fidelity of (0.73 $\pm$ 0.09). High single photon purity is maintained from 4 K (g$^($$^2$$^)$(0) = 0.07 $\pm$ 0.02) up to 80 K (g$^($$^2$$^)$(0) = 0.11 $\pm$ 0.01), therefore making this hybrid system technologically attractive for real-world quantum photonic applications.
翻訳日:2023-04-28 13:18:41 公開日:2023-04-27
# ファクトチェックの自動生成物の意図的利用:なぜ、どのように、誰が

The Intended Uses of Automated Fact-Checking Artefacts: Why, How and Who ( http://arxiv.org/abs/2304.14238v1 )

ライセンス: Link先を確認
Michael Schlichtkrull, Nedjma Ousidhoum, Andreas Vlachos(参考訳) 自動ファクトチェックは、ファクトチェックやソーシャルメディアの消費者、その他の利害関係者が誤情報と戦うために使用できる疫学的なツールとしてしばしば提示される。 それにもかかわらず、どのようにして議論する論文はほとんどない。 本論文は,高度に刺激された100の論文を分析し,目的とする使用,すなわち手段,目的,利害関係者に関する認識的要素を注釈する。 これらの側面を除外する物語は一般的であり、多くの論文は一貫性のない手段と目的を提案しており、提案戦略の実現可能性には経験的な裏付けがほとんどない。 この曖昧さは、過度に評価し、批判を制限し、ステークホルダーのフィードバックを妨げ、テクノロジーが目標に達するのを積極的に妨げていると我々は主張する。 そこで本研究では,ファクトチェックアーティファクトの使用について考えることや書くことを推奨する。

Automated fact-checking is often presented as an epistemic tool that fact-checkers, social media consumers, and other stakeholders can use to fight misinformation. Nevertheless, few papers thoroughly discuss how. We document this by analysing 100 highly-cited papers, and annotating epistemic elements related to intended use, i.e., means, ends, and stakeholders. We find that narratives leaving out some of these aspects are common, that many papers propose inconsistent means and ends, and that the feasibility of suggested strategies rarely has empirical backing. We argue that this vagueness actively hinders the technology from reaching its goals, as it encourages overclaiming, limits criticism, and prevents stakeholder feedback. Accordingly, we provide several recommendations for thinking and writing about the use of fact-checking artefacts.
翻訳日:2023-04-28 13:11:24 公開日:2023-04-27
# 大規模言語モデルは強いゼロショットレトリバー

Large Language Models are Strong Zero-Shot Retriever ( http://arxiv.org/abs/2304.14233v1 )

ライセンス: Link先を確認
Tao Shen, Guodong Long, Xiubo Geng, Chongyang Tao, Tianyi Zhou, Daxin Jiang(参考訳) 本研究では,大言語モデル(llm)をゼロショットシナリオの大規模検索に適用する簡易な手法を提案する。 我々の手法であるRetriever(LameR)としての言語モデルは、LLM以外のニューラルモデルに基づいて構築され、レトリバーとLLMのブルートフォースの組み合わせを分割し、ゼロショット検索の性能をベンチマークデータセット上で非常に競争力のあるものにする。 基本的に、クエリとクエリのドメイン内候補の合成をLCMに促すことで、潜在的な答えでクエリを拡張することを提案する。 候補は、正否にかかわらず、ターゲットコレクション上のバニラ検索手順によって取得される。 このような候補は、プロンプトの一部として、パターンの模倣や候補の要約によってより正確な回答を生成するのに役立つ可能性が高い。 全ての候補が間違っているとしても、プロンプトは少なくともllmにコレクション内のパターンやジャンルを認識させる。 さらに,自己教師型レトリバーの性能が低いため,レトリバーがパイプライン全体をボトルネックにするため,LLMベースのクエリ拡張は効率が低下する。 そこで我々は,非パラメトリックレキシコンベース手法(例えばbm25)を検索モジュールとして活用し,リテラル形式でクエリ文書重なりをキャプチャする手法を提案する。 そのため、LameRはLLMに対して検索手順を透過的にするため、性能ボトルネックを回避することができる。

In this work, we propose a simple method that applies a large language model (LLM) to large-scale retrieval in zero-shot scenarios. Our method, Language language model as Retriever (LameR) is built upon no other neural models but an LLM, while breaking up brute-force combinations of retrievers with LLMs and lifting the performance of zero-shot retrieval to be very competitive on benchmark datasets. Essentially, we propose to augment a query with its potential answers by prompting LLMs with a composition of the query and the query's in-domain candidates. The candidates, regardless of correct or wrong, are obtained by a vanilla retrieval procedure on the target collection. Such candidates, as a part of prompts, are likely to help LLM generate more precise answers by pattern imitation or candidate summarization. Even if all the candidates are wrong, the prompts at least make LLM aware of in-collection patterns and genres. Moreover, due to the low performance of a self-supervised retriever, the LLM-based query augmentation becomes less effective as the retriever bottlenecks the whole pipeline. So, we propose to leverage a non-parametric lexicon-based method (e.g., BM25) as the retrieval module to capture query-document overlap in a literal fashion. As such, LameR makes the retrieval procedure transparent to the LLM, so it circumvents the performance bottleneck.
翻訳日:2023-04-28 13:11:07 公開日:2023-04-27
# torchbench: api表面カバレッジの高いpytorchのベンチマーク

TorchBench: Benchmarking PyTorch with High API Surface Coverage ( http://arxiv.org/abs/2304.14226v1 )

ライセンス: Link先を確認
Yueming Hao, Xu Zhao, Bin Bao, David Berard, Will Constable, Adnan Aziz, Xu Liu(参考訳) ディープラーニング(DL)は、様々な領域において革命的な技術である。 モデルの開発とデプロイを容易にするために、pytorchが最も人気のあるソリューションの1つであるディープラーニングフレームワークが数多く提案されている。 PyTorch周辺のエコシステムのパフォーマンスは極めて重要であり、トレーニングモデルのコストを削減し、モデル推論のレスポンス時間を削減する。 本稿では,pytorchソフトウェアスタックの性能を研究するためのベンチマークスイートであるtorchbenchを提案する。 既存のベンチマークスイートとは異なり、torchbenchは多くの代表的なモデルを包含し、大きなpytorch apiサーフェスをカバーする。 TorchBenchは、PyTorchソフトウェアスタックのパフォーマンスを包括的に特徴付け、モデル、PyTorchフレームワーク、GPUライブラリのパフォーマンス最適化を導くことができる。 TorchBenchの実用例は2つある。 1) PyTorchにおけるGPU性能の非効率性を特定するためにTorchBenchをプロファイルした。 多くのパフォーマンスバグとアップストリームパッチを公式のPyTorchリポジトリに最適化することができます。 2) TorchBenchをPyTorch継続的インテグレーションシステムに統合する。 PyTorchレポジトリがパフォーマンスのバグを発生させないよう、毎日のコードチェックインでパフォーマンスのレグレッションを特定できます。 TorchBenchはオープンソースで、進化を続けている。

Deep learning (DL) has been a revolutionary technique in various domains. To facilitate the model development and deployment, many deep learning frameworks are proposed, among which PyTorch is one of the most popular solutions. The performance of ecosystem around PyTorch is critically important, which saves the costs of training models and reduces the response time of model inferences. In this paper, we propose TorchBench, a novel benchmark suite to study the performance of PyTorch software stack. Unlike existing benchmark suites, TorchBench encloses many representative models, covering a large PyTorch API surface. TorchBench is able to comprehensively characterize the performance of the PyTorch software stack, guiding the performance optimization across models, PyTorch framework, and GPU libraries. We show two practical use cases of TorchBench. (1) We profile TorchBench to identify GPU performance inefficiencies in PyTorch. We are able to optimize many performance bugs and upstream patches to the official PyTorch repository. (2) We integrate TorchBench into PyTorch continuous integration system. We are able to identify performance regression in multiple daily code checkins to prevent PyTorch repository from introducing performance bugs. TorchBench is open source and keeps evolving.
翻訳日:2023-04-28 13:10:41 公開日:2023-04-27
# 複数チャンネル上の自己学際

Self-discipline on multiple channels ( http://arxiv.org/abs/2304.14224v1 )

ライセンス: Link先を確認
Jiutian Zhao, Liang Luo, Hao Wang(参考訳) 自己蒸留は、モデルの一般化能力を改善するために独自の情報に依存しており、明るい未来を持っている。 既存の自己蒸留法は、追加のモデル、モデル修正、訓練のためのバッチサイズ拡張を必要とするため、使用の困難さ、メモリ消費、計算コストが増大する。 本稿では,複数チャネルの概念を用いて,一貫性の正規化と自己蒸留を組み合わせたマルチチャネル(smc)上の自己分散法を開発した。 概念的には、smcは2つのステップからなる。 1) 各チャネルデータは同時にモデルに渡され、対応するソフトラベルが取得され、 2) 前段で保存したソフトラベルを、モデルを介して現在のチャネルデータから得られたソフトラベルと共に読み出し、損失関数を算出する。 SMCは、モデルの一般化能力とノイズラベルに対するモデルの堅牢性を改善するために、一貫した正則化と自己蒸留を用いる。 SMCは2チャンネルのみをSMC-2と命名した。 両データセットの比較実験結果から,SMC-2はモデル全体の83%において,全モデルにおける最終ミニバッチからのラベルの平滑化や自己蒸留よりも優れ,最先端のシャープネス・アウェアの最小化手法よりも優れており,SMC-2とデータ拡張実験の結果から,SMC-2とデータ拡張によるモデル全体の一般化能力は0.28%から1.80%向上していることがわかった。 ラベルノイズ干渉実験の結果、SMC-2はラベルノイズの干渉によりモデルの一般化能力が後期トレーニング期間に低下する傾向を抑えることが示された。 コードはhttps://github.com/jiutiannn/smc-self-discipline-on-multiple-channelsで入手できる。

Self-distillation relies on its own information to improve the generalization ability of the model and has a bright future. Existing self-distillation methods either require additional models, model modification, or batch size expansion for training, which increases the difficulty of use, memory consumption, and computational cost. This paper developed Self-discipline on multiple channels(SMC), which combines consistency regularization with self-distillation using the concept of multiple channels. Conceptually, SMC consists of two steps: 1) each channel data is simultaneously passed through the model to obtain its corresponding soft label, and 2) the soft label saved in the previous step is read together with the soft label obtained from the current channel data through the model to calculate the loss function. SMC uses consistent regularization and self-distillation to improve the generalization ability of the model and the robustness of the model to noisy labels. We named the SMC containing only two channels as SMC-2. Comparative experimental results on both datasets show that SMC-2 outperforms Label Smoothing Regularizaion and Self-distillation From The Last Mini-batch on all models, and outperforms the state-of-the-art Sharpness-Aware Minimization method on 83% of the models.Compatibility of SMC-2 and data augmentation experimental results show that using both SMC-2 and data augmentation improves the generalization ability of the model between 0.28% and 1.80% compared to using only data augmentation. Ultimately, the results of the label noise interference experiments show that SMC-2 curbs the tendency that the model's generalization ability decreases in the late training period due to the interference of label noise. The code is available at https://github.com/JiuTiannn/SMC-Self-discipline-on-multiple-channels.
翻訳日:2023-04-28 13:10:22 公開日:2023-04-27
# 深層学習と文法に基づく多言語時間検出と正規化のためのモジュール手法

A Modular Approach for Multilingual Timex Detection and Normalization using Deep Learning and Grammar-based methods ( http://arxiv.org/abs/2304.14221v1 )

ライセンス: Link先を確認
Nayla Escribano, German Rigau, Rodrigo Agerri(参考訳) 時間的表現の検出と正規化は多くのNLPタスクにとって重要なステップである。 検出には様々な方法が提案されているが、最良の正規化手法は手作りの規則に依存している。 さらに、そのほとんどは英語専用にデザインされている。 本稿では,細調整されたマスケッド言語モデルと文法ベース正規化器を組み合わせたモジュール型多言語時間処理システムを提案する。 我々はスペイン語と英語で実験を行い、多言語時間処理における最先端技術であるHeidelTimeと比較した。 金の時空正規化, 時間差検出, 型認識, およびTempEval-3緩和値測定器の競合性能を比較検討した。 詳細な誤差解析は、この最後の計量において正規化を提供することが可能な時間軸のみを検出することが非常に有益であることを示している。 これは timex 処理における最善の戦略である、すなわち正規化ルールの提供が容易でない、あるいは高いカバレッジを目指すような、検出されていない timex を残している、という疑問を提起する。

Detecting and normalizing temporal expressions is an essential step for many NLP tasks. While a variety of methods have been proposed for detection, best normalization approaches rely on hand-crafted rules. Furthermore, most of them have been designed only for English. In this paper we present a modular multilingual temporal processing system combining a fine-tuned Masked Language Model for detection, and a grammar-based normalizer. We experiment in Spanish and English and compare with HeidelTime, the state-of-the-art in multilingual temporal processing. We obtain best results in gold timex normalization, timex detection and type recognition, and competitive performance in the combined TempEval-3 relaxed value metric. A detailed error analysis shows that detecting only those timexes for which it is feasible to provide a normalization is highly beneficial in this last metric. This raises the question of which is the best strategy for timex processing, namely, leaving undetected those timexes for which is not easy to provide normalization rules or aiming for high coverage.
翻訳日:2023-04-28 13:09:48 公開日:2023-04-27
# いくつかの変数、パラメータ、幾らかの物理が知られているいくつかの変数:部分的情報による識別

Some of the variables, some of the parameters, some of the times, with some physics known: Identification with partial information ( http://arxiv.org/abs/2304.14214v1 )

ライセンス: Link先を確認
Saurabh Malani, Tom S. Bertalan, Tianqi Cui, Jose L. Avalos, Michael Betenbaugh, Ioannis G. Kevrekidis(参考訳) 実験データは、異なるサンプリングレートで測定された変数(連続的な測定で不均一な${\Delta}$t)でしばしば構成され、特定の時点では、すべての変数のサブセットのみをサンプリングすることができる。 このようなデータから動的システムを特定するアプローチは、通常、補間、命令、サブサンプリングを使用してトレーニングデータの再構成や修正を行う。 部分的物理知識は$\textit{a priori}$(正確にはおよそ)で利用可能であり、データ駆動技術はこの知識を補完することができる。 ここでは,数値積分法と$\textit{a priori}$物理知識に基づくニューラルネットワークアーキテクチャを用いて,基礎となる微分方程式の右辺を同定する。 このようなニューラルネットワークモデルの反復により、任意の時間ポイント$\textit{without}$データ修正でサンプリングされたデータから学習することができる。 重要なのは,ネットワークと利用可能な部分的物理知識を"物理情報グレーボックス"に統合することで,未知の運動速度や微生物成長関数を学習し,同時に実験パラメータを推定できることである。

Experimental data is often comprised of variables measured independently, at different sampling rates (non-uniform ${\Delta}$t between successive measurements); and at a specific time point only a subset of all variables may be sampled. Approaches to identifying dynamical systems from such data typically use interpolation, imputation or subsampling to reorganize or modify the training data $\textit{prior}$ to learning. Partial physical knowledge may also be available $\textit{a priori}$ (accurately or approximately), and data-driven techniques can complement this knowledge. Here we exploit neural network architectures based on numerical integration methods and $\textit{a priori}$ physical knowledge to identify the right-hand side of the underlying governing differential equations. Iterates of such neural-network models allow for learning from data sampled at arbitrary time points $\textit{without}$ data modification. Importantly, we integrate the network with available partial physical knowledge in "physics informed gray-boxes"; this enables learning unknown kinetic rates or microbial growth functions while simultaneously estimating experimental parameters.
翻訳日:2023-04-28 13:09:30 公開日:2023-04-27
# ZZ生成ゲートのコヒーレントおよび非単位誤差

Coherent and non-unitary errors in ZZ-generated gates ( http://arxiv.org/abs/2304.14212v1 )

ライセンス: Link先を確認
T. Mueller, T. Stollenwerk, D.Headley, M. Epping, F.K. Wilhelm(参考訳) 量子近似最適化アルゴリズムのような変分アルゴリズムは、近距離量子コンピュータを用いて問題を解決する可能性から注目を集めている。 ZZ$の相互作用は、典型的には、ある時間適用されたアルゴリズムのプリミティブな2ビットゲートを生成する(通常、変分パラメータ$\gamma$)。 2ビットゲートの実装に関して異なるコンパイル技術が存在する。 z$-gateの重要性から,連続角制御位相ゲート (cp) と固定角制御された$z$-gate (cz) を比較した誤差解析を行う。 両手法をコヒーレントオーバーローテーションと非分極ノイズの影響で解析した。 CP と CZ のコンパイル手法は,不整合誤差が$0.03 \, \%$ 以下で,コヒーレントエラーが$0.8 \, \%$ 以下であれば,ZZ$-gate 忠実度に匹敵することを示す。 したがって、小さなコヒーレントで非コヒーレントなエラーの場合、czのような非パラメータの2量子ビットゲートと単一量子ビットゲートの仮想$z$分解の組み合わせは、キャリブレーションの大幅な削減につながり、したがってエラーが発生しやすい量子デバイスとなる。 我々は、コヒーレント誤差が$0.04 \pi$$2 \, \%$より上、CZゲートの忠実度は$\gamma$に大きく依存することを示した。

Variational algorithms such as the Quantum Approximate Optimization Algorithm have attracted attention due to their potential for solving problems using near-term quantum computers. The $ZZ$ interaction typically generates the primitive two-qubit gate in such algorithms applied for a time, typically a variational parameter, $\gamma$. Different compilation techniques exist with respect to the implementation of two-qubit gates. Due to the importance of the $ZZ$-gate, we present an error analysis comparing the continuous-angle controlled phase gate (CP) against the fixed angle controlled $Z$-gate (CZ). We analyze both techniques under the influence of coherent over-rotation and depolarizing noise. We show that CP and CZ compilation techniques achieve comparable $ZZ$-gate fidelities if the incoherent error is below $0.03 \, \%$ and the coherent error is below $0.8 \, \%$. Thus, we argue that for small coherent and incoherent error a non-parameterized two-qubit gate such as CZ in combination with virtual $Z$ decomposition for single-qubit gates could lead to a significant reduction in the calibration required and, therefore, a less error-prone quantum device. We show that above a coherent error of $0.04 \pi$ ($2 \, \%$), the CZ gate fidelity depends significantly on $\gamma$.
翻訳日:2023-04-28 13:09:07 公開日:2023-04-27
# LLT: 線形法則に基づく特徴空間変換のためのRパッケージ

LLT: An R package for Linear Law-based Feature Space Transformation ( http://arxiv.org/abs/2304.14211v1 )

ライセンス: Link先を確認
Marcell T. Kurbucz, P\'eter P\'osfay, Antal Jakov\'ac(参考訳) 線形法則に基づく特徴空間変換(LLT)アルゴリズムの目標は、単変量および多変量時系列の分類を支援することである。 LLTと呼ばれる提示されたRパッケージは、柔軟だがユーザフレンドリーな方法でこのアルゴリズムを実装している。 このパッケージは、まずインスタンスをトレーニングとテストセットに分割する。 次に、時間遅延埋め込みとスペクトル分解技術を用いて、トレーニングセット内の各入力シーケンス(初期特徴)の制御パターン(線形法則と呼ばれる)を識別する。 最後に、テストセットの初期特徴を変換するために、トレーニングセットの線形法則を適用します。 これらのステップは、trainTest、trainLaw、testTransと呼ばれる3つの別々の関数によって実行される。 アプリケーションには事前定義されたデータ構造が必要ですが、高速な計算には組み込み関数のみを使用します。 LLT Rパッケージと適切なデータ構造を持つサンプルデータセットはGitHubで公開されている。

The goal of the linear law-based feature space transformation (LLT) algorithm is to assist with the classification of univariate and multivariate time series. The presented R package, called LLT, implements this algorithm in a flexible yet user-friendly way. This package first splits the instances into training and test sets. It then utilizes time-delay embedding and spectral decomposition techniques to identify the governing patterns (called linear laws) of each input sequence (initial feature) within the training set. Finally, it applies the linear laws of the training set to transform the initial features of the test set. These steps are performed by three separate functions called trainTest, trainLaw, and testTrans. Their application requires a predefined data structure; however, for fast calculation, they use only built-in functions. The LLT R package and a sample dataset with the appropriate data structure are publicly available on GitHub.
翻訳日:2023-04-28 13:08:38 公開日:2023-04-27
# データ表現への透明なアプローチ

A transparent approach to data representation ( http://arxiv.org/abs/2304.14209v1 )

ライセンス: Link先を確認
Sean Deyo, Veit Elser(参考訳) バイナリ属性表現(BAR)モデルを使用して、Netflix視聴者による映画のレーティングのデータセットを記述する。 我々は連続パラメータではなく離散ビットで視聴者を分類し、表現をコンパクトで透明にする。 属性は解釈が容易で、同じレベルのエラーを達成するためには、類似のメソッドよりもずっと少ない属性が必要です。 また,他の作品のパフォーマンスを損なうことなく,少数の映画を訓練するためのデータセットにおいて,映画間での視聴率の非一様分布を生かした。

We use a binary attribute representation (BAR) model to describe a data set of Netflix viewers' ratings of movies. We classify the viewers with discrete bits rather than continuous parameters, which makes the representation compact and transparent. The attributes are easy to interpret, and we need far fewer attributes than similar methods do to achieve the same level of error. We also take advantage of the nonuniform distribution of ratings among the movies in the data set to train on a small selection of movies without compromising performance on the rest of the movies.
翻訳日:2023-04-28 13:08:26 公開日:2023-04-27
# flac:属性クラスアソシエーションの抑制によるフェアネス認識表現学習

FLAC: Fairness-Aware Representation Learning by Suppressing Attribute-Class Associations ( http://arxiv.org/abs/2304.14252v1 )

ライセンス: Link先を確認
Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Christos Diou(参考訳) コンピュータビジョンシステムのバイアスは、特定の集団に対する差別を永久にまたは増幅することができる。 バイアスは、バイアス付きビジュアルデータセットによってしばしば導入されるため、近年の多くの研究は、そのようなデータを使用して公正なモデルをトレーニングすることに重点を置いている。 しかし、それらのほとんどがデータセット内の保護された属性ラベルの可用性に大きく依存しており、その適用性は制限されているが、ラベルを意識しないアプローチ、すなわちそのようなラベルなしで運用されるアプローチは、かなり低いパフォーマンスを示している。 これらの制限を克服するため、FLACは属性ラベルを使わずにモデルによって抽出された特徴と保護された属性との間の相互情報を最小化する手法である。 そこでFLACは,データセットの未表現サンプルを強調表示するサンプリング戦略を提案し,バイアスキャプチャー分類器によって抽出された表現を利用する確率マッチング問題として公正表現の学習問題を論じる。 FLACは、保護された属性とは独立な公正な表現につながることが理論的に示されている。 FLAC は現在の Biased MNIST、CelebA、UTKFace を29.1%、18.1%、21.9% で上回っている。 さらに、FLACはImageNetの最も難しいサンプルからなるImageNet-Aの精度が2.2%向上している。 最後に、ほとんどの実験では、FLACはバイアスラベルを意識した最先端の手法よりも優れています。

Bias in computer vision systems can perpetuate or even amplify discrimination against certain populations. Considering that bias is often introduced by biased visual datasets, many recent research efforts focus on training fair models using such data. However, most of them heavily rely on the availability of protected attribute labels in the dataset, which limits their applicability, while label-unaware approaches, i.e., approaches operating without such labels, exhibit considerably lower performance. To overcome these limitations, this work introduces FLAC, a methodology that minimizes mutual information between the features extracted by the model and a protected attribute, without the use of attribute labels. To do that, FLAC proposes a sampling strategy that highlights underrepresented samples in the dataset, and casts the problem of learning fair representations as a probability matching problem that leverages representations extracted by a bias-capturing classifier. It is theoretically shown that FLAC can indeed lead to fair representations, that are independent of the protected attributes. FLAC surpasses the current state-of-the-art on Biased MNIST, CelebA, and UTKFace, by 29.1%, 18.1%, and 21.9%, respectively. Additionally, FLAC exhibits 2.2% increased accuracy on ImageNet-A consisting of the most challenging samples of ImageNet. Finally, in most experiments, FLAC even outperforms the bias label-aware state-of-the-art methods.
翻訳日:2023-04-28 13:00:48 公開日:2023-04-27
# 変分ベイが簡単になった

Variational Bayes Made Easy ( http://arxiv.org/abs/2304.14251v1 )

ライセンス: Link先を確認
Mohammad Emtiyaz Khan(参考訳) 変分ベイズは近似推論の一般的な方法であるが、その導出は困難である。 この過程を単純化するために、よく知られた分布の期待に対して線形性を明確に求めることで、後部形態を識別するための3段階のレシピを与える。 すると、これらの期待を前に、単に‘reading-off’という用語でアップデートを直接書くことができます。 レシピは、より簡単で、より速く、より短く、より一般的である。

Variational Bayes is a popular method for approximate inference but its derivation can be cumbersome. To simplify the process, we give a 3-step recipe to identify the posterior form by explicitly looking for linearity with respect to expectations of well-known distributions. We can then directly write the update by simply ``reading-off'' the terms in front of those expectations. The recipe makes the derivation easier, faster, shorter, and more general.
翻訳日:2023-04-28 13:00:25 公開日:2023-04-27
# プラトンの洞窟におけるマニフォールド学習について--マニフォールド学習と物理現象について

On Manifold Learning in Plato's Cave: Remarks on Manifold Learning and Physical Phenomena ( http://arxiv.org/abs/2304.14248v1 )

ライセンス: Link先を確認
Roy R. Lederman and Bogdan Toader(参考訳) 機械学習における多くの技術は、基礎となる物理現象の低次元多様体構造を、その現象や測定装置の明示的なモデルなしで測定から推測しようとする。 本稿では,良性環境における計測の幾何学と基礎現象の幾何学との相違について考察する。 本論文で示した計量の変形は、一般的な場合では数学的に単純で避けられないものであり、類似した効果の1つに過ぎない。 これは必ずしも問題とは限りませんが、この効果が一見単純な質問に対する誤った答えにつながる、標準的で無害なデータ処理の例を示します。 多様体学習に焦点をあてるが、これらの問題は次元減少と教師なし学習に広く適用される。

Many techniques in machine learning attempt explicitly or implicitly to infer a low-dimensional manifold structure of an underlying physical phenomenon from measurements without an explicit model of the phenomenon or the measurement apparatus. This paper presents a cautionary tale regarding the discrepancy between the geometry of measurements and the geometry of the underlying phenomenon in a benign setting. The deformation in the metric illustrated in this paper is mathematically straightforward and unavoidable in the general case, and it is only one of several similar effects. While this is not always problematic, we provide an example of an arguably standard and harmless data processing procedure where this effect leads to an incorrect answer to a seemingly simple question. Although we focus on manifold learning, these issues apply broadly to dimensionality reduction and unsupervised learning.
翻訳日:2023-04-28 13:00:18 公開日:2023-04-27
# sagnac干渉計におけるカスケード2次非線形過程による離散周波数-ビン絡み合い生成

Discrete frequency-bin entanglement generation via cascaded second-order nonlinear processes in Sagnac interferometer ( http://arxiv.org/abs/2304.14245v1 )

ライセンス: Link先を確認
Jiarui Li, Chenzhi Yuan, Si Shen, Zichang Zhang, Ruiming Zhang, Hao Li, You Wang, Guangwei Deng, Lixing You, Zhen Wang, Haizhi Song, Yunru Fan, Guangcan Guo, Qiang Zhou(参考訳) 離散周波数ビン絡み合いは、量子情報処理への応用に欠かせない資源である。 そこで本論文では,修正sagac干渉計を用いて周期的に分極したニオブ酸リチウム導波路を用いた離散周波数ビン絡み合い生成法を提案し,実証する。 sagnac干渉計の両方向の相関した2光子状態は、カスケードされた2次光学非線形過程によって生成される。 ポンプ光の偏光状態を変化させ、サニャック干渉計の出力で2光子状態を操作することにより、2つの状態の相対位相差を導入する。 生成された2光子状態はファイバ偏光スプリッタに送信され、ポンプ光を設定して純離散周波数ビン絡み2光子状態を得る。 周波数絡み合い特性は空間量子ビーティングによって測定され、視認性は96.0 \pm 6.1\%$である。 密度行列はさらに理想状態に対して98.0 \pm 3.0\%$の忠実度で得られる。 我々の実証は、量子フォトニクスにおいて望まれるテレコムバンドにおける純粋な離散周波数ビン絡みの発生のための有望な方法を提供する。

Discrete frequency-bin entanglement is an essential resource for applications in quantum information processing. In this Letter, we propose and demonstrate a scheme to generate discrete frequency-bin entanglement with a single piece of periodically poled lithium niobate waveguide in a modified Sagnac interferometer. Correlated two-photon states in both directions of the Sagnac interferometer are generated through cascaded second-order optical nonlinear processes. A relative phase difference between the two states is introduced by changing the polarization state of pump light, thus manipulating the two-photon state at the output of the Sagnac interferometer. The generated two-photon state is sent into a fiber polarization splitter, then a pure discrete frequency-bin entangled two-photon state is obtained by setting the pump light. The frequency entanglement property is measured by a spatial quantum beating with a visibility of $96.0 \pm 6.1\%$. The density matrix is further obtained with a fidelity of $98.0 \pm 3.0\%$ to the ideal state. Our demonstration provides a promising method for the generation of pure discrete frequency-bin entanglement at telecom band, which is desired in quantum photonics.
翻訳日:2023-04-28 13:00:05 公開日:2023-04-27
# 立ち位置線形時間論理

Standpoint Linear Temporal Logic ( http://arxiv.org/abs/2304.14243v1 )

ライセンス: Link先を確認
Nicola Gigante, Lucia {Gomez Alvarez}, Tim S. Lyon(参考訳) 多くの複雑なシナリオでは、ユニークな視点と明確な意味的コミットメントを持つエージェントの調整が必要である。 これに対し、ディファレンス論理(sl)は知識統合の文脈で導入され、インデクシングされたモダリティによって多様で潜在的に相反する視点を推論できるようになった。 輸入のもう一つのマルチモーダル論理は線形時間論理(LTL)であり、システムやプロセスの時間的特性を表現する形式であり、人工知能に関する形式的手法や分野において顕著である。 本稿では,LTLの時間的特徴とSLのマルチパースペクティブ・モデリング能力を組み合わせた新しい論理である,スタンドポイント線形時間論理(SLTL)を提案する。 論理SLTLとその構文とその意味を定義し,その決定可能性と複雑性を確立し,SLTL推論を自動化するためのテーブルー計算を提供する。 同時に、これは既存のLTL推論を拡張し、マルチパースペクティブな設定で時間的推論を実践的にサポートする明確な経路を提供する。

Many complex scenarios require the coordination of agents possessing unique points of view and distinct semantic commitments. In response, standpoint logic (SL) was introduced in the context of knowledge integration, allowing one to reason with diverse and potentially conflicting viewpoints by means of indexed modalities. Another multi-modal logic of import is linear temporal logic (LTL) - a formalism used to express temporal properties of systems and processes, having prominence in formal methods and fields related to artificial intelligence. In this paper, we present standpoint linear temporal logic (SLTL), a new logic that combines the temporal features of LTL with the multi-perspective modelling capacity of SL. We define the logic SLTL, its syntax, and its semantics, establish its decidability and complexity, and provide a terminating tableau calculus to automate SLTL reasoning. Conveniently, this offers a clear path to extend existing LTL reasoners with practical reasoning support for temporal reasoning in multi-perspective settings.
翻訳日:2023-04-28 12:59:47 公開日:2023-04-27
# Entity-Level Sentiment Analysis (ELSA):探索的タスクサーベイ

Entity-Level Sentiment Analysis (ELSA): An exploratory task survey ( http://arxiv.org/abs/2304.14241v1 )

ライセンス: Link先を確認
Egil R{\o}nningstad and Erik Velldal and Lilja {\O}vrelid(参考訳) 本稿では、自発的な実体(個人や組織)に対して表現される全体的な感情を文書の中で識別するタスクについて検討する。 あるエンティティに伝達される感情を特定することは、ツイートのような短いテキストに対してよく研究されているが、同じエンティティに対して複数の言及や意見を持つ長いテキストに対して、この特定のタスクについてはほとんど研究されていない。 この研究の欠如は、ELSAが既存のタスクやモデルから派生できるなら理解できるだろう。 これを評価するために、テキスト内の各自発的なエンティティに対する全体的な感情に対する専門家レビューのセットを注釈付けする。 我々は,複数ドメインのレビューコーパスにおいて,文書レベル,文レベル,ターゲットレベルの感情に対してすでに注釈が付されたデータをサンプリングし,この全体的な感情を提供する単一のプロキシタスクが存在しないことを示す。 本稿では,文書,文,目標レベルの感情分析によるELSAへの貢献を評価するための一連の実験を行い,その問題点について考察する。 我々のデータセットの感情は、対象として言及されるエンティティだけでなく、自発的なエンティティと感情関連のあるターゲットにも表現されている。 私たちのデータでは、これらの関係はアナフォリックなコリファレンスの解決を超えて広がり、このトピックのさらなる研究が求められています。 最後に,先行研究に関する調査も実施する。

This paper explores the task of identifying the overall sentiment expressed towards volitional entities (persons and organizations) in a document -- what we refer to as Entity-Level Sentiment Analysis (ELSA). While identifying sentiment conveyed towards an entity is well researched for shorter texts like tweets, we find little to no research on this specific task for longer texts with multiple mentions and opinions towards the same entity. This lack of research would be understandable if ELSA can be derived from existing tasks and models. To assess this, we annotate a set of professional reviews for their overall sentiment towards each volitional entity in the text. We sample from data already annotated for document-level, sentence-level, and target-level sentiment in a multi-domain review corpus, and our results indicate that there is no single proxy task that provides this overall sentiment we seek for the entities at a satisfactory level of performance. We present a suite of experiments aiming to assess the contribution towards ELSA provided by document-, sentence-, and target-level sentiment analysis, and provide a discussion of their shortcomings. We show that sentiment in our dataset is expressed not only with an entity mention as target, but also towards targets with a sentiment-relevant relation to a volitional entity. In our data, these relations extend beyond anaphoric coreference resolution, and our findings call for further research of the topic. Finally, we also present a survey of previous relevant work.
翻訳日:2023-04-28 12:59:29 公開日:2023-04-27
# rgb画像を用いた3次元手指再建のための咬合認識テクスチャ回帰を用いた確率的注意モデル

A Probabilistic Attention Model with Occlusion-aware Texture Regression for 3D Hand Reconstruction from a Single RGB Image ( http://arxiv.org/abs/2304.14299v1 )

ライセンス: Link先を確認
Zheheng Jiang, Hossein Rahmani, Sue Black, Bryan M. Williams(参考訳) 近年,深層学習に基づくアプローチは,単一のRGB画像からの3次元手指再建において有望な結果を示している。 これらのアプローチは、モデルのパラメータ空間に大きく依存するモデルベースアプローチと、奥行きの曖昧さを減らし、弱い監督されたシナリオに苦しむために多数の3D基底真理を必要とするモデルフリーアプローチに大別することができる。 これらの問題を克服するために,モデルベースアプローチの堅牢性を実現し,モデルフリーアプローチのパラメータ空間への依存を減らすための新しい確率モデルを提案する。 提案する確率モデルでは,モデルベースネットワークを事前ネットとして組み込んで,関節と頂点の事前確率分布を推定する。 注意に基づくメッシュ頂点不確実性回帰(amvur)モデルは、頂点間の依存関係と関節とメッシュ頂点の相関を捉え、特徴表現を改善するために提案されている。 さらに,高忠実度テクスチャ再構築を実現するための学習ベースオクルージョン対応ハンドテクスチャ回帰モデルを提案する。 提案する確率モデルの柔軟性を教師ありシナリオと弱い教師ありシナリオの両方で実証する。 実験結果から, 重度咬合の有無を含む2つのトレーニングスキームにおいて, 3次元手指の確率モデルの精度と1つの画像からのテクスチャ再構成が示された。

Recently, deep learning based approaches have shown promising results in 3D hand reconstruction from a single RGB image. These approaches can be roughly divided into model-based approaches, which are heavily dependent on the model's parameter space, and model-free approaches, which require large numbers of 3D ground truths to reduce depth ambiguity and struggle in weakly-supervised scenarios. To overcome these issues, we propose a novel probabilistic model to achieve the robustness of model-based approaches and reduced dependence on the model's parameter space of model-free approaches. The proposed probabilistic model incorporates a model-based network as a prior-net to estimate the prior probability distribution of joints and vertices. An Attention-based Mesh Vertices Uncertainty Regression (AMVUR) model is proposed to capture dependencies among vertices and the correlation between joints and mesh vertices to improve their feature representation. We further propose a learning based occlusion-aware Hand Texture Regression model to achieve high-fidelity texture reconstruction. We demonstrate the flexibility of the proposed probabilistic model to be trained in both supervised and weakly-supervised scenarios. The experimental results demonstrate our probabilistic model's state-of-the-art accuracy in 3D hand and texture reconstruction from a single image in both training schemes, including in the presence of severe occlusions.
翻訳日:2023-04-28 12:52:58 公開日:2023-04-27
# 暗黒におけるインスタンスセグメンテーション

Instance Segmentation in the Dark ( http://arxiv.org/abs/2304.14298v1 )

ライセンス: Link先を確認
Linwei Chen, Ying Fu, Kaixuan Wei, Dezhi Zheng, Felix Heide(参考訳) 既存のインスタンスセグメンテーション技術は主に高可視性入力に適しているが、非常に低照度環境では性能が著しく低下する。 本稿では,暗黒領域におけるインスタンスセグメンテーションを深く検討し,低光度推論精度を大幅に向上させる手法をいくつか紹介する。 提案手法は,低照度画像のノイズがニューラルネットワークの特徴マップに高周波障害をもたらすことを観測し,性能を著しく低下させる。 この「フィーチャーノイズ」を抑えるために,適応重み付けされたダウンサンプリング層,スムーズな指向の畳み込みブロック,乱れ抑制学習に依存する新しい学習手法を提案する。 これらのコンポーネントは、ダウンサンプリングや畳み込み操作時の特徴ノイズを効果的に低減し、モデルが外乱不変特徴を学習できるようにする。 さらに、高ビット深度raw画像は、通常のカメラsrgb出力よりも低照度でよりリッチなシーン情報を保存できるため、raw入力アルゴリズムの使用を支援する。 分析の結果,高ビット深度は低照度インスタンスセグメンテーションにおいて重要であることが示された。 注釈付き生データセットの不足を軽減するため、低照度生合成パイプラインを利用して現実的な低照度データを生成する。 さらに, この方向のさらなる研究を促進するために, 実世界の低照度インスタンスセグメンテーションデータセットを, インスタンスレベルのアノテーションを用いた2万組以上の低照度/通常照度画像から取得する。 注目すべきは、画像前処理がなければ、インスタンスセグメンテーションを非常に低い光(最先端の競合他社よりも4~\% AP)で満足できる性能を実現し、一方で、将来的な研究の新たな機会を開くことである。

Existing instance segmentation techniques are primarily tailored for high-visibility inputs, but their performance significantly deteriorates in extremely low-light environments. In this work, we take a deep look at instance segmentation in the dark and introduce several techniques that substantially boost the low-light inference accuracy. The proposed method is motivated by the observation that noise in low-light images introduces high-frequency disturbances to the feature maps of neural networks, thereby significantly degrading performance. To suppress this ``feature noise", we propose a novel learning method that relies on an adaptive weighted downsampling layer, a smooth-oriented convolutional block, and disturbance suppression learning. These components effectively reduce feature noise during downsampling and convolution operations, enabling the model to learn disturbance-invariant features. Furthermore, we discover that high-bit-depth RAW images can better preserve richer scene information in low-light conditions compared to typical camera sRGB outputs, thus supporting the use of RAW-input algorithms. Our analysis indicates that high bit-depth can be critical for low-light instance segmentation. To mitigate the scarcity of annotated RAW datasets, we leverage a low-light RAW synthetic pipeline to generate realistic low-light data. In addition, to facilitate further research in this direction, we capture a real-world low-light instance segmentation dataset comprising over two thousand paired low/normal-light images with instance-level pixel-wise annotations. Remarkably, without any image preprocessing, we achieve satisfactory performance on instance segmentation in very low light (4~\% AP higher than state-of-the-art competitors), meanwhile opening new opportunities for future research.
翻訳日:2023-04-28 12:52:32 公開日:2023-04-27
# 2つの古典的単色場と相互作用する3レベル系の同時および個別気象戦略における位相パラメータの推定

Estimating phase parameters of a three-level system interacting with two classical monochromatic fields in simultaneous and individual metrological strategies ( http://arxiv.org/abs/2304.14296v1 )

ライセンス: Link先を確認
Nour-Eddine Abouelkhir, Abdallah Slaoui, Hanane El Hadfi and Rachid Ahl Laamara(参考訳) 近年、量子統計速度の特別なクラスであるヒルベルト・シュミット速度は、単一パラメータ量子推定における干渉位相を改善することが報告されている。 ここでは,2つのレーザー位相が2つの古典的単色場と相互作用する3レベル原子からなる理論モデルで推定されるマルチパラメータシナリオで,この概念をテストする。 2光子共振遷移の場合、原子密度行列の厳密な解析解を抽出する。 さらに、個人および同時気象戦略におけるレーザ位相パラメータ推定の性能を比較し、未知の多相シフト推定プロトコルの効率向上における量子コヒーレンスの役割について検討する。 The obtained results show that the Hilbert-Schmidt speed detects the lower bound on the statistical estimation error as well as the optimal estimation regions, where its maximal corresponds to the maximal quantum Fisher information, the performance of simultaneous multiparameter estimation with individual estimation inevitably depends on the detuning parameters of the three-level atom, and not only the quantum entanglement, but also the quantum coherence is a crucial resource to improve the accuracy of a metrological protocol.

Recently, the Hilbert-Schmidt speed, as a special class of quantum statistical speed, has been reported to improve the interferometric phase in single-parameter quantum estimation. Here, we test this concept in the multiparameter scenario where two laser phases are estimated in a theoretical model consisting of a three-level atom interacting with two classical monochromatic fields. When the atom is initially prepared in the lower bare state taking into account the detuning parameters, we extract an exact analytical solution of the atomic density matrix in the case of two-photon resonant transition. Further, we compare the performance of laser phase parameters estimation in individual and simultaneous metrological strategies, and we explore the role of quantum coherence in improving the efficiency of unknown multi-phase shift estimation protocols. The obtained results show that the Hilbert-Schmidt speed detects the lower bound on the statistical estimation error as well as the optimal estimation regions, where its maximal corresponds to the maximal quantum Fisher information, the performance of simultaneous multiparameter estimation with individual estimation inevitably depends on the detuning parameters of the three-level atom, and not only the quantum entanglement, but also the quantum coherence is a crucial resource to improve the accuracy of a metrological protocol.
翻訳日:2023-04-28 12:51:47 公開日:2023-04-27
# 自然言語命令によるテキスト生成制御

Controlled Text Generation with Natural Language Instructions ( http://arxiv.org/abs/2304.14293v1 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Ethan Wilcox, Ryan Cotterell, Mrinmaya Sachan(参考訳) 大規模な言語モデルは、フルーエントテキストを生成し、タスク固有のトレーニングなしで幅広いタスクを解決するために、自然言語命令に従うことができる。 それにもかかわらず、異なるアプリケーションに必要な様々な制約を満たすために、それらの世代を制御することは、悪名高い。 本稿では,自然言語記述の条件付けと制約の実証により,異なる制約を取り入れた制御型テキスト生成フレームワークinstructctgを提案する。 特に,本研究では,既製のNLPツールと単純なヒューリスティックスを組み合わせて,自然文の基本的制約を抽出する。 次に、制約を自然言語命令に言語化し、弱教師付きトレーニングデータを形成する。 制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。 既存のサーチベースやスコアベースの手法と比較して、InstructCTGは異なる制約タイプに対して柔軟であり、デコード手順を変更しないため、生成品質と速度への影響ははるかに小さい。 さらに、インストラクトCTGは、数ショットのタスク一般化と命令チューニング言語モデルのコンテキスト内学習機能を使用することで、モデルを再訓練することなく、新しい制約に適応することができる。

Large language models generate fluent texts and can follow natural language instructions to solve a wide range of tasks without task-specific training. Nevertheless, it is notoriously difficult to control their generation to satisfy the various constraints required by different applications. In this work, we present InstructCTG, a controlled text generation framework that incorporates different constraints by conditioning on natural language descriptions and demonstrations of the constraints. In particular, we first extract the underlying constraints of natural texts through a combination of off-the-shelf NLP tools and simple heuristics. We then verbalize the constraints into natural language instructions to form weakly supervised training data. By prepending natural language descriptions of the constraints and a few demonstrations, we fine-tune a pre-trained language model to incorporate various types of constraints. Compared to existing search-based or score-based methods, InstructCTG is more flexible to different constraint types and has a much smaller impact on the generation quality and speed because it does not modify the decoding procedure. Additionally, InstructCTG allows the model to adapt to new constraints without re-training through the use of few-shot task generalization and in-context learning abilities of instruction-tuned language models.
翻訳日:2023-04-28 12:51:30 公開日:2023-04-27
# EDAPS: 拡張ドメイン適応型パノプティブセグメンテーション

EDAPS: Enhanced Domain-Adaptive Panoptic Segmentation ( http://arxiv.org/abs/2304.14291v1 )

ライセンス: Link先を確認
Suman Saha, Lukas Hoyer, Anton Obukhov, Dengxin Dai and Luc Van Gool(参考訳) 自律型産業の台頭により、視覚知覚スタックのドメイン適応はコスト削減の約束のために重要な研究方向である。 多くの先行技術は、合成から現実への文脈におけるドメイン適応意味セグメンテーションに特化していた。 知覚スタックの重要なアウトプットであるにもかかわらず、panopticのセグメンテーションはドメイン適応コミュニティによって見過ごされています。 したがって、ドメイン適応戦略を他の分野から再検討し、パンオプティカルセグメンテーションに適応させ、効果的にパンオプティカルドメイン適応を向上できることを示す。 さらに,パン光学ネットワークの設計について検討し,ドメイン適応型パン光学セグメンテーションのための新しいアーキテクチャ(EDAPS)を提案する。 セマンティクスとインスタンス機能の共用的適応を容易にするために、共有されたドメインロバストトランスフォーマーエンコーダを使用するが、ドメイン適応セマンティクスとインスタンスセグメンテーションの両方の特定の要件に合わせて調整されたタスク固有のデコーダである。 その結果,パン光学ベンチマークにおける性能差は著しく狭められた。 EDAPSは、SynTHIA-to-Cityscapesでは25%、より困難なSynTHIA-to-Mapillary Vistasでは72%という大きなマージンで、パンプトセグメンテーションUDAの最先端性能を著しく向上させる。 実装はhttps://github.com/susaha/edapsで利用可能である。

With autonomous industries on the rise, domain adaptation of the visual perception stack is an important research direction due to the cost savings promise. Much prior art was dedicated to domain-adaptive semantic segmentation in the synthetic-to-real context. Despite being a crucial output of the perception stack, panoptic segmentation has been largely overlooked by the domain adaptation community. Therefore, we revisit well-performing domain adaptation strategies from other fields, adapt them to panoptic segmentation, and show that they can effectively enhance panoptic domain adaptation. Further, we study the panoptic network design and propose a novel architecture (EDAPS) designed explicitly for domain-adaptive panoptic segmentation. It uses a shared, domain-robust transformer encoder to facilitate the joint adaptation of semantic and instance features, but task-specific decoders tailored for the specific requirements of both domain-adaptive semantic and instance segmentation. As a result, the performance gap seen in challenging panoptic benchmarks is substantially narrowed. EDAPS significantly improves the state-of-the-art performance for panoptic segmentation UDA by a large margin of 25% on SYNTHIA-to-Cityscapes and even 72% on the more challenging SYNTHIA-to-Mapillary Vistas. The implementation is available at https://github.com/susaha/edaps.
翻訳日:2023-04-28 12:51:09 公開日:2023-04-27
# Deep Metric Learningを用いた意味フレーム誘導

Semantic Frame Induction with Deep Metric Learning ( http://arxiv.org/abs/2304.14286v1 )

ライセンス: Link先を確認
Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 最近の研究は、教師なしセマンティックフレーム誘導における文脈的単語埋め込みの有用性を実証している。 しかし、意味的フレームに関する人間の直観と必ずしも一致しないため、文脈的埋め込みに基づくフレーム誘導に不満足な性能が生じることも明らかにした。 本稿では,コーパス内の述語の部分集合に対するフレームアノテートデータの存在を仮定し,アノテートデータを活用したフレームインダクションモデルの構築を目指す,教師付きセマンティックフレームインダクションについて述べる。 本研究では,文脈適応型埋め込みモデルを微調整するために,深層学習を用いたモデルを提案し,その微調整型埋め込みを適用して意味的フレーム誘導を行う。 framenet を用いた実験では,深層メトリック学習による微調整により,b-cubed f-score と purity f-score のクラスタリング評価スコアが8点以上向上した。 また、トレーニングインスタンスの数が少なくても、このアプローチが効果的であることを示す。

Recent studies have demonstrated the usefulness of contextualized word embeddings in unsupervised semantic frame induction. However, they have also revealed that generic contextualized embeddings are not always consistent with human intuitions about semantic frames, which causes unsatisfactory performance for frame induction based on contextualized embeddings. In this paper, we address supervised semantic frame induction, which assumes the existence of frame-annotated data for a subset of predicates in a corpus and aims to build a frame induction model that leverages the annotated data. We propose a model that uses deep metric learning to fine-tune a contextualized embedding model, and we apply the fine-tuned contextualized embeddings to perform semantic frame induction. Our experiments on FrameNet show that fine-tuning with deep metric learning considerably improves the clustering evaluation scores, namely, the B-cubed F-score and Purity F-score, by about 8 points or more. We also demonstrate that our approach is effective even when the number of training instances is small.
翻訳日:2023-04-28 12:50:46 公開日:2023-04-27
# 惑星通過を偽陽性から除去する:惑星通過信号のトランスフォーマーに基づく分類

Distinguishing a planetary transit from false positives: a Transformer-based classification for planetary transit signals ( http://arxiv.org/abs/2304.14283v1 )

ライセンス: Link先を確認
Helem Salinas, Karim Pichara, Rafael Brahm, Francisco P\'erez-Galarce, Domingo Mery(参考訳) トランジット・エクソプラネット・サーベイ・サテライト(TESS)のような現在の宇宙ベースのミッションは、効率的にかつ体系的に分析しなければならない光曲線の大規模なデータベースを提供する。 近年、深層学習(DL)法、特に畳み込みニューラルネットワーク(CNN)は、候補外惑星のトランジット信号を自動分類するために用いられている。 しかし、cnnにはいくつかの欠点があり、例えば、光度曲線のようなシーケンシャルなデータへの依存性をキャプチャするために多くの層を必要とするため、ネットワークがあまりに大きくなり、最終的には非実用的になる。 自己注意機構はDL技法であり、他のものを無視しながら、関係するものに選択的に焦点を合わせる動作を模倣しようとするものである。 トランスフォーマーアーキテクチャなどのモデルは最近、結果が良好なシーケンシャルデータのために提案されている。 これらの成功モデルに基づき,交通信号の自動分類のための新しいアーキテクチャを提案する。 提案アーキテクチャは,自己保持機構を通じて,トランジット信号と恒星パラメータの最も重要な特徴を捉えるように設計されている。 モデル予測に加えて、より解釈可能なDLアプローチを得るため、アテンションマップ検査を利用する。 したがって、各要素が偽陽性信号と区別する関連性を見極め、候補者の手動検査を簡素化することができる。 その結果,tess望遠鏡のデータから惑星外トランジット信号の認識に適用されるcnnに関する競合結果が得られた。 これらの結果から,光曲線に対するこの最先端dlモデルの適用は,解釈可能性のレベルを提供しながら,通過信号検出の強力な手法となることを実証する。

Current space-based missions, such as the Transiting Exoplanet Survey Satellite (TESS), provide a large database of light curves that must be analysed efficiently and systematically. In recent years, deep learning (DL) methods, particularly convolutional neural networks (CNN), have been used to classify transit signals of candidate exoplanets automatically. However, CNNs have some drawbacks; for example, they require many layers to capture dependencies on sequential data, such as light curves, making the network so large that it eventually becomes impractical. The self-attention mechanism is a DL technique that attempts to mimic the action of selectively focusing on some relevant things while ignoring others. Models, such as the Transformer architecture, were recently proposed for sequential data with successful results. Based on these successful models, we present a new architecture for the automatic classification of transit signals. Our proposed architecture is designed to capture the most significant features of a transit signal and stellar parameters through the self-attention mechanism. In addition to model prediction, we take advantage of attention map inspection, obtaining a more interpretable DL approach. Thus, we can identify the relevance of each element to differentiate a transit signal from false positives, simplifying the manual examination of candidates. We show that our architecture achieves competitive results concerning the CNNs applied for recognizing exoplanetary transit signals in data from the TESS telescope. Based on these results, we demonstrate that applying this state-of-the-art DL model to light curves can be a powerful technique for transit signal detection while offering a level of interpretability.
翻訳日:2023-04-28 12:50:25 公開日:2023-04-27
# ボンドメディエーターによるダイヤモンド中の窒素空孔中心から外部核スピンへの偏極移動の促進

Enhancing polarization transfer from nitrogen-vacancy centers in diamond to external nuclear spins via dangling bond mediators ( http://arxiv.org/abs/2304.14282v1 )

ライセンス: Link先を確認
H. Espin\'os, C. Munuera-Javaloy, I. Panadero, P. Acedo, R. Puebla, J. Casanova, E. Torrontegui(参考訳) 分子サンプル中の核スピンを過分極化する非侵襲的なプラットフォームとしてのダイヤモンドにおける窒素空洞中心の利用は、核磁気共鳴実験の感度を高める可能性を持つ有望な研究分野である。 ダイヤモンド構造からNV偏光を移動させることは、動的核偏光法を用いてナノスケールのターゲット上で達成されているが、関連するNMR量に拡張することは大きな課題である。 技術的なハードルの一つは、偏光流出を妨害するダイヤモンド表面の常磁性欠陥の存在である。 しかし、これらの欠陥はNVと核スピンの相互作用の中間体として利用することもできる。 本稿では,既存のマイクロ波配列,すなわちPulsePolを利用して,ダングリング結合や他の局所電子スピンを用いて効率よく,かつ強固に偏光を伝達する手法を提案する。

The use of nitrogen-vacancy centers in diamond as a non-invasive platform for hyperpolarizing nuclear spins in molecular samples is a promising area of research with the potential to enhance the sensitivity of nuclear magnetic resonance experiments. Transferring NV polarization out of the diamond structure has been achieved on nanoscale targets using dynamical nuclear polarization methods, but extending this to relevant NMR volumes poses significant challenges. One major technical hurdle is the presence of paramagnetic defects in the diamond surface which can interfere with polarization outflow. However, these defects can also be harnessed as intermediaries for the interaction between NVs and nuclear spins. We present a method that benefits from existing microwave sequences, namely the PulsePol, to transfer polarization efficiently and robustly using dangling bonds or other localized electronic spins, with the potential to increase polarization rates under realistic conditions.
翻訳日:2023-04-28 12:49:56 公開日:2023-04-27
# 不均衡トランスダクティブ・ショット学習のための適応多様体

Adaptive manifold for imbalanced transductive few-shot learning ( http://arxiv.org/abs/2304.14281v1 )

ライセンス: Link先を確認
Michalis Lazarou, Yannis Avrithis, Tania Stathaki(参考訳) トランスダクティブな少数ショット学習アルゴリズムは、ラベルなしクエリを利用することで、インダクティブなアルゴリズムよりも大幅に優れたパフォーマンスを示している。 しかし、これらのメソッドの大部分は、完全なクラスバランスのベンチマークで評価される。 よりリアルでバランスの取れない環境で、パフォーマンスが著しく低下していることが示されている。 そこで本研究では,適応マニフォールド(Adaptive Manifold)という,不均衡なトランスダクティブ・ショット学習を実現する新しいアルゴリズムを提案する。 提案手法は,ラベル付きサポート例とラベルなしクエリの基盤となる多様体を利用して,クエリごとのクラス確率分布を予測する。 クラス毎の1セントロイドと、多様体を決定するグラフ固有のパラメータの集合によってパラメータ化される。 すべてのパラメータは、クラスバランスや不均衡な分布に調整可能な損失関数によって最適化される。 多様体の類似性はユークリッド距離、特に1ショット設定において著しく改善されている。 我々のアルゴリズムは, miniImageNet, tieredImageNet, CUBという3つのベンチマークデータセットと, ResNet-18, WideResNet-28-10, DenseNet-121という3つのバックボーンにおいて,他の手法よりも優れているか,あるいは同等である。 ある場合には、我々のアルゴリズムは、以前の芸術の状態を最大4.2%上回っている。

Transductive few-shot learning algorithms have showed substantially superior performance over their inductive counterparts by leveraging the unlabeled queries. However, the vast majority of such methods are evaluated on perfectly class-balanced benchmarks. It has been shown that they undergo remarkable drop in performance under a more realistic, imbalanced setting. To this end, we propose a novel algorithm to address imbalanced transductive few-shot learning, named Adaptive Manifold. Our method exploits the underlying manifold of the labeled support examples and unlabeled queries by using manifold similarity to predict the class probability distribution per query. It is parameterized by one centroid per class as well as a set of graph-specific parameters that determine the manifold. All parameters are optimized through a loss function that can be tuned towards class-balanced or imbalanced distributions. The manifold similarity shows substantial improvement over Euclidean distance, especially in the 1-shot setting. Our algorithm outperforms or is on par with other state of the art methods in three benchmark datasets, namely miniImageNet, tieredImageNet and CUB, and three different backbones, namely ResNet-18, WideResNet-28-10 and DenseNet-121. In certain cases, our algorithm outperforms the previous state of the art by as much as 4.2%.
翻訳日:2023-04-28 12:49:39 公開日:2023-04-27
# 絡み合った構造光子のフル空間特性

Full spatial characterization of entangled structured photons ( http://arxiv.org/abs/2304.14280v1 )

ライセンス: Link先を確認
Xiaoqin Gao, Yingwen Zhang, Alessio D'Errico, Alicia Sit, Khabat Heshami, Ebrahim Karimi(参考訳) ベクトルビーム(VB)は空間的に異なる偏光分布を持つ完全偏光ビームであり、顕微鏡、メトロジー、光トラップ、ナノフォトニクス、通信などの多くの用途で広く利用されている。 このようなビームの絡み合いは大きな関心を集めており、既存のアプリケーションを拡大し、新しいものを可能にする大きな可能性を秘めている。 しかし、エンタングルvbs(evbs)の複雑な空間的に変化する偏光構造のため、これらのビームの完全なエンタングルメント特性は挑戦的で時間を要する。 ここでは,時刻タグ付きイベントカメラを用いて,約2.6\times10^6$モードを16個の測定値で同時にキャラクタリゼーションできることを実証した。 この成果は構造化光の高次元絡み合い特性の重要なマイルストーンであり、関連する量子技術の実装に大きな影響を与える可能性がある。 この技術の潜在的な応用は広範囲に及び、量子通信、量子イメージング、および構造化光子が重要な役割を果たす領域の進歩への道を開く可能性がある。

Vector beams (VBs) are fully polarized beams with spatially varying polarization distributions, and they have found widespread use in numerous applications such as microscopy, metrology, optical trapping, nano-photonics, and communications. The entanglement of such beams has attracted significant interest, and it has been shown to have tremendous potential in expanding existing applications and enabling new ones. However, due to the complex spatially varying polarization structure of entangled VBs (EVBs), a complete entanglement characterization of these beams remains challenging and time-consuming. Here, we have used a time-tagging event camera to demonstrate the ability to simultaneously characterize approximately $2.6\times10^6$ modes between a bi-partite EVB using only 16 measurements. This achievement is an important milestone in high-dimensional entanglement characterization of structured light, and it could significantly impact the implementation of related quantum technologies. The potential applications of this technique are extensive, and it could pave the way for advancements in quantum communication, quantum imaging, and other areas where structured entangled photons play a crucial role.
翻訳日:2023-04-28 12:49:17 公開日:2023-04-27
# 広範ハミルトンの等尺テンソルネットワーク最適化は不毛高原を含まない

Isometric tensor network optimization for extensive Hamiltonians is free of barren plateaus ( http://arxiv.org/abs/2304.14320v1 )

ライセンス: Link先を確認
Qiang Miao, Thomas Barthel(参考訳) 有限次元相互作用を持つ広範囲ハミルトニアンの等尺テンソルネットワーク状態(tns)のエネルギー最適化において、不規則な高原が存在しない理由を説明し、数値的に確認する。 具体的には,行列積状態,木テンソルネットワーク状態,マルチスケールエンタングルメント再正規化アンサッツについて考察する。 エネルギー勾配のばらつきは、tnsテンソル上のハール平均値を用いて評価され、ボンド次元のパワー則に従って、システムサイズ独立項が主要なものとなり、減少する。 分岐比が$b$の階層的 TNS に対し、テンソルに対する勾配の分散は$(b\eta)^\tau$ となり、$\eta$ は平均2重層遷移チャネルの2番目に大きな固有値であり、結合次元の増加とともに代数的に減少する。 勾配分散の観測されたスケーリング特性は、効率的な初期化手順に寄与する。

We explain why and numerically confirm that there are no barren plateaus in the energy optimization of isometric tensor network states (TNS) for extensive Hamiltonians with finite-range interactions. Specifically, we consider matrix product states, tree tensor network states, and the multiscale entanglement renormalization ansatz. The variance of the energy gradient, evaluated by taking the Haar average over the TNS tensors, has a leading system-size independent term and decreases according to a power law in the bond dimension. For a hierarchical TNS with branching ratio $b$, the variance of the gradient with respect to a tensor in layer $\tau$ scales as $(b\eta)^\tau$, where $\eta$ is the second largest eigenvalue of the Haar-average doubled layer-transition channel and decreases algebraically with increasing bond dimension. The observed scaling properties of the gradient variance bear implications for efficient initialization procedures.
翻訳日:2023-04-28 12:44:14 公開日:2023-04-27
# q2d:質問をダイアログに変えてモデルに検索の仕方を教える

q2d: Turning Questions into Dialogs to Teach Models How to Search ( http://arxiv.org/abs/2304.14318v1 )

ライセンス: Link先を確認
Yonatan Bitton, Shlomi Cohen-Ganor, Ido Hakimi, Yoad Lewenberg, Roee Aharoni, Enav Weinreb(参考訳) 最近のダイアログにおける言語モデルのエキサイティングな機能の1つは、特定のダイアログ応答を基盤として、関連する情報を独立して検索する能力である。 しかし、検索クエリの発行方法をモデルに教えるトレーニングデータを得るには時間とリソースがかかります。 本稿では,質問から情報参照ダイアログを生成する自動データ生成パイプラインq2dを提案する。 我々は,大規模言語モデル(PaLM)に質問応答データセットの対話型バージョンを作成し,外部検索APIと通信して対話応答をグラウンド化するクエリ生成モデルを改善するよう促す。 検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。 実験の結果,(1)qreccデータセット上でのクエリ生成では,合成生成データに基づくモデルが,人間生成データを用いたモデルの90%から97%のパフォーマンスを達成し,(2)既存の対話データやbamboogle qaデータセットに示すような,新たなドメインにおけるダイアログモデルのトレーニングデータを生成することに成功しています。 3) 生成したダイアログを徹底的に分析することにより,人間が高い品質のダイアログを見いだし,人文対話と区別するのに苦労していることを示す。

One of the exciting capabilities of recent language models for dialog is their ability to independently search for relevant information to ground a given dialog response. However, obtaining training data to teach models how to issue search queries is time and resource consuming. In this work, we propose q2d: an automatic data generation pipeline that generates information-seeking dialogs from questions. We prompt a large language model (PaLM) to create conversational versions of question answering datasets, and use it to improve query generation models that communicate with external search APIs to ground dialog responses. Unlike previous approaches which relied on human written dialogs with search queries, our method allows to automatically generate query-based grounded dialogs with better control and scale. Our experiments demonstrate that: (1) For query generation on the QReCC dataset, models trained on our synthetically-generated data achieve 90%--97% of the performance of models trained on the human-generated data; (2) We can successfully generate data for training dialog models in new domains without any existing dialog data as demonstrated on the multi-hop MuSiQue and Bamboogle QA datasets. (3) We perform a thorough analysis of the generated dialogs showing that humans find them of high quality and struggle to distinguish them from human-written dialogs.
翻訳日:2023-04-28 12:43:56 公開日:2023-04-27
# 大規模言語モデルはコード生成の最先端評価器である

Large Language Models Are State-of-the-Art Evaluators of Code Generation ( http://arxiv.org/abs/2304.14317v1 )

ライセンス: Link先を確認
Terry Yue Zhuo(参考訳) 自然言語生成の分野における最近の進歩は、生成されたテキストの品質を評価するために、大規模な言語モデルの使用を促進した。 これらのモデルは機械翻訳や要約などのタスクにおいて有望な結果を示しているが、コード生成タスクの適用性は人間の関与なしに制限されている。 このようなタスクに必要なプログラミング概念の複雑さは、人間の判断に沿う評価指標の開発を困難にしている。 BLEUのようなトークンマッチングベースのメトリクスは、コード生成タスクにおいて人間の実践者と弱い相関を示す。 また,低リソース領域では,人間の手書きテストスイートを用いて機能的正当性を評価することは困難である。 これらの障害を克服するために,コード生成評価のための GPT-3.5 (\texttt{GPT-3.5-turbo}) に基づく新しい評価フレームワークを提案する。 本フレームワークは,機能的正しさと人的嗜好との相関性に優れ,オーラクルや参照を必要とせず,既存のアプローチの限界に対処する。 我々は2つの異なるタスクと4つのプログラミング言語におけるフレームワークの有効性を評価し、その性能を事前訓練されたモデルに依存する最先端のCodeBERTScoreメトリックと比較した。 私たちのフレームワークはCodeBERTScoreを超え、様々なプログラミング言語やタスクに対して高いレベルの精度と一貫性を提供します。 また、評価フレームワークとデータセットを \url{https://github.com/terryyz/llm-code-eval} で公開しています。

Recent advancements in the field of natural language generation have facilitated the use of large language models to assess the quality of generated text. Although these models have shown promising results in tasks such as machine translation and summarization, their applicability in code generation tasks remains limited without human involvement. The complexity of programming concepts required for such tasks makes it difficult to develop evaluation metrics that align with human judgment. Token-matching-based metrics, such as BLEU, have demonstrated weak correlations with human practitioners in code generation tasks. Moreover, the utilization of human-written test suites to evaluate functional correctness can be challenging in domains with low resources. To overcome these obstacles, we propose a new evaluation framework based on the GPT-3.5 (\texttt{GPT-3.5-turbo}), for code generation assessments. Our framework addresses the limitations of existing approaches by achieving superior correlations with functional correctness and human preferences, without the need for test oracles or references. We evaluate the efficacy of our framework on two different tasks and four programming languages, comparing its performance with the state-of-the-art CodeBERTScore metric, which relies on a pre-trained model. Our results demonstrate that our framework surpasses CodeBERTScore, delivering high levels of accuracy and consistency across various programming languages and tasks. We also make our evaluation framework and datasets available to the public at \url{https://github.com/terryyz/llm-code-eval}, encouraging further research in the evaluation of code generation.
翻訳日:2023-04-28 12:43:29 公開日:2023-04-27
# 機械学習による分類対象からのカイパーベルト平均面の測定

A Measurement of the Kuiper Belt's Mean Plane From Objects Classified By Machine Learning ( http://arxiv.org/abs/2304.14312v1 )

ライセンス: Link先を確認
Ian C. Matheson, Renu Malhotra(参考訳) 観測データから得られたカイパーベルトの平均面の測定は、太陽系の力学モデルをテストする可能性を秘めている。 近年の観測結果には一貫性がない。 ここでは、以前の測定値の2倍以上の大きさのサンプルサイズを持つカイパーベルトの平均面の測定を報告する。 興味のあるサンプルは非共鳴カイパーベルト天体であり、観測されたカイパーベルトの軌道がよく決定された集団の機械学習を用いて同定する。 モンテカルロ法を用いて測定誤差を推定する。 非共鳴カイパーベルト(準大軸距離35-150au)と古典的なカイパーベルト(準大軸幅42-48au)の全体的な平均面はどちらも(摂氏0.7度)近いが、太陽系の不変平面と99.7%以上の信頼性を持つ。 サンプルをより小さな半大軸ビンに分割すると、測定された平均平面は、既知の惑星によって強制される理論上予想されたラプラス面とほとんど一致することが分かる。 統計的に有意な差は、半大軸範囲の 40.3-42 au と 45-50 au にのみ見られ、これらの範囲は、世俗共鳴と海王星の平均運動共鳴に近く、ラプラス面の理論は不正確である可能性が高い。 これらの結果は,50 au以上の半大軸の異常なワープを事前に報告していない。

Mean plane measurements of the Kuiper Belt from observational data are of interest for their potential to test dynamical models of the solar system. Recent measurements have yielded inconsistent results. Here we report a measurement of the Kuiper Belt's mean plane with a sample size more than twice as large as in previous measurements. The sample of interest is the non-resonant Kuiper belt objects, which we identify by using machine learning on the observed Kuiper Belt population whose orbits are well-determined. We estimate the measurement error with a Monte Carlo procedure. We find that the overall mean plane of the non-resonant Kuiper Belt (semimajor axis range 35-150 au) and also that of the classical Kuiper Belt (semimajor axis range 42-48 au) are both close to (within about 0.7 degrees) but distinguishable from the invariable plane of the solar system to greater than 99.7% confidence. When binning the sample into smaller semimajor axis bins, we find the measured mean plane mostly consistent with both the invariable plane and the theoretically expected Laplace surface forced by the known planets. Statistically significant discrepancies are found only in the semimajor axis ranges 40.3-42 au and 45-50 au; these ranges are in proximity to a secular resonance and Neptune's 2:1 mean motion resonance where the theory for the Laplace surface is likely to be inaccurate. These results do not support a previously reported anomalous warp at semimajor axes above 50 au.
翻訳日:2023-04-28 12:43:02 公開日:2023-04-27
# 増分一般化カテゴリー発見

Incremental Generalized Category Discovery ( http://arxiv.org/abs/2304.14310v1 )

ライセンス: Link先を確認
Bingchen Zhao, Oisin Mac Aodha(参考訳) 本稿では,Incrmental Generalized Category Discovery (IGCD)の問題点を考察する。 これは難解なカテゴリインクリメンタル学習設定であり、これまで見てきたカテゴリから画像を正しく分類できるモデルを開発することを目的としている。 学習は、モデルが新しいラベル付きおよびラベル付きデータを取得し、各イテレーションで古いデータを破棄する一連の時間ステップで実行される。 この問題の難しさは、ラベルのないデータが以前に観測されたかもしれない、あるいはなかったかもしれないカテゴリの画像を含むことができるため、一般化された設定で複合化される。 本稿では,非パラメトリック分類と効率的な画像サンプリングを組み合わせたIGCDの新しい手法を提案する。 性能を定量化するために,実世界の細粒度視覚分類タスクを動機とするinatigcdというベンチマークデータセットを提案する。 私たちの実験では、既存の関連する方法よりも優れています

We explore the problem of Incremental Generalized Category Discovery (IGCD). This is a challenging category incremental learning setting where the goal is to develop models that can correctly categorize images from previously seen categories, in addition to discovering novel ones. Learning is performed over a series of time steps where the model obtains new labeled and unlabeled data, and discards old data, at each iteration. The difficulty of the problem is compounded in our generalized setting as the unlabeled data can contain images from categories that may or may not have been observed before. We present a new method for IGCD which combines non-parametric categorization with efficient image sampling to mitigate catastrophic forgetting. To quantify performance, we propose a new benchmark dataset named iNatIGCD that is motivated by a real-world fine-grained visual categorization task. In our experiments we outperform existing related methods
翻訳日:2023-04-28 12:42:33 公開日:2023-04-27
# 大型倉庫におけるダブルデッキ型マルチエージェントピックアップと配送

Double-Deck Multi-Agent Pickup and Delivery: Multi-Robot Rearrangement in Large-Scale Warehouses ( http://arxiv.org/abs/2304.14309v1 )

ライセンス: Link先を確認
Baiyu Li, Hang Ma(参考訳) 自動倉庫におけるマルチロボット棚配置問題をモデル化した新しい問題定式化Double-Deck Multi-Agent Pickup and Delivery (DD-MAPD)を導入する。 DD-MAPDは、Multi-Agent Pickup and Delivery (MAPD) とMulti-Agent Path Finding (MAPF) の両方を拡張し、エージェントが棚の下を移動したり、持ち上げたり、任意の場所に棚を届けることで、倉庫のレイアウトを変更する。 dd-mapdの解決はnp-hardである。 DD-MAPD に対処するため,DD-MAPD インスタンスを MAPF インスタンスに分解するアルゴリズムフレームワーク MAPF-DECOMP を提案する。 また、MAPF-DECOMPの性能向上のための最適化手法を提案し、DD-MAPDインスタンスの現実的なサブクラスであるDD-MAPDインスタンスに対してMAPF-DECOMPを補完する方法を示す。 実験の結果,MAPF-DECOMPの効率と有効性を示し,1000台以上の棚と数百台のエージェントをほんの数分で大規模インスタンスの高品質なソリューションを計算できるようになった。

We introduce a new problem formulation, Double-Deck Multi-Agent Pickup and Delivery (DD-MAPD), which models the multi-robot shelf rearrangement problem in automated warehouses. DD-MAPD extends both Multi-Agent Pickup and Delivery (MAPD) and Multi-Agent Path Finding (MAPF) by allowing agents to move beneath shelves or lift and deliver a shelf to an arbitrary location, thereby changing the warehouse layout. We show that solving DD-MAPD is NP-hard. To tackle DD-MAPD, we propose MAPF-DECOMP, an algorithmic framework that decomposes a DD-MAPD instance into a MAPF instance for coordinating shelf trajectories and a subsequent MAPD instance with task dependencies for computing paths for agents. We also present an optimization technique to improve the performance of MAPF-DECOMP and demonstrate how to make MAPF-DECOMP complete for well-formed DD-MAPD instances, a realistic subclass of DD-MAPD instances. Our experimental results demonstrate the efficiency and effectiveness of MAPF-DECOMP, with the ability to compute high-quality solutions for large-scale instances with over one thousand shelves and hundreds of agents in just minutes of runtime.
翻訳日:2023-04-28 12:42:08 公開日:2023-04-27
# スキー用ひずみセンサを用いた雪の分類法

A Method for Classifying Snow Using Ski-Mounted Strain Sensors ( http://arxiv.org/abs/2304.14307v1 )

ライセンス: Link先を確認
Florian McLelland, Floris van Breugel(参考訳) 山の風景の構造、量、雪の種類を理解することは、雪崩の安全性の評価、衛星画像の解釈、正確な水文学モデルの構築、週末の旅行に適したスキーの選択に不可欠です。 現在, リモート衛星画像, 気象観測所, および地域予報者, ガイド, バックカントリー利用者によって提供される手間のかかる点計測と記述を組み合わせて, 積雪の特性を測定している。 そこで本研究では,アルペンスキーの上面に設置したひずみセンサを用いてスキー中に積雪の上層特性を推定する方法について検討した。 2つのひずみゲージと慣性測定器を用いて,3つの定性的ラベルのうちの1つを,スキースタイルによらず精度97%の軌道の10秒区間に正確に割り当てることが可能であることを示す。 本アルゴリズムはスキースノー相互作用のデータ駆動線形モデルと次元の縮小とネイブベイズ分類器を組み合わせたものである。 ひずみゲージ間の分類器性能の比較から,スキーの結束部と先端部と尾部の中間に位置するひずみゲージの最適配置は,スキーが雪面に接触する地点の直前の迷路部にあることが示唆された。 スキーを使って、リアルタイムで雪を分類できる能力は、バックカントリーの雪の表面特性をマッピングするための市民科学的な取り組みから、雪の種類に応じた自動剛性チューニングを備えたスキーの開発まで幅広い応用への扉を開く。

Understanding the structure, quantity, and type of snow in mountain landscapes is crucial for assessing avalanche safety, interpreting satellite imagery, building accurate hydrology models, and choosing the right pair of skis for your weekend trip. Currently, such characteristics of snowpack are measured using a combination of remote satellite imagery, weather stations, and laborious point measurements and descriptions provided by local forecasters, guides, and backcountry users. Here, we explore how characteristics of the top layer of snowpack could be estimated while skiing using strain sensors mounted to the top surface of an alpine ski. We show that with two strain gauges and an inertial measurement unit it is feasible to correctly assign one of three qualitative labels (powder, slushy, or icy/groomed snow) to each 10 second segment of a trajectory with 97% accuracy, independent of skiing style. Our algorithm uses a combination of a data-driven linear model of the ski-snow interaction, dimensionality reduction, and a Naive Bayes classifier. Comparisons of classifier performance between strain gauges suggest that the optimal placement of strain gauges is halfway between the binding and the tip/tail of the ski, in the cambered section just before the point where the unweighted ski would touch the snow surface. The ability to classify snow, potentially in real-time, using skis opens the door to applications that range from citizen science efforts to map snow surface characteristics in the backcountry, and develop skis with automated stiffness tuning based on the snow type.
翻訳日:2023-04-28 12:41:29 公開日:2023-04-27
# 異方性振動子の動的対称性

Dynamical symmetries of the anisotropic oscillator ( http://arxiv.org/abs/2304.14306v1 )

ライセンス: Link先を確認
Akash Sinha, Aritra Ghosh, Bijan Bagchi(参考訳) n-次元等方性発振器のハミルトニアンは、su(n)$対称性を認め、システムを最大超可積分にする。 しかし、異方性発振器の動的対称性はより微妙である。 我々は、n$-次元異方性発振器を対応する等方性問題にマッピングする新しい正準変換のセットを導入する。 興味深いことに、異方性発振器は等方性発振器と同じ量の保存量を持ち、最大超積分可能である。 第1積分は2次元異方性振動子の場合には明示的に計算され、顕著に閉形式表現が認められる。

It is well known that the Hamiltonian of an $n$-dimensional isotropic oscillator admits of an $SU(n)$ symmetry, making the system maximally superintegrable. However, the dynamical symmetries of the anisotropic oscillator are much more subtle. We introduce a novel set of canonical transformations that map an $n$-dimensional anisotropic oscillator to the corresponding isotropic problem. Interestingly, the anisotropic oscillator is shown to possess the same number of conserved quantities as the isotropic oscillator, making it maximally superintegrable too. The first integrals are explicitly calculated in the case of a two-dimensional anisotropic oscillator and remarkably, they admit closed form expressions.
翻訳日:2023-04-28 12:41:00 公開日:2023-04-27
# HoloLensとInstant-NeRFを組み合わせる - 高度なリアルタイム3Dモバイルマッピング

Combining HoloLens with Instant-NeRFs: Advanced Real-Time 3D Mobile Mapping ( http://arxiv.org/abs/2304.14301v1 )

ライセンス: Link先を確認
Dennis Haitz, Boris Jutzi, Markus Ulrich, Miriam Jaeger, Patrick Huebner(参考訳) この研究は、RGBカメラ画像に基づく高速3D再構成の現代的方法への大きな一歩である。 Microsoft HoloLens 2 を RGB カメラと SLAM ベースのカメラ配置決定のための慣性測定ユニットを含むマルチセンサプラットフォームとして活用することにより,HoloLens から取得したデータをリアルタイムでニューラル・ラジアンス・フィールド (NeRF) をニューラル・シーン表現として訓練する。 HoloLensはWifi経由で、トレーニングと3D再構成を担当する高性能PCに接続される。 データストリームが終了すると、トレーニングが停止し、3D再構成が開始され、シーンの点雲が抽出される。 特殊推論アルゴリズムでは,500万のシーンポイントを1秒以内に抽出できる。 さらに、点雲は点当たりの放射計も含む。 筆者らの3次元再構成法は,複数桁のNeRFを用いた格子点サンプリングよりも優れており,移動体マッピング装置における完全リアルタイム3次元再構成法とみなすことができる。

This work represents a large step into modern ways of fast 3D reconstruction based on RGB camera images. Utilizing a Microsoft HoloLens 2 as a multisensor platform that includes an RGB camera and an inertial measurement unit for SLAM-based camera-pose determination, we train a Neural Radiance Field (NeRF) as a neural scene representation in real-time with the acquired data from the HoloLens. The HoloLens is connected via Wifi to a high-performance PC that is responsible for the training and 3D reconstruction. After the data stream ends, the training is stopped and the 3D reconstruction is initiated, which extracts a point cloud of the scene. With our specialized inference algorithm, five million scene points can be extracted within 1 second. In addition, the point cloud also includes radiometry per point. Our method of 3D reconstruction outperforms grid point sampling with NeRFs by multiple orders of magnitude and can be regarded as a complete real-time 3D reconstruction method in a mobile mapping setup.
翻訳日:2023-04-28 12:40:48 公開日:2023-04-27
# 食肉共変量からのグルコース-インスリン動態の学習吸収速度

Learning Absorption Rates in Glucose-Insulin Dynamics from Meal Covariates ( http://arxiv.org/abs/2304.14300v1 )

ライセンス: Link先を確認
Ke Alexander Wang, Matthew E. Levine, Jiaxin Shi, Emily B. Fox(参考訳) グルコース-インスリンダイナミクスの伝統的なモデルは、実験室での観測に適合するように選択されたヒューリスティックなパラメータ化に依存する。 しかし、これらのモデルは日常生活におけるグルコース動態を記述できない。 失敗の原因の1つは、食事後のグルコース吸収率の記述にある。 食事の栄養素含量は吸収プロファイルにニュアンスの影響があり、機械的なモデル化は困難である。 本稿では,グルコース-インシュリンデータと食事共変量からマクロ栄養分の影響について検討する。 マクロ栄養情報と食事時間を考えると、ニューラルネットワークを使って個人のグルコース吸収率を予測する。 この神経速度関数をグルコース動態の微分方程式の制御関数として使用し,エンドツーエンドのトレーニングを可能にした。 シミュレーションデータでは, グルコース, インスリン, マクロ栄養情報のみを観察しながら, ヒューリスティックなパラメータ化よりも, 正確な吸収率を正確に予測できる。 本研究は,画像などの高次元共変量を持つ食事イベントに容易に一般化し,各個人の日常生活にパーソナライズされたグルコース動態モデルのためのステージを設定する。

Traditional models of glucose-insulin dynamics rely on heuristic parameterizations chosen to fit observations within a laboratory setting. However, these models cannot describe glucose dynamics in daily life. One source of failure is in their descriptions of glucose absorption rates after meal events. A meal's macronutritional content has nuanced effects on the absorption profile, which is difficult to model mechanistically. In this paper, we propose to learn the effects of macronutrition content from glucose-insulin data and meal covariates. Given macronutrition information and meal times, we use a neural network to predict an individual's glucose absorption rate. We use this neural rate function as the control function in a differential equation of glucose dynamics, enabling end-to-end training. On simulated data, our approach is able to closely approximate true absorption rates, resulting in better forecast than heuristic parameterizations, despite only observing glucose, insulin, and macronutritional information. Our work readily generalizes to meal events with higher-dimensional covariates, such as images, setting the stage for glucose dynamics models that are personalized to each individual's daily life.
翻訳日:2023-04-28 12:40:31 公開日:2023-04-27
# sparsefusion:マルチセンサ3dオブジェクト検出にマルチモーダルスパース表現を使用する

SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor 3D Object Detection ( http://arxiv.org/abs/2304.14340v1 )

ライセンス: Link先を確認
Yichen Xie, Chenfeng Xu, Marie-Julie Rakotosaona, Patrick Rim, Federico Tombari, Kurt Keutzer, Masayoshi Tomizuka, Wei Zhan(参考訳) 既存のLiDARカメラ3Dオブジェクト検出手法(LiDARおよびカメラ候補、変換、融合出力)の4つの重要な要素を同定することにより、既存のすべての手法が濃密な候補を見つけるか、シーンの濃密な表現を生成するかを観察する。 しかし、物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのはノイズが多く非効率である。 スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。 具体的には、SparseFusionはLiDARにおける並列検出器の出力とカメラモードを融合のスパース候補として利用する。 我々は、カメラ候補をオブジェクト表現から切り離してLiDAR座標空間に変換する。 そして、軽量なセルフアテンションモジュールによって、複数のモダリティ候補を統一された3d空間に融合することができる。 モーダリティ間の負の移動を緩和するため,モーダリティ特異的検出器に先立って適用される新しい意味的および幾何学的相互モダリティ移動モジュールを提案する。 SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。 モジュールとメソッドパイプラインの効率性と有効性を示すために,広範な実験を行います。 私たちのコードはhttps://github.com/yichen928/sparsefusionで公開されます。

By identifying four important components of existing LiDAR-camera 3D object detection methods (LiDAR and camera candidates, transformation, and fusion outputs), we observe that all existing methods either find dense candidates or yield dense representations of scenes. However, given that objects occupy only a small part of a scene, finding dense candidates and generating dense representations is noisy and inefficient. We propose SparseFusion, a novel multi-sensor 3D detection method that exclusively uses sparse candidates and sparse representations. Specifically, SparseFusion utilizes the outputs of parallel detectors in the LiDAR and camera modalities as sparse candidates for fusion. We transform the camera candidates into the LiDAR coordinate space by disentangling the object representations. Then, we can fuse the multi-modality candidates in a unified 3D space by a lightweight self-attention module. To mitigate negative transfer between modalities, we propose novel semantic and geometric cross-modality transfer modules that are applied prior to the modality-specific detectors. SparseFusion achieves state-of-the-art performance on the nuScenes benchmark while also running at the fastest speed, even outperforming methods with stronger backbones. We perform extensive experiments to demonstrate the effectiveness and efficiency of our modules and overall method pipeline. Our code will be made publicly available at https://github.com/yichen928/SparseFusion.
翻訳日:2023-04-28 12:32:52 公開日:2023-04-27
# ZeroShotDataAug: ChatGPTによるトレーニングデータの生成と拡張

ZeroShotDataAug: Generating and Augmenting Training Data with ChatGPT ( http://arxiv.org/abs/2304.14334v1 )

ライセンス: Link先を確認
Solomon Ubani, Suleyman Olcay Polat, Rodney Nielsen(参考訳) 本稿では,大規模な生成言語モデルであるchatgptを用いて,低資源シナリオにおけるデータ拡張を目的とした合成訓練データを生成するデータの利用について検討する。 タスク固有のChatGPTプロンプトによって、そのようなデータ拡張に対して最も一般的なアプローチよりも優れていることを示す。 さらに,chatgptから生成された拡張データの類似性を評価するための手法について検討し,生成したデータの品質の検証・評価を行う。

In this paper, we investigate the use of data obtained from prompting a large generative language model, ChatGPT, to generate synthetic training data with the aim of augmenting data in low resource scenarios. We show that with appropriate task-specific ChatGPT prompts, we outperform the most popular existing approaches for such data augmentation. Furthermore, we investigate methodologies for evaluating the similarity of the augmented data generated from ChatGPT with the aim of validating and assessing the quality of the data generated.
翻訳日:2023-04-28 12:32:14 公開日:2023-04-27
# 慣用法, 探索法, 危険物: ベクトル空間の慣用性に関する構造的探究に向けて

Idioms, Probing and Dangerous Things: Towards Structural Probing for Idiomaticity in Vector Space ( http://arxiv.org/abs/2304.14333v1 )

ライセンス: Link先を確認
Filip Klubi\v{c}ka, Vasudevan Nedumpozhimana, John D. Kelleher(参考訳) 本論文の目標は,構造的探索法を用いて,慣用的情報が組込みにどのように構造的にエンコードされるかを知ることである。 既存の英語の多単語表現(MWE)データセットを用いて、探索フレームワークに適合し、静的(GloVe)および文脈的(BERT)埋め込みの比較検討を行う。 我々の実験は、どちらもいくつかの慣用的な情報を異なる次数にエンコードするが、慣用性がベクトルノルムにエンコードされているかどうかについての矛盾する証拠を与え、これは公然とした疑問であることを示している。 また、使用済みデータセットのいくつかの制限を特定し、探索分析に適合性を改善するための将来の作業の重要な方向を強調する。

The goal of this paper is to learn more about how idiomatic information is structurally encoded in embeddings, using a structural probing method. We repurpose an existing English verbal multi-word expression (MWE) dataset to suit the probing framework and perform a comparative probing study of static (GloVe) and contextual (BERT) embeddings. Our experiments indicate that both encode some idiomatic information to varying degrees, but yield conflicting evidence as to whether idiomaticity is encoded in the vector norm, leaving this an open question. We also identify some limitations of the used dataset and highlight important directions for future work in improving its suitability for a probing analysis.
翻訳日:2023-04-28 12:32:07 公開日:2023-04-27
# Gibbsアルゴリズムにおけるメタ学習の一般化誤差について

On the Generalization Error of Meta Learning for the Gibbs Algorithm ( http://arxiv.org/abs/2304.14332v1 )

ライセンス: Link先を確認
Yuheng Bu, Harsha Vardhan Tetali, Gholamali Aminian, Miguel Rodrigues and Gregory Wornell(参考訳) Gibbsアルゴリズムを用いて,共同学習メタ学習アルゴリズムの一般化能力を解析する。 メタギブスアルゴリズムの予測メタ一般化誤差の正確な特徴は、メタトレーニングデータセットとタスク固有パラメータやメタパラメータを含む出力パラメータ間の依存性を測定する対称性付きKL情報に基づいている。 さらに, steinke と zakynthinou (2020) と hellstrom と durisi (2022) で導入された super-sample と super-task framework における条件付き対称性kl 情報を用いて, 超タスク gibbs アルゴリズムのメタ一般化誤差を正確に評価した。 また,メタ学習に適用可能なGibsアルゴリズムに対して,新しい分布自由な一般化誤差上限を提供することができた。

We analyze the generalization ability of joint-training meta learning algorithms via the Gibbs algorithm. Our exact characterization of the expected meta generalization error for the meta Gibbs algorithm is based on symmetrized KL information, which measures the dependence between all meta-training datasets and the output parameters, including task-specific and meta parameters. Additionally, we derive an exact characterization of the meta generalization error for the super-task Gibbs algorithm, in terms of conditional symmetrized KL information within the super-sample and super-task framework introduced in Steinke and Zakynthinou (2020) and Hellstrom and Durisi (2022) respectively. Our results also enable us to provide novel distribution-free generalization error upper bounds for these Gibbs algorithms applicable to meta learning.
翻訳日:2023-04-28 12:31:53 公開日:2023-04-27
# 外挿する学習: トランスダクティブなアプローチ

Learning to Extrapolate: A Transductive Approach ( http://arxiv.org/abs/2304.14329v1 )

ライセンス: Link先を確認
Aviv Netanyahu, Abhishek Gupta, Max Simchowitz, Kaiqing Zhang, Pulkit Agrawal(参考訳) 機械学習システム、特に過パラメータのディープニューラルネットワークでは、トレーニングデータと同じ分布から引き出された新しいテストインスタンスに一般化することができる。 しかし、非サポートテストポイントでの評価では不運である。 本研究では,過度にパラメータ化された関数近似器のパワーを保ちながら,可能であれば外挿を外挿できる機械学習システムの開発に取り組む。 これは、ある条件下では「帰納的」な再パラメータ化は、サポート外補間問題からサポート外補間問題への変換を可能にする。 本稿では,このような組合せ一般化を実現するためのバイリニア埋め込みに基づく簡単な戦略を提案し,特定の条件下での非サポート外挿問題に対処する。 様々な教師付き学習および模倣学習タスクに適用可能な単純で実用的なアルゴリズムをインスタンス化する。

Machine learning systems, especially with overparameterized deep neural networks, can generalize to novel test instances drawn from the same distribution as the training data. However, they fare poorly when evaluated on out-of-support test points. In this work, we tackle the problem of developing machine learning systems that retain the power of overparameterized function approximators while enabling extrapolation to out-of-support test points when possible. This is accomplished by noting that under certain conditions, a "transductive" reparameterization can convert an out-of-support extrapolation problem into a problem of within-support combinatorial generalization. We propose a simple strategy based on bilinear embeddings to enable this type of combinatorial generalization, thereby addressing the out-of-support extrapolation problem under certain conditions. We instantiate a simple, practical algorithm applicable to various supervised learning and imitation learning tasks.
翻訳日:2023-04-28 12:31:37 公開日:2023-04-27
# 長期制約付き拘束型MDPのためのBest-of-Both-Worldsアルゴリズム

A Best-of-Both-Worlds Algorithm for Constrained MDPs with Long-Term Constraints ( http://arxiv.org/abs/2304.14326v1 )

ライセンス: Link先を確認
Jacopo Germano, Francesco Emanuele Stradi, Gianmarco Genalti, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti(参考訳) そこでは,学習者のゴールは,学習過程中にある程度の長期的制約が満たされることを保証しつつ,エピソードを通じてできるだけ多くの報酬を集めることである。 リワードと制約は確率的にも逆的にも選択でき、遷移関数は学習者には知られない。 古典的非拘束型mdpにおけるオンライン学習は近年大きな注目を集めているが、cmdpの設定はいまだにほとんど解明されていない。 これは、例えば自動運転、自動入札、レコメンデーションシステムといった現実世界のアプリケーションでは、学習プロセス中にエージェントが従わなければならない追加の制約や仕様が存在するため、驚くべきことである。 本稿では,CMDPの長期的制約を考慮したベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。 このアルゴリズムは,報酬や制約を確率的あるいは逆向きに選択する設定を,アンダーリング過程の知識を必要とせずに処理することができる。 さらに,本アルゴリズムは,制約が確率的に選択された設定に対して,現状の後悔と制約違反境界とをマッチングする。

We study online learning in episodic constrained Markov decision processes (CMDPs), where the goal of the learner is to collect as much reward as possible over the episodes, while guaranteeing that some long-term constraints are satisfied during the learning process. Rewards and constraints can be selected either stochastically or adversarially, and the transition function is not known to the learner. While online learning in classical unconstrained MDPs has received considerable attention over the last years, the setting of CMDPs is still largely unexplored. This is surprising, since in real-world applications, such as, e.g., autonomous driving, automated bidding, and recommender systems, there are usually additional constraints and specifications that an agent has to obey during the learning process. In this paper, we provide the first best-of-both-worlds algorithm for CMDPs with long-term constraints. Our algorithm is capable of handling settings in which rewards and constraints are selected either stochastically or adversarially, without requiring any knowledge of the underling process. Moreover, our algorithm matches state-of-the-art regret and constraint violation bounds for settings in which constraints are selected stochastically, while it is the first to provide guarantees in the case in which they are chosen adversarially.
翻訳日:2023-04-28 12:31:25 公開日:2023-04-27
# トラクタブル・マルチパースペクティブ・推論の境界を推し進める:スタンドポイントEL+のドダクション計算

Pushing the Boundaries of Tractable Multiperspective Reasoning: A Deduction Calculus for Standpoint EL+ ( http://arxiv.org/abs/2304.14323v1 )

ライセンス: Link先を確認
Luc\'ia {G\'omez \'Alvarez}, Sebastian Rudolph and Hannes Strass(参考訳) スタンドポイントEL(Standpoint EL)は、一般的な記述ロジックELのマルチモーダル拡張であり、さまざまな視点や視点に対するドメイン知識の統合表現を可能にする。 利点として、その満足度問題は、最近PTimeにあることが示され、大規模な知識統合のための有望なフレームワークとなっている。 本稿では,この形式主義の表現性をさらに推し進めること,すなわちStandpoint EL+と呼ばれる,公理否定,ロールチェーン公理,自己ループ,その他の特徴をトラクタビリティを維持しつつ,拡張論理に到達できることを述べる。 これは、実用的なアルゴリズムの必要性に対処する、満足度チェックの推論計算を設計することで達成される。 我々は,その推論規則の原型データログの実装を提示することにより,計算の実現可能性を示す。

Standpoint EL is a multi-modal extension of the popular description logic EL that allows for the integrated representation of domain knowledge relative to diverse standpoints or perspectives. Advantageously, its satisfiability problem has recently been shown to be in PTime, making it a promising framework for large-scale knowledge integration. In this paper, we show that we can further push the expressivity of this formalism, arriving at an extended logic, called Standpoint EL+, which allows for axiom negation, role chain axioms, self-loops, and other features, while maintaining tractability. This is achieved by designing a satisfiability-checking deduction calculus, which at the same time addresses the need for practical algorithms. We demonstrate the feasibility of our calculus by presenting a prototypical Datalog implementation of its deduction rules.
翻訳日:2023-04-28 12:31:05 公開日:2023-04-27
# 2量子エンタングゲートの最適プロトコルの探索、マッピング、分類

Finding, mapping and classifying optimal protocols for two-qubit entangling gates ( http://arxiv.org/abs/2304.14322v1 )

ライセンス: Link先を確認
Ignacio R. Sola, Seokmin Shin, Bo Y. Chang(参考訳) 量子経路に基づくメカニズム解析により,2量子エンタングルゲートの最適プロトコルのセットを特徴付けることにより,異なる解の比較とランク付けが可能となる。 プロトコルのランドスケープが豊かな柔軟なプラットフォームの例として、いくつかの原子部位にまたがる異なるパルスシーケンスによって、rydberg状態に励起される閉じ込められた中性原子を考察し、パルスの時間的および空間的特徴の両方を最適化する。 異なる制約下でのアルゴリズムの成功率について検討し、最適プロトコルの性質と品質に対する原子の近接の影響を分析する。 パラメータ空間における解の特徴を詳細に特徴付けし,パラメータ集合間の有意な相関を示す。 機構解析と合わせて,時空間制御により,干し草の針の発見など,設計によってメカニズムの下で動作するプロトコルを選択することができる。

We characterize the set of optimal protocols for two-qubit entangling gates through a mechanism analysis based on quantum pathways, which allows us to compare and rank the different solutions. As an example of a flexible platform with a rich landscape of protocols, we consider trapped neutral atoms excited to Rydberg states by different pulse sequences that extend over several atomic sites, optimizing both the temporal and the spatial features of the pulses. Studying the rate of success of the algorithm under different constraints, we analyze the impact of the proximity of the atoms on the nature and quality of the optimal protocols. We characterize in detail the features of the solutions in parameter space, showing some striking correlations among the set of parameters. Together with the mechanism analysis, the spatio-temporal control allows us to select protocols that operate under mechanisms by design, like finding needles in the haystack.
翻訳日:2023-04-28 12:30:49 公開日:2023-04-27
# 非教師付きハイパーグラフのランク選択と融合による人物再識別

Person Re-ID through Unsupervised Hypergraph Rank Selection and Fusion ( http://arxiv.org/abs/2304.14321v1 )

ライセンス: Link先を確認
Lucas Pascotti Valem and Daniel Carlos Guimar\~aes Pedronette(参考訳) Person Re-IDは多くの注目を集めており、今日では多くのカメラ監視アプリケーションにおいて重要な役割を担っている。 このタスクは、重複するビューを持たない複数のカメラで個人を識別する。 大量の要求されたデータと、各個人に手動でクラスを割り当てることの難しさを考えると、ほとんどのアプローチではラベル付きデータが必要である。 近年, ラベル付きデータがない場合に, 再ランク付け手法が顕著な利得を達成できることが研究で示されている。 さらに、特徴抽出器と複数ソーストレーニングの融合は、広範に活用されていない有望な研究方向である。 我々は,このギャップを埋めるために,異なる人物再特定ランクの相補性を活用できる多様体ランクアグリゲーション手法を提案する。 本研究では,多種多様な特徴抽出器から得られる多様なランクリストの完全教師なしの選択と融合を行う。 本研究は,ハイパーグラフ構造を考慮した画像間の関係をモデル化し,ラベル付きデータの使用を必要としないクエリ性能予測尺度を提案する。 Re-IDで一般的に使用される4つのデータセットで表現的な利得を得た。 ほとんどのシナリオで最先端と競合する結果を達成しました。

Person Re-ID has been gaining a lot of attention and nowadays is of fundamental importance in many camera surveillance applications. The task consists of identifying individuals across multiple cameras that have no overlapping views. Most of the approaches require labeled data, which is not always available, given the huge amount of demanded data and the difficulty of manually assigning a class for each individual. Recently, studies have shown that re-ranking methods are capable of achieving significant gains, especially in the absence of labeled data. Besides that, the fusion of feature extractors and multiple-source training is another promising research direction not extensively exploited. We aim to fill this gap through a manifold rank aggregation approach capable of exploiting the complementarity of different person Re-ID rankers. In this work, we perform a completely unsupervised selection and fusion of diverse ranked lists obtained from multiple and diverse feature extractors. Among the contributions, this work proposes a query performance prediction measure that models the relationship among images considering a hypergraph structure and does not require the use of any labeled data. Expressive gains were obtained in four datasets commonly used for person Re-ID. We achieved results competitive to the state-of-the-art in most of the scenarios.
翻訳日:2023-04-28 12:30:32 公開日:2023-04-27
# コンピュータビジョン法によるFRPレバーの構造解析

Structure Analysis of the FRP Rebar Using Computer Vision Techniques ( http://arxiv.org/abs/2304.14358v1 )

ライセンス: Link先を確認
Juraj Lagin, Simon Bilik(参考訳) 本稿では, 複合FRPレバーの内部構造, すなわち, 実中心の幾何学的中心に対するシフトと断面特性の変化を解析する手法を提案する。 本稿では,従来のコンピュータビジョン技術に基づく自動パイプラインと,解析された断面におけるガラス繊維とエポキシフィラメントの比に基づいて,断面領域とその主モーメントとともに,幾何学的中心に対する重力の実中心のシフトベクトルを計算する。 本研究は,残響の異なる部分の2つの断面で得られた結果について考察し,最終的には今後の作業の方向性と改善の可能性を提案する。 コードも公開しました。

In this paper we present a method to analyze the inner structure of the composite FRP rebar, namely the shift of the real center of gravity with a respect to the geometrical center of rebar and changes of cross-sectional characteristics. We propose an automated pipeline based on classical computer vision techniques and on the ratio between the glass fibers and epoxy filament in the analyzed cross-section to compute the shift vector of the real center of gravity in respect to the geometrical center together with the cross-section area and its principal moments. We discuss the achieved results over two cross sections in a different portion of the rebar and in the end, we suggest possible direction and improvements for our future work. We also made our code publicly available.
翻訳日:2023-04-28 12:24:24 公開日:2023-04-27
# 大規模言語モデルを用いた産業工学:石油・ガス問題におけるChatGPTの業績を事例として

Industrial Engineering with Large Language Models: A case study of ChatGPT's performance on Oil & Gas problems ( http://arxiv.org/abs/2304.14354v1 )

ライセンス: Link先を確認
Oluwatosin Ogundare, Srinath Madasu, Nathanial Wiggins(参考訳) 大規模言語モデル(LLM)は、石油やガス工学、工場自動化、PLCプログラミングなどの産業工学分野など、様々な分野で複雑な問題を解く大きな可能性を示している。 しかし、いくつかの産業プロセスを管理する基礎物理学方程式に対する強解と弱解の自動同定は難しい課題である。 本稿では, 石油・ガス工学に限らず, 現在のLCMアプローチ, 特にChatGPTの限界を明らかにする。 石油・ガス工学における複雑な問題の解決におけるChatGPTの性能について論じ, LLMが最も有効な分野について述べる。

Large Language Models (LLMs) have shown great potential in solving complex problems in various fields, including oil and gas engineering and other industrial engineering disciplines like factory automation, PLC programming etc. However, automatic identification of strong and weak solutions to fundamental physics equations governing several industrial processes remain a challenging task. This paper identifies the limitation of current LLM approaches, particularly ChatGPT in selected practical problems native to oil and gas engineering but not exclusively. The performance of ChatGPT in solving complex problems in oil and gas engineering is discussed and the areas where LLMs are most effective are presented.
翻訳日:2023-04-28 12:24:11 公開日:2023-04-27
# オペレーターの成長とブラックホール形成

Operator growth and black hole formation ( http://arxiv.org/abs/2304.14351v1 )

ライセンス: Link先を確認
Felix M. Haehl and Ying Zhao(参考訳) 漸近的にAdS時空で2つの粒子が衝突すると、十分なエネルギーと衝突パラメータが小さくなり、ブラックホールが形成される。 双対量子回路を考慮したブラックホール形成のためのしきい値条件を提案する。 直感的には、この条件は境界系に対する摂動の影響の弾道的広がりを記述する蝶錐の重なりの開始と解釈できる。 3つのバルク次元における条件の正確性を検証する。 本稿では, この状態を診断し, 固有再仮定を用いて2次元CFTで計算できる6点相関関数について述べる。

When two particles collide in an asymptotically AdS spacetime with high enough energy and small enough impact parameter, they can form a black hole. Motivated by dual quantum circuit considerations, we propose a threshold condition for black hole formation. Intuitively the condition can be understood as the onset of overlap of the butterfly cones describing the ballistic spread of the effect of the perturbations on the boundary systems. We verify the correctness of the condition in three bulk dimensions. We describe a six-point correlation function that can diagnose this condition and compute it in two-dimensional CFTs using eikonal resummation.
翻訳日:2023-04-28 12:23:36 公開日:2023-04-27
# 古典的ランダム性をもつ量子ウォークの局所化:手動法と教師あり機械学習の比較

Localization of quantum walk with classical randomness: Comparison between manual methods and supervised machine learning ( http://arxiv.org/abs/2304.14348v1 )

ライセンス: Link先を確認
Christopher Mastandrea and Chih-Chun Chien(参考訳) 古典的ランダム性によって誘導される量子ウォークの遷移は、ランダムパラメータが臨界値を超える場合やシステムサイズが局在長を超える場合、ウォーカーの確率分布を2ピーク構造から1ピーク構造に変更する。 まず,ランダムな回転や翻訳の存在下での出現を示すことにより,局所化の一般性を確立する。 遷移点は、確率分布、慣性運動量、逆参加比を調べることで手動で位置決めすることができる。 比較として,サポートベクトルマシンとマルチ層パーセプトロンニューラルネットワークの2つの教師付き機械学習手法を同一データで実装した。 手動と機械学習の両方の手法は遷移を識別できるが、この2つの機械学習手法は変動する確率分布のため、局在長の指数を過小評価する傾向がある。 我々の研究は、量子と古典の混合確率を持つ物理システムの機械学習に直面する課題を説明している。

A transition of quantum walk induced by classical randomness changes the probability distribution of the walker from a two-peak structure to a single-peak one when the random parameter exceeds a critical value or the system size exceeds the localization length. We first establish the generality of the localization by showing its emergence in the presence of random rotation or translation. The transition point can be located manually by examining the probability distribution, momentum of inertia, and inverse participation ratio. As a comparison, we implement two supervised machine learning methods, the support vector machine and multi-layer perceptron neural network, with the same data. While both manual and machine-learning methods can identify the transition, the two machine-learning methods tend to underestimate the exponent of the localization length because of the fluctuating probability distribution. Our work illustrates challenges facing machine learning of physical systems with mixed quantum and classical probabilities.
翻訳日:2023-04-28 12:23:27 公開日:2023-04-27
# 2量子原子ゲート:リドベルク相互作用の時空間制御

Two-qubit atomic gates: Spatio-temporal control of Rydberg interaction ( http://arxiv.org/abs/2304.14346v1 )

ライセンス: Link先を確認
Ignacio R. Sola, Vladimir S. Malinovsky, Jaewook Ahn, Seokmin Shin, Bo Y. Chang(参考訳) 光の時間的・空間的特徴を制御することにより、近接距離に閉じ込められた原子上に2ビットのエンタングリングゲートを調製する新しいプロトコルを提案し、サブミクロからナノ秒スケールへのゲートの動作を高速化する可能性がある。 このプロトコルは、ライドバーグ状態を通じて人口を駆逐するために用いられる暗い状態のコヒーレントな性質により、パルス領域や原子の位置の変動にロバストである。 時間領域の観点から、このプロトコルはjakschと同僚(jaksch et al., phys. rev. lett. 85, 2208 (2000))によって提案されたパルスを一般化する。 空間領域の観点からは、構造化光を用いる。 解空間における回転格子と歪格子を形成するゲート忠実度の写像を解析する。 最後に、ゲート性能に対する追加量子ビットの効果について検討し、マルチパルスシーケンスで動作する一般化を提案する。

By controlling the temporal and spatial features of light, we propose a novel protocol to prepare two-qubit entangling gates on atoms trapped at close distance, which could potentially speed up the operation of the gate from the sub-micro to the nanosecond scale. The protocol is robust to variations in the pulse areas and the position of the atoms, by virtue of the coherent properties of a dark state, which is used to drive the population through Rydberg states. From the time-domain perspective, the protocol generalizes the one proposed by Jaksch and coworkers [Jaksch et al., Phys. Rev. Lett. 85, 2208 (2000)], with three pulses that operate symmetrically in time, but with different pulse areas. From the spatial-domain perspective, it uses structured light. We analyze the map of the gate fidelity, which forms rotated and distorted lattices in the solution space. Finally, we study the effect of an additional qubit to the gate performance and propose generalizations that operate with multi-pulse sequences.
翻訳日:2023-04-28 12:23:09 公開日:2023-04-27
# 結晶分析関連量子コンピュータの動作に必要なエネルギーの推定

Estimating the Energy Requirements to Operate a Cryptanalytically Relevant Quantum Computer ( http://arxiv.org/abs/2304.14344v1 )

ライセンス: Link先を確認
Edward Parker and Michael J. D. Vermeer(参考訳) 学術文献には、量子コンピュータ(crqc)を量子ビット数のようなかなり抽象的な量で操作するために必要なリソースの見積もりが多数含まれている。 しかし、私たちの知る限りでは、お金や電気といったより精通した経済資源の観点から、これらの要件を見積もってはいません。 暗号鍵を解読するために必要な電気エネルギーを2つの要因の積に分解できることを実証する。 1つの因子である時空の体積は、およそ6桁程度の範囲で推定されるが、これらの推定にはいくつかの興味深いパターンが議論されている。 量子ビット当たりの平均消費電力である他の因子について、定量的な見積もりが見つからなかった。 既存の超伝導トランスモン量子コンピュータから複数のデータポイントを組み合わせ、それらを非常に大きなスケールに外挿することにより、最終的に超伝導トランスモンCRQCが消費する約6ワット/量子ビットの可視値の極めて大まかな推定を行う。 この推定値と、以前の文献から5.9 \times 10^6$ qubit-daysの推定値とを組み合わせることで、CRQCを構築するのに莫大なコストをかけたとしても、125MWの電力を必要とし、1つの公開鍵を壊すには、現在の価格で電気だけで約64,000ドルかかると推定する。 たとえ最終的にCRQCが作られたとしても、単に運営するだけでは、かなりの期間国家や大規模組織の領域に留まるだろう。

The academic literature contains many estimates of the resources required to operate a cryptanalytically relevant quantum computer (CRQC) in terms of rather abstract quantities like the number of qubits. But to our knowledge, there have not been any estimates of these requirements in terms of more familiar economic resources like money or electricity. We demonstrate that the electrical energy required to break one cryptographic public key can be decomposed into the product of two factors. There is an extensive literature of previous estimates for one factor, the spacetime volume, that range over about six orders of magnitude; we discuss some interesting patterns in these estimates. We could not find any quantitative estimates at all for the other factor, the average power consumption per qubit. By combining several data points from existing superconducting-transmon quantum computers and extrapolating them to enormously larger scales, we make an extremely rough estimate of a plausible value of about six watts/qubit consumed by an eventual superconducting-transmon CRQC. By combining this estimate with a plausible spacetime volume estimate of $5.9 \times 10^6$ qubit-days from the prior literature, we estimate that - even after expending the enormous costs to build a CRQC - running it would require about 125 MW of electrical power, and using it to break one public key would cost about \$64,000 for electricity alone at current prices. Even if a CRQC is eventually built, merely operating it would probably remain the domain of nation-states and large organizations for a significant period of time.
翻訳日:2023-04-28 12:22:49 公開日:2023-04-27
# 都市空間時間予測の効率化に向けて:統一図書館と性能ベンチマーク

Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction: A Unified Library and Performance Benchmark ( http://arxiv.org/abs/2304.14343v1 )

ライセンス: Link先を確認
Jingyuan Wang, Jiawei Jiang, Wenjun Jiang, Chengkai Han, Wayne Xin Zhao(参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。 しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。 これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。 これらの課題に対処するため、都市空間時空間予測の総合的なレビューを行い、原子ファイルと呼ばれる空間時空間データの統一記憶形式を提案する。 また、libcityは、研究者に信頼できる実験ツールと便利な開発フレームワークを提供するオープンソースライブラリである。 本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。 LibCityを用いて、異なるモデルやコンポーネントの有効性を検証する一連の実験を行い、将来有望な技術開発と研究の方向性を時空間予測のために要約した。 公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。

As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we provide a comprehensive review of urban spatial-temporal prediction and propose a unified storage format for spatial-temporal data called atomic files. We also propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. Using LibCity, we conducted a series of experiments to validate the effectiveness of different models and components, and we summarized promising future technology developments and research directions for spatial-temporal prediction. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field.
翻訳日:2023-04-28 12:22:20 公開日:2023-04-27
# $\pi$-Tuning: 最適マルチタスク補間によるマルチモーダル基礎モデルの転送

$\pi$-Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation ( http://arxiv.org/abs/2304.14381v1 )

ライセンス: Link先を確認
Chengyue Wu, Teng Wang, Yixiao Ge, Zeyu Lu, Ruisong Zhou, Ping Luo, Ying Shan(参考訳) ファウンデーションモデルは、単一タスクとマルチモーダルタスクの統一インターフェースによるマルチタスク学習において大きな進歩を遂げている。 しかし,このようなマルチタスク学習者の潜在能力は,移動学習において活用されていない。 本研究では,視覚・言語・視覚言語タスクのための汎用パラメータ効率変換学習手法であるPredict-Interpolate Tuning(\pi$-Tuning)を提案する。 同様のタスクから学んだ軽量タスク固有のエキスパートのパラメータを集約し、ターゲットとなるダウンストリームタスクを支援する。 タスク類似性は、統一モダリティ非依存空間で予測され、タスク関係を示すスケーラブルなグラフが得られる。 $\pi$-チューニングにはいくつかの魅力がある。 まず、特にデータ共有シナリオにおいて、類似したタスク間のモーダル間転送可能性の両方を柔軟に探索し、転送学習の精度と堅牢性を改善する。 第2に、マルチタスク予測と補間による転送学習の体系的なソリューションを提供し、プロンプトやアダプタなど、さまざまなパラメータ効率のエキスパートと互換性がある。 第3に、14のユニモーダルデータセットと6つのマルチモーダルデータセットにおけるタスクレベルの相互利益に関する広範な研究は、$\pi$-Tuningが、フルショットとローショットのいずれにおいても、ファインチューニングやその他のパラメータ効率のよいトランスファー学習方法を上回ることを示している。 タスクグラフはまた、モダリティ間のタスク転送可能性の詳細な解釈可能な分析を可能にする。

Foundation models have achieved great advances in multi-task learning with a unified interface of unimodal and multimodal tasks. However, the potential of such multi-task learners has not been exploited during transfer learning. In this work, we present a universal parameter-efficient transfer learning method, termed Predict-Interpolate Tuning ($\pi$-Tuning), for vision, language, and vision-language tasks. It aggregates the parameters of lightweight task-specific experts learned from similar tasks to aid the target downstream task. The task similarities are predicted in a unified modality-independent space, yielding a scalable graph to demonstrate task relationships. $\pi$-Tuning has several appealing benefits. First, it flexibly explores both intra- and inter-modal transferability between similar tasks to improve the accuracy and robustness of transfer learning, especially in data-scarce scenarios. Second, it offers a systematical solution for transfer learning with multi-task prediction-and-then-interpolation, compatible with diverse types of parameter-efficient experts, such as prompt and adapter. Third, an extensive study of task-level mutual benefits on 14 unimodal and 6 multimodal datasets shows that $\pi$-Tuning surpasses fine-tuning and other parameter-efficient transfer learning methods both in full-shot and low-shot regimes. The task graph also enables an in-depth interpretable analysis of task transferability across modalities.
翻訳日:2023-04-28 12:15:20 公開日:2023-04-27
# 関数拡散マップ

Functional Diffusion Maps ( http://arxiv.org/abs/2304.14378v1 )

ライセンス: Link先を確認
Mar\'ia Barroso, Carlos Mar\'ia Ala\'iz, \'Angela Fern\'andez and Jose Luis Torrecilla(参考訳) 現在、多くの現実世界のデータセットは、それらを生成するプロセスが連続であるという意味で機能的と見なすことができる。 このタイプのデータの基本的な性質は、理論上は無限次元空間に属することである。 実際には、通常有限の観察を受けるが、それらは依然として高次元であり、従って次元の還元法が重要である。 この静脈では,機能的データ解析の最先端手法は機能的PCAである。 それにもかかわらず、この古典的な手法はデータが線型多様体内にあると仮定しており、従ってこの仮説が満たされない場合に問題が生じる可能性がある。 本研究では,非線型多様体学習法である拡散マップに注意を払っている。 本稿では, この多変量法を機能データに拡張する方法を説明し, 実例と実例の異なる機能的PCAに対する挙動を比較した。

Nowadays many real-world datasets can be considered as functional, in the sense that the processes which generate them are continuous. A fundamental property of this type of data is that in theory they belong to an infinite-dimensional space. Although in practice we usually receive finite observations, they are still high-dimensional and hence dimensionality reduction methods are crucial. In this vein, the main state-of-the-art method for functional data analysis is Functional PCA. Nevertheless, this classic technique assumes that the data lie in a linear manifold, and hence it could have problems when this hypothesis is not fulfilled. In this research, attention has been placed on a non-linear manifold learning method: Diffusion Maps. The article explains how to extend this multivariate method to functional data and compares its behavior against Functional PCA over different simulated and real examples.
翻訳日:2023-04-28 12:14:54 公開日:2023-04-27
# Co-SLAM:ニューラルリアルタイムSLAMのための結合座標とスパースパラメトリック符号化

Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM ( http://arxiv.org/abs/2304.14377v1 )

ライセンス: Link先を確認
Hengyi Wang, Jingwen Wang, Lourdes Agapito(参考訳) 本稿では,ハイブリッド表現に基づくニューラルRGB-D SLAMシステムであるCo-SLAMについて述べる。 Co-SLAMは、高収束速度と高周波局所特性を表現する能力を利用するマルチレゾリューションハッシュグリッドである。 さらにCo-SLAMは1ブロブ符号化を導入し、未観測領域における表面コヒーレンスと完成を促進する。 このジョイントパラメトリック座標エンコーディングは、高速収束と表面ホール充填の両世界のベストをもたらすことによって、リアルタイムでロバストなパフォーマンスを実現する。 さらに,当社のレイサンプリング戦略では,競合するニューラルネットワークslamアプローチのように,キーフレーム選択を必要とせず,すべてのキーフレームに対してグローバルバンドル調整を行うことが可能である。 実験の結果,Co-SLAMは10-17Hzで動作し,最先端のシーン再構成結果と,各種データセットやベンチマーク(ScanNet,TUM,Replica,Synthetic RGBD)の競合トラッキング性能が得られた。 プロジェクトページ:https://hengyiwang.github.io/projects/CoSLAM

We present Co-SLAM, a neural RGB-D SLAM system based on a hybrid representation, that performs robust camera tracking and high-fidelity surface reconstruction in real time. Co-SLAM represents the scene as a multi-resolution hash-grid to exploit its high convergence speed and ability to represent high-frequency local features. In addition, Co-SLAM incorporates one-blob encoding, to encourage surface coherence and completion in unobserved areas. This joint parametric-coordinate encoding enables real-time and robust performance by bringing the best of both worlds: fast convergence and surface hole filling. Moreover, our ray sampling strategy allows Co-SLAM to perform global bundle adjustment over all keyframes instead of requiring keyframe selection to maintain a small number of active keyframes as competing neural SLAM approaches do. Experimental results show that Co-SLAM runs at 10-17Hz and achieves state-of-the-art scene reconstruction results, and competitive tracking performance in various datasets and benchmarks (ScanNet, TUM, Replica, Synthetic RGBD). Project page: https://hengyiwang.github.io/projects/CoSLAM
翻訳日:2023-04-28 12:14:42 公開日:2023-04-27
# ゼロショット非教師あり転送インスタンスセグメンテーション

Zero-shot Unsupervised Transfer Instance Segmentation ( http://arxiv.org/abs/2304.14376v1 )

ライセンス: Link先を確認
Gyungin Shin, Samuel Albanie, Weidi Xie(参考訳) セグメンテーションは、様々な科学的、経済的に価値のある領域にまたがる、コアコンピュータビジョン能力である。 しかし、これまでアノテーションの禁止コストは、柔軟なセグメンテーションモデルのデプロイを制限してきた。 本稿では,この課題を克服するためのフレームワークであるzutis(zero-shot unsupervised transfer instance segmentation)を提案する。 ZUTISの主な強みは次のとおりである。 (i)インスタンスレベル又はピクセルレベルアノテーションの要件はない。 二 ゼロショット転送の能力、すなわち、対象データ流通へのアクセスを前提としないこと。 (iii)最先端の教師なし手法と比較して、両方のタスクでしっかりとしたパフォーマンスを持つセグメンテーションとインスタンスセグメンテーションの統一フレームワーク。 従来の研究と比較すると、ZUTISはCOCO-20Kで2.2マスクAP、ImageNet-Sで14.5mIoU、例とセマンティックセグメンテーションで919のカテゴリを達成している。 コードは公開されています。

Segmentation is a core computer vision competency, with applications spanning a broad range of scientifically and economically valuable domains. To date, however, the prohibitive cost of annotation has limited the deployment of flexible segmentation models. In this work, we propose Zero-shot Unsupervised Transfer Instance Segmentation (ZUTIS), a framework that aims to meet this challenge. The key strengths of ZUTIS are: (i) no requirement for instance-level or pixel-level annotations; (ii) an ability of zero-shot transfer, i.e., no assumption on access to a target data distribution; (iii) a unified framework for semantic and instance segmentations with solid performance on both tasks compared to state-of-the-art unsupervised methods. While comparing to previous work, we show ZUTIS achieves a gain of 2.2 mask AP on COCO-20K and 14.5 mIoU on ImageNet-S with 919 categories for instance and semantic segmentations, respectively. The code is made publicly available.
翻訳日:2023-04-28 12:14:18 公開日:2023-04-27
# 偏微分方程式学習のための擬ハミルトンニューラルネットワーク

Pseudo-Hamiltonian neural networks for learning partial differential equations ( http://arxiv.org/abs/2304.14374v1 )

ライセンス: Link先を確認
S{\o}lve Eidnes, Kjetil Olsen Lye(参考訳) Pseudo-Hamiltonian Neural Network (PHNN)は、最近、通常の微分方程式でモデル化できる力学系を学ぶために導入された。 本稿では,この手法を偏微分方程式に拡張する。 得られたモデルは、保存、散逸、外部力を表す用語をモデル化する最大3つのニューラルネットワークと、学習または事前の知識となる個別の畳み込み演算子から構成される。 単一ニューラルネットワークによるフルダイナミックスをモデル化したベースラインモデルと比較して,PHNNの性能が優れていることを示す。 さらに、PHNNモデルは物理的解釈が異なる3つの部分から構成されるので、これらを別々に研究してシステムについての洞察を得ることができ、外部の力を取り除いたり、変化させたりしても、学習モデルは適用可能である。

Pseudo-Hamiltonian neural networks (PHNN) were recently introduced for learning dynamical systems that can be modelled by ordinary differential equations. In this paper, we extend the method to partial differential equations. The resulting model is comprised of up to three neural networks, modelling terms representing conservation, dissipation and external forces, and discrete convolution operators that can either be learned or be prior knowledge. We demonstrate numerically the superior performance of PHNN compared to a baseline model that models the full dynamics by a single neural network. Moreover, since the PHNN model consists of three parts with different physical interpretations, these can be studied separately to gain insight into the system, and the learned model is applicable also if external forces are removed or changed.
翻訳日:2023-04-28 12:14:03 公開日:2023-04-27
# ハイゼンベルクの限界は 量子フィッシャー情報を超えて

Heisenberg Limit beyond Quantum Fisher Information ( http://arxiv.org/abs/2304.14370v1 )

ライセンス: Link先を確認
Wojciech G\'orecki(参考訳) ハイゼンベルク限界は、使用済みのn$リソース(原子、光子など)を限定して、達成可能な推定精度に基本的な境界を与える。 絡み合った量子状態を使用することで、リソースを独立に使用する場合よりも精度をn$でスケールすることができる。 その結果、全てのリソースを最適に利用するには、実験の単一実行でそれらを蓄積する必要がある。 残念ながら、メトロロジープロトコル(量子フィッシャー情報(qfi))を分析するのに使われる最も一般的な理論ツールは、実験を繰り返し繰り返すだけで運用上有意義になるため、この問題の信頼できる説明ができないことを意味する。 この論文では、ベイズ推定の形式主義とミニマックス推定器を用いて、雑音のないユニタリ進化の場合の推定精度に関する漸近的に飽和な境界を導出する。 n$ のリソース数が厳密に制限されている場合、最終的な測定の不確実性は qfi のナイーブな使用によって暗示されるよりも$\pi$ 倍大きいことを示します。 また、制約が平均的なリソース量にのみ課される場合、その正確な値が変動する可能性がある場合(QFIが精度の普遍的境界を提供していない場合)も分析する。 いずれの場合も,これらの境界の漸近飽和性と収束率について検討した。 次に,同一の物理系上で複数のパラメータが同時に測定された場合のハイゼンベルク限界の問題を解析する。 特に,すべてのパラメータを同時に測定することによる利得の存在を,同じ量のリソースを分散して独立に測定することと比較検討する。 マルチアーム干渉計における多重位相シフトの測定と3つの磁場成分の測定の2つの例に焦点を当てた。

The Heisenberg limit provides a fundamental bound on the achievable estimation precision with a limited number of $N$ resources used (e.g., atoms, photons, etc.). Using entangled quantum states makes it possible to scale the precision with $N$ better than when resources would be used independently. Consequently, the optimal use of all resources involves accumulating them in a single execution of the experiment. Unfortunately, that implies that the most common theoretical tool used to analyze metrological protocols - quantum Fisher information (QFI) - does not allow for a reliable description of this problem, as it becomes operationally meaningful only with multiple repetitions of the experiment. In this thesis, using the formalism of Bayesian estimation and the minimax estimator, I derive asymptotically saturable bounds on the precision of the estimation for the case of noiseless unitary evolution. For the case where the number of resources $N$ is strictly constrained, I show that the final measurement uncertainty is $\pi$ times larger than would be implied by a naive use of QFI. I also analyze the case where a constraint is imposed only on the average amount of resources, the exact value of which may fluctuate (in which case QFI does not provide any universal bound for precision). In both cases, I study the asymptotic saturability and the rate of convergence of these bounds. In the following part, I analyze the problem of the Heisenberg limit when multiple parameters are measured simultaneously on the same physical system. In particular, I investigate the existence of a gain from measuring all parameters simultaneously compared to distributing the same amount of resources to measure them independently. I focus on two examples - the measurement of multiple phase shifts in a multi-arm interferometer and the measurement of three magnetic field components.
翻訳日:2023-04-28 12:13:48 公開日:2023-04-27
# 一般化pdeダイナミクスのための運動観察からの学習神経構成則

Learning Neural Constitutive Laws From Motion Observations for Generalizable PDE Dynamics ( http://arxiv.org/abs/2304.14369v1 )

ライセンス: Link先を確認
Pingchuan Ma, Peter Yichen Chen, Bolei Deng, Joshua B. Tenenbaum, Tao Du, Chuang Gan, Wojciech Matusik(参考訳) 動作観測から一般化可能なPDEダイナミクスを学習するためのハイブリッドニューラルネットワーク(NN)とPDEアプローチを提案する。 多くのNNアプローチは、支配的PDEと構成的モデル(または物質モデル)の両方を暗黙的にモデル化するエンドツーエンドモデルを学ぶ。 明示的なPDE知識がなければ、これらのアプローチは物理的正当性を保証することができず、一般化性に制限がある。 我々は、PDEの管理はよく知られており、学習よりも明示的に実施されるべきであると主張する。 その代わり、構成モデルはデータフィッティングの性質から特に学習に適している。 この目的のために我々は, 回転同値や非変形状態平衡を含む標準構成法則を厳格に保証するネットワークアーキテクチャを利用する, ニューラル構成法則 (Neural Constitutive Laws, NCLaw) と呼ばれる新しい枠組みを導入する。 このネットワークを微分可能なシミュレーションに組み込んで,シミュレーションと運動観察の違いに基づいて損失関数を最小化し,モデルを訓練する。 我々はNCLawを固体から流体まで様々な大規模変形力学系で検証した。 単一の運動軌跡を訓練した後,新しい測地,初期/境界条件,時間的範囲,さらには多物理系まで一般化する。 これらの超過分布一般化タスクにおいて、NCLawは従来のNNアプローチよりも高精度である。 実世界の実験では,ビデオから構成法則を学習する能力を示す。

We propose a hybrid neural network (NN) and PDE approach for learning generalizable PDE dynamics from motion observations. Many NN approaches learn an end-to-end model that implicitly models both the governing PDE and constitutive models (or material models). Without explicit PDE knowledge, these approaches cannot guarantee physical correctness and have limited generalizability. We argue that the governing PDEs are often well-known and should be explicitly enforced rather than learned. Instead, constitutive models are particularly suitable for learning due to their data-fitting nature. To this end, we introduce a new framework termed "Neural Constitutive Laws" (NCLaw), which utilizes a network architecture that strictly guarantees standard constitutive priors, including rotation equivariance and undeformed state equilibrium. We embed this network inside a differentiable simulation and train the model by minimizing a loss function based on the difference between the simulation and the motion observation. We validate NCLaw on various large-deformation dynamical systems, ranging from solids to fluids. After training on a single motion trajectory, our method generalizes to new geometries, initial/boundary conditions, temporal ranges, and even multi-physics systems. On these extremely out-of-distribution generalization tasks, NCLaw is orders-of-magnitude more accurate than previous NN approaches. Real-world experiments demonstrate our method's ability to learn constitutive laws from videos.
翻訳日:2023-04-28 12:13:17 公開日:2023-04-27
# Occ3D: 自動運転のための大規模3D作業予測ベンチマーク

Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving ( http://arxiv.org/abs/2304.14365v1 )

ライセンス: Link先を確認
Xiaoyu Tian, Tao Jiang, Longfei Yun, Yue Wang, Yilun Wang, Hang Zhao(参考訳) ロボット知覚は3次元幾何学と意味論の両方をモデル化する必要がある。 既存の手法は通常、3D境界ボックスの推定、より細かい幾何学的詳細の無視、一般的な語彙外オブジェクトの扱いに苦慮している。 これらの制約を克服するために,多視点画像からオブジェクトの詳細な占有状況と意味を推定することを目的とした,3次元占有予測の新しいタスクを導入する。 この作業を容易にするために,特定のシーンに対して高密度で可視性のあるラベルを生成するラベル生成パイプラインを開発した。 このパイプラインにはポイントクラウドアグリゲーション、ポイントラベリング、オクルージョンハンドリングが含まれる。 Waymo Open DatasetとnuScenes Datasetの2つのベンチマークを構築し,Occ3D-WaymoとOcc3D-nuScenesベンチマークを作成した。 最後に,3次元占有率予測タスクにおいて優れた性能を示すモデルとして,粒度対細占有率(ctf-occ)ネットワークを提案する。 このアプローチは、粗い意味での幾何学的理解の必要性に対処します。 コード、データ、ベンチマークはhttps://tsinghua-mars-lab.github.io/occ3d/でリリースされる。

Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. To overcome these limitations, we introduce a novel task for 3D occupancy prediction, which aims to estimate the detailed occupancy and semantics of objects from multi-view images. To facilitate this task, we develop a label generation pipeline that produces dense, visibility-aware labels for a given scene. This pipeline includes point cloud aggregation, point labeling, and occlusion handling. We construct two benchmarks based on the Waymo Open Dataset and the nuScenes Dataset, resulting in the Occ3D-Waymo and Occ3D-nuScenes benchmarks. Lastly, we propose a model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance in the 3D occupancy prediction task. This approach addresses the need for finer geometric understanding in a coarse-to-fine fashion. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.
翻訳日:2023-04-28 12:12:57 公開日:2023-04-27
# ConSCENDI:仮想アシスタント用ガードレールモデルに対する対照的かつシナリオガイド付き蒸留法

CONSCENDI: A Contrastive and Scenario-Guided Distillation Approach to Guardrail Models for Virtual Assistants ( http://arxiv.org/abs/2304.14364v1 )

ライセンス: Link先を確認
Albert Yu Sun, Varun Nair, Elliot Schumacher, Anitha Kannan(参考訳) 新しいタスクベースの仮想アシスタントの波は、GPT-4のようなより強力な大規模言語モデルによって加速されている。 これらの会話エージェントは、顧客固有のユースケースを提供するようにカスタマイズすることができるが、エージェント生成されたテキストがプロンプト命令のみに含まれるデザイナ指定ルールに適合することを保証することは困難である。 そのため、チャットボットの設計者は、しばしばガードレールモデルと呼ばれる別のモデルを使用して、エージェントの出力がルールや制約と一致していることを確認する。 我々は,GPT-4のトレーニングデータを用いて,第1モデルの出力を監視するために,ガードレールモデルに対する蒸留手法を用いて検討する。 シナリオ拡張生成と対照的なトレーニング例という,ConSCENDIプロセスの重要なステップが2つあります。 会話データを生成する場合、ルールを破る一連のシナリオを生成し、ルールに違反する可能性のあるさまざまなハイレベルな方法のセットを列挙する。 このシナリオ誘導型アプローチは、ルール違反の会話の多様なトレーニングセットを生成し、チャットボット設計者が分類プロセスをより制御できるようにする。 また、GPT-4は、違反した会話を許容できる会話に変更することで、コントラスト的な例を生成するよう促す。 この境界線の対照的な例は、蒸留されたモデルが許容されるものと許容されないものの間のよりきめ細かい区別を学習できるようにする。 CONSCENDIはベースラインよりも優れたガードレールモデルをもたらす。

A wave of new task-based virtual assistants has been fueled by increasingly powerful large language models, such as GPT-4. These conversational agents can be customized to serve customer-specific use cases, but ensuring that agent-generated text conforms to designer-specified rules included in prompt instructions alone is challenging. Therefore, chatbot designers often use another model, called a guardrail model, to verify that the agent output aligns with their rules and constraints. We explore using a distillation approach to guardrail models to monitor the output of the first model using training data from GPT-4. We find two crucial steps to our CONSCENDI process: scenario-augmented generation and contrastive training examples. When generating conversational data, we generate a set of rule-breaking scenarios, which enumerate a diverse set of high-level ways a rule can be violated. This scenario-guided approach produces a diverse training set of rule-violating conversations, and it provides chatbot designers greater control over the classification process. We also prompt GPT-4 to also generate contrastive examples by altering conversations with violations into acceptable conversations. This set of borderline, contrastive examples enables the distilled model to learn finer-grained distinctions between what is acceptable and what is not. We find that CONSCENDI results in guardrail models that improve over baselines.
翻訳日:2023-04-28 12:12:36 公開日:2023-04-27
# 中性原子量子コンピューティングハードウェア:パフォーマンスとエンドユーザー展望

Neutral Atom Quantum Computing Hardware: Performance and End-User Perspective ( http://arxiv.org/abs/2304.14360v1 )

ライセンス: Link先を確認
Karen Wintersperger, Florian Dommert, Thomas Ehmer, Andrey Hoursanov, Johannes Klepsch, Wolfgang Mauerer, Georg Reuber, Thomas Strohm, Ming Yin and Sebastian Luber(参考訳) 我々は、量子コンピューティングハードウェアの現状に関する産業用エンドユーザー視点を、特定の技術的アプローチである中性原子プラットフォームに対して提示する。 当社の目標は、開発者がこれらのデバイスの特定の特性がアルゴリズム実行の有効性に与える影響を理解するのを支援することです。 異なるベンダーとの議論と最近の文献に基づき、中立なatomプラットフォームのパフォーマンスデータについて論じる。 具体的には、物理キュービットアーキテクチャに注目し、状態準備、キュービット間接続、ゲートフィパリティ、ネイティブゲート命令セット、個々のキュービット安定性に影響を及ぼす。 これらの要因は、エンドユーザーに関連する量子部品の実行時間とエンドツーエンドの壁時計時間の両方を決定するだけでなく、将来フォールトトレラントな量子計算を行う能力も決定する。 最後に、中性原子ベースの量子コンピュータの特異な性質によく適合するアプリケーションが示されていることを概観する。

We present an industrial end-user perspective on the current state of quantum computing hardware for one specific technological approach, the neutral atom platform. Our aim is to assist developers in understanding the impact of the specific properties of these devices on the effectiveness of algorithm execution. Based on discussions with different vendors and recent literature, we discuss the performance data of the neutral atom platform. Specifically, we focus on the physical qubit architecture, which affects state preparation, qubit-to-qubit connectivity, gate fidelities, native gate instruction set, and individual qubit stability. These factors determine both the quantum-part execution time and the end-to-end wall clock time relevant for end-users, but also the ability to perform fault-tolerant quantum computation in the future. We end with an overview of which applications have been shown to be well suited for the peculiar properties of neutral atom-based quantum computers.
翻訳日:2023-04-28 12:12:15 公開日:2023-04-27
# Web 画像からのキーポイント擬似ラベルによる調音形状の学習

Learning Articulated Shape with Keypoint Pseudo-labels from Web Images ( http://arxiv.org/abs/2304.14396v1 )

ライセンス: Link先を確認
Anastasis Stathopoulos, Georgios Pavlakos, Ligong Han, Dimitris Metaxas(参考訳) 本稿では,2Dキーポイントをラベル付けした50~150枚の画像を用いて,関節物体(馬,牛,羊など)のモノクル3次元再構成モデルを学ぶことができることを示す。 提案手法は,分類特化キーポイント推定器の訓練,ラベル付きウェブ画像上の2次元キーポイント擬似ラベルの生成,ラベル付きおよび自己ラベル付きセットによる3次元再構成モデルの訓練を含む。 本手法は,(1)対象カテゴリの50~150個の画像に対してトレーニングされた2次元キーポイント推定ネットワークを一般化し,信頼性の高い擬似ラベルを生成すること,(2)データ選択機構によって,トレーニングに使用できる未ラベルのWeb画像の「キュレート」サブセットを自動生成できること,(4つのデータ選択手法を評価した。 これら2つの洞察を結合することで、webイメージを効果的に活用するモデルのトレーニングが可能になり、完全な教師付きベースラインを超えた複数のarticulated objectカテゴリの3dリコンストラクションパフォーマンスが向上した。 我々のアプローチでは、モデルを簡単にブートストラップでき、2Dキーポイントでラベル付けされた少数の画像しか必要としない。 この要件は、任意の新しいオブジェクトカテゴリに対して容易に満足できます。 任意のオブジェクトカテゴリの3次元形状を予測するためのアプローチの実践性を実証するため、キリンの2Dキーポイントに注釈を付け、COCOの画像を保持する。

This paper shows that it is possible to learn models for monocular 3D reconstruction of articulated objects (e.g., horses, cows, sheep), using as few as 50-150 images labeled with 2D keypoints. Our proposed approach involves training category-specific keypoint estimators, generating 2D keypoint pseudo-labels on unlabeled web images, and using both the labeled and self-labeled sets to train 3D reconstruction models. It is based on two key insights: (1) 2D keypoint estimation networks trained on as few as 50-150 images of a given object category generalize well and generate reliable pseudo-labels; (2) a data selection mechanism can automatically create a "curated" subset of the unlabeled web images that can be used for training -- we evaluate four data selection methods. Coupling these two insights enables us to train models that effectively utilize web images, resulting in improved 3D reconstruction performance for several articulated object categories beyond the fully-supervised baseline. Our approach can quickly bootstrap a model and requires only a few images labeled with 2D keypoints. This requirement can be easily satisfied for any new object category. To showcase the practicality of our approach for predicting the 3D shape of arbitrary object categories, we annotate 2D keypoints on giraffe and bear images from COCO -- the annotation process takes less than 1 minute per image.
翻訳日:2023-04-28 12:07:08 公開日:2023-04-27
# string2string: string-to-stringアルゴリズムのためのモダンなpythonライブラリ

string2string: A Modern Python Library for String-to-String Algorithms ( http://arxiv.org/abs/2304.14395v1 )

ライセンス: Link先を確認
Mirac Suzgun, Stuart M. Shieber, Dan Jurafsky(参考訳) string2stringは,文字列から文字列までの幅広い問題に対して,包括的なアルゴリズムスイートを提供するオープンソースライブラリである。 これには、文字列アライメント、距離測定、語彙と意味探索、類似性分析といったさまざまな問題に対処する、最近の高度なニューラルネットワークだけでなく、いくつかの有用な視覚化ツールとメトリクスが含まれており、これらの手法の解釈と分析を容易にする。 このライブラリで注目されるアルゴリズムには、ペアの局所アライメントのためのSmith-Watermanアルゴリズム、グローバルアライメントのためのHirschbergアルゴリズム、編集距離のためのWagner-Fisherアルゴリズム、類似性解析のためのBARTScoreとBERTScore、語彙探索のためのKnuth-Morris-Prattアルゴリズム、意味探索のためのFaissなどがある。 さらに、sacrebleuやrougeといった特定のフレームワークやメトリクスの既存の効率的かつ広く使用されている実装を、適切かつ適当にラップする。 全体として、このライブラリは文字列の既存のライブラリと比較して広範なカバレッジと柔軟性の向上を目指している。 自然言語処理、バイオインフォマティクス、計算社会科学における多くのダウンストリームアプリケーション、タスク、問題に使用することができる。 pythonで実装され、pip経由で簡単にインストールでき、シンプルなapiでアクセスできる。 ソースコード、ドキュメンテーション、チュートリアルはすべて、githubページで利用可能です。

We introduce string2string, an open-source library that offers a comprehensive suite of efficient algorithms for a broad range of string-to-string problems. It includes traditional algorithmic solutions as well as recent advanced neural approaches to tackle various problems in string alignment, distance measurement, lexical and semantic search, and similarity analysis -- along with several helpful visualization tools and metrics to facilitate the interpretation and analysis of these methods. Notable algorithms featured in the library include the Smith-Waterman algorithm for pairwise local alignment, the Hirschberg algorithm for global alignment, the Wagner-Fisher algorithm for edit distance, BARTScore and BERTScore for similarity analysis, the Knuth-Morris-Pratt algorithm for lexical search, and Faiss for semantic search. Besides, it wraps existing efficient and widely-used implementations of certain frameworks and metrics, such as sacreBLEU and ROUGE, whenever it is appropriate and suitable. Overall, the library aims to provide extensive coverage and increased flexibility in comparison to existing libraries for strings. It can be used for many downstream applications, tasks, and problems in natural-language processing, bioinformatics, and computational social sciences. It is implemented in Python, easily installable via pip, and accessible through a simple API. Source code, documentation, and tutorials are all available on our GitHub page: https://github.com/stanfordnlp/string2string.
翻訳日:2023-04-28 12:06:39 公開日:2023-04-27
# seqtrack: 視覚オブジェクト追跡のためのシーケンスからシーケンスへの学習

SeqTrack: Sequence to Sequence Learning for Visual Object Tracking ( http://arxiv.org/abs/2304.14394v1 )

ライセンス: Link先を確認
Xin Chen, Houwen Peng, Dong Wang, Huchuan Lu, Han Hu(参考訳) 本稿では,視覚追跡のためのシーケンシャル・ツー・シーケンス学習フレームワークseqtrackを提案する。 視覚追跡をシーケンス生成問題として、自己回帰的な方法でオブジェクトバウンディングボックスを予測する。 従来のシームズトラッカーやトランスフォーマートラッカーとは違い、分類や回帰ヘッドといった複雑なヘッドネットワークの設計に依存している。 seqtrackは単純なエンコーダ-デコーダトランスフォーマアーキテクチャのみを採用している。 エンコーダは双方向変換器で視覚特徴を抽出し、デコーダは因果変換器で自動回帰的に境界ボックス値列を生成する。 損失関数はプレーンなクロスエントロピーである。 このようなシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、ベンチマークで競争力のあるパフォーマンスを実現する。 例えば、SeqTrackはLaSOT上で72.5%のAUCを獲得し、新しい最先端のパフォーマンスを確立している。 コードとモデルはここで入手できる。

In this paper, we present a new sequence-to-sequence learning framework for visual tracking, dubbed SeqTrack. It casts visual tracking as a sequence generation problem, which predicts object bounding boxes in an autoregressive fashion. This is different from prior Siamese trackers and transformer trackers, which rely on designing complicated head networks, such as classification and regression heads. SeqTrack only adopts a simple encoder-decoder transformer architecture. The encoder extracts visual features with a bidirectional transformer, while the decoder generates a sequence of bounding box values autoregressively with a causal transformer. The loss function is a plain cross-entropy. Such a sequence learning paradigm not only simplifies tracking framework, but also achieves competitive performance on benchmarks. For instance, SeqTrack gets 72.5% AUC on LaSOT, establishing a new state-of-the-art performance. Code and models are available at here.
翻訳日:2023-04-28 12:06:12 公開日:2023-04-27
# バイアスパターン記憶のための量子パーセプトロンの容量について

On the capacity of a quantum perceptron for storing biased patterns ( http://arxiv.org/abs/2304.14393v1 )

ライセンス: Link先を確認
Fabio Benatti, Giovanni Gramegna, Stefano Mancini and Gibbs Nwemadji(参考訳) 量子パーセプトロンの異なるアーキテクチャが最近提案されているが、そのような量子デバイスと古典的デバイスとの能力については議論が続いている。 本稿では,ランダムパターンと対象を偏りのある確率で独立に分散し,古典的限界を許容する連続量子パーセプトロンモデルの記憶容量を調べ,性能の比較を容易にする。 このようなより一般的な文脈は、多くの入力の限界における統計力学技術を用いることで、記憶特性に関する量子上の優位性は期待できないことが証明された、量子記憶容量に関する以前の研究を拡張した。 この結果は、量子デバイスの固有の確率性によって必然的に導入されるファジィに起因する。 古典的設定で発生する高相関パターンの記憶容量を無期限に増やすことが量子レベルでは防止されることを示すことにより,このような表示を強化する。

Although different architectures of quantum perceptrons have been recently put forward, the capabilities of such quantum devices versus their classical counterparts remain debated. Here, we consider random patterns and targets independently distributed with biased probabilities and investigate the storage capacity of a continuous quantum perceptron model that admits a classical limit, thus facilitating the comparison of performances. Such a more general context extends a previous study of the quantum storage capacity where using statistical mechanics techniques in the limit of a large number of inputs, it was proved that no quantum advantages are to be expected concerning the storage properties. This outcome is due to the fuzziness inevitably introduced by the intrinsic stochasticity of quantum devices. We strengthen such an indication by showing that the possibility of indefinitely enhancing the storage capacity for highly correlated patterns, as it occurs in a classical setting, is instead prevented at the quantum level.
翻訳日:2023-04-28 12:05:59 公開日:2023-04-27
# 量子アルゴリズムのための意味埋め込み

Semantic embedding for quantum algorithms ( http://arxiv.org/abs/2304.14392v1 )

ライセンス: Link先を確認
Zane M. Rossi and Isaac L. Chuang(参考訳) 古典的アルゴリズムの研究は、論理、型、カテゴリー理論で確立された膨大な基盤構造によって支えられ、計算が実現している力学に関係なく、アルゴリズム家がデータのシーケンシャルな操作を推論することができる。 量子コンピューティングが成熟するにつれて、同様の必要性が高レベル量子アルゴリズム推論の正確性を保証するために発達してきた。 このニーズと並行して、多くの量子アルゴリズムが量子信号処理(QSP)と量子特異値変換(QSVT)を使用して統合され、多項式関数によってユニタリ行列のサブブロックの特異値を変換する回路 ans\atze の交互化によってその能力を特徴付ける。 しかし、多項式の代数的操作は単純であるが(例えば、合成や積)、QSP/QSVT回路はそれらの埋め込み多項式の類似的な操作を実現する。 この研究はQSP/QSVTプロトコルのランタイムと表現性を規定し、回路操作は関数変換の代数的操作(終端意味埋め込み)に自然にマッピングする。 このようにして、qsp/qsvtは、組み込みした関数変換の観点でモジュール的に扱うことができ、実現可能な回路の計算可能性とモジュール性に鍵となる保証がある。 また,分散探索から量子暗号における健全性の証明まで,意味埋め込みを用いた既存の量子アルゴリズムを暗黙的に同定する。 カテゴリ理論に基づいて、意味的に埋め込み可能な量子アルゴリズムの理論を確立し、洗練されたアルゴリズム問題をより単純な代数的アルゴリズムに還元するqsp/qsvtの新しい役割を提供する。

The study of classical algorithms is supported by an immense understructure, founded in logic, type, and category theory, that allows an algorithmist to reason about the sequential manipulation of data irrespective of a computation's realizing dynamics. As quantum computing matures, a similar need has developed for an assurance of the correctness of high-level quantum algorithmic reasoning. Parallel to this need, many quantum algorithms have been unified and improved using quantum signal processing (QSP) and quantum singular value transformation (QSVT), which characterize the ability, by alternating circuit ans\"atze, to transform the singular values of sub-blocks of unitary matrices by polynomial functions. However, while the algebraic manipulation of polynomials is simple (e.g., compositions and products), the QSP/QSVT circuits realizing analogous manipulations of their embedded polynomials are non-obvious. This work constructs and characterizes the runtime and expressivity of QSP/QSVT protocols where circuit manipulation maps naturally to the algebraic manipulation of functional transforms (termed semantic embedding). In this way, QSP/QSVT can be treated and combined modularly, purely in terms of the functional transforms they embed, with key guarantees on the computability and modularity of the realizing circuits. We also identify existing quantum algorithms whose use of semantic embedding is implicit, spanning from distributed search to proofs of soundness in quantum cryptography. The methods used, based in category theory, establish a theory of semantically embeddable quantum algorithms, and provide a new role for QSP/QSVT in reducing sophisticated algorithmic problems to simpler algebraic ones.
翻訳日:2023-04-28 12:05:44 公開日:2023-04-27
# 構成シーン再構成のためのゼロショットプランナとしてのエネルギーモデル

Energy-based Models as Zero-Shot Planners for Compositional Scene Rearrangement ( http://arxiv.org/abs/2304.14391v1 )

ライセンス: Link先を確認
Nikolaos Gkanatsios, Ayush Jain, Zhou Xian, Yunchu Zhang, Christopher Atkeson, Katerina Fragkiadaki(参考訳) 言語は構成的であり、命令はロボットが再配置を行うシーンにおいて、オブジェクト間で保持する複数の関係制約を表現することができる。 この研究の焦点は、長い指示とトレーニング時に見ることのない空間的な概念構成に一般化した、インストラクタブルなシーン再構成フレームワークです。 本稿では,相対的な物体配置よりもエネルギー関数で言語に指示された空間概念を表現することを提案する。 言語パーサは命令を対応するエネルギー関数にマッピングし、オープンボキャブラリな視覚言語モデルはシーン内の関連するオブジェクトに対する議論を基礎としている。 我々は,各言語が指示を述語するエネルギー関数の和の勾配勾配によるゴールシーン構成を生成する。 ローカルビジョンベースのポリシーは、オブジェクトを推論されたゴール位置に移す。 我々は、確立された命令誘導操作ベンチマークと、導入した構成命令のベンチマークを用いて、モデルをテストする。 我々は,シミュレーションや実世界において,高い合成命令をゼロショットで実行可能であることを示す。 言語から反応する反応ポリシーと大規模言語モデルプランナーを大きなマージンで上回り、特に複数の空間概念の合成を含む長い命令に対して優れている。

Language is compositional; an instruction can express multiple relation constraints to hold among objects in a scene that a robot is tasked to rearrange. Our focus in this work is an instructable scene rearranging framework that generalizes to longer instructions and to spatial concept compositions never seen at training time. We propose to represent language-instructed spatial concepts with energy functions over relative object arrangements. A language parser maps instructions to corresponding energy functions and an open-vocabulary visual-language model grounds their arguments to relevant objects in the scene. We generate goal scene configurations by gradient descent on the sum of energy functions, one per language predicate in the instruction. Local vision-based policies then relocate objects to the inferred goal locations. We test our model on established instruction-guided manipulation benchmarks, as well as benchmarks of compositional instructions we introduce. We show our model can execute highly compositional instructions zero-shot in simulation and in the real world. It outperforms language-to-action reactive policies and Large Language Model planners by a large margin, especially for long instructions that involve compositions of multiple spatial concepts.
翻訳日:2023-04-28 12:05:14 公開日:2023-04-27
# 可微分シーケンシャルモンテカルロサンプラーにおける再サンプリング勾配の消失

Resampling Gradients Vanish in Differentiable Sequential Monte Carlo Samplers ( http://arxiv.org/abs/2304.14390v1 )

ライセンス: Link先を確認
Johannes Zenn and Robert Bamler(参考訳) annealed importance sampling (ais) はマルコフ鎖に沿って粒子を扱いやすい初期分布から難解な標的分布へと移動させる。 最近提案された微分可能なAIS (DAIS) (Geffner and Domke, 2021; Zhang et al., 2021) は、AISの遷移カーネルと分布の効率的な最適化を可能にする。 しかし, DAISの試料サイズは低値であり, 縮退分布を示す。 そこで我々は、Sequential Monte Carloにインスパイアされた再サンプリングステップによりDAISを拡張することを提案する。 粒子フィルタに対する同様のアプローチで観測される勾配分散の問題を回避する再サンプリングステップ(Maddison et al., 2017; Naesseth et al., 2018; Le et al., 2018)を通じて、理論的に区別する必要はないと説明できる。

Annealed Importance Sampling (AIS) moves particles along a Markov chain from a tractable initial distribution to an intractable target distribution. The recently proposed Differentiable AIS (DAIS) (Geffner and Domke, 2021; Zhang et al., 2021) enables efficient optimization of the transition kernels of AIS and of the distributions. However, we observe a low effective sample size in DAIS, indicating degenerate distributions. We thus propose to extend DAIS by a resampling step inspired by Sequential Monte Carlo. Surprisingly, we find empirically-and can explain theoretically-that it is not necessary to differentiate through the resampling step which avoids gradient variance issues observed in similar approaches for Particle Filters (Maddison et al., 2017; Naesseth et al., 2018; Le et al., 2018).
翻訳日:2023-04-28 12:04:56 公開日:2023-04-27
# ベイジアン説得による動的価格と学習

Dynamic Pricing and Learning with Bayesian Persuasion ( http://arxiv.org/abs/2304.14385v1 )

ライセンス: Link先を確認
Shipra Agrawal, Yiding Feng, Wei Tang(参考訳) 我々は,商品の価格設定に加えて,販売者が「広告計画」にコミットする,新たな動的価格設定と学習環境について考察する。 つまり、各ラウンドの開始時に、売り手は商品の品質について購入者にどのような信号を提供するかを決定することができる。 人気の高いベイズ説得フレームワークを用いて、これらのシグナルが購入者の評価と購入応答に及ぼす影響をモデル化し、販売者の期待収益を最大化する価格体系とともに、広告スキームの最適設計を求める問題を定式化する。 購入者の需要関数を事前に知ることなく、過去の購入応答を利用して最適な価格と広告戦略を適応的に学習できるオンラインアルゴリズムを設計することを目標としている。 本稿では,最適な価格と広告手法と比較し,アルゴリズムの後悔について考察する。 我々の主な結果は計算効率の良いオンラインアルゴリズムであり、製品品質において評価関数が線形であるときに$o(t^{2/3}(m\log t)^{1/3})$ regret boundを達成する。 ここで $m$ は離散的製品品質ドメインの濃度であり、$t$ は時間軸である。 この結果は、バリュエーション関数に対する自然な単調性とリプシッツの仮定を必要とするが、購入者の要求関数に対するリプシッツや滑らかさの仮定は不要である。 定数$m$の場合、この結果は対数係数内での動的価格設定に対する後悔の少ない低い値と一致します。 また、より広範に考慮された加法評価の特別ケースに対して、$m$ の独立性を持つ $\tilde{O}(T^{2/3})$ regret bound を含むいくつかの改善された結果を得る。

We consider a novel dynamic pricing and learning setting where in addition to setting prices of products in sequential rounds, the seller also ex-ante commits to 'advertising schemes'. That is, in the beginning of each round the seller can decide what kind of signal they will provide to the buyer about the product's quality upon realization. Using the popular Bayesian persuasion framework to model the effect of these signals on the buyers' valuation and purchase responses, we formulate the problem of finding an optimal design of the advertising scheme along with a pricing scheme that maximizes the seller's expected revenue. Without any apriori knowledge of the buyers' demand function, our goal is to design an online algorithm that can use past purchase responses to adaptively learn the optimal pricing and advertising strategy. We study the regret of the algorithm when compared to the optimal clairvoyant price and advertising scheme. Our main result is a computationally efficient online algorithm that achieves an $O(T^{2/3}(m\log T)^{1/3})$ regret bound when the valuation function is linear in the product quality. Here $m$ is the cardinality of the discrete product quality domain and $T$ is the time horizon. This result requires some natural monotonicity and Lipschitz assumptions on the valuation function, but no Lipschitz or smoothness assumption on the buyers' demand function. For constant $m$, our result matches the regret lower bound for dynamic pricing within logarithmic factors, which is a special case of our problem. We also obtain several improved results for the widely considered special case of additive valuations, including an $\tilde{O}(T^{2/3})$ regret bound independent of $m$ when $m\le T^{1/3}$.
翻訳日:2023-04-28 12:04:36 公開日:2023-04-27
# 連続変数を用いた量子信号処理

Quantum signal processing with continuous variables ( http://arxiv.org/abs/2304.14383v1 )

ライセンス: Link先を確認
Zane M. Rossi, Victor M. Bastidas, William J. Munro, Isaac L. Chuang(参考訳) 量子特異値変換(QSVT)は、多項式関数をユニタリ変換に埋め込まれた任意の線形作用素の特異値に適用し、ほとんどの量子アルゴリズムを統一、単純化、改善するために使われてきた。 QSVT は表現論における正確な結果に依存し、所望の多項式函数はより大きなヒルベルト空間の不変な2次元部分空間内で同時に作用する。 これらの2次元変換は量子信号処理(QSP)の関連理論によって決定される。 qsp はコンパクトリー群 su(2) に特有の性質に依存するように見えるが、他の多くのリー群は量子情報に関連する物理系に自然に現れる。 この研究は、SU(1,1) が系力学を記述し、SU(1,1) の非コンパクト性にもかかわらず、QSP型アンサッツを復元することができ、任意の多項式変換に近似できることを示す。 この構成の様々な実験的利用と, qsp様ans\"atzeの他のリー群への拡張の可能性について考察する。

Quantum singular value transformation (QSVT) enables the application of polynomial functions to the singular values of near arbitrary linear operators embedded in unitary transforms, and has been used to unify, simplify, and improve most quantum algorithms. QSVT depends on precise results in representation theory, with the desired polynomial functions acting simultaneously within invariant two-dimensional subspaces of a larger Hilbert space. These two-dimensional transformations are largely determined by the related theory of quantum signal processing (QSP). While QSP appears to rely on properties specific to the compact Lie group SU(2), many other Lie groups appear naturally in physical systems relevant to quantum information. This work considers settings in which SU(1,1) describes system dynamics and finds that, surprisingly, despite the non-compactness of SU(1,1), one can recover a QSP-type ansatz, and show its ability to approximate near arbitrary polynomial transformations. We discuss various experimental uses of this construction, as well as prospects for expanded relevance of QSP-like ans\"atze to other Lie groups.
翻訳日:2023-04-28 12:04:01 公開日:2023-04-27
# 数発3d解析のためのアナロジーフォーミングトランスフォーマー

Analogy-Forming Transformers for Few-Shot 3D Parsing ( http://arxiv.org/abs/2304.14382v1 )

ライセンス: Link先を確認
Nikolaos Gkanatsios, Mayank Singh, Zhaoyuan Fang, Shubham Tulsiani, Katerina Fragkiadaki(参考訳) ドメインの知識を明示的に符号化するモデルであるAnalogical Networksを、モデルパラメータとして暗黙的に、3次元オブジェクトシーンを類似した推論で、3次元オブジェクトシーンを暗黙的に表示し、その部分セグメントに直接マッピングするのではなく、まず、メモリとその対応する部分構造から関連シーンを検索し、入力シーンの類似部分構造をエンドツーエンドの学習可能な変調機構を介して予測する。 複数の記憶を条件付けすることで、構造体の構成が予測され、その記憶をミックスして一致させる。 一発、一発、二発、多発の学習は、単一、少数、または多数の記憶例から取り出した記憶の適切なセットを条件付けし、類似のパースを推論することによって、アナログネットワークにおいて一様に扱われる。 アナロジカルネットワークは、最先端の3Dセグメンテーショントランスフォーマーと多くのショット設定で競合し、メタラーニングや少ショットラーニングといった既存のパラダイムを数ショット設定で上回ります。 類似ネットワークは、新しいオブジェクトカテゴリのインスタンスを単にメモリを拡張するだけで、重み付け更新なしにセグメント化することに成功している。 私たちのコードとモデルはプロジェクトのWebページで公開されている。

We present Analogical Networks, a model that encodes domain knowledge explicitly, in a collection of structured labelled 3D scenes, in addition to implicitly, as model parameters, and segments 3D object scenes with analogical reasoning: instead of mapping a scene to part segments directly, our model first retrieves related scenes from memory and their corresponding part structures, and then predicts analogous part structures for the input scene, via an end-to-end learnable modulation mechanism. By conditioning on more than one retrieved memories, compositions of structures are predicted, that mix and match parts across the retrieved memories. One-shot, few-shot or many-shot learning are treated uniformly in Analogical Networks, by conditioning on the appropriate set of memories, whether taken from a single, few or many memory exemplars, and inferring analogous parses. We show Analogical Networks are competitive with state-of-the-art 3D segmentation transformers in many-shot settings, and outperform them, as well as existing paradigms of meta-learning and few-shot learning, in few-shot settings. Analogical Networks successfully segment instances of novel object categories simply by expanding their memory, without any weight updates. Our code and models are publicly available in the project webpage: http://analogicalnets.github.io/.
翻訳日:2023-04-28 12:03:43 公開日:2023-04-27
# chatvideo:トラックレット中心のマルチモーダル・多目的ビデオ理解システム

ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System ( http://arxiv.org/abs/2304.14407v1 )

ライセンス: Link先を確認
Junke Wang and Dongdong Chen and Chong Luo and Xiyang Dai and Lu Yuan and Zuxuan Wu and Yu-Gang Jiang(参考訳) 既存のディープビデオモデルは、特定のタスク、固定された入出力空間、一般化能力に制限されているため、現実のシナリオでのデプロイが困難である。 本稿では,マルチモーダル・多目的ビデオ理解のためのビジョンを示し,プロトタイプシステムである \system を提案する。 本システムは,トラックレットを基本ビデオ単位として扱い,様々なビデオファウンデーションモデル(ViFM)を用いて,その特性,例えば外見,動き,および<etc>をアノテートする,トラックレット中心のパラダイムに基づいて構築されている。 検出されたトラックレットはすべてデータベースに格納され、データベースマネージャを介してユーザと対話する。 我々は,様々な形態の動画のケーススタディを行い,様々なビデオ関連問題に対処するための手法の有効性を実証した。 私たちのプロジェクトはhttps://www.wangjunke.info/ChatVideo/で利用可能です。

Existing deep video models are limited by specific tasks, fixed input-output spaces, and poor generalization capabilities, making it difficult to deploy them in real-world scenarios. In this paper, we present our vision for multimodal and versatile video understanding and propose a prototype system, \system. Our system is built upon a tracklet-centric paradigm, which treats tracklets as the basic video unit and employs various Video Foundation Models (ViFMs) to annotate their properties e.g., appearance, motion, \etc. All the detected tracklets are stored in a database and interact with the user through a database manager. We have conducted extensive case studies on different types of in-the-wild videos, which demonstrates the effectiveness of our method in answering various video-related problems. Our project is available at https://www.wangjunke.info/ChatVideo/
翻訳日:2023-04-28 11:56:21 公開日:2023-04-27
# 身の回りに人間を配置する - 身近な人間を舞台に

Putting People in Their Place: Affordance-Aware Human Insertion into Scenes ( http://arxiv.org/abs/2304.14406v1 )

ライセンス: Link先を確認
Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh(参考訳) シーンに現実的に人物を挿入する手法を提示することにより、シーンアフォーアンスを推測する問題について検討する。 マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。 本モデルでは,シーンコンテキストを考慮した現実的なポーズのセットを推定し,参照人物を再配置し,構成を調和させることができる。 ビデオクリップに人間を配置することを学ぶことで、自己指導型でタスクをセットアップした。 我々は,シーンコンテキストを尊重しながら多彩な多彩なポーズを生成する2.4mビデオクリップのデータセット上で,大規模拡散モデルを訓練する。 学習した人間-シーン構成を考えると,コンディショニングを必要とせず,リアルな人物やシーンを表現できるだけでなく,インタラクティブな編集も可能となる。 定量的評価の結果,本手法は従来の作業よりもリアルな外観と自然な人間とシーンの相互作用を合成することが示された。

We study the problem of inferring scene affordances by presenting a method for realistically inserting people into scenes. Given a scene image with a marked region and an image of a person, we insert the person into the scene while respecting the scene affordances. Our model can infer the set of realistic poses given the scene context, re-pose the reference person, and harmonize the composition. We set up the task in a self-supervised fashion by learning to re-pose humans in video clips. We train a large-scale diffusion model on a dataset of 2.4M video clips that produces diverse plausible poses while respecting the scene context. Given the learned human-scene composition, our model can also hallucinate realistic people and scenes when prompted without conditioning and also enables interactive editing. A quantitative evaluation shows that our method synthesizes more realistic human appearance and more natural human-scene interactions than prior work.
翻訳日:2023-04-28 11:56:05 公開日:2023-04-27
# ViMQ: 医療対話システム開発のためのベトナムの医療質問データセット

ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue System Development ( http://arxiv.org/abs/2304.14405v1 )

ライセンス: Link先を確認
Ta Duc Huy, Nguyen Anh Tu, Tran Hoang Vu, Nguyen Phuc Minh, Nguyen Phan, Trung H. Bui, Steven Q. H. Truong(参考訳) 既存の医学テキストデータセットは、通常、自然言語生成のタスクをサポートするが、医学用語の複合アノテーションが欠如しているques-tionと answer pairの形式を取る。 本研究では,Intent Classification と Named Entity Recognition タスクのために,文レベルおよびエンティティレベルのアノテーションを持つ患者から,ベトナムの医療質問のデータセットを公開する。 2つのタスクのタグセットは医療領域にあり、患者からのクエリをより理解したタスク指向のヘルスケアチャットボットの開発を容易にする。 2つのタスクのベースラインモデルをトレーニングし,スパンノイズモデルを用いた単純な自己教師付きトレーニング戦略を提案する。 Datasetとコードはhttps://github.com/tadeephuy/ViMQで公開される

Existing medical text datasets usually take the form of ques- tion and answer pairs that support the task of natural language gener- ation, but lacking the composite annotations of the medical terms. In this study, we publish a Vietnamese dataset of medical questions from patients with sentence-level and entity-level annotations for the Intent Classification and Named Entity Recognition tasks. The tag sets for two tasks are in medical domain and can facilitate the development of task- oriented healthcare chatbots with better comprehension of queries from patients. We train baseline models for the two tasks and propose a simple self-supervised training strategy with span-noise modelling that substan- tially improves the performance. Dataset and code will be published at https://github.com/tadeephuy/ViMQ
翻訳日:2023-04-28 11:55:47 公開日:2023-04-27
# 制御可能なビデオ合成のためのモーションコンディション拡散モデル

Motion-Conditioned Diffusion Model for Controllable Video Synthesis ( http://arxiv.org/abs/2304.14404v1 )

ライセンス: Link先を確認
Tsai-Shien Chen, Chieh Hubert Lin, Hung-Yu Tseng, Tsung-Yi Lin, Ming-Hsuan Yang(参考訳) 拡散モデルの最近の進歩は、合成コンテンツの質と多様性を大幅に改善した。 拡散モデルの表現力を利用するため、研究者はユーザーが直感的にコンテンツ合成プロセスを導くことができる様々な制御可能なメカニズムを探求した。 最新の取り組みは主にビデオ合成に焦点を当てているが、望ましいコンテンツや動きを制御し記述するための効果的な方法が欠如している。 このギャップに対応するために,本稿では,開始画像フレームとストロークのセットから映像を生成する条件拡散モデルであるmcdiffを紹介する。 スパース動作入力のあいまいさに対処し、より良い合成品質を達成するため、MCDiffはまずフロー補完モデルを用いて、映像フレームとスパース動作制御のセマンティック理解に基づいて、濃密な映像動作を予測する。 そして、拡散モデルは高品質な将来のフレームを合成して出力ビデオを形成する。 我々は,ストローク誘導制御可能なビデオ合成において,MCDiffが最先端の視覚的品質を実現することを質的に定量的に示す。 MPII Human Poseに関する追加実験は、多種多様な内容と運動合成における我々のモデルの有効性をさらに示す。

Recent advancements in diffusion models have greatly improved the quality and diversity of synthesized content. To harness the expressive power of diffusion models, researchers have explored various controllable mechanisms that allow users to intuitively guide the content synthesis process. Although the latest efforts have primarily focused on video synthesis, there has been a lack of effective methods for controlling and describing desired content and motion. In response to this gap, we introduce MCDiff, a conditional diffusion model that generates a video from a starting image frame and a set of strokes, which allow users to specify the intended content and dynamics for synthesis. To tackle the ambiguity of sparse motion inputs and achieve better synthesis quality, MCDiff first utilizes a flow completion model to predict the dense video motion based on the semantic understanding of the video frame and the sparse motion control. Then, the diffusion model synthesizes high-quality future frames to form the output video. We qualitatively and quantitatively show that MCDiff achieves the state-the-of-art visual quality in stroke-guided controllable video synthesis. Additional experiments on MPII Human Pose further exhibit the capability of our model on diverse content and motion synthesis.
翻訳日:2023-04-28 11:55:35 公開日:2023-04-27
# 画像のインバージョンと編集をステアリングするStyleGAN

Make It So: Steering StyleGAN for Any Image Inversion and Editing ( http://arxiv.org/abs/2304.14403v1 )

ライセンス: Link先を確認
Anand Bhattad, Viraj Shah, Derek Hoiem, D.A. Forsyth(参考訳) StyleGANの歪んだスタイル表現は、潜伏変数を操作することで強力な画像編集を可能にするが、現実の画像を潜伏変数(GAN反転)に正確にマッピングすることは依然として困難である。 既存のGANインバージョン手法は、編集方向の維持と現実的な結果の獲得に苦慮している。 これらの制限に対処するため、我々は、典型的な$\mathcal{w}$ (latent style) 空間ではなく$\mathcal{z}$ (noise) 空間で動作する新しいgan反転法である make it it を提案する。 Make It Soは、ドメイン外画像であっても編集機能を保持する。 これは以前の方法で見落とされた重要な財産です。 定量的評価の結果,pti~\cite{roich2021pivotal}はインバージョン精度が5倍に向上し,複雑な室内シーンの編集品質が10倍向上した。

StyleGAN's disentangled style representation enables powerful image editing by manipulating the latent variables, but accurately mapping real-world images to their latent variables (GAN inversion) remains a challenge. Existing GAN inversion methods struggle to maintain editing directions and produce realistic results. To address these limitations, we propose Make It So, a novel GAN inversion method that operates in the $\mathcal{Z}$ (noise) space rather than the typical $\mathcal{W}$ (latent style) space. Make It So preserves editing capabilities, even for out-of-domain images. This is a crucial property that was overlooked in prior methods. Our quantitative evaluations demonstrate that Make It So outperforms the state-of-the-art method PTI~\cite{roich2021pivotal} by a factor of five in inversion accuracy and achieves ten times better edit quality for complex indoor scenes.
翻訳日:2023-04-28 11:55:16 公開日:2023-04-27
# LaMini-LM:大規模インストラクションによる蒸留モデルの多様性

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions ( http://arxiv.org/abs/2304.14402v1 )

ライセンス: Link先を確認
Minghao Wu, Abdul Waheed, Chiyu Zhang, Muhammad Abdul-Mageed, Alham Fikri Aji(参考訳) 命令を微調整した大規模言語モデル(LLM)は、優れた生成能力を示す。 しかし、これらのモデルはリソース集約的です。 この問題を軽減するため,命令調整型LLMからはるかに小さなLSMへの知識の蒸留について検討する。 この目的のために,既存の命令と新規命令の両方に基づいて258万命令の大規模なセットを慎重に開発する。 サイズが拡大するだけでなく,幅広いトピックをカバーするための指示も設計しています。 提案手法の多様性を実証し, gpt-3.5-turbo を用いてこれらの命令に対する応答を生成する。 次に、エンコーダデコーダとデコーダのみのファミリーの両方から、さまざまなサイズのLaMini-LMと呼ばれるモデルのホストをチューニングするための命令を利用する。 我々は、自動(15の異なるNLPベンチマークで)および手動でモデルを評価する。 その結果,提案するLaMini-LMは,10倍近いサイズで,競合するベースラインと同等であることがわかった。

Large language models (LLMs) with instruction finetuning demonstrate superior generative capabilities. However, these models are resource intensive. To alleviate this issue, we explore distilling knowledge from instruction-tuned LLMs to much smaller ones. To this end, we carefully develop a large set of 2.58M instructions based on both existing and newly-generated instructions. In addition to being sizeable, we design our instructions to cover a broad set of topics to ensure. A thorough investigation of our instruction data demonstrate their diversity, and we generate responses for these instructions using gpt-3.5-turbo. We then exploit the instructions to tune a host of models, dubbed LaMini-LM, of varying sizes, both from the encoder-decoder as well as the decoder-only families. We evaluate our models both automatically (on 15 different NLP benchmarks) and manually. Results show that our proposed LaMini-LM are on par with competitive baselines while being nearly 10 times smaller in size.
翻訳日:2023-04-28 11:54:56 公開日:2023-04-27
# ActorsNeRF:一般用NeRFを用いたアニメーション撮影

ActorsNeRF: Animatable Few-shot Human Rendering with Generalizable NeRFs ( http://arxiv.org/abs/2304.14401v1 )

ライセンス: Link先を確認
Jiteng Mu, Shen Sang, Nuno Vasconcelos, Xiaolong Wang(参考訳) NeRFをベースとした人間の表現は目覚ましいビュー合成結果を示しているが、ほとんどの手法はトレーニングのために多くの画像/ビューに依存している。 本研究では,ActorsNeRFと呼ばれる新しいアニマタブルNeRFを提案する。 最初は多様な人間の被験者に事前訓練され、その後、目に見えないポーズを持つ新しい俳優のために、数発の単眼ビデオフレームで調整される。 ActorsNeRFは、ConvNetエンコーダを使用したパラメータ共有を備えた以前の一般化可能なNeRFに基づいて、大きな人間の外見、形状、およびポーズのバリエーションをキャプチャするために、さらに2つの人間プリエントを採用する。 具体的には、符号化された特徴空間において、まず異なる人間の対象をカテゴリレベルの標準空間に整列させ、次に異なるフレームから同じ人間をインスタンスレベルの標準空間に整列させてレンダリングする。 我々は、アクターNeRFが、新しい人々の数ショットの一般化や複数のデータセットのポーズにおいて、既存の最先端技術よりも著しく優れていることを定量的に、質的に証明する。 プロジェクトページ: https://jitengmu.github.io/actorsnerf/

While NeRF-based human representations have shown impressive novel view synthesis results, most methods still rely on a large number of images / views for training. In this work, we propose a novel animatable NeRF called ActorsNeRF. It is first pre-trained on diverse human subjects, and then adapted with few-shot monocular video frames for a new actor with unseen poses. Building on previous generalizable NeRFs with parameter sharing using a ConvNet encoder, ActorsNeRF further adopts two human priors to capture the large human appearance, shape, and pose variations. Specifically, in the encoded feature space, we will first align different human subjects in a category-level canonical space, and then align the same human from different frames in an instance-level canonical space for rendering. We quantitatively and qualitatively demonstrate that ActorsNeRF significantly outperforms the existing state-of-the-art on few-shot generalization to new people and poses on multiple datasets. Project Page: https://jitengmu.github.io/ActorsNeRF/
翻訳日:2023-04-28 11:54:41 公開日:2023-04-27
# IconShop: 自動回帰変換器を用いたテキストベースベクトルアイコン合成

IconShop: Text-Based Vector Icon Synthesis with Autoregressive Transformers ( http://arxiv.org/abs/2304.14400v1 )

ライセンス: Link先を確認
Ronghuan Wu, Wanchao Su, Kede Ma, Jing Liao(参考訳) スケーラブルベクトルグラフィックス(SVG)は、対話性とアニメーションをうまくサポートしたベクトル画像フォーマットである。 このような魅力的な特徴にもかかわらず、SVG文法の理解やプロの編集ソフトとの知識が長いため、ユーザが独自のSVGコンテンツを作成することは一般的に困難である。 テキスト対画像生成の最近の進歩は、大きな言語モデルの「ゼロショット」機能を通じて、差分レンダリングと言語ベースのアイコン合成(テキスト ->ベクターイメージスクリプト)を通じてイメージベースのアイコン合成(テキスト ->ラスターイメージ ->ベクターイメージ)を探求する研究に刺激を与えている。 しかし、これらの手法には、生成品質、多様性、柔軟性、速度に関するいくつかの制限がある。 本稿では,自動回帰変換器を用いたテキスト誘導ベクトルアイコン合成法であるIconShopを紹介する。 このアプローチの成功の鍵は、SVGパス(およびテキスト記述)をユニークなデオード可能なコマンドシーケンスにシーケンシャル化し、トークン化することです。 このような単一シーケンスを入力として、自己回帰変換器のシーケンス学習能力をフル活用し、様々なアイコン合成や操作タスクを可能にする。 テキスト記述を伴う大規模なアイコンデータセット上で次のトークンを予測するための標準的なトレーニングを通じて、提案したIconShopは、既存の画像ベースおよび言語ベースのメソッド(FIDとCLIPスコアを使用して)と定性的に(視覚検査を通じて)、より優れたアイコン合成性能を示す。 一方、客観的尺度(普遍性とノベルティ)によって支えられる世代多様性の劇的な改善を観察する。 さらに,2つの新しいアイコン操作タスク – テキストガイド付きアイコンインフィル,テキスト結合型アイコン合成 – によって,アイコンショップの柔軟性を実証する。

Scalable Vector Graphics (SVG) is a prevalent vector image format with good support for interactivity and animation. Despite such appealing characteristics, it is generally challenging for users to create their own SVG content because of the long learning curve to comprehend SVG grammars or acquaint themselves with professional editing software. Recent progress in text-to-image generation has inspired researchers to explore image-based icon synthesis (i.e., text -> raster image -> vector image) via differential rendering and language-based icon synthesis (i.e., text -> vector image script) via the "zero-shot" capabilities of large language models. However, these methods may suffer from several limitations regarding generation quality, diversity, flexibility, and speed. In this paper, we introduce IconShop, a text-guided vector icon synthesis method using an autoregressive transformer. The key to success of our approach is to sequentialize and tokenize the SVG paths (and textual descriptions) into a uniquely decodable command sequence. With such a single sequence as input, we are able to fully exploit the sequence learning power of autoregressive transformers, while enabling various icon synthesis and manipulation tasks. Through standard training to predict the next token on a large-scale icon dataset accompanied by textural descriptions, the proposed IconShop consistently exhibits better icon synthesis performance than existing image-based and language-based methods both quantitatively (using the FID and CLIP score) and qualitatively (through visual inspection). Meanwhile, we observe a dramatic improvement in generation diversity, which is supported by objective measures (Uniqueness and Novelty). More importantly, we demonstrate the flexibility of IconShop with two novel icon manipulation tasks - text-guided icon infilling, and text-combined icon synthesis.
翻訳日:2023-04-28 11:54:21 公開日:2023-04-27
# 言語モデルは曖昧さをモデル化していません

We're Afraid Language Models Aren't Modeling Ambiguity ( http://arxiv.org/abs/2304.14399v1 )

ライセンス: Link先を確認
Alisa Liu, Zhaofeng Wu, Julian Michael, Alane Suhr, Peter West, Alexander Koller, Swabha Swayamdipta, Noah A. Smith, Yejin Choi(参考訳) 曖昧さは自然言語の本質的な特徴である。 あいまいさの管理は人間の言語理解の重要な部分であり、コミュニケーション者として誤解を予想し、聞き手としての解釈を改めることができる。 言語モデル(lms)が対話インタフェースやaidsとして使われるようになり、あいまいな言語を扱うことが彼らの成功に不可欠である。 本研究では,文中のあいまいさが他の文との係り受け関係に与える影響を特徴付け,多種多様なあいまいさを持つ1,645例の言語学者によるベンチマークであるAmbiEntを収集する。 本研究では,AmbiEntに基づくテストスイートを設計し,事前学習したLMのあいまいさを認識し,可能な意味を乱すための最初の評価を行った。 近年のGPT-4では,人間の評価における曖昧さは32%に過ぎず,データセットの曖昧さは90%に過ぎなかった。 最後に、曖昧さに敏感なツールの価値を説明するために、マルチラベルのnliモデルが曖昧さのために誤解を招く政治主張にフラグを付けることができることを示す。 我々はNLPの曖昧さの重要性を再発見するようフィールドに促す。

Ambiguity is an intrinsic feature of natural language. Managing ambiguity is a key part of human language understanding, allowing us to anticipate misunderstanding as communicators and revise our interpretations as listeners. As language models (LMs) are increasingly employed as dialogue interfaces and writing aids, handling ambiguous language is critical to their success. We characterize ambiguity in a sentence by its effect on entailment relations with another sentence, and collect AmbiEnt, a linguist-annotated benchmark of 1,645 examples with diverse kinds of ambiguity. We design a suite of tests based on AmbiEnt, presenting the first evaluation of pretrained LMs to recognize ambiguity and disentangle possible meanings. We find that the task remains extremely challenging, including for the recent GPT-4, whose generated disambiguations are considered correct only 32% of the time in human evaluation, compared to 90% for disambiguations in our dataset. Finally, to illustrate the value of ambiguity-sensitive tools, we show that a multilabel NLI model can flag political claims in the wild that are misleading due to ambiguity. We encourage the field to rediscover the importance of ambiguity for NLP.
翻訳日:2023-04-28 11:53:47 公開日:2023-04-27
# 自己監督学習とフェデレーション学習による製造のためのモデル一般化の最大化

Maximizing Model Generalization for Manufacturing with Self-Supervised Learning and Federated Learning ( http://arxiv.org/abs/2304.14398v1 )

ライセンス: Link先を確認
Matthew Russell and Peng Wang(参考訳) deep learning (dl)は、手動で統計的特徴を設計せずに、障害を診断し、生の状態監視データからマシンヘルスを評価することができる。 しかし, 既存のDL法では, 実用化が極めて困難である。 マシンデータはしばしばラベルが付けられておらず、ごく少数の健康状態(例:通常の運用データのみ)からである。 さらに、プロセスパラメータが変化し、新しい障害カテゴリが出現するにつれて、モデルはドメインの変化に遭遇することが多い。 伝統的な教師付き学習は、特徴空間を決定境界で分割する豊富なクラスを持つことに依存するため、これらの目に見えない対象領域に一般化するコンパクトで差別的な表現を学ぶのに苦労する。 ドメイン適応型トランスファーラーニング(TL)は、これらのモデルをラベルのないターゲットドメインに適応させようとするが、新しい障害が出現しても存在しないような基盤構造を仮定する。 本研究は,対象領域にモデルをコピーするために,ソース領域における特徴一般化の最大化と重み移動によるTLの適用に焦点をあてる。 具体的には、Barlow Twinsによる自己監視学習(SSL)は、データのセマンティックな性質に焦点を当てることで、教師付き学習よりも、健康状態を監視するための差別的な特徴を生み出す可能性がある。 さらに、分散トレーニングのための連合学習(fl)は、複数のクライアントマシン間で情報を共有することにより、トレーニングデータの有効サイズと多様性を効率良く拡大することにより、一般化を改善できる。 以上の結果から,Barlow Twins は未ラベルの目標領域における教師あり学習において,ソーストレーニングデータがほとんど異なるカテゴリを含む場合,モータ障害が出現する傾向を示した。 FLを組み込むことは、マシン間で健康状態の知識を拡散させることで、わずかに有利になる。

Deep Learning (DL) can diagnose faults and assess machine health from raw condition monitoring data without manually designed statistical features. However, practical manufacturing applications remain extremely difficult for existing DL methods. Machine data is often unlabeled and from very few health conditions (e.g., only normal operating data). Furthermore, models often encounter shifts in domain as process parameters change and new categories of faults emerge. Traditional supervised learning may struggle to learn compact, discriminative representations that generalize to these unseen target domains since it depends on having plentiful classes to partition the feature space with decision boundaries. Transfer Learning (TL) with domain adaptation attempts to adapt these models to unlabeled target domains but assumes similar underlying structure that may not be present if new faults emerge. This study proposes focusing on maximizing the feature generality on the source domain and applying TL via weight transfer to copy the model to the target domain. Specifically, Self-Supervised Learning (SSL) with Barlow Twins may produce more discriminative features for monitoring health condition than supervised learning by focusing on semantic properties of the data. Furthermore, Federated Learning (FL) for distributed training may also improve generalization by efficiently expanding the effective size and diversity of training data by sharing information across multiple client machines. Results show that Barlow Twins outperforms supervised learning in an unlabeled target domain with emerging motor faults when the source training data contains very few distinct categories. Incorporating FL may also provide a slight advantage by diffusing knowledge of health conditions between machines.
翻訳日:2023-04-28 11:53:25 公開日:2023-04-27