このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230309となっている論文です。

PDF登録状況(公開日: 20230309)

TitleAuthorsAbstract論文公表日・翻訳日
# フラストレーションのない位相順序量子格子系に対するバルクギャップの安定性

Stability of the bulk gap for frustration-free topologically ordered quantum lattice systems ( http://arxiv.org/abs/2102.07209v3 )

ライセンス: Link先を確認
Bruno Nachtergaele, Robert Sims, Amanda Young(参考訳) 局所的な局所的な量子秩序条件を満たすフラストレーションのない量子スピン系の基底状態より上のバルクギャップを均一に小さな短距離摂動が閉ざさないことを証明した。 以前の結果とは対照的に、系のサイズが一様である有限系ハミルトニアンの正の下界は不要である。 この結果を得るために、無限系基底状態の GNS 表現に Bravyi-Hastings-Michalakis 戦略を適用する。

We prove that uniformly small short-range perturbations do not close the bulk gap above the ground state of frustration-free quantum spin systems that satisfy a standard local topological quantum order condition. In contrast with earlier results, we do not require a positive lower bound for finite-system Hamiltonians uniform in the system size. To obtain this result, we adapt the Bravyi-Hastings-Michalakis strategy to the GNS representation of the infinite-system ground state.
翻訳日:2023-03-31 18:58:22 公開日:2023-03-09
# 自律型量子デバイス:追加の熱力学コストなしでいつ実現できるのか?

Autonomous Quantum Devices: When Are They Realizable without Additional Thermodynamic Costs? ( http://arxiv.org/abs/1912.05562v2 )

ライセンス: Link先を確認
Mischa P. Woods and Micha{\l} Horodecki(参考訳) 量子熱力学の資源理論は非常に成功した理論であり、コミュニティで多くの追随の仕事を生み出した。 それは、そのパラダイムの一部としてシステム、浴、触媒上に実装されるエネルギー保存ユニタリ演算を必要とする。 これまでのところ、このようなユニタリ操作は理論の「自由」な資源と見なされてきた。 しかし、これは必ずしも不正確なプロセスの理想化にすぎない。 ここでは、インタラクションをオン/オフにすることで、ユニタリを自律的に実装できる追加の補助制御システムを含める。 しかし、制御システムは、ユニタリの実装によるバックアクションによって必然的に劣化する。 我々は、熱力学の法則が変化しないよう制御装置の品質に関する条件を導出し、量子力学の法則が反反応を十分に小さくし、これらの条件が満足できるような優れた量子時計を利用することで証明する。 リソースフレームワークに非理想化制御を組み込むことは、理想化制御を考えるときに欠如している興味深い見通しも生み出します。 とりわけ、光円錐の仮定を必要とせずに第三法則が出現すること。 我々の研究成果とフレームワークは、熱力学量子資源理論による自律型熱機械の分野を統一し、全量子処理装置を完全自律型機械に統合するための基礎研究を展開する。

The resource theory of quantum thermodynamics has been a very successful theory and has generated much follow-up work in the community. It requires energy-preserving unitary operations to be implemented over a system, bath, and catalyst as part of its paradigm. So far, such unitary operations have been considered a "free" resource in the theory. However, this is only an idealization of a necessarily inexact process. Here, we include an additional auxiliary control system which can autonomously implement the unitary by turning an interaction "on or off". However, the control system will inevitably be degraded by the backaction caused by the implementation of the unitary. We derive conditions on the quality of the control device so that the laws of thermodynamics do not change and prove - by utilizing a good quantum clock - that the laws of quantum mechanics allow the backreaction to be small enough so that these conditions are satisfiable. Our inclusion of nonidealized control into the resource framework also raises interesting prospects, which were absent when considering idealized control. Among other things, the emergence of a third law without the need for the assumption of a light cone. Our results and framework unify the field of autonomous thermal machines with the thermodynamic quantum resource-theoretic one, and lay the groundwork for all quantum processing devices to be unified with fully autonomous machines.
翻訳日:2023-03-31 18:56:13 公開日:2023-03-09
# 時系列分解によるピークネットワークトラフィック予測の強化

Enhancing Peak Network Traffic Prediction via Time-Series Decomposition ( http://arxiv.org/abs/2303.13529v1 )

ライセンス: Link先を確認
Tucker Stewart, Bin Yu, Anderson Nascimento, Juhua Hu(参考訳) ネットワーク管理と保守のためには,ネットワークがピーク時のトラフィックを受信し,サーバへのサービス要求に十分なリソースを割り当てるように予測することが重要である。 十分なリソースがサーバに割り当てられていない場合、障害やセキュリティ違反が発生しやすい。 逆に、リソースの最大量を常に割り当てている場合、多くのリソースを無駄にします。 したがって,ネットワークトラフィックにおけるピークボリュームの予測は重要な問題となる。 しかし、ARIMA(Autoregressive Integrated moving Average)のような一般的な予測モデルは、一般的に時系列データを予測しているため、これらの時系列のピークボリュームを予測できない。 多くの場合、時系列は異なる特徴の組み合わせであり、その特徴は含まれるが制限されない。 1)傾向、交通量の一般的な変動、 2)季節性、一定の期間(例えば、日・月)に繰り返すパターン、及び 3) ノイズ,データのランダムな変化。 季節変動がトレンドやピーク予測に悪影響を与えることを考慮し,時間領域におけるピーク音量予測を容易にする季節性抽出を提案する。 合成および実ネットワークトラフィックデータを用いた実験により,提案手法の有効性が示された。

For network administration and maintenance, it is critical to anticipate when networks will receive peak volumes of traffic so that adequate resources can be allocated to service requests made to servers. In the event that sufficient resources are not allocated to servers, they can become prone to failure and security breaches. On the contrary, we would waste a lot of resources if we always allocate the maximum amount of resources. Therefore, anticipating peak volumes in network traffic becomes an important problem. However, popular forecasting models such as Autoregressive Integrated Moving Average (ARIMA) forecast time-series data generally, thus lack in predicting peak volumes in these time-series. More than often, a time-series is a combination of different features, which may include but are not limited to 1) Trend, the general movement of the traffic volume, 2) Seasonality, the patterns repeated over some time periods (e.g. daily and monthly), and 3) Noise, the random changes in the data. Considering that the fluctuation of seasonality can be harmful for trend and peak prediction, we propose to extract seasonalities to facilitate the peak volume predictions in the time domain. The experiments on both synthetic and real network traffic data demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-31 16:36:27 公開日:2023-03-09
# 深部畳み込み型オートエンコーダと分類器のアンサンブルを用いたCMS HGCAL シリコンセンサ表面の視覚的自動検査

Automated visual inspection of CMS HGCAL silicon sensor surface using an ensemble of a deep convolutional autoencoder and classifier ( http://arxiv.org/abs/2303.15319v1 )

ライセンス: Link先を確認
Sonja Gr\"onroos, Maurizio Pierini, Nadezda Chernyavskaya(参考訳) CERNのCMS実験のための高グラニュラリティカロリメータ(High-Granularity Calorimeter)の組み立て前の品質管理において、1000以上の8インチのシリコンセンサーが表面の異常を調べるために視覚的に検査される。 視覚検査の自動化のために,センサ表面の異常な画像をリアルタイムで事前選択する深層学習に基づくアルゴリズムを開発した。 異常検出は独立した深層畳み込みニューラルネットワーク(オートエンコーダと分類器)のアンサンブルによって行われる。 性能は生産時に取得した画像で評価される。 事前選択により、人間の検査を必要とする画像の数は85%減少し、97%のリコールとなった。 プロダクションに収集されたデータは、継続的に学習することで、精度を段階的に向上することができる。

More than a thousand 8" silicon sensors will be visually inspected to look for anomalies on their surface during the quality control preceding assembly into the High-Granularity Calorimeter for the CMS experiment at CERN. A deep learning-based algorithm that pre-selects potentially anomalous images of the sensor surface in real time has been developed to automate the visual inspection. The anomaly detection is done by an ensemble of independent deep convolutional neural networks: an autoencoder and a classifier. The performance is evaluated on images acquired in production. The pre-selection reduces the number of images requiring human inspection by 85%, with recall of 97%. Data gathered in production can be used for continuous learning to improve the accuracy incrementally.
翻訳日:2023-03-31 16:19:34 公開日:2023-03-09
# パンシャープ化のための確率ベースグローバルクロスモーダルアップサンプリング

Probability-based Global Cross-modal Upsampling for Pansharpening ( http://arxiv.org/abs/2303.13659v1 )

ライセンス: Link先を確認
Zeyu Zhu, Xiangyong Cao, Man Zhou, Junhao Huang, Deyu Meng(参考訳) pansharpeningはリモートセンシング画像処理に不可欠な前処理である。 深層学習(DL)手法はこの課題に対して良好に機能するが、現在のアップサンプリング手法は低分解能マルチスペクトル(LRMS)画像中の各ピクセルの局所的情報のみを利用しており、そのグローバル情報と、その性能改善を制限した誘導パンクロマティック(PAN)画像のクロスモーダル情報も無視している。 そこで本研究では, パンシャープ化のための新しい確率ベースグローバルクロスモーダルアップサンプリング法(pgcu)を開発した。 正確には、まず確率論的観点からPGCU法を定式化し、上記の情報を完全に活用し、同時にチャネル特異性を考慮して効率的なネットワークモジュールを設計する。 pgcuモジュールは情報抽出(ie)、分布・期待推定(dee)、微調整(fa)という3つのブロックから構成されている。 PGCU法が他の一般的なアップサンプリング法と比較して優れていることを検証する。 さらに実験により,PGCUモジュールは既存のSOTA深層学習法の性能向上に役立つことが示された。 コードはhttps://github.com/zeyu-zhu/pgcuで入手できる。

Pansharpening is an essential preprocessing step for remote sensing image processing. Although deep learning (DL) approaches performed well on this task, current upsampling methods used in these approaches only utilize the local information of each pixel in the low-resolution multispectral (LRMS) image while neglecting to exploit its global information as well as the cross-modal information of the guiding panchromatic (PAN) image, which limits their performance improvement. To address this issue, this paper develops a novel probability-based global cross-modal upsampling (PGCU) method for pan-sharpening. Precisely, we first formulate the PGCU method from a probabilistic perspective and then design an efficient network module to implement it by fully utilizing the information mentioned above while simultaneously considering the channel specificity. The PGCU module consists of three blocks, i.e., information extraction (IE), distribution and expectation estimation (DEE), and fine adjustment (FA). Extensive experiments verify the superiority of the PGCU method compared with other popular upsampling methods. Additionally, experiments also show that the PGCU module can help improve the performance of existing SOTA deep learning pansharpening methods. The codes are available at https://github.com/Zeyu-Zhu/PGCU.
翻訳日:2023-03-31 16:16:32 公開日:2023-03-09
# RC柱の非線形モデリングパラメータ改善のための機械学習ツール

Machine learning tools to improve nonlinear modeling parameters of RC columns ( http://arxiv.org/abs/2303.16140v1 )

ライセンス: Link先を確認
Hamid Khodadadi Koodiani, Elahe Jafari, Arsalan Majlesi, Mohammad Shahin, Adolfo Matamoros, Adel Alaeddini(参考訳) モデルパラメータは地震動を受けるコンクリート構造物の非線形モデル、特に崩壊を起こすほど強い地震イベントをシミュレートする場合の忠実性に不可欠である。 本稿では, 入力パラメータと入力パラメータとモデル出力の非線形関係の相互依存性を認識可能なデータフィッティング技術を実装することで, 実験データを用いた耐震性能評価基準における非線形モデリング規定を改善する上で, 最も重要な2つの障壁について述べる。 scikit-learnとpytorchライブラリの機械学習ツールは、asce 41とaci 369.1で定義された鉄筋コンクリート柱の非線形モデリングパラメータ(mp)aとbの方程式とブラックボックス数値モデルを校正し、最も可能性の高い失敗モードを推定するために使用された。 機械学習回帰モデルと機械学習ブラックボックスは、ACI 369.1/ASCE 41標準の現在の規定よりも正確であることが判明した。 回帰モデルのうち, 正規化線形回帰はMPaを推定する上で最も正確であり, 多項式回帰はMPbを推定する上で最も正確であった。 評価された2つのブラックボックスモデル、すなわちガウス過程回帰とニューラルネットワーク(NN)は、MPs aとbの最も正確な推定値を提供した。 NNモデルは、すべての評価において最も正確な機械学習ツールであった。 scikit-learn machine learning library(scikit-learn machine learning library)のマルチクラス分類ツールは、矩形列の79%の精度と円柱の81%の精度で、asce 41-13の分類規則を大幅に改善した。

Modeling parameters are essential to the fidelity of nonlinear models of concrete structures subjected to earthquake ground motions, especially when simulating seismic events strong enough to cause collapse. This paper addresses two of the most significant barriers to improving nonlinear modeling provisions in seismic evaluation standards using experimental data sets: identifying the most likely mode of failure of structural components, and implementing data fitting techniques capable of recognizing interdependencies between input parameters and nonlinear relationships between input parameters and model outputs. Machine learning tools in the Scikit-learn and Pytorch libraries were used to calibrate equations and black-box numerical models for nonlinear modeling parameters (MP) a and b of reinforced concrete columns defined in the ASCE 41 and ACI 369.1 standards, and to estimate their most likely mode of failure. It was found that machine learning regression models and machine learning black-boxes were more accurate than current provisions in the ACI 369.1/ASCE 41 Standards. Among the regression models, Regularized Linear Regression was the most accurate for estimating MP a, and Polynomial Regression was the most accurate for estimating MP b. The two black-box models evaluated, namely the Gaussian Process Regression and the Neural Network (NN), provided the most accurate estimates of MPs a and b. The NN model was the most accurate machine learning tool of all evaluated. A multi-class classification tool from the Scikit-learn machine learning library correctly identified column mode of failure with 79% accuracy for rectangular columns and with 81% accuracy for circular columns, a substantial improvement over the classification rules in ASCE 41-13.
翻訳日:2023-03-31 15:58:40 公開日:2023-03-09
# 演算微調整のための数学的枠組み

A mathematical framework for operational fine tunings ( http://arxiv.org/abs/2003.10050v4 )

ライセンス: Link先を確認
Lorenzo Catani and Matthew Leifer(参考訳) オントロジモデル(英語版)の枠組みにおいて、量子論の本質的に非古典的特徴は、常に微調整された性質、すなわち操作レベルで保持されるがオントロジレベルで破壊される性質を含むように見える。 運用レベルでのそれらの外観は、説明のつかない存在論的パラメータの特別な選択によるもので、これは微調整による意味である。 そのような特徴の有名な例は文脈性と非局所性である。 本稿では,オペレーショナル微調整を特徴付ける理論非依存の数学的枠組みを開発する。 これらは,[njp,17 033002(2015)]でwood氏とspekens氏がすでに導入している因果的微調整とは異なっている。 spekkensの一般化された文脈性、ベル実験におけるパラメータ独立性の違反、オントロジ的時間非対称性といった操作上の微調整が、我々のフレームワークにどのように適合するかを示す。 我々は,新しい微調整の可能性を議論し,非局所性と一般化文脈性との関係について新たな光を放つためにこの枠組みを用いる。 非局所性はしばしば文脈性の形式であると議論されてきたが、非局所性がパラメータ独立性に反する場合にのみ当てはまる。 我々はまた、関手の概念を用いて圏論の言語でも枠組みを定式化する。

In the framework of ontological models, the inherently nonclassical features of quantum theory always seem to involve properties that are fine tuned, i.e. properties that hold at the operational level but break at the ontological level. Their appearance at the operational level is due to unexplained special choices of the ontological parameters, which is what we mean by a fine tuning. Famous examples of such features are contextuality and nonlocality. In this article, we develop a theory-independent mathematical framework for characterizing operational fine tunings. These are distinct from causal fine tunings -- already introduced by Wood and Spekkens in [NJP,17 033002(2015)] -- as the definition of an operational fine tuning does not involve any assumptions about the underlying causal structure. We show how known examples of operational fine tunings, such as Spekkens' generalized contextuality, violation of parameter independence in Bell experiment, and ontological time asymmetry, fit into our framework. We discuss the possibility of finding new fine tunings and we use the framework to shed new light on the relation between nonlocality and generalized contextuality. Although nonlocality has often been argued to be a form of contextuality, this is only true when nonlocality consists of a violation of parameter independence. We formulate our framework also in the language of category theory using the concept of functors.
翻訳日:2023-03-26 04:25:51 公開日:2023-03-09
# 自己監督型ハイブリッド深層学習によるロバストホログラフィmm波ビームフォーミング

Robust Holographic mmWave Beamforming by Self-Supervised Hybrid Deep Learning ( http://arxiv.org/abs/2303.12653v1 )

ライセンス: Link先を確認
Fenghao Zhu, Bohao Wang, Zhaohui Yang, Chongwen Huang, Zhaoyang Zhang, George C.Alexandropoulos, Chau Yuen and Merouane Debbah(参考訳) 大規模アンテナアレイによるビームフォーミングは近年広く用いられており、5gおよび入射6gの重要な部分として認識されている。 そのため、ディープラーニングや高度な最適化アルゴリズムなど、様々な技術が活用され、パフォーマンスが向上する。 ディープラーニングによるこれまでの多くの研究シナリオのパフォーマンスは非常に魅力的だが、通常、環境やデータセットを変更すると急速に低下する。 したがって、強固な堅牢性を有する効果的なビームフォーミングネットワークの設計は、知的無線通信にとってオープンな課題である。 本稿では,ロバストなビームフォーミングによる自己教師付きネットワークを提案し,様々なシナリオの異なる2種類のデータセットで検証する。 シミュレーションの結果,ハイブリッド学習を用いた自己教師付きネットワークは,従来のdeepmimoと新しいwair-dデータセットの両方において,様々な環境下で強固なロバスト性を有する。 また,このようなハイブリッド学習の合理性を説明するための原理を提示する。

Beamforming with large-scale antenna arrays has been widely used in recent years, which is acknowledged as an important part in 5G and incoming 6G. Thus, various techniques are leveraged to improve its performance, e.g., deep learning, advanced optimization algorithms, etc. Although its performance in many previous research scenarios with deep learning is quite attractive, usually it drops rapidly when the environment or dataset is changed. Therefore, designing effective beamforming network with strong robustness is an open issue for the intelligent wireless communications. In this paper, we propose a robust beamforming self-supervised network, and verify it in two kinds of different datasets with various scenarios. Simulation results show that the proposed self-supervised network with hybrid learning performs well in both classic DeepMIMO and new WAIR-D dataset with the strong robustness under the various environments. Also, we present the principle to explain the rationality of this kind of hybrid learning, which is instructive to apply with more kinds of datasets.
翻訳日:2023-03-26 04:18:02 公開日:2023-03-09
# STAP: Task-Agnostic Policiesのシーケンス

STAP: Sequencing Task-Agnostic Policies ( http://arxiv.org/abs/2210.12250v2 )

ライセンス: Link先を確認
Christopher Agia and Toki Migimatsu and Jiajun Wu and Jeannette Bohg(参考訳) ロボットスキル獲得の進歩により、下流操作タスクのための学習スキルの汎用ライブラリの構築が可能になった。 しかし、これらのスキルを相次いで生かして実行することは、長期計画に共通する行動間の依存関係を考慮せずに成功する可能性は低い。 タスク非依存型ポリシ(stap)という,操作スキルのトレーニングと,その幾何学的依存関係を計画時にコーディネートするスケーラブルなフレームワークを提案する。 q-函数がスキル実現可能性の尺度をコードしていることを考えると、計画にシーケンスされたすべてのスキルの合同成功を最大化するために最適化問題を定式化する。 実験により,本目的関数は基本真理計画の実現可能性に近似し,計画目的として用いると筋活動が減少し,長期作業の成功が促進されることが示唆された。 さらに,タスクプランナが提供したスキルシーケンスの幾何学的実現可能性を評価することで,STAPをタスク計画や動作計画に利用できることを示す。 我々はシミュレーションと実際のロボットによるアプローチを評価する。 質的な結果とコードはhttps://sites.google.com/stanford.edu/stap/homeで入手できる。

Advances in robotic skill acquisition have made it possible to build general-purpose libraries of learned skills for downstream manipulation tasks. However, naively executing these skills one after the other is unlikely to succeed without accounting for dependencies between actions prevalent in long-horizon plans. We present Sequencing Task-Agnostic Policies (STAP), a scalable framework for training manipulation skills and coordinating their geometric dependencies at planning time to solve long-horizon tasks never seen by any skill during training. Given that Q-functions encode a measure of skill feasibility, we formulate an optimization problem to maximize the joint success of all skills sequenced in a plan, which we estimate by the product of their Q-values. Our experiments indicate that this objective function approximates ground truth plan feasibility and, when used as a planning objective, reduces myopic behavior and thereby promotes long-horizon task success. We further demonstrate how STAP can be used for task and motion planning by estimating the geometric feasibility of skill sequences provided by a task planner. We evaluate our approach in simulation and on a real robot. Qualitative results and code are made available at https://sites.google.com/stanford.edu/stap/home.
翻訳日:2023-03-26 04:16:53 公開日:2023-03-09
# エゴセントリックサンプリング部分ネットワーク上の低ランクモデル

Fitting Low-rank Models on Egocentrically Sampled Partial Networks ( http://arxiv.org/abs/2303.11230v1 )

ライセンス: Link先を確認
Angus Chan and Tianxi Li(参考訳) ランダムネットワークの統計的モデリングは、複雑なシステムにおける相互作用機構を解明し、実世界のネットワークにおける観測できないリンクを予測するために広く使われている。 多くのアプリケーションでは、ネットワーク接続はエゴセントリックサンプリングによって収集される:まずノードのサブセットがサンプリングされ、その後、このサブセットを含むすべてのリンクが記録される。 ``uniformly missing at random'という仮定と比較すると、エゴセントリックにサンプリングされた部分ネットワークは特別に設計されたモデリング戦略を必要とする。 現在の統計的手法は計算上不可能か、理論的正当性のない直感的な設計に基づいている。 本稿では,エゴセントリックなサンプルネットワークに対する一般的な低ランクモデルに適合する手法を提案する。 この方法はグラフスペクトル特性に基づいており、大規模ネットワークでは計算効率が高い。 これにより、スパースネットワークのエゴセントリックサンプリングにより、欠落したサブネットワークを一貫して回復する。 本手法は,低ランクモデルの範囲において,エゴセントリックな部分的ネットワーク推定に対する最初の理論的保証を提供する。 本手法を複数の合成および実世界のネットワーク上で評価し,リンク予測タスクにおける競合性能を示す。

The statistical modeling of random networks has been widely used to uncover interaction mechanisms in complex systems and to predict unobserved links in real-world networks. In many applications, network connections are collected via egocentric sampling: a subset of nodes is sampled first, after which all links involving this subset are recorded; all other information is missing. Compared with the assumption of ``uniformly missing at random", egocentrically sampled partial networks require specially designed modeling strategies. Current statistical methods are either computationally infeasible or based on intuitive designs without theoretical justification. Here, we propose an approach to fit general low-rank models for egocentrically sampled networks, which include several popular network models. This method is based on graph spectral properties and is computationally efficient for large-scale networks. It results in consistent recovery of missing subnetworks due to egocentric sampling for sparse networks. To our knowledge, this method offers the first theoretical guarantee for egocentric partial network estimation in the scope of low-rank models. We evaluate the technique on several synthetic and real-world networks and show that it delivers competitive performance in link prediction tasks.
翻訳日:2023-03-25 03:26:09 公開日:2023-03-09
# 感性分析システムの開発におけるアプローチの種類と応用と課題

Types of Approaches, Applications and Challenges in the Development of Sentiment Analysis Systems ( http://arxiv.org/abs/2303.11176v1 )

ライセンス: Link先を確認
Kazem Taghandiki, Elnaz Rezaei Ehsan(参考訳) 今日、ウェブは様々な出来事に対するユーザの意見、感情、感情を表現するための必須プラットフォームになっている。 スマートフォンを使っている人は誰でも、プロダクトの購入、事故の発生、新しい病気の発生など、ブログやソーシャルネットワーク(Twitter、WhatsApp、Telegram、Instagram)の登録について意見を述べることができる。 そのため、毎日何百万ものコメントが記録され、自然言語処理手法を用いて、この種のデータから有用な知識を抽出できる大量の構造化されていないテキストデータを生成する。 感性分析は自然言語処理と機械学習の重要な応用の1つであり、Webユーザによって記録されたコメントやその他のテキスト情報の感情を分析することができる。 したがって、この分野における感情、アプローチ、課題の分析は、以下のとおりである。

Today, the web has become a mandatory platform to express users' opinions, emotions and feelings about various events. Every person using his smartphone can give his opinion about the purchase of a product, the occurrence of an accident, the occurrence of a new disease, etc. in blogs and social networks such as (Twitter, WhatsApp, Telegram and Instagram) register. Therefore, millions of comments are recorded daily and it creates a huge volume of unstructured text data that can extract useful knowledge from this type of data by using natural language processing methods. Sentiment analysis is one of the important applications of natural language processing and machine learning, which allows us to analyze the sentiments of comments and other textual information recorded by web users. Therefore, the analysis of sentiments, approaches and challenges in this field will be explained in the following.
翻訳日:2023-03-25 03:25:51 公開日:2023-03-09
# 自閉症検出のための確率的深層学習法の比較

Comparison of Probabilistic Deep Learning Methods for Autism Detection ( http://arxiv.org/abs/2303.12707v1 )

ライセンス: Link先を確認
Godfrin Ismail, Kenneth Chesoli, Golda Moni, Kinyua Gikunda(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、現在世界中で普及している神経発達障害の一つ。 asdは個人の生活を通じて持続し、彼らの行動やコミュニケーションの仕方に影響を与え、社会的生命の遅滞、反復的な行動特性、利害の制限からなる顕著な欠陥をもたらす。 この疾患の早期発見は、発症治療に役立ち、正常な生活を導くのに役立つ。 自閉症の検出、行動データへの依存、そして最悪の場合、神経イメージングに使用される臨床アプローチがある。 機械学習に関する定量的手法が研究され、臨床アプローチの問題点を克服するために開発されている。 これらの定量的手法は機械学習に依存しており、深層学習に基づく複雑な手法により、ASDの検出と診断を高速化する。 これらの文献は、現在使われているほとんどの最先端の確率的手法を探求することを目的としており、最も適用されているデータセットの種類、新しい研究による正確さ、そしてASD分類にどの程度適しているかを特徴付ける。 この結果は、ASD検出を行う際に使用するモデルの選択において、意図的にベンチマークとして機能する。

Autism Spectrum Disorder (ASD) is one neuro developmental disorder that is now widespread in the world. ASD persists throughout the life of an individual, impacting the way they behave and communicate, resulting to notable deficits consisting of social life retardation, repeated behavioural traits and a restriction in their interests. Early detection of the disorder helps in the onset treatment and helps one to lead a normal life. There are clinical approaches used in detection of autism, relying on behavioural data and in worst cases, neuroimaging. Quantitative methods involving machine learning have been studied and developed to overcome issues with clinical approaches. These quantitative methods rely on machine learning, with some complex methods based on deep learning developed to accelerate detection and diagnosis of ASD. These literature is aimed at exploring most state-of-the-art probabilistic methods in use today, characterizing them with the type of dataset they're most applied on, their accuracy according to their novel research and how well they are suited in ASD classification. The findings will purposely serve as a benchmark in selection of the model to use when performing ASD detection.
翻訳日:2023-03-25 03:07:45 公開日:2023-03-09
# ジェネレーティブ・アドバイサル・ネットワークにおけるセミオティックスの可視化

Visualizing Semiotics in Generative Adversarial Networks ( http://arxiv.org/abs/2303.12731v1 )

ライセンス: Link先を確認
Sabrina Osmany(参考訳) そこで我々は,ジェネレーティブ・アドバイサル・ネットワークを用いて生成した画像が「セミティックス」を用いて修正可能であることを示す実験を行った。 画像の彩度や彩度などの物理的属性も変更可能であることを示し,その非物理的で抽象的な特性も本手法で実現可能であることを示した。 例えば、客室乗務員の制服のデザインは、より「アラート」、より「アスタール」、より「実践的」に見えるように変更することができる。 家の形式は、より「未来的」に見えるように変更することができ、スニーカー「エビル」よりも「フレンドリー」な車である。 提案手法は,興味のセミオティックな性質に付随する潜在視覚図像を解明し,抽象概念を用いた視覚形態検索のプロセスを実現する。 我々のアプローチは反復的であり、属性の存在度を制御でき、設計プロセスが創発的な視覚概念を生み出すのを助けるために使用できる。

We perform a set of experiments to demonstrate that images generated using a Generative Adversarial Network can be modified using 'semiotics.' We show that just as physical attributes such as the hue and saturation of an image can be modified, so too can its non-physical, abstract properties using our method. For example, the design of a flight attendant's uniform may be modified to look more 'alert,' less 'austere,' or more 'practical.' The form of a house can be modified to appear more 'futuristic,' a car more 'friendly' a pair of sneakers, 'evil.' Our method uncovers latent visual iconography associated with the semiotic property of interest, enabling a process of visual form-finding using abstract concepts. Our approach is iterative and allows control over the degree of attribute presence and can be used to aid the design process to yield emergent visual concepts.
翻訳日:2023-03-25 02:58:43 公開日:2023-03-09
# DOLOSデータセットとパラメータ効率のよいクロスモーダル学習

Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning ( http://arxiv.org/abs/2303.12745v1 )

ライセンス: Link先を確認
Xiaobao Guo, Nithish Muthuchamy Selvaraj, Zitong Yu, Adams Kong, Bingquan Shen, Alex Kot(参考訳) ビジネスにおける信頼性評価、マルチメディアのアンチ詐欺、カスタムセキュリティなど、多くの分野において重要な応用がある。 それにもかかわらず、デセプション検出研究は、高品質のデセプションデータセットの欠如と、マルチモーダルな特徴を効果的に学習することの難しさによって妨げられている。 この問題に対処するため,ゲームショーの偽装検出データセットとして最大規模のDOLOSを導入した。 DOLOSには213人の被験者をフィーチャーした1,675本のビデオクリップが含まれており、音声-視覚的特徴アノテーションがラベル付けされている。 我々は、異なる要因の影響を調べるために、列車試験、期間、性別プロトコルを提供する。 提案した偽造検出手法のデータセットをベンチマークする。 より少ないパラメータを微調整して性能をさらに向上させるため、一様時相アダプタ(ut-adapter)がトランスフォーマティブアーキテクチャの時間的注意を探索するパラメータ効率の高いクロスモーダル学習(pecl)と、音声・視覚特徴のクロスモーダル情報を結合したクロスモーダル融合モジュールであるプラグインオーディオ・ビジュアル融合(pavf)を提案する。 dolosの詳細なオーディオビジュアルアノテーションに基づいて,マルチタスク学習を活用し,騙しと視聴覚機能を同時に予測することで,パフォーマンスを向上させる。 実験の結果,DOLOSデータセットの望ましい品質とPECLの有効性が示された。 DOLOSデータセットとソースコードは近く公開される。

Deception detection in conversations is a challenging yet important task, having pivotal applications in many fields such as credibility assessment in business, multimedia anti-frauds, and custom security. Despite this, deception detection research is hindered by the lack of high-quality deception datasets, as well as the difficulties of learning multimodal features effectively. To address this issue, we introduce DOLOS, the largest gameshow deception detection dataset with rich deceptive conversations. DOLOS includes 1,675 video clips featuring 213 subjects, and it has been labeled with audio-visual feature annotations. We provide train-test, duration, and gender protocols to investigate the impact of different factors. We benchmark our dataset on previously proposed deception detection approaches. To further improve the performance by fine-tuning fewer parameters, we propose Parameter-Efficient Crossmodal Learning (PECL), where a Uniform Temporal Adapter (UT-Adapter) explores temporal attention in transformer-based architectures, and a crossmodal fusion module, Plug-in Audio-Visual Fusion (PAVF), combines crossmodal information from audio-visual features. Based on the rich fine-grained audio-visual annotations on DOLOS, we also exploit multi-task learning to enhance performance by concurrently predicting deception and audio-visual features. Experimental results demonstrate the desired quality of the DOLOS dataset and the effectiveness of the PECL. The DOLOS dataset and the source codes will be publicly available soon.
翻訳日:2023-03-25 02:50:05 公開日:2023-03-09
# 潜時空間操作によるCADモデルの最適化

Optimizing CAD Models with Latent Space Manipulation ( http://arxiv.org/abs/2303.12739v1 )

ライセンス: Link先を確認
Jannes Elstner and Raoul G. C. Sch\"onhof and Steffen Tauber and Marco F Huber(参考訳) 自動化ドメインにおけるCADモデルの最適化に関して、ニューラルネットワークは現在、マイナーな役割のみを担っている。 自動化機能のような抽象的な機能の最適化は、シミュレートが非常に難しいため、ルールベースのシステムでは複雑すぎるし、機械学習の手法で利用可能なデータもほとんどないし全くない。 一方、styleclipのような画像の抽象的な特徴を操作できる画像操作手法は、大きな成功を収めている。 それらは事前訓練された生成的敵ネットワークの潜伏空間に依存しており、従って大量のラベルのないCADデータを利用することもできる。 本稿では,CAD部品の抽象的自動化関連特徴の最適化にも適していることを示す。 そこで我々は,StyleCLIPをCADモデルに拡張して,3D StyleGANとカスタム分類器を含むボクセルモデルに拡張した。 最後に,様々なcadモデルの把持性を最適化することにより,自動化関連の機能を最適化する能力を示す。 CC BY-NC-NDライセンス(http://creativecommons.org/licenses/by-nc-nd/4.0/)の第33回CIRPデザイン会議の科学委員会によるピアレビュー。

When it comes to the optimization of CAD models in the automation domain, neural networks currently play only a minor role. Optimizing abstract features such as automation capability is challenging, since they can be very difficult to simulate, are too complex for rule-based systems, and also have little to no data available for machine-learning methods. On the other hand, image manipulation methods that can manipulate abstract features in images such as StyleCLIP have seen much success. They rely on the latent space of pretrained generative adversarial networks, and could therefore also make use of the vast amount of unlabeled CAD data. In this paper, we show that such an approach is also suitable for optimizing abstract automation-related features of CAD parts. We achieved this by extending StyleCLIP to work with CAD models in the form of voxel models, which includes using a 3D StyleGAN and a custom classifier. Finally, we demonstrate the ability of our system for the optimiziation of automation-related features by optimizing the grabability of various CAD models. This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/) Peer review under the responsibility of the scientific committee of the 33rd CIRP Design Conference.
翻訳日:2023-03-25 02:49:15 公開日:2023-03-09
# MAP-エリートを用いたRL多剤の集団発生

Evolving Populations of Diverse RL Agents with MAP-Elites ( http://arxiv.org/abs/2303.12803v1 )

ライセンス: Link先を確認
Thomas Pierrot and Arthur Flajolet(参考訳) 品質多様性(qd)は、大規模で多様なソリューションコレクションを生成することを目的とした強力な代替最適化パラダイムとして登場した。 初期のME実装は、いくつかの非構造的な問題に対して非常に効果的であったが、ソリューションの集団を進化させるためにランダム検索にのみ依存しており、ニューラルネットワークの進化など、高次元問題に対するサンプル非効率が悪名高い。 フォローアップは、ブラックボックス最適化(bbo)または強化学習(rl)から借用された技術を通してこれらの欠点に対処するために、勾配情報を利用して探索を導くことを検討する。 高度な探索を必要とするロボット制御問題の解き放たれた状態性能とRLテクニックを混合する一方で、近年のアプローチでは、一部のコンポーネントが人口間で共有されるにつれて、MEが過度なパラメータ感度、高い確率性、およびトレーニング不安定性など、RLアルゴリズムに共通する制限を伴って、これらのME変種を悩ませた。 さらに、MEとRLを混合する既存のアプローチは、特定のRLアルゴリズムと結びつく傾向にあり、対応するRLアルゴリズムが失敗する問題に対するそれらの使用を効果的に防止する。 これらの欠点に対処するために、我々は任意のRLアルゴリズムの使用を可能にするフレキシブルなフレームワークを導入し、単にポリシーではなく、エージェントの個体群(ハイパーパラメータと全ての学習可能なパラメータを含む)を進化させることにより、上記の制限を緩和する。 本研究は,ロボット工学の制御問題に対する広範囲な数値実験を通じて,我々のフレームワークがもたらした利点を実証する。

Quality Diversity (QD) has emerged as a powerful alternative optimization paradigm that aims at generating large and diverse collections of solutions, notably with its flagship algorithm MAP-ELITES (ME) which evolves solutions through mutations and crossovers. While very effective for some unstructured problems, early ME implementations relied exclusively on random search to evolve the population of solutions, rendering them notoriously sample-inefficient for high-dimensional problems, such as when evolving neural networks. Follow-up works considered exploiting gradient information to guide the search in order to address these shortcomings through techniques borrowed from either Black-Box Optimization (BBO) or Reinforcement Learning (RL). While mixing RL techniques with ME unlocked state-of-the-art performance for robotics control problems that require a good amount of exploration, it also plagued these ME variants with limitations common among RL algorithms that ME was free of, such as hyperparameter sensitivity, high stochasticity as well as training instability, including when the population size increases as some components are shared across the population in recent approaches. Furthermore, existing approaches mixing ME with RL tend to be tied to a specific RL algorithm, which effectively prevents their use on problems where the corresponding RL algorithm fails. To address these shortcomings, we introduce a flexible framework that allows the use of any RL algorithm and alleviates the aforementioned limitations by evolving populations of agents (whose definition include hyperparameters and all learnable parameters) instead of just policies. We demonstrate the benefits brought about by our framework through extensive numerical experiments on a number of robotics control problems, some of which with deceptive rewards, taken from the QD-RL literature.
翻訳日:2023-03-25 02:41:38 公開日:2023-03-09
# キラル対称性を持つマルチバンド非エルミタン系の位相不変量

Topological Invariant for Multi-Band Non-hermitian Systems with Chiral Symmetry ( http://arxiv.org/abs/2303.05053v1 )

ライセンス: Link先を確認
ChunChi Liu and LiuHao Li and Jin An(参考訳) トポロジーは非エルミート系において重要な役割を果たす。 オープンバウンダリ条件(OBC)下での非エルミート位相系の特徴付けは難しい問題である。 一般化ブリリオンゾーン (GBZ) 上で定義される一次元(1D) 位相不変量は、2バンドSu-Schrieffer-Heegerモデルの位相特性をうまく記述するために最近発見された。 しかし、OBCの下の1次元マルチバンドキラル対称系では、トポロジカル不変量をどのように定義するかは議論の余地がある。 我々はこの手紙で、カイラル対称性を持つマルチバンド非エルミートモデルの位相不変量を得るためには、積分領域としてのGBZをより一般化された閉ループに置き換えるべきであることを示す。 そこで本研究は, 1次元マルチバンドカイラル対称非エルミタン系に対する非ブロッホバルバウンダリー対応を確立する。

Topology plays an important role in non-hermitian systems. How to characterize a non-hermitian topological system under open-boundary conditions(OBCs) is a challenging problem. A one-dimensional(1D) topological invariant defined on a generalized Brillion zone(GBZ) was recently found to successfully describe the topological property of the two-band Su-Schrieffer-Heeger model. But for a 1D multi-band chiral symmetric system under OBCs, it is still controversial how to define the topological invariant. We show in this letter by exact proof and detailed demonstration that to acquire the topological invariant for multi-band non-hermitian models with chiral symmetry, the GBZ as the integral domain should be replaced by a more generalized closed loop. Our work thus establishes the non-Bloch bulk-boundary correspondence for 1D multi-band chiral symmetric non-hermitian systems.
翻訳日:2023-03-19 12:04:46 公開日:2023-03-09
# tq-net: 異種テスト質問に対する混合コントラスト表現学習

TQ-Net: Mixed Contrastive Representation Learning For Heterogeneous Test Questions ( http://arxiv.org/abs/2303.08039v1 )

ライセンス: Link先を確認
He Zhu, Xihua Li, Xuemin Zhao, Yunbo Cao, Shan Yu(参考訳) 近年,大規模学習教材(テスト質問・ノートなど)へのアクセスの便宜上,学習教材の正確な理解が重要な課題となり,多くの教育応用に欠かせない課題となっている。 これまでの研究では、質問データを表現するために言語モデルを使うことに重点を置いている。 しかし、テスト質問(tq)は通常異質でマルチモーダルである。例えば、テキストだけを含むものもあれば、リテラル記述を超えた情報を含むものもある。 この文脈では、教師なしと教師なしの両方のメソッドは、質問の融合表現を学ぶのが困難である。 一方で、画像はテキストに重複するのではなく、補完的な情報を含む可能性があるため、従来の画像キャプションのような方法ではこの問題は解決できない。 本稿では,まず2段階の教師なしインスタンスレベルコントラストベース事前学習法(mcl:mixed unsupervised contrastive learning)を用いて,従来のテキストのみ表現を改善する。 次に,画像の内容と異種データの表現を融合するtq-netを提案する。 最後に,妥当性予測に関連するダウンストリームタスクについて,教師付きコントラスト学習を行い,モデルが質問の表現を効果的に学習できるようにした。 tq-netの有効性を実証し,下流アプリケーション(類似質問+2.02%,知識ポイント予測+7.20%)の精度を向上させるため,大規模実世界のデータセットにおける質問に基づくタスクを広範囲に実験した。 私たちのコードは利用可能であり、相対研究の発展を促進するために、データのサブセットをオープンソース化します。

Recently, more and more people study online for the convenience of access to massive learning materials (e.g. test questions/notes), thus accurately understanding learning materials became a crucial issue, which is essential for many educational applications. Previous studies focus on using language models to represent the question data. However, test questions (TQ) are usually heterogeneous and multi-modal, e.g., some of them may only contain text, while others half contain images with information beyond their literal description. In this context, both supervised and unsupervised methods are difficult to learn a fused representation of questions. Meanwhile, this problem cannot be solved by conventional methods such as image caption, as the images may contain information complementary rather than duplicate to the text. In this paper, we first improve previous text-only representation with a two-stage unsupervised instance level contrastive based pre-training method (MCL: Mixture Unsupervised Contrastive Learning). Then, TQ-Net was proposed to fuse the content of images to the representation of heterogeneous data. Finally, supervised contrastive learning was conducted on relevance prediction-related downstream tasks, which helped the model to learn the representation of questions effectively. We conducted extensive experiments on question-based tasks on large-scale, real-world datasets, which demonstrated the effectiveness of TQ-Net and improve the precision of downstream applications (e.g. similar questions +2.02% and knowledge point prediction +7.20%). Our code will be available, and we will open-source a subset of our data to promote the development of relative studies.
翻訳日:2023-03-19 11:50:16 公開日:2023-03-09
# 大規模言語モデル(GPT)によるコードの複数質問への回答

Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions about Code ( http://arxiv.org/abs/2303.08033v1 )

ライセンス: Link先を確認
Jaromir Savelka, Arav Agarwal, Christopher Bogart, Majd Sakr(参考訳) 本研究は,マルチチョイス質問(mcq)評価に対するgptモデル(generative pre-trained transformer)の有効性について検討した。 この新興技術は、潜在的な用途(例えば、エクササイズ生成、コード説明)と、プログラミング教育における誤用(例えば、不正)について無数の議論を巻き起こす。 しかし、gptモデルの能力や、教育環境におけるコードを推論・分析するための制限は未検討である。 我々は,3つのPythonコース(530質問)の形式的および要約的MCQ評価に基づいて,OpenAIのGPTモデルを評価した。 コードスニペットを含むMCQは、自然言語のみを含むものほどうまく答えられていないことがわかった。 コードに空白を埋めたり、スニペットに関する自然言語文を完成させたりする必要のある質問は、かなりうまく処理されるが、コードの解析や推論を必要とするmcq(例えば、スニペットについて真/偽、あるいはそのアウトプット)は、最も難しいように見える。 これらの知見は、教育者によって、プログラミングコースにおける指導的実践や評価を適応させることで、gptは学習者の価値あるアシスタントとなり、学習プロセスにおける混乱や潜在的な障害の源泉となる。

We analyzed effectiveness of three generative pre-trained transformer (GPT) models in answering multiple-choice question (MCQ) assessments, often involving short snippets of code, from introductory and intermediate programming courses at the postsecondary level. This emerging technology stirs countless discussions of its potential uses (e.g., exercise generation, code explanation) as well as misuses in programming education (e.g., cheating). However, the capabilities of GPT models and their limitations to reason about and/or analyze code in educational settings have been under-explored. We evaluated several OpenAI's GPT models on formative and summative MCQ assessments from three Python courses (530 questions). We found that MCQs containing code snippets are not answered as successfully as those that only contain natural language. While questions requiring to fill-in a blank in the code or completing a natural language statement about the snippet are handled rather successfully, MCQs that require analysis and/or reasoning about the code (e.g., what is true/false about the snippet, or what is its output) appear to be the most challenging. These findings can be leveraged by educators to adapt their instructional practices and assessments in programming courses, so that GPT becomes a valuable assistant for a learner as opposed to a source of confusion and/or potential hindrance in the learning process.
翻訳日:2023-03-19 11:49:49 公開日:2023-03-09
# ロボットタスク仕様のための線形時相論理変換器への自然言語学習

Data-Efficient Learning of Natural Language to Linear Temporal Logic Translators for Robot Task Specification ( http://arxiv.org/abs/2303.08006v1 )

ライセンス: Link先を確認
Jiayi Pan, Glen Chou, Dmitry Berenson(参考訳) ロボットを広範に利用できるようにするためには、自然言語のようなコミュニケーションの普遍的なモードを付与し、線形時間論理(LTL)のような形式言語を用いて定義された具体的なタスク仕様を抽出することが重要である。 本稿では,人間ラベル学習データを用いて自然言語コマンドからltl仕様への翻訳を行うための学習ベースアプローチを提案する。 これは、翻訳者を訓練するために、LTL式と自然言語コマンドのラベル付きペアという形で、大きな人間のラベル付きデータセットを必要とする既存の自然言語とLTLトランスレータとは対照的である。 人的データへの依存を軽減するため,LTL式をアルゴリズムで生成し,構造化英語に変換し,近代的な大規模言語モデル(LLM)のパラフレーズ化機能を利用して,LTL式に対応する多種多様な自然言語コマンドを合成することにより,大規模合成学習データセットを生成する。 我々は、この生成されたデータを用いてLLMを微調整し、推論時に制約付き復号処理を適用し、返却LTL式が構文的に正しいことを保証する。 既存の3つのLTL/自然言語データセットに対するアプローチを評価し、より少ない人間のデータ($12アノテーション)で、自然言語コマンドを75%の精度で翻訳できることを示します。 さらに,人間の注釈付きデータセットでトレーニングを行う場合,従来の作業よりも高いテスト精度(平均95%)を達成する。 最後に, 変換式を用いて, 12次元四重子上の長ホリゾン多段タスクを計画できることを示す。

To make robots accessible to a broad audience, it is critical to endow them with the ability to take universal modes of communication, like commands given in natural language, and extract a concrete desired task specification, defined using a formal language like linear temporal logic (LTL). In this paper, we present a learning-based approach for translating from natural language commands to LTL specifications with very limited human-labeled training data. This is in stark contrast to existing natural-language to LTL translators, which require large human-labeled datasets, often in the form of labeled pairs of LTL formulas and natural language commands, to train the translator. To reduce reliance on human data, our approach generates a large synthetic training dataset through algorithmic generation of LTL formulas, conversion to structured English, and then exploiting the paraphrasing capabilities of modern large language models (LLMs) to synthesize a diverse corpus of natural language commands corresponding to the LTL formulas. We use this generated data to finetune an LLM and apply a constrained decoding procedure at inference time to ensure the returned LTL formula is syntactically correct. We evaluate our approach on three existing LTL/natural language datasets and show that we can translate natural language commands at 75\% accuracy with far less human data ($\le$12 annotations). Moreover, when training on large human-annotated datasets, our method achieves higher test accuracy (95\% on average) than prior work. Finally, we show the translated formulas can be used to plan long-horizon, multi-stage tasks on a 12D quadrotor.
翻訳日:2023-03-19 11:49:15 公開日:2023-03-09
# 金融時系列におけるメタコントラストラベル補正

Meta contrastive label correction for financial time series ( http://arxiv.org/abs/2303.08103v1 )

ライセンス: Link先を確認
Luxuan Yang, Ting Gao, Min Dai, Yubin Lu, Wei Wei, Cheng Fang, Yufu Lan, Jinqiao Duan(参考訳) 株価予測などの金融アプリケーションは通常、事前に定義されたラベル付け規則の下では、株価の動きの方向を正確に予測することは困難である。 これは、トリプルバリアメソッドを例に挙げる従来のラベリング方法が、通常、不正確なラベルや破損したラベルを与えるためです。 この問題に対処するため、私たちは2つの主要な目標に焦点を合わせます。 1つは,提案手法がノイズ時系列パターンに対する正しいラベルを自動的に生成できると同時に,このラベル付きデータセットの分類性能を向上させることができることを示す。 まず、メタ学習フレームワークに新しいコントラスト学習アルゴリズムを融合させ、内部で分類モデルを更新する際に正しいラベルを反復的に推定する。 さらに,時系列データから生成した画像は,グラミアン角場と代表学習を通して活用する。 最も重要なことは、時間変動ラベルを予測するためにマルチタスク学習を採用することである。 実験では、6%のクリーンデータと残りのラベルなしデータに取り組んでいる。 その結果,本手法はベンチマークと比較すると競争力が高く,性能も優れていた。

Financial applications such as stock price forecasting, usually face an issue that under the predefined labeling rules, it is hard to accurately predict the directions of stock movement. This is because traditional ways of labeling, taking Triple Barrier Method, for example, usually gives us inaccurate or even corrupted labels. To address this issue, we focus on two main goals. One is that our proposed method can automatically generate correct labels for noisy time series patterns, while at the same time, the method is capable of boosting classification performance on this new labeled dataset. Based on the aforementioned goals, our approach has the following three novelties: First, we fuse a new contrastive learning algorithm into the meta-learning framework to estimate correct labels iteratively when updating the classification model inside. Moreover, we utilize images generated from time series data through Gramian angular field and representative learning. Most important of all, we adopt multi-task learning to forecast temporal-variant labels. In the experiments, we work on 6% clean data and the rest unlabeled data. It is shown that our method is competitive and outperforms a lot compared with benchmarks.
翻訳日:2023-03-19 11:37:58 公開日:2023-03-09
# テキスト・トゥ・ECG: 臨床報告に基づく12レベル心電図合成

Text-to-ECG: 12-Lead Electrocardiogram Synthesis conditioned on Clinical Text Reports ( http://arxiv.org/abs/2303.09395v1 )

ライセンス: Link先を確認
Hyunseung Chung, Jiho Kim, Joon-myoung Kwon, Ki-Hyun Jeon, Min Sung Lee, Edward Choi(参考訳) 心電図合成(Electrocardiogram synthesis、ECG)は、アノテーションコストや臨床データプライバシーの制限を気にすることなく、医療用のリアルな心電図信号を生成する研究分野である。 従来のECG生成モデルは単一のECGリードを検討し、GANベースの生成モデルを利用する。 これらのモデルは単一のリードサンプルしか生成できず、診断クラスごとに個別のトレーニングが必要となる。 ECGの診断クラスは、様々な特徴(例えば、患者統計の詳細、既存の診断クラスなど)に応じて、ECG間の複雑な差異を捉えるには不十分である。 これらの課題を軽減するために,テキスト入力を用いてECG出力を生成するテキスト・ツー・ECGタスクを提案する。 そこで本研究では, 臨床報告を条件とした自己回帰生成モデルであるauto-tteを提案し, 12誘導心電図を初めて合成する。 本モデルの性能を,テキスト対音声およびテキスト対画像の他の代表モデルと比較する。 実験結果から, 定量的評価と定性解析におけるモデルの有用性が示された。 最後に, 3名の心科医とユーザ調査を行い, 生成試料の忠実性と意味的アライメントを確認した。 私たちのコードはhttps://github.com/TClife/text_to_ecgで利用可能です。

Electrocardiogram (ECG) synthesis is the area of research focused on generating realistic synthetic ECG signals for medical use without concerns over annotation costs or clinical data privacy restrictions. Traditional ECG generation models consider a single ECG lead and utilize GAN-based generative models. These models can only generate single lead samples and require separate training for each diagnosis class. The diagnosis classes of ECGs are insufficient to capture the intricate differences between ECGs depending on various features (e.g. patient demographic details, co-existing diagnosis classes, etc.). To alleviate these challenges, we present a text-to-ECG task, in which textual inputs are used to produce ECG outputs. Then we propose Auto-TTE, an autoregressive generative model conditioned on clinical text reports to synthesize 12-lead ECGs, for the first time to our knowledge. We compare the performance of our model with other representative models in text-to-speech and text-to-image. Experimental results show the superiority of our model in various quantitative evaluations and qualitative analysis. Finally, we conduct a user study with three board-certified cardiologists to confirm the fidelity and semantic alignment of generated samples. our code will be available at https://github.com/TClife/text_to_ecg
翻訳日:2023-03-19 11:29:30 公開日:2023-03-09
# 株価トレンド予測:セマンティックセグメンテーションアプローチ

Stock Trend Prediction: A Semantic Segmentation Approach ( http://arxiv.org/abs/2303.09323v1 )

ライセンス: Link先を確認
Shima Nabiee, Nader Bagherzadeh(参考訳) マーケットファイナンシャル予測はディープラーニングのトレンド分野である。 ディープラーニングモデルは、非常に複雑なダイナミクスや長期的な時間的相関など、株式市場データにおける古典的な課題に取り組むことができる。 これらの時系列間の時間的関係を捉えるために、リカレントニューラルネットワークを用いる。 しかし、リカレントモデルが長期的な情報を追跡することを学ぶことは困難である。 畳み込みニューラルネットワークは、短期予測と長期予測の両方において、ダイナミクスのキャプチャと特徴抽出に利用されてきた。 しかし、セマンティックセグメンテーションとそのよく設計された完全畳み込みネットワークは、時系列密度の分類において決して研究されていない。 完全2次元畳み込みエンコーダデコーダを用いた長期株価変動傾向の予測手法を提案する。 T日間の時間枠で1日あたりの価格で入力フレームを生成する。 本研究の目的は,現在の価格フレームの画素単位での分類による今後のトレンドの予測である。 本稿では,複数の価格フレームを並列に符号化する階層型CNN構造を提案する。 cnnの階層構造により,長期的および短期的な時間的関係を効果的に捉えることができる。 並列エンコーダの増分による入力時間軸増加の効果は,出力セグメンテーションマスクの興味深い,実質的な変化とともに研究されている。 今後20日間の合同傾向予測では, 全体の精度とauc値が78.18および0.88となり, 他の意味セグメンテーション手法を上回った。 提案モデルと, 技術的解析に特化して設計された深層モデルを比較し, 出力の水平方向が異なる場合, 提案モデルが他のモデルより優れていることを確認した。

Market financial forecasting is a trending area in deep learning. Deep learning models are capable of tackling the classic challenges in stock market data, such as its extremely complicated dynamics as well as long-term temporal correlation. To capture the temporal relationship among these time series, recurrent neural networks are employed. However, it is difficult for recurrent models to learn to keep track of long-term information. Convolutional Neural Networks have been utilized to better capture the dynamics and extract features for both short- and long-term forecasting. However, semantic segmentation and its well-designed fully convolutional networks have never been studied for time-series dense classification. We present a novel approach to predict long-term daily stock price change trends with fully 2D-convolutional encoder-decoders. We generate input frames with daily prices for a time-frame of T days. The aim is to predict future trends by pixel-wise classification of the current price frame. We propose a hierarchical CNN structure to encode multiple price frames to multiscale latent representation in parallel using Atrous Spatial Pyramid Pooling blocks and take that temporal coarse feature stacks into account in the decoding stages. Our hierarchical structure of CNNs makes it capable of capturing both long and short-term temporal relationships effectively. The effect of increasing the input time horizon via incrementing parallel encoders has been studied with interesting and substantial changes in the output segmentation masks. We achieve overall accuracy and AUC of %78.18 and 0.88 for joint trend prediction over the next 20 days, surpassing other semantic segmentation approaches. We compared our proposed model with several deep models specifically designed for technical analysis and found that for different output horizons, our proposed models outperformed other models.
翻訳日:2023-03-19 11:29:10 公開日:2023-03-09
# NoiseCAM: ノイズと敵の攻撃の境界線を記述可能なAI

NoiseCAM: Explainable AI for the Boundary Between Noise and Adversarial Attacks ( http://arxiv.org/abs/2303.06151v1 )

ライセンス: Link先を確認
Wenkai Tan, Justus Renkhoff, Alvaro Velasquez, Ziyu Wang, Lusi Li, Jian Wang, Shuteng Niu, Fan Yang, Yongxin Liu, Houbing Song(参考訳) ディープラーニング(DL)とディープニューラルネットワーク(DNN)は、様々なドメインで広く使われている。 しかし、敵の攻撃は簡単にニューラルネットワークを誤認し、間違った決定を下す可能性がある。 防衛機構は安全クリティカルな用途で非常に好まれる。 本稿では,まず勾配クラスアクティベーションマップ(gradle class activation map,gradcam)を用いて,vgg-16ネットワークの入力と逆摂動やガウス雑音を混合した場合の動作偏差解析を行う。 特に, 本手法では, 対向摂動やガウス雑音に敏感な脆弱な層を見つけることができる。 また, 脆弱層の挙動偏差は, 逆例の検出にも有効であることを示した。 次に,グローバルおよびピクセルレベル重み付けクラスアクティベーションマップからの情報を統合した新しいノイズカムアルゴリズムを提案する。 本アルゴリズムは逆摂動に影響を受けやすく,入力に混入したガウスランダムノイズに応答しない。 第3に,行動偏差とノイズカムの両方を用いた逆例の検出を比較し,ノイズカムが全体の動作偏差モデルを上回ることを示した。 我々の研究は、ディープニューラルネットワークに対する特定の敵攻撃を防御する有用なツールを提供するかもしれない。

Deep Learning (DL) and Deep Neural Networks (DNNs) are widely used in various domains. However, adversarial attacks can easily mislead a neural network and lead to wrong decisions. Defense mechanisms are highly preferred in safety-critical applications. In this paper, firstly, we use the gradient class activation map (GradCAM) to analyze the behavior deviation of the VGG-16 network when its inputs are mixed with adversarial perturbation or Gaussian noise. In particular, our method can locate vulnerable layers that are sensitive to adversarial perturbation and Gaussian noise. We also show that the behavior deviation of vulnerable layers can be used to detect adversarial examples. Secondly, we propose a novel NoiseCAM algorithm that integrates information from globally and pixel-level weighted class activation maps. Our algorithm is susceptible to adversarial perturbations and will not respond to Gaussian random noise mixed in the inputs. Third, we compare detecting adversarial examples using both behavior deviation and NoiseCAM, and we show that NoiseCAM outperforms behavior deviation modeling in its overall performance. Our work could provide a useful tool to defend against certain adversarial attacks on deep neural networks.
翻訳日:2023-03-14 20:52:15 公開日:2023-03-09
# テキストベクトルのロバスト性について

On the Robustness of Text Vectorizers ( http://arxiv.org/abs/2303.07203v1 )

ライセンス: Link先を確認
R\'emi Catellier, Samuel Vaiter, Damien Garreau(参考訳) 自然言語処理における根本的な問題は、入力の変化に対するモデルの堅牢性である。 このプロセスにおける重要なステップは文書の埋め込みであり、単語やトークンのシーケンスをベクトル表現に変換する。 我々の研究は、連結、TF-IDF、パラグラフベクトル(別名 doc2vec)のような一般的な埋め込みスキームがハミング距離に関してH\"older あるいは Lipschitz の感覚において堅牢性を示すことを正式に証明している。 これらのスキームの定量的境界を提供し,関連する定数が文書の長さによってどのように影響を受けるかを示す。 これらの発見は一連の数値例を通して例示される。

A fundamental issue in natural language processing is the robustness of the models with respect to changes in the input. One critical step in this process is the embedding of documents, which transforms sequences of words or tokens into vector representations. Our work formally proves that popular embedding schemes, such as concatenation, TF-IDF, and Paragraph Vector (a.k.a. doc2vec), exhibit robustness in the H\"older or Lipschitz sense with respect to the Hamming distance. We provide quantitative bounds for these schemes and demonstrate how the constants involved are affected by the length of the document. These findings are exemplified through a series of numerical examples.
翻訳日:2023-03-14 14:15:26 公開日:2023-03-09
# BeamAttack:ビームサーチと混合セマンティック空間による高品質テキスト逆転例の生成

BeamAttack: Generating High-quality Textual Adversarial Examples through Beam Search and Mixed Semantic Spaces ( http://arxiv.org/abs/2303.07199v1 )

ライセンス: Link先を確認
Hai Zhu and Qingyang Zhao and Yuren Wu(参考訳) ニューラルネットワークに基づく自然言語処理モデルは、敵の例に弱い。 これらの敵対的な例は、人間の読者には受け入れられないが、誤った予測を行うためにモデルを誤解することができる。 ブラックボックスの設定では、攻撃者はモデルのパラメータやアーキテクチャを知ることなくモデルを騙すことができる。 単語レベルの攻撃に関する以前の研究では、単一の意味空間と欲深い検索を検索戦略として広く使用している。 しかし、これらの手法は攻撃成功率、攻撃例の質、時間消費のバランスをとらない。 本稿では,混合意味空間を利用したテキスト攻撃アルゴリズムであるビームアタックを提案する。 広範囲な実験により、mrデータセットから例を攻撃する場合、攻撃成功率はグリーディ検索よりも最大7\%向上するなど、多数のクエリと時間を節約しながら攻撃成功率を向上させることが示されている。 ヒューリスティック検索と比較して、BeamAttackは85%以上のモデルクエリを節約し、競合攻撃の成功率を達成することができる。 beamattackが作成した敵の例は非常に転送性が高く、敵の訓練中にモデルの堅牢性が効果的に向上する。 コードはhttps://github.com/zhuhai-ustc/beamattack/tree/masterで入手できる。

Natural language processing models based on neural networks are vulnerable to adversarial examples. These adversarial examples are imperceptible to human readers but can mislead models to make the wrong predictions. In a black-box setting, attacker can fool the model without knowing model's parameters and architecture. Previous works on word-level attacks widely use single semantic space and greedy search as a search strategy. However, these methods fail to balance the attack success rate, quality of adversarial examples and time consumption. In this paper, we propose BeamAttack, a textual attack algorithm that makes use of mixed semantic spaces and improved beam search to craft high-quality adversarial examples. Extensive experiments demonstrate that BeamAttack can improve attack success rate while saving numerous queries and time, e.g., improving at most 7\% attack success rate than greedy search when attacking the examples from MR dataset. Compared with heuristic search, BeamAttack can save at most 85\% model queries and achieve a competitive attack success rate. The adversarial examples crafted by BeamAttack are highly transferable and can effectively improve model's robustness during adversarial training. Code is available at https://github.com/zhuhai-ustc/beamattack/tree/master
翻訳日:2023-03-14 14:14:43 公開日:2023-03-09
# プラグ・アンド・プレイ準ニュートン法

Provably Convergent Plug-and-Play Quasi-Newton Methods ( http://arxiv.org/abs/2303.07271v1 )

ライセンス: Link先を確認
Hong Ye Tan, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Sch\"onlieb(参考訳) Plug-and-Play (PnP) は、ISTAやADMMなどの古典最適化アルゴリズムを用いて、データの忠実度項とディープデノイザを組み合わせた効率的な反復手法のクラスである。 既存の証明可能なPnP法は、非拡張性や厳密な凸性といったデノイザー関数や忠実度関数に厳しい制限を課している。 そこで本研究では, 近位分解器に基づく比較的軽い条件を課すPnP法を提案し, 収束を大幅に加速する準ニュートン法を提案する。 ディープデノイザを勾配ステップとしてパラメータ化することにより、準ニュートンPnPアルゴリズムの固定点をさらに特徴付ける。

Plug-and-Play (PnP) methods are a class of efficient iterative methods that aim to combine data fidelity terms and deep denoisers using classical optimization algorithms, such as ISTA or ADMM. Existing provable PnP methods impose heavy restrictions on the denoiser or fidelity function, such as nonexpansiveness or strict convexity. In this work, we propose a provable PnP method that imposes relatively light conditions based on proximal denoisers, and introduce a quasi-Newton step to greatly accelerate convergence. By specially parameterizing the deep denoiser as a gradient step, we further characterize the fixed-points of the quasi-Newton PnP algorithm.
翻訳日:2023-03-14 13:56:24 公開日:2023-03-09
# 非エルミート特異点強調センシングのマルチパラメータ推定視点

Multiparameter estimation perspective on non-Hermitian singularity-enhanced sensing ( http://arxiv.org/abs/2303.05532v1 )

ライセンス: Link先を確認
Javid Naikoo and Ravindra W. Chhajlany and Jan Kolodynski(参考訳) 非エルミート発生器による量子系の進化を記述することで、そのような図に自然に現れる力学特性、例えば、いわゆる例外点での演算、パリティ時対称性の保存、あるいは力学の特異な振る舞いの資本化を探求する新たな道が開かれる。 本研究では,線形摂動を特異点から遠ざけるためにシステムを利用する場合,非有界感度を実現する可能性に着目した。 ガウス量子系のマルチパラメータ推定理論と特異行列摂動の1つを組み合わせることで、そのような特異性チューニングセンサによって達成される精度の究極の限界を研究するために必要なツールを導入する。 我々は,どの条件下で,どの感度で得られる感度が実際に変化しているかを同定し,そのパラメータが推定パラメータによって誤差のスケーリングを変化させる可能性があることを,解析に一般的に含めるべきであることを示す。

Describing the evolution of quantum systems by means of non-Hermitian generators opens a new avenue to explore the dynamical properties naturally emerging in such a picture, e.g. operation at the so-called exceptional points, preservation of parity-time symmetry, or capitalising on the singular behaviour of the dynamics. In this work, we focus on the possibility of achieving unbounded sensitivity when using the system to sense linear perturbations away from a singular point. By combining multiparameter estimation theory of Gaussian quantum systems with the one of singular-matrix perturbations, we introduce the necessary tools to study the ultimate limits on the precision attained by such singularity-tuned sensors. We identify under what conditions and at what rate can the resulting sensitivity indeed diverge, in order to show that nuisance parameters should be generally included in the analysis, as their presence may alter the scaling of the error with the estimated parameter.
翻訳日:2023-03-13 17:04:38 公開日:2023-03-09
# 一階漸近論を超越した量子ディコトミーとコヒーレント熱力学

Quantum dichotomies and coherent thermodynamics beyond first-order asymptotics ( http://arxiv.org/abs/2303.05524v1 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Christopher T. Chubb, Joseph M. Renes, Marco Tomamichel, Kamil Korzekwa(参考訳) すなわち、量子チャネル $\mathcal e$ を $\rho_1^{\otimes n}$ から $\rho_2^{\otimes r_nn}$ に、エラー $\epsilon_n$ (トレース距離によって測定) と $\sigma_1^{\otimes n}$ を $\sigma_2^{\otimes r_nn}$ に正確にマッピングする。 我々は、任意のペア$(\rho_1,\sigma_1) の初期状態と可換ペア$(\rho_2,\sigma_2) 最終状態の$に対して、小、中、大の偏差誤差レジームおよびゼロエラーレジームにおいて、最適変換率$R_n$の2階漸近式を導出する。 また、熱ギブス状態によって与えられる$\sigma_1$および$\sigma_2$の場合、第1の3つの状態における最適変換速度は熱演算によって達成できることを示す。 これにより、エネルギー固有空間間のコヒーレンスを持つような完全一般の初期状態と熱力学的状態の相互変換の2次漸近性を研究することができる。 そこで本研究では,コヒーレント入力を用いた熱力学プロトコルの最適性能について論じ,有限サイズ効果による変換誤差を著しく低減できる3つの新しい共振現象について述べる。 さらに,量子ディコトミーに関する結果は,二階漸近項まで,局所演算と古典的通信の下での純粋二部絡み状態間の最適変換率を求めるためにも利用できる。

We address the problem of exact and approximate transformation of quantum dichotomies in the asymptotic regime, i.e., the existence of a quantum channel $\mathcal E$ mapping $\rho_1^{\otimes n}$ into $\rho_2^{\otimes R_nn}$ with an error $\epsilon_n$ (measured by trace distance) and $\sigma_1^{\otimes n}$ into $\sigma_2^{\otimes R_n n}$ exactly, for a large number $n$. We derive second-order asymptotic expressions for the optimal transformation rate $R_n$ in the small, moderate, and large deviation error regimes, as well as the zero-error regime, for an arbitrary pair $(\rho_1,\sigma_1)$ of initial states and a commuting pair $(\rho_2,\sigma_2)$ of final states. We also prove that for $\sigma_1$ and $\sigma_2$ given by thermal Gibbs states, the derived optimal transformation rates in the first three regimes can be attained by thermal operations. This allows us, for the first time, to study the second-order asymptotics of thermodynamic state interconversion with fully general initial states that may have coherence between different energy eigenspaces. Thus, we discuss the optimal performance of thermodynamic protocols with coherent inputs and describe three novel resonance phenomena allowing one to significantly reduce transformation errors induced by finite-size effects. What is more, our result on quantum dichotomies can also be used to obtain, up to second-order asymptotic terms, optimal conversion rates between pure bipartite entangled states under local operations and classical communication.
翻訳日:2023-03-13 17:04:21 公開日:2023-03-09
# 連続強化学習対象物はPAC学習可能

Computably Continuous Reinforcement-Learning Objectives are PAC-learnable ( http://arxiv.org/abs/2303.05518v1 )

ライセンス: Link先を確認
Cambridge Yang, Michael Littman, Michael Carbin(参考訳) 強化学習において、割引と有限水平累積報酬を最大化する古典的な目的は、PAC学習可能である: 有限量のサンプルと計算を用いて、確率の高い準最適ポリシーを学習するアルゴリズムがある。 近年、研究者は、線形時間論理式として指定された目的など、古典的な累積報酬を超えた目的とそれに対応する強化学習アルゴリズムを導入している。 しかし、これらの新たな目的のPAC学習性に関する疑問は、まだ未解決のままである。 本研究は, 一般強化学習目標のパックリーナビリティを, 2つの分析条件におけるパックリーナビリティの十分条件を通して示している。 特に、サンプル複雑性のみを考慮した分析では、オラクルとして与えられた目的が一様連続であれば、PAC学習可能であることを示す。 さらに,計算複雑性を考慮した解析では,目的が計算可能であればpac-learnableであることが証明される。 言い換えれば、手続きが目標値の連続的な近似を計算するなら、目的はPAC学習可能である。 本稿では,PAC学習能力が不明な文献の目的に対する条件の3つの適用例を示し,これらの目的がPAC学習可能であることを証明する。 その結果,既存のPAC学習能力の検証に有効である。 また、一様連続でない研究対象がPAC学習可能でないことが示されているため、新たなPAC学習可能目標の設計を導くことができる。

In reinforcement learning, the classic objectives of maximizing discounted and finite-horizon cumulative rewards are PAC-learnable: There are algorithms that learn a near-optimal policy with high probability using a finite amount of samples and computation. In recent years, researchers have introduced objectives and corresponding reinforcement-learning algorithms beyond the classic cumulative rewards, such as objectives specified as linear temporal logic formulas. However, questions about the PAC-learnability of these new objectives have remained open. This work demonstrates the PAC-learnability of general reinforcement-learning objectives through sufficient conditions for PAC-learnability in two analysis settings. In particular, for the analysis that considers only sample complexity, we prove that if an objective given as an oracle is uniformly continuous, then it is PAC-learnable. Further, for the analysis that considers computational complexity, we prove that if an objective is computable, then it is PAC-learnable. In other words, if a procedure computes successive approximations of the objective's value, then the objective is PAC-learnable. We give three applications of our condition on objectives from the literature with previously unknown PAC-learnability and prove that these objectives are PAC-learnable. Overall, our result helps verify existing objectives' PAC-learnability. Also, as some studied objectives that are not uniformly continuous have been shown to be not PAC-learnable, our results could guide the design of new PAC-learnable objectives.
翻訳日:2023-03-13 17:03:42 公開日:2023-03-09
# 診断・健康管理(PHM)におけるXAIの健全性について

On the Soundness of XAI in Prognostics and Health Management (PHM) ( http://arxiv.org/abs/2303.05517v1 )

ライセンス: Link先を確認
David Sol\'is-Mart\'in, Juan Gal\'an-P\'aez and Joaqu\'in Borrego-D\'iaz(参考訳) 予防・健康管理(PHM)分野における予測保守の目的は、それらが重要になる前に機器の潜在的な問題を特定し、予測することである。 対処すべき主な課題は、機器が故障する前に効果的に機能する時間を評価することであり、これはRemaining Useful Life (RUL)として知られている。 Deep Convolutional Neural Networks (DCNN) やLong Short-Term Memory (LSTM) などのディープラーニング(DL)モデルは、この課題に対処するために広く採用されており、大きな成功を収めている。 しかし、このようなブラックボックスモデルが不透明な意思決定システムであることはよく知られており、利害関係者(産業機器の専門家)にアウトプットを説明するのは難しいかもしれない。 これらの複雑なモデルの振る舞いを決定する多くのパラメータのため、予測の背後にある推論を理解することは困難である。 本研究は,PM の時系列回帰モデルに適用された多くの XAI 手法について,批判的かつ比較的な改訂を行った。 本研究の目的は,時系列分類に比べて研究の少ない時系列回帰におけるXAI手法の探索である。 実験で使用されたモデルは、航空機エンジンのRULを予測するために訓練されたDCNNである。 メソッドはレビューされ、xaiメソッドが満たすべき多くの望ましいプロパティを定量化する一連のメトリクスを使用して比較される。 その結果, GRAD-CAMが最も堅牢な手法であり, 画像処理の文脈でよく見られるように, 最良層は最下層ではないことがわかった。

The aim of Predictive Maintenance, within the field of Prognostics and Health Management (PHM), is to identify and anticipate potential issues in the equipment before these become critical. The main challenge to be addressed is to assess the amount of time a piece of equipment will function effectively before it fails, which is known as Remaining Useful Life (RUL). Deep Learning (DL) models, such as Deep Convolutional Neural Networks (DCNN) and Long Short-Term Memory (LSTM) networks, have been widely adopted to address the task, with great success. However, it is well known that this kind of black box models are opaque decision systems, and it may be hard to explain its outputs to stakeholders (experts in the industrial equipment). Due to the large number of parameters that determine the behavior of these complex models, understanding the reasoning behind the predictions is challenging. This work presents a critical and comparative revision on a number of XAI methods applied on time series regression model for PM. The aim is to explore XAI methods within time series regression, which have been less studied than those for time series classification. The model used during the experimentation is a DCNN trained to predict the RUL of an aircraft engine. The methods are reviewed and compared using a set of metrics that quantifies a number of desirable properties that any XAI method should fulfill. The results show that GRAD-CAM is the most robust method, and that the best layer is not the bottom one, as is commonly seen within the context of Image Processing.
翻訳日:2023-03-13 17:03:19 公開日:2023-03-09
# 特徴選択のためのフラクタル次元制約付きライト花火アルゴリズム

A Lite Fireworks Algorithm with Fractal Dimension Constraint for Feature Selection ( http://arxiv.org/abs/2303.05516v1 )

ライセンス: Link先を確認
Min Zeng, Haimiao Mo, Zhiming Liang, Hua Wang(参考訳) ロボットの利用が広まるにつれて、膨大な量の視覚データがデータ次元を劇的に増加させます。 深層学習法はこれらの高次元視覚データを効果的に処理できる。 計算資源の制限のため、いくつかの特別なシナリオは依然として従来の機械学習手法に依存している。 しかし、これらの高次元のビジュアルデータは、従来の機械学習手法に大きな課題をもたらす。 そこで我々は,特徴選択(LFWA+FD)のためのフラクタル次元制約付きライトファイアワークスアルゴリズムを提案し,ロボットビジョンによる特徴選択問題を解決する。 lfwa+fd」は、花火のアルゴリズムを単純化し、フラクタル次元によって選択された特徴の次元を制約することで理想的な特徴部分集合を探索することに焦点を当てており、それによって近似的な特徴を減少させ、元のデータのノイズを減少させ、モデルの精度を向上させる。 UCIによる2つの公開データセットの比較実験結果から,提案手法はモデル推論に有用な特徴のサブセットを効果的に選択し,元のデータに存在する大量のノイズノイズを除去して性能を向上させることができることを示した。

As the use of robotics becomes more widespread, the huge amount of vision data leads to a dramatic increase in data dimensionality. Although deep learning methods can effectively process these high-dimensional vision data. Due to the limitation of computational resources, some special scenarios still rely on traditional machine learning methods. However, these high-dimensional visual data lead to great challenges for traditional machine learning methods. Therefore, we propose a Lite Fireworks Algorithm with Fractal Dimension constraint for feature selection (LFWA+FD) and use it to solve the feature selection problem driven by robot vision. The "LFWA+FD" focuses on searching the ideal feature subset by simplifying the fireworks algorithm and constraining the dimensionality of selected features by fractal dimensionality, which in turn reduces the approximate features and reduces the noise in the original data to improve the accuracy of the model. The comparative experimental results of two publicly available datasets from UCI show that the proposed method can effectively select a subset of features useful for model inference and remove a large amount of noise noise present in the original data to improve the performance.
翻訳日:2023-03-13 17:02:54 公開日:2023-03-09
# 機械学習を用いた将来の重力波ミッションによるハッブルパラメータの再構成

Reconstructing the Hubble parameter with future Gravitational Wave missions using Machine Learning ( http://arxiv.org/abs/2303.05169v1 )

ライセンス: Link先を確認
Purba Mukherjee, Rahul Shah, Arko Bhaumik, Supratik Pal(参考訳) ガウス過程(GP)のような機械学習アルゴリズムは、ハッブルパラメータ(H(z)$)を2つの重力波ミッション、すなわち進化したレーザー干渉計宇宙アンテナ(eLISA)とアインシュタイン望遠鏡(ET)で再構成するツールとして研究されている。 我々は,現実的に生成されたカタログを用いてgpでh(z)$の非パラメトリック再構成を行い,それぞれのミッションで様々な背景宇宙モデルを仮定する。 また, 早期, 深夜の先行が再建に与える影響を考慮し, 従ってハッブル定数(H_0$)について検討する。 我々の分析によると、GPは研究中の特定のミッションの観測窓の中で宇宙の膨張史を再構築する上で非常に堅牢である。 さらに、eLISA と ET の両者が、現在よりもはるかに高い精度で$H(z)$ と $H_0$ を制約できることを確認し、ケースバイケースで各モデルのハッブルテンションに対処する上でのそれらの役割を明らかにする。

We study the prospects of Machine Learning algorithms like Gaussian processes (GP) as a tool to reconstruct the Hubble parameter $H(z)$ with two upcoming gravitational wave missions, namely the evolved Laser Interferometer Space Antenna (eLISA) and the Einstein Telescope (ET). We perform non-parametric reconstructions of $H(z)$ with GP using realistically generated catalogues, assuming various background cosmological models, for each mission. We also take into account the effect of early-time and late-time priors separately on the reconstruction, and hence on the Hubble constant ($H_0$). Our analysis reveals that GPs are quite robust in reconstructing the expansion history of the Universe within the observational window of the specific mission under study. We further confirm that both eLISA and ET would be able to constrain $H(z)$ and $H_0$ to a much higher precision than possible today, and also find out their possible role in addressing the Hubble tension for each model, on a case-by-case basis.
翻訳日:2023-03-13 17:02:26 公開日:2023-03-09
# Rb$_2$分子のナノファイバートラップ

Nanofibre-based trap for Rb$_2$ molecule ( http://arxiv.org/abs/2303.05579v1 )

ライセンス: Link先を確認
M. M\`arquez-Mijares, B. Lepetit and E. Brion(参考訳) 準安定状態$(1)^3\Sigma^+_u$で調製したRb$_2$分子に対するナノファイバートラップの理論的提案について述べる。 トラップポテンシャルは、繊維の基本的な誘導モード he$_{11}$ によって運ばれる進行場と定在波場の組み合わせによって得られる。 レーザー周波数とパワーの実験的に現実的な選択により、$\approx 200$$\mu$K-deep well at $\approx 140$ nm from the fibre surface acomodating for $\approx 500$ Translational molecular state.

We describe a theoretical proposal of a nanofibre-based trap for a Rb$_2$ molecule prepared in the metastable state $(1)^3\Sigma^+_u$. The trapping potential results from the combination of a travelling and a standing-wave fields, both carried by the fundamental guided mode HE$_{11}$ of the fibre. We show that, with an experimentally realistic choice of laser frequencies and powers, one can implement a $\approx 200$ $\mu$K-deep well at $\approx 140$ nm from the fibre surface accomodating for $\approx 500$ translational molecular states.
翻訳日:2023-03-13 16:54:33 公開日:2023-03-09
# 逆例による会話レコメンダシステムのロバスト性評価

Evaluating the Robustness of Conversational Recommender Systems by Adversarial Examples ( http://arxiv.org/abs/2303.05575v1 )

ライセンス: Link先を確認
Ali Montazeralghaem and James Allan(参考訳) 標準推奨精度指標によれば、会話推薦システム(crss)は急速に改善されている。 しかし,システム修正入力データの提供により,システム攻撃を希望する正規ユーザや悪意のあるユーザを含むユーザとのインタラクションが堅牢であることを確認することが不可欠である。 本稿では,2つのカテゴリに4つのシナリオを含む対向評価手法を提案し,異なる入力データに対してシステムのロバスト性を評価するための対向例を自動的に生成する。 これらの逆の例を実行することで、異なる会話型レコメンダシステムのユーザの好みを満たす能力を比較することができる。 2つのデータセット上で提案した逆例を用いて3つのCRSを評価する。 その結果,いずれのシステムも,実例に対して堅牢で信頼性の高いものはないことがわかった。

Conversational recommender systems (CRSs) are improving rapidly, according to the standard recommendation accuracy metrics. However, it is essential to make sure that these systems are robust in interacting with users including regular and malicious users who want to attack the system by feeding the system modified input data. In this paper, we propose an adversarial evaluation scheme including four scenarios in two categories and automatically generate adversarial examples to evaluate the robustness of these systems in the face of different input data. By executing these adversarial examples we can compare the ability of different conversational recommender systems to satisfy the user's preferences. We evaluate three CRSs by the proposed adversarial examples on two datasets. Our results show that none of these systems are robust and reliable to the adversarial examples.
翻訳日:2023-03-13 16:54:19 公開日:2023-03-09
# ペアデータのためのガウス図形モデルの探索空間の探索

Exploration of the search space of Gaussian graphical models for paired data ( http://arxiv.org/abs/2303.05561v1 )

ライセンス: Link先を確認
Alberto Roverato and Dung Ngoc Nguyen (Department of Statistical Sciences, University of Padova, Italy)(参考訳) 同じ変数を共有する2つの依存群から観測結果が得られた場合、ガウス図形モデルを学習する問題を考察する。 我々は、ペアデータ問題に適した色付きガウス図形モデル群に焦点を当てた。 一般的に、グラフィカルモデルはサブモデル関係によって順序付けられ、探索空間はモデル包含格子と呼ばれる格子である。 双対順序と呼ばれるモデル間の新しい順序を導入する。 この順序に埋め込まれたモデル空間は、モデル包含格子とは異なり、分配的な格子であることを示す。 さらに、モデルの近傍の計算に関する関連するルールを提供する。 後者はモデル包含格子における同じ操作よりも効率的であり、探索空間のより効率的な探索を実現するために利用される。 これらの結果は、欲求とベイズモデルの両方の探索手順の効率を向上させるために応用できる。 ここでは段階的な後方退避手順を実装し,その性能をシミュレーションにより評価する。 最後に、2つの群がそれぞれ左半球と右半球に対応するfMRIデータから脳ネットワークを学習する手順を適用した。

We consider the problem of learning a Gaussian graphical model in the case where the observations come from two dependent groups sharing the same variables. We focus on a family of coloured Gaussian graphical models specifically suited for the paired data problem. Commonly, graphical models are ordered by the submodel relationship so that the search space is a lattice, called the model inclusion lattice. We introduce a novel order between models, named the twin order. We show that, embedded with this order, the model space is a lattice that, unlike the model inclusion lattice, is distributive. Furthermore, we provide the relevant rules for the computation of the neighbours of a model. The latter are more efficient than the same operations in the model inclusion lattice, and are then exploited to achieve a more efficient exploration of the search space. These results can be applied to improve the efficiency of both greedy and Bayesian model search procedures. Here we implement a stepwise backward elimination procedure and evaluate its performance by means of simulations. Finally, the procedure is applied to learn a brain network from fMRI data where the two groups correspond to the left and right hemispheres, respectively.
翻訳日:2023-03-13 16:54:06 公開日:2023-03-09
# 機械学習に最適なアクティブ粒子ナビゲーション

Optimal active particle navigation meets machine learning ( http://arxiv.org/abs/2303.05558v1 )

ライセンス: Link先を確認
Mahdi Nasiri, Hartmut L\"owen, Benno Liebchen(参考訳) 昆虫、微生物、将来のコロイドロボットといった「スマート」な活性物質が、複雑な環境下での匂い源や食品、がん細胞といった標的に最適な到達や発見をいかにする必要があるかという疑問は、最近大きな関心を集めている。 本稿では、マイクロからマクロスケールまで、このような最適な航法問題に関する最近の展開の概要を述べるとともに、我々の先にある課題のいくつかを議論することによる視点を与える。 最適なナビゲーション問題に対する基本的なアプローチの例示に加えて,機械学習による手法の活用にも焦点をあてる。 このような学習に基づくアプローチは、カオス、高次元、未知の環境などを含む問題に対してさえ、非常に効率的なナビゲーション戦略を明らかにすることができ、従来の分析手法やシミュレーション手法では解決できない。

The question of how "smart" active agents, like insects, microorganisms, or future colloidal robots need to steer to optimally reach or discover a target, such as an odor source, food, or a cancer cell in a complex environment has recently attracted great interest. Here, we provide an overview of recent developments, regarding such optimal navigation problems, from the micro- to the macroscale, and give a perspective by discussing some of the challenges which are ahead of us. Besides exemplifying an elementary approach to optimal navigation problems, the article focuses on works utilizing machine learning-based methods. Such learning-based approaches can uncover highly efficient navigation strategies even for problems that involve e.g. chaotic, high-dimensional, or unknown environments and are hardly solvable based on conventional analytical or simulation methods.
翻訳日:2023-03-13 16:53:49 公開日:2023-03-09
# フェデレーション医用画像解析における非コントラスト型自己監督学習の評価

An Evaluation of Non-Contrastive Self-Supervised Learning for Federated Medical Image Analysis ( http://arxiv.org/abs/2303.05556v1 )

ライセンス: Link先を確認
Soumitri Chattopadhyay, Soham Ganguly, Sreejit Chaudhury, Sayan Nag, Samiran Chattopadhyay(参考訳) プライバシとアノテーションのボトルネックは、機械学習ベースの医療画像分析の実用性に大きな影響を与える2つの大きな問題である。 これらの分野では大きな進展があったが、これらの問題はまだ完全には解決されていない。 本稿では,これらの問題に真っ向から取り組み,医用画像解析のためのFLシミュレーションにおける非コントラスト型自己教師学習(SSL)アルゴリズムの適用性について,体系的に検討する。 我々は最近提案された最先端の非競合フレームワークを標準FLセットアップで徹底的に実験する。 sotaコントラスト学習アルゴリズムであるsimclrを比較ベースラインとして,非i.i.d.データ条件とクライアント数の異なる4種類の非コントラストアルゴリズムの性能ベンチマークを行った。 6つの標準化された医用画像データセット上で,これらの手法の総合評価を行う。 本研究の結果から推察される異なる傾向をさらに分析し,今後の研究の方向性を明らかにすることを目的としている。 私たちの知る限りでは、医療画像のための連合型自己教師付き学習をこれほど徹底的に分析したのは私たちの初めてです。 私たちのソースコードはすべて、論文の受理時に公開されます。

Privacy and annotation bottlenecks are two major issues that profoundly affect the practicality of machine learning-based medical image analysis. Although significant progress has been made in these areas, these issues are not yet fully resolved. In this paper, we seek to tackle these concerns head-on and systematically explore the applicability of non-contrastive self-supervised learning (SSL) algorithms under federated learning (FL) simulations for medical image analysis. We conduct thorough experimentation of recently proposed state-of-the-art non-contrastive frameworks under standard FL setups. With the SoTA Contrastive Learning algorithm, SimCLR as our comparative baseline, we benchmark the performances of our 4 chosen non-contrastive algorithms under non-i.i.d. data conditions and with a varying number of clients. We present a holistic evaluation of these techniques on 6 standardized medical imaging datasets. We further analyse different trends inferred from the findings of our research, with the aim to find directions for further research based on ours. To the best of our knowledge, ours is the first to perform such a thorough analysis of federated self-supervised learning for medical imaging. All of our source code will be made public upon acceptance of the paper.
翻訳日:2023-03-13 16:53:35 公開日:2023-03-09
# efficienttempnet: レーダーによる降雨の時間的超解像

EfficientTempNet: Temporal Super-Resolution of Radar Rainfall ( http://arxiv.org/abs/2303.05552v1 )

ライセンス: Link先を確認
Bekir Z Demiray, Muhammed Sit and Ibrahim Demir(参考訳) レーダーや衛星などの様々なリモートセンシング機器によって収集された降雨データは、時空の解像度が異なる。 本研究は、より正確な気候変動モデルと研究を支援するため、レーダ降雨物の時間分解能を向上させることを目的とする。 本稿では,レーダーによる降雨量の時間分解能を10分から5分に向上させるため,EfficientNetV2,すなわちEfficientTempNetに基づくソリューションを提案する。 我々はアイオワ州のデータセット上でEfficientRainNetをテストし、そのパフォーマンスを3つの異なるベースラインと比較して、EfficientTempNetがより良い気候変動監視のための実行可能な選択肢であることを示した。

Rainfall data collected by various remote sensing instruments such as radars or satellites has different space-time resolutions. This study aims to improve the temporal resolution of radar rainfall products to help with more accurate climate change modeling and studies. In this direction, we introduce a solution based on EfficientNetV2, namely EfficientTempNet, to increase the temporal resolution of radar-based rainfall products from 10 minutes to 5 minutes. We tested EfficientRainNet over a dataset for the state of Iowa, US, and compared its performance to three different baselines to show that EfficientTempNet presents a viable option for better climate change monitoring.
翻訳日:2023-03-13 16:53:15 公開日:2023-03-09
# 相互作用ラベルのみからの弱い教師付きhoi検出と言語・視覚前兆

Weakly-Supervised HOI Detection from Interaction Labels Only and Language/Vision-Language Priors ( http://arxiv.org/abs/2303.05546v1 )

ライセンス: Link先を確認
Mesut Erhan Unal and Adriana Kovashka(参考訳) 人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的とする。 HOI検出データセットを構築するのに必要なラベル付け作業は、他の多くのコンピュータビジョンタスクよりも本質的には広いが、この領域の弱い指示は、オブジェクトと述語空間上の相互作用の組合せの性質に根ざした、弱い監督による人間とオブジェクトの相互作用の学習が困難であるため、十分には研究されていない。 本稿では、事前学習された視覚言語モデル(VLM)と大規模言語モデル(LLM)の助けを借りて、画像レベルのインタラクションラベルのみを用いて、文献における最も弱い監視設定によるHOI検出に取り組む。 まず, 視覚言語モデルの接地能力を活用することで, 袋の中の正のペアの品質を高めるための非相互作用型人間および物体提案手法を提案する。 第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、不可能な相互作用に重点を置いてはならないよう、モデルに強制する。 最後に、弱教師付き事前配置予測タスクを用いて、モデルに空間を明示的に推論させる。 広範な実験とアブレーションにより,hoi検出性能が向上した。

Human-object interaction (HOI) detection aims to extract interacting human-object pairs and their interaction categories from a given natural image. Even though the labeling effort required for building HOI detection datasets is inherently more extensive than for many other computer vision tasks, weakly-supervised directions in this area have not been sufficiently explored due to the difficulty of learning human-object interactions with weak supervision, rooted in the combinatorial nature of interactions over the object and predicate space. In this paper, we tackle HOI detection with the weakest supervision setting in the literature, using only image-level interaction labels, with the help of a pretrained vision-language model (VLM) and a large language model (LLM). We first propose an approach to prune non-interacting human and object proposals to increase the quality of positive pairs within the bag, exploiting the grounding capability of the vision-language model. Second, we use a large language model to query which interactions are possible between a human and a given object category, in order to force the model not to put emphasis on unlikely interactions. Lastly, we use an auxiliary weakly-supervised preposition prediction task to make our model explicitly reason about space. Extensive experiments and ablations show that all of our contributions increase HOI detection performance.
翻訳日:2023-03-13 16:53:03 公開日:2023-03-09
# 科学を加速するデータセット工学に関する位置論文

Position Paper on Dataset Engineering to Accelerate Science ( http://arxiv.org/abs/2303.05545v1 )

ライセンス: Link先を確認
Emilio Vital Brazil, Eduardo Soares, Lucas Villa Real, Leonardo Azevedo, Vinicius Segura, Luiz Zerkowski, and Renato Cerqueira(参考訳) データはどんな発見プロセスにおいても重要な要素です。 過去数十年間、利用可能なデータ量とそれを操作するテクノロジーの指数関数的な増加が観察された。 しかし、データは明確に定義されたタスクのためにそれを構成できる場合にのみ実用的です。 例えば、自然言語機械学習モデルをトレーニングするには、テキストのコーパスを文に分割する必要がある。 この作業では、トークン \textit{dataset} を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。 さらに、データセットは、ほとんどの場合、いつでもテーブルとして保存できるエンティティのブループリントとして使用される。 特に科学では、各領域には独自の形式があり、データセットを整理し、収集し、処理する。 私たちは、データセットはあらゆる知識集約的なプロセスにおいて第一級のエンティティでなければならないと信じており、すべてのワークフローはデータセットの収集から使用や進化に至るまで、データセットのライフサイクルに非常に注意を払うべきです。 科学とエンジニアリングの発見プロセスは、データセット上のそのような組織の必要性の極端な例であり、新しいアプローチとツーリングを主張します。 さらに、これらの要件は、発見ワークフローが人工知能メソッドを使用して被写体の専門家を強化することでより明確になる。 本研究では,科学における発見プロセスにおいて,データセットを重要な実体とするアプローチについて論じる。 材料発見をユースケースとして,いくつかの概念を解説する。 この領域を選んだのは、他の科学分野に一般化できる多くの重要な問題を活用するためです。

Data is a critical element in any discovery process. In the last decades, we observed exponential growth in the volume of available data and the technology to manipulate it. However, data is only practical when one can structure it for a well-defined task. For instance, we need a corpus of text broken into sentences to train a natural language machine-learning model. In this work, we will use the token \textit{dataset} to designate a structured set of data built to perform a well-defined task. Moreover, the dataset will be used in most cases as a blueprint of an entity that at any moment can be stored as a table. Specifically, in science, each area has unique forms to organize, gather and handle its datasets. We believe that datasets must be a first-class entity in any knowledge-intensive process, and all workflows should have exceptional attention to datasets' lifecycle, from their gathering to uses and evolution. We advocate that science and engineering discovery processes are extreme instances of the need for such organization on datasets, claiming for new approaches and tooling. Furthermore, these requirements are more evident when the discovery workflow uses artificial intelligence methods to empower the subject-matter expert. In this work, we discuss an approach to bringing datasets as a critical entity in the discovery process in science. We illustrate some concepts using material discovery as a use case. We chose this domain because it leverages many significant problems that can be generalized to other science fields.
翻訳日:2023-03-13 16:52:40 公開日:2023-03-09
# 行列積状態の完全サンプリングによる量子魔法

Quantum Magic via Perfect Sampling of Matrix Product States ( http://arxiv.org/abs/2303.05536v1 )

ライセンス: Link先を確認
Guglielmo Lami, Mario Collura(参考訳) 我々は,n$-qubits行列積状態(mps)の結合次元$\chi$の非安定化性を評価するための新しいブレークスルー手法を提案する。 特に、最近導入された安定化器R\'enyi Entropies (SRE) を考える。 パウリ弦構成上の多体波動関数の単純なサンプリングにより,SREの指数関数的にハードな評価が可能であることを示す。 MPS表現は、R\enyi index $n\in\mathbb{R}^{+}$にかかわらず、計算コスト$O(N\chi^3)$で効率的な方法でそのようなサンプリングを可能にする。 サイズに依存しない精度は、サンプル数によって任意に改善できる。 ランダムに生成したマジック状態と量子イジング鎖の基底状態に対して,本手法をベンチマークする。 非常に好都合なスケーリングを爆発させると、量子クエンチ後のSREの非平衡ダイナミクスに容易にアクセスできる。

We introduce a novel breakthrough approach to evaluate the nonstabilizerness of an $N$-qubits Matrix Product State (MPS) with bond dimension $\chi$. In particular, we consider the recently introduced Stabilizer R\'enyi Entropies (SREs). We show that the exponentially hard evaluation of the SREs can be achieved by means of a simple perfect sampling of the many-body wave function over the Pauli string configurations. The MPS representation enables such a sampling in an efficient way with a computational cost $O(N\chi^3)$, no matter the R\'enyi index $n\in\mathbb{R}^{+}$. The accuracy, being size-independent, can be arbitrarily improved with the number of samples. We benchmark our method over randomly generated magic states, as well as in the ground-state of the quantum Ising chain. Exploiting the extremely favourable scaling, we easily have access to the non-equilibrium dynamics of the SREs after a quantum quench.
翻訳日:2023-03-13 16:52:18 公開日:2023-03-09
# 雑音量子コンピュータにおける量子信号処理の実現

Realization of quantum signal processing on a noisy quantum computer ( http://arxiv.org/abs/2303.05533v1 )

ライセンス: Link先を確認
Yuta Kikuchi, Conor Mc Keever, Luuk Coopmans, Michael Lubasch, Marcello Benedetti(参考訳) 量子信号処理(QSP)は、量子アルゴリズムの設計のための強力なツールボックスであり、漸近的に最適な計算コストをもたらす。 しかし、フォールトトレランスのないノイズの多い量子コンピュータでは、一般に深い量子回路を必要とするため、実現は困難である。 我々は,各ステップのオーバーヘッドコストを慎重に削減し,ノイズ量子ハードウェア上でqspプロトコル全体を動作させる戦略を提案する。 このアプローチを説明するために、qspが時間発展作用素の多項式近似を実装したハミルトニアンシミュレーションの適用を考える。 我々は,ハネウェルを動力とする量子コンピュータ h1-1 上でアルゴリズムを実行することでプロトコルをテストする。 特に、イジングスピン鎖に対する二部交絡エントロピーの時間依存性を計算し、正確な数値シミュレーションとよく一致している。 デバイスを最大限に活用するために,ハードウェアの簡易誤差モデルを用いて最適実験パラメータを決定するとともに,ハミルトンシミュレーション時間,多項式次数,全精度のトレードオフを数値的に検討する。 この結果はQSPに基づく量子アルゴリズムの実験的な実現の第一歩である。

Quantum signal processing (QSP) is a powerful toolbox for the design of quantum algorithms and can lead to asymptotically optimal computational costs. Its realization on noisy quantum computers without fault tolerance, however, is challenging because it requires a deep quantum circuit in general. We propose a strategy to run an entire QSP protocol on noisy quantum hardware by carefully reducing overhead costs at each step. To illustrate the approach, we consider the application of Hamiltonian simulation for which QSP implements a polynomial approximation of the time evolution operator. We test the protocol by running the algorithm on Quantinuum's H1-1 trapped-ion quantum computer powered by Honeywell. In particular, we compute the time dependence of bipartite entanglement entropies for an Ising spin chain and find good agreement with exact numerical simulations. To make the best use of the device, we determine optimal experimental parameters by using a simplified error model for the hardware and numerically studying the trade-off between Hamiltonian simulation time, polynomial degree, and total accuracy. Our results are the first step in the experimental realization of QSP-based quantum algorithms.
翻訳日:2023-03-13 16:52:04 公開日:2023-03-09
# 説明可能な目標認識:証拠の重みに基づく枠組み

Explainable Goal Recognition: A Framework Based on Weight of Evidence ( http://arxiv.org/abs/2303.05622v1 )

ライセンス: Link先を確認
Abeer Alshehri, Tim Miller, Mor Vered(参考訳) 本稿では,eXplainable Goal Recognition (XGR)モデルの導入と評価を行い,WoE(Weight of Evidence)フレームワークを用いて目標認識問題を説明する。 私たちのモデルは、理由を答える人間中心の説明を提供します。 なぜだ? 質問だ システムの性能を8つの異なる領域で計算的に評価する。 人間の行動研究を用いて,ヒトのアノテータから基礎的真理を得ることにより,XGRモデルが人間のような説明をうまく生成できることを示す。 次に,ソコバンをプレイするエージェントを観察し,目標認識出力の説明を受ける60名の参加者を対象に調査を行った。 課題予測, 説明満足度, 信頼度を通じて, 参加者の理解について検討した。

We introduce and evaluate an eXplainable Goal Recognition (XGR) model that uses the Weight of Evidence (WoE) framework to explain goal recognition problems. Our model provides human-centered explanations that answer why? and why not? questions. We computationally evaluate the performance of our system over eight different domains. Using a human behavioral study to obtain the ground truth from human annotators, we further show that the XGR model can successfully generate human-like explanations. We then report on a study with 60 participants who observe agents playing Sokoban game and then receive explanations of the goal recognition output. We investigate participants' understanding obtained by explanations through task prediction, explanation satisfaction, and trust.
翻訳日:2023-03-13 16:46:44 公開日:2023-03-09
# CFR-ICL:インタラクティブ画像セグメンテーションのための反復クリックロスを用いたカスケードフォワードリファインメント

CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for Interactive Image Segmentation ( http://arxiv.org/abs/2303.05620v1 )

ライセンス: Link先を確認
Shoukun Sun, Min Xian, Fei Xu, Tiankai Yao, Luca Capriotti(参考訳) クリックベースのインタラクティブセグメンテーションは、ユーザクリックのガイダンスで画像から興味の対象を抽出することを目的としている。 最近の研究は、以前の出力からのセグメンテーションを利用することで、全体的なパフォーマンスを大いに向上させた。 しかし、ほとんどの最先端のアプローチでは。 1) 推論段階は、柔軟性のないヒューリスティックな規則と別個の洗練モデルを含む。 2) トレーニングでは,ユーザクリック数とモデルパフォーマンスのバランスが取れない。 そこで,本研究では,cfr(カスケードフォワードリファインメント),icl(反復クリック損失),sesem画像拡張の3つの新しいコンポーネントを含む,クリックベースおよびマスクガイドによるインタラクティブ画像セグメンテーションフレームワークを提案する。 提案したICLでは,モデルのトレーニングによりセグメンテーションを改善し,ユーザインタラクションを同時に低減することができる。 CFRは、セグメンテーション結果を粗い方法で生成する統合推論フレームワークを提供する。 提案手法は,インタラクティブな画像セグメンテーションのための大規模かつ多様なトレーニングセットを作成するための包括的手法である。 大規模な実験は、5つの公開データセットに対する提案手法の最先端性能を示す。 興味深いことに、我々のモデルはバークレーとDAVISのセットで平均2.9クリックと7.5クリックを達成し、前回の最先端結果よりも33.2%と15.5%改善した。 コードとトレーニングされたモデルはhttps://github.com/TitorX/CFR-ICL-Interactive-Segmentationで公開されている。

The click-based interactive segmentation aims to extract the object of interest from an image with the guidance of user clicks. Recent work has achieved great overall performance by employing the segmentation from the previous output. However, in most state-of-the-art approaches, 1) the inference stage involves inflexible heuristic rules and a separate refinement model; and 2) the training cannot balance the number of user clicks and model performance. To address the challenges, we propose a click-based and mask-guided interactive image segmentation framework containing three novel components: Cascade-Forward Refinement (CFR), Iterative Click Loss (ICL), and SUEM image augmentation. The proposed ICL allows model training to improve segmentation and reduce user interactions simultaneously. The CFR offers a unified inference framework to generate segmentation results in a coarse-to-fine manner. The proposed SUEM augmentation is a comprehensive way to create large and diverse training sets for interactive image segmentation. Extensive experiments demonstrate the state-of-the-art performance of the proposed approach on five public datasets. Remarkably, our model achieves an average of 2.9 and 7.5 clicks of NoC@95 on the Berkeley and DAVIS sets, respectively, improving by 33.2% and 15.5% over the previous state-of-the-art results. The code and trained model are available at https://github.com/TitorX/CFR-ICL-Interactive-Segmentation.
翻訳日:2023-03-13 16:46:32 公開日:2023-03-09
# KGNv2:RGB-D入力におけるキーポイントベース6-DoFグラフポス合成のスケールとポス予測

KGNv2: Separating Scale and Pose Prediction for Keypoint-based 6-DoF Grasp Pose Synthesis on RGB-D input ( http://arxiv.org/abs/2303.05617v1 )

ライセンス: Link先を確認
Yiye Chen, Ruinian Xu, Yunzhi Lin, Patricio A. Vela(参考訳) キーポイントに基づく2d/2.5d入力からの6自由度ポーズ合成手法を提案する。 画像入力からのキーポイントに基づく把持検出装置は,カラー画像による付加視覚情報が雑音の奥行き知覚を補償する,先行研究で有望な結果を示している。 しかし、画像空間内のキーポイントの位置を正確に予測することに大きく依存している。 本稿では,精度の高いキーポイント推定への依存性を低減した新しい把持生成ネットワークを考案する。 rgb-d入力が与えられると、ネットワークはキーポイント検出からの把持位置とカメラへのスケールの両方を推定する。 我々はさらに,キーポイント予測ノイズの悪影響をpnpアルゴリズムに緩和するために,キーポイント出力空間を再設計する。 実験の結果,提案手法はベースラインよりも高い性能を示し,提案手法の有効性を検証した。 最後に, 簡単な合成物体を訓練しながら, 実世界のロボット実験において, 競争力を示すことによって, シミュレーションから現実までの能力を示す。

We propose a new 6-DoF grasp pose synthesis approach from 2D/2.5D input based on keypoints. Keypoint-based grasp detector from image input has demonstrated promising results in the previous study, where the additional visual information provided by color images compensates for the noisy depth perception. However, it relies heavily on accurately predicting the location of keypoints in the image space. In this paper, we devise a new grasp generation network that reduces the dependency on precise keypoint estimation. Given an RGB-D input, our network estimates both the grasp pose from keypoint detection as well as scale towards the camera. We further re-design the keypoint output space in order to mitigate the negative impact of keypoint prediction noise to Perspective-n-Point (PnP) algorithm. Experiments show that the proposed method outperforms the baseline by a large margin, validating the efficacy of our approach. Finally, despite trained on simple synthetic objects, our method demonstrate sim-to-real capacity by showing competitive results in real-world robot experiments.
翻訳日:2023-03-13 16:46:09 公開日:2023-03-09
# 光原子時計におけるmhzレベル協調ラムシフトの観測

Observation of mHz-level cooperative Lamb shifts in an optical atomic clock ( http://arxiv.org/abs/2303.05613v1 )

ライセンス: Link先を確認
Ross B. Hutson, William R. Milner, Lingfeng Yan, Jun Ye, and Christian Sanner(参考訳) 多重励起限界における原子の3次配列における共鳴双極子-双極子相互作用の直接観測について報告する。 これらの相互作用は、ストロンチウム87におけるmHz幅の光時計遷移を分光学的に疑うと、空間依存的なラムシフトを生じる。 本研究では, アンサンブル平均シフトを, 最先端光原子時計の系統的不確実性のレベル以下に抑えることができることを示す。 さらに, ブラッグ角近傍の原子双極子の励起は, 非共鳴ジオメトリーと比較してほぼ一桁の精度でこれらの効果を高めることができることを示した。 我々の研究は、周波数測定の顕著な精度とモデル応答の高精度さから、そのような時計が光子伝播を介する長距離相互作用を持つスピンの量子多体物理学研究の新たなプラットフォームであることを示す。

We report on the direct observation of resonant electric dipole-dipole interactions in a cubic array of atoms in the many-excitation limit. The interactions, mediated by single-atom couplings to the shared electromagnetic vacuum, are shown to produce spatially-dependent cooperative Lamb shifts when spectroscopically interrogating the mHz-wide optical clock transition in strontium-87. We show that the ensemble-averaged shifts can be suppressed below the level of evaluated systematic uncertainties for state-of-the-art optical atomic clocks. Additionally, we demonstrate that excitation of the atomic dipoles near a Bragg angle can enhance these effects by nearly an order of magnitude compared to non-resonant geometries. Given the remarkable precision of frequency measurements and the high accuracy of the modeled response, our work demonstrates that such a clock is a novel platform for studies of the quantum many-body physics of spins with long-range interactions mediated by propagating photons.
翻訳日:2023-03-13 16:45:50 公開日:2023-03-09
# モデル予測制御政策近似のための改良データ拡張方式

An Improved Data Augmentation Scheme for Model Predictive Control Policy Approximation ( http://arxiv.org/abs/2303.05607v1 )

ライセンス: Link先を確認
Dinesh Krishnamoorthy(参考訳) 本稿では,mpc政策近似のためのデータ生成の問題について考察する。 専門家による実証から近似的なMPCポリシーを学習するには、可能な状態空間にわたってサンプリングされる最適な状態-作用ペアからなる大きなデータセットが必要である。 しかし、効率的にトレーニングサンプルを生成するという重要な課題は広く研究されていない。 近年,パラメトリックセンシティビティを利用して単一のオフラインmpc計算から複数のサンプルを安価に生成する,mpcポリシー近似のための感度に基づくデータ拡張フレームワークが提案されている。 不定値サンプルで設定したトレーニングデータセットの増大に伴う誤差は,データ拡張に使用するサンプルの周囲の面積に比例して増大した。 本研究を基礎として,ユーザ定義の精度を強制する予測者補正ステップに基づく改良データ拡張スキームを提示し,データ拡張に用いる近傍のサイズに依存しない拡張サンプルの誤差境界を示す。

This paper considers the problem of data generation for MPC policy approximation. Learning an approximate MPC policy from expert demonstrations requires a large data set consisting of optimal state-action pairs, sampled across the feasible state space. Yet, the key challenge of efficiently generating the training samples has not been studied widely. Recently, a sensitivity-based data augmentation framework for MPC policy approximation was proposed, where the parametric sensitivities are exploited to cheaply generate several additional samples from a single offline MPC computation. The error due to augmenting the training data set with inexact samples was shown to increase with the size of the neighborhood around each sample used for data augmentation. Building upon this work, this letter paper presents an improved data augmentation scheme based on predictor-corrector steps that enforces a user-defined level of accuracy, and shows that the error bound of the augmented samples are independent of the size of the neighborhood used for data augmentation.
翻訳日:2023-03-13 16:45:34 公開日:2023-03-09
# 重み付き報酬付き線形関数近似による分散アウェアロバスト強化学習

Variance-aware robust reinforcement learning with linear function approximation with heavy-tailed rewards ( http://arxiv.org/abs/2303.05606v1 )

ライセンス: Link先を確認
Xiang Li, Qiang Sun(参考訳) 本稿では,有限分散のみの重み付き報酬の存在下でのオンラインシーケンシャル意思決定のための2つのアルゴリズム,AdaOFULとVARAを提案する。 線形確率的バンディットに対しては,適応的なフーバー回帰を修正し,アダオフルを提案することで,重み付き報酬の問題に対処する。 AdaOFUL は、$\widetilde{\mathcal{O}}\big(d\big(\sum_{t=1}^T \nu_{t}^2\big)^{1/2}+d\big)$ を、例えば報酬が一様有界であるかのように達成し、$\nu_{t}^2$ はラウンド$t$での報酬の条件分散、$d$ は特徴次元、$\widetilde{\mathcal{O}}(\cdot)$ は対数依存を隠蔽する。 AdaOFUL をベースとして線形 MDP に対する VARA を提案する。これは$\widetilde{\mathcal{O}}(d\sqrt{H\mathcal{G}^*K})$ のより厳密な分散を考慮した後悔境界を実現する。 ここで、$H$ はエピソードの長さであり、$K$ はエピソード数であり、$\mathcal{G}^*$ は MDP 上の追加構造条件が満たされると、他のインスタンス依存量によって束縛される小さなインスタンス依存量である。 1) より厳密なインスタンス依存量に依存し、$d$と$H$に最適な依存を持ち、(2) MDP上の追加構造条件の下でさらに$\mathcal{G}^*$のインスタンス依存境界を得ることができ、(3) 報酬が有限分散しか持たない場合でも、後悔境界は有効である。 全体として、修正した適応型フーバー回帰アルゴリズムは、重み付き報酬を伴うオンライン問題に対するアルゴリズムの設計において有用な構成要素となるかもしれない。

This paper presents two algorithms, AdaOFUL and VARA, for online sequential decision-making in the presence of heavy-tailed rewards with only finite variances. For linear stochastic bandits, we address the issue of heavy-tailed rewards by modifying the adaptive Huber regression and proposing AdaOFUL. AdaOFUL achieves a state-of-the-art regret bound of $\widetilde{\mathcal{O}}\big(d\big(\sum_{t=1}^T \nu_{t}^2\big)^{1/2}+d\big)$ as if the rewards were uniformly bounded, where $\nu_{t}^2$ is the observed conditional variance of the reward at round $t$, $d$ is the feature dimension, and $\widetilde{\mathcal{O}}(\cdot)$ hides logarithmic dependence. Building upon AdaOFUL, we propose VARA for linear MDPs, which achieves a tighter variance-aware regret bound of $\widetilde{\mathcal{O}}(d\sqrt{H\mathcal{G}^*K})$. Here, $H$ is the length of episodes, $K$ is the number of episodes, and $\mathcal{G}^*$ is a smaller instance-dependent quantity that can be bounded by other instance-dependent quantities when additional structural conditions on the MDP are satisfied. Our regret bound is superior to the current state-of-the-art bounds in three ways: (1) it depends on a tighter instance-dependent quantity and has optimal dependence on $d$ and $H$, (2) we can obtain further instance-dependent bounds of $\mathcal{G}^*$ under additional structural conditions on the MDP, and (3) our regret bound is valid even when rewards have only finite variances, achieving a level of generality unmatched by previous works. Overall, our modified adaptive Huber regression algorithm may serve as a useful building block in the design of algorithms for online problems with heavy-tailed rewards.
翻訳日:2023-03-13 16:45:18 公開日:2023-03-09
# 誤った教訓を学習する:知識蒸留におけるトロイの木馬の挿入

Learning the Wrong Lessons: Inserting Trojans During Knowledge Distillation ( http://arxiv.org/abs/2303.05593v1 )

ライセンス: Link先を確認
Leonard Tang, Tom Shlomi, Alexander Cai(参考訳) 近年、知識蒸留は効率的な機械学習の基盤となり、研究室や産業は知識蒸留を利用して安価で資源に最適化されたモデルを訓練している。 トロイの木馬の攻撃は、ディープラーニングモデルの基本的脆弱性を明らかにし、同時に顕著に有名になった。 本研究では,教師の目立たない行動を導入することなく,生徒モデルにトロイの木馬を組み込むために,ラベルのないデータ知識蒸留プロセスを活用することを目的とする。 最終的に、生徒の精度を効果的に低減し、教師のパフォーマンスを変えず、実際に効率的に構築可能なトロイア攻撃を考案する。

In recent years, knowledge distillation has become a cornerstone of efficiently deployed machine learning, with labs and industries using knowledge distillation to train models that are inexpensive and resource-optimized. Trojan attacks have contemporaneously gained significant prominence, revealing fundamental vulnerabilities in deep learning models. Given the widespread use of knowledge distillation, in this work we seek to exploit the unlabelled data knowledge distillation process to embed Trojans in a student model without introducing conspicuous behavior in the teacher. We ultimately devise a Trojan attack that effectively reduces student accuracy, does not alter teacher performance, and is efficiently constructible in practice.
翻訳日:2023-03-13 16:44:23 公開日:2023-03-09
# SOCIALGYM 2.0:共有空間におけるマルチエージェント社会ロボットナビゲーションシミュレータ

SOCIALGYM 2.0: Simulator for Multi-Agent Social Robot Navigation in Shared Human Spaces ( http://arxiv.org/abs/2303.05584v1 )

ライセンス: Link先を確認
Zayne Sprague, Rohan Chandra, Jarrett Holtz, Joydeep Biswas(参考訳) ソーシャルロボット研究のためのマルチエージェントナビゲーションシミュレータSocialGym 2を提案する。 シミュレータは複数の自律エージェントをモデル化し、戸口、廊下、交差点、ラウンドアラウンドなど複雑な環境で実世界のダイナミクスを再現します。 オープンスペースで基本的な運動的制約を持つ単一ロボットに集中する従来のシミュレータとは異なり、socialgym 2はマルチエージェント強化学習(marl)を使用して複雑な環境で多様な動的制約を持つ複数のロボットの最適なナビゲーションポリシーを開発する。 PettingZoo MARLライブラリとStable Baselines3 API上に構築されたSocialGym 2は、ROSメッセージングを通じてナビゲーションスタックと統合されたアクセス可能なピソンインターフェースを提供する。 SocialGym 2は簡単にインストールでき、dockerコンテナにパッケージ化でき、異なるMARLアルゴリズムを交換して評価したり、観察と報酬関数をカスタマイズすることができる。 また、ユーザが独自の環境を作成できるスクリプトを提供し、様々なソーシャルナビゲーションアルゴリズムを使ってベンチマークを行い、幅広いソーシャルナビゲーションメトリクスを報告しています。 projected host at: https://amrl.cs.utexas.edu/social_gym/index.html

We present SocialGym 2, a multi-agent navigation simulator for social robot research. Our simulator models multiple autonomous agents, replicating real-world dynamics in complex environments, including doorways, hallways, intersections, and roundabouts. Unlike traditional simulators that concentrate on single robots with basic kinematic constraints in open spaces, SocialGym 2 employs multi-agent reinforcement learning (MARL) to develop optimal navigation policies for multiple robots with diverse, dynamic constraints in complex environments. Built on the PettingZoo MARL library and Stable Baselines3 API, SocialGym 2 offers an accessible python interface that integrates with a navigation stack through ROS messaging. SocialGym 2 can be easily installed and is packaged in a docker container, and it provides the capability to swap and evaluate different MARL algorithms, as well as customize observation and reward functions. We also provide scripts to allow users to create their own environments and have conducted benchmarks using various social navigation algorithms, reporting a broad range of social navigation metrics. Projected hosted at: https://amrl.cs.utexas.edu/social_gym/index.html
翻訳日:2023-03-13 16:44:11 公開日:2023-03-09
# 解析に基づく圧縮センシングのための展開ネットワークの一般化解析

Generalization analysis of an unfolding network for analysis-based Compressed Sensing ( http://arxiv.org/abs/2303.05582v1 )

ライセンス: Link先を確認
Vicky Kouni, Yannis Panagakis(参考訳) 展開ネットワークは圧縮センシング(cs)の分野で有望な結果を示している。 しかし、その一般化能力に関する調査はまだ初期段階にある。 本稿では,CSデコーダと冗長な冗長解析演算子を共同で学習する,最先端ADMMベースの展開ネットワークの一般化解析を行う。 この目的のために、我々はまずネットワークの仮説クラスをパラメータ化する学習可能なスパーシファイザに構造的制約を課す。 後者については、Radecherの複雑さを見積もる。 この推定を手元に,検討したネットワークに対して一般化誤差境界を提示する。 最後に,本理論の有効性を評価し,合成および実世界のデータセットに基づいて,最先端の展開ネットワークとの比較を行った。 実験の結果,提案するフレームワークは理論的な結果に適合し,全てのデータセットに対して一貫してベースラインを上回ります。

Unfolding networks have shown promising results in the Compressed Sensing (CS) field. Yet, the investigation of their generalization ability is still in its infancy. In this paper, we perform generalization analysis of a state-of-the-art ADMM-based unfolding network, which jointly learns a decoder for CS and a sparsifying redundant analysis operator. To this end, we first impose a structural constraint on the learnable sparsifier, which parametrizes the network's hypothesis class. For the latter, we estimate its Rademacher complexity. With this estimate in hand, we deliver generalization error bounds for the examined network. Finally, the validity of our theory is assessed and numerical comparisons to a state-of-the-art unfolding network are made, on synthetic and real-world datasets. Our experimental results demonstrate that our proposed framework complies with our theoretical findings and outperforms the baseline, consistently for all datasets.
翻訳日:2023-03-13 16:43:50 公開日:2023-03-09
# 適応的負のサンプルを用いたオープンワールド分類

Open World Classification with Adaptive Negative Samples ( http://arxiv.org/abs/2303.05581v1 )

ライセンス: Link先を確認
Ke Bai, Guoyin Wang, Jiwei Li, Sunghyun Park, Sungjin Lee, Puyang Xu, Ricardo Henao, Lawrence Carin(参考訳) オープンワールド分類は、自然言語処理における重要な実践的妥当性と影響を伴う課題である。 オープンあるいは「未知」のカテゴリデータは推論フェーズでのみ現れるため、既知のクラスの識別とオープンカテゴリの識別に適応する適切な決定境界を持つモデルを見つけることは困難である。 既存のモデルのパフォーマンスは、トレーニングステージにおける効果的なオープンカテゴリデータの欠如や、適切な決定境界を学ぶための適切なメカニズムの欠如によって制限される。 本稿では, 学習段階において, 事前知識や外部データセットを必要とせず, 効果的な合成オープンカテゴリサンプルを生成するために設計された, アンダーライン{a}daptive \underline{n}egative \underline{s}amples (ANS) に基づくアプローチを提案する。 実験では, 生成した負のサンプルを効果的に活用し, 従来の作業における複雑なしきい値参照ステージを避けるために, 補助的な1-versus-restバイナリ分類器を使用するという大きな利点を見出した。 3つのベンチマークデータセットに対する大規模な実験は、ANSが最先端の手法よりも大幅に改善されていることを示している。

Open world classification is a task in natural language processing with key practical relevance and impact. Since the open or {\em unknown} category data only manifests in the inference phase, finding a model with a suitable decision boundary accommodating for the identification of known classes and discrimination of the open category is challenging. The performance of existing models is limited by the lack of effective open category data during the training stage or the lack of a good mechanism to learn appropriate decision boundaries. We propose an approach based on \underline{a}daptive \underline{n}egative \underline{s}amples (ANS) designed to generate effective synthetic open category samples in the training stage and without requiring any prior knowledge or external datasets. Empirically, we find a significant advantage in using auxiliary one-versus-rest binary classifiers, which effectively utilize the generated negative samples and avoid the complex threshold-seeking stage in previous works. Extensive experiments on three benchmark datasets show that ANS achieves significant improvements over state-of-the-art methods.
翻訳日:2023-03-13 16:43:37 公開日:2023-03-09
# 畳み込み型クロスビューポーズ推定

Convolutional Cross-View Pose Estimation ( http://arxiv.org/abs/2303.05915v1 )

ライセンス: Link先を確認
Zimin Xia, Olaf Booij, and Julian F. P. Kooij(参考訳) 本稿では,新しい視点間ポーズ推定手法を提案する。 クェリのローカルエリアをカバーする地上レベルのクェリ画像と空中画像が与えられた場合、クェリの3デグリー・オブ・フリーダムカメラのポーズは、その画像ディスクリプタと、その空中画像内のローカル領域のディスクリプタとのマッチングにより推定される。 方向認識ディスクリプタは、変換同変畳み込み基底画像エンコーダとコントラスト学習とを用いて得られる。 ローカライズデコーダは、新しいローカライズマッチングアップサンプリングモジュールと共に、粗〜微妙な方法で高密度確率分布を生成する。 より小さなオリエンテーションデコーダは、ローカライゼーションに向き推定を条件付けるベクトル場を生成する。 提案手法は,VIGORとKITTIのデータセットで検証され,最先端のベースラインを72%,中央値のローカライゼーション誤差が36%の精度で上回っている。 予測確率分布は局所的曖昧性を表すことができ、誤った予測を拒否することができる。 再トレーニングを行わなければ、異なる視野を持つ地上画像を推論し、利用可能であればオリエンテーション優先を利用することができる。 オックスフォード・ロボットカーデータセットでは,1m以下で中央位置推定誤差を,14fpsで1度前後で中央方向誤差を算出し,経時的に ego-vehicle の姿勢を確実に推定する。

We propose a novel end-to-end method for cross-view pose estimation. Given a ground-level query image and an aerial image that covers the query's local neighborhood, the 3 Degrees-of-Freedom camera pose of the query is estimated by matching its image descriptor to descriptors of local regions within the aerial image. The orientation-aware descriptors are obtained by using a translational equivariant convolutional ground image encoder and contrastive learning. The Localization Decoder produces a dense probability distribution in a coarse-to-fine manner with a novel Localization Matching Upsampling module. A smaller Orientation Decoder produces a vector field to condition the orientation estimate on the localization. Our method is validated on the VIGOR and KITTI datasets, where it surpasses the state-of-the-art baseline by 72% and 36% in median localization error for comparable orientation estimation accuracy. The predicted probability distribution can represent localization ambiguity, and enables rejecting possible erroneous predictions. Without re-training, the model can infer on ground images with different field of views and utilize orientation priors if available. On the Oxford RobotCar dataset, our method can reliably estimate the ego-vehicle's pose over time, achieving a median localization error under 1 meter and a median orientation error of around 1 degree at 14 FPS.
翻訳日:2023-03-13 15:03:15 公開日:2023-03-09
# オンライン学習における確率的側情報の価値について

On the Value of Stochastic Side Information in Online Learning ( http://arxiv.org/abs/2303.05914v1 )

ライセンス: Link先を確認
Junzhang Jia, Xuetong Wu, Jingge Zhu, and Jamie Evans(参考訳) 決定論的オンライン学習シナリオにおける確率的側情報の有効性について検討する。 本稿では,その性能をエキスパートクラスに対して評価する決定論的シーケンスを予測可能な予測器を提案する。 特定の確率的側面情報は、予測者には提供できるが専門家には提供されないと仮定する。 我々は,予測器の性能を評価するための最小限の後悔を定義し,上限値と下限値の両方を求める。 その結果,確率的側面情報による後悔の改善を特徴付けることができた。 従来のオンライン学習問題とO(\sqrt(n))と比較すると,確率的側情報が専門家よりも強力である場合には,後悔は否定的である。 そこで本稿では,提案手法を2種類の側面情報の具体的な例に適用する。

We study the effectiveness of stochastic side information in deterministic online learning scenarios. We propose a forecaster to predict a deterministic sequence where its performance is evaluated against an expert class. We assume that certain stochastic side information is available to the forecaster but not the experts. We define the minimax expected regret for evaluating the forecasters performance, for which we obtain both upper and lower bounds. Consequently, our results characterize the improvement in the regret due to the stochastic side information. Compared with the classical online learning problem with regret scales with O(\sqrt(n)), the regret can be negative when the stochastic side information is more powerful than the experts. To illustrate, we apply the proposed bounds to two concrete examples of different types of side information.
翻訳日:2023-03-13 15:02:50 公開日:2023-03-09
# 平均場最適制御問題としてのODE-Netの変分定式化とその存在結果

Variational formulations of ODE-Net as a mean-field optimal control problem and existence results ( http://arxiv.org/abs/2303.05924v1 )

ライセンス: Link先を確認
Noboru Isobe, Mizuho Okumura(参考訳) 本稿では,ディープニューラルネットワーク(DNN)の連続体モデルであるODE-Netの数学的解析を行う。 近年、機械学習の研究者たちは、DNNの深い構造をODEに置き換えるアイデアを連続的な制限として導入している。 これらの研究は、ODE-Netの「学習」をパラメトリックODEによって制約された「ロス」の最小化とみなしている。 この最小化問題に対する最小化器の存在を仮定する必要があるが、その存在を詳細に分析する研究はごくわずかである。 本稿では,量論的平均場最適制御問題としてODE-Netの定式化に基づいて,最小化器の存在について論じる。 ODE-Netのベクトル場を記述するニューラルネットワークが学習可能なパラメータに対して線形である場合、その存在が証明される。 この証明は測度理論の定式化と変分計算の直接的な方法を組み合わせたものである。 次に、上述の線形性仮定を取り除くために、理想化最小化問題を提案する。 このような問題は、ベナモ-ブレーニエの公式とニューラルネットワークの普遍近似定理に付随する運動正則化にインスパイアされている。 これらの存在の証明は変分法、微分方程式、平均場最適制御理論を用いる。 彼らは、ディープニューラルネットワークの学習過程を研究するための、新しい分析方法を模索する。

This paper presents a mathematical analysis of ODE-Net, a continuum model of deep neural networks (DNNs). In recent years, Machine Learning researchers have introduced ideas of replacing the deep structure of DNNs with ODEs as a continuum limit. These studies regard the "learning" of ODE-Net as the minimization of a "loss" constrained by a parametric ODE. Although the existence of a minimizer for this minimization problem needs to be assumed, only a few studies have investigated its existence analytically in detail. In the present paper, the existence of a minimizer is discussed based on a formulation of ODE-Net as a measure-theoretic mean-field optimal control problem. The existence result is proved when a neural network, which describes a vector field of ODE-Net, is linear with respect to learnable parameters. The proof employs the measure-theoretic formulation combined with the direct method of Calculus of Variations. Secondly, an idealized minimization problem is proposed to remove the above linearity assumption. Such a problem is inspired by a kinetic regularization associated with the Benamou--Brenier formula and universal approximation theorems for neural networks. The proofs of these existence results use variational methods, differential equations, and mean-field optimal control theory. They will stand for a new analytic way to investigate the learning process of deep neural networks.
翻訳日:2023-03-13 14:52:53 公開日:2023-03-09
# 5つのスピン S = 1 の量子プロセッサ上の3つの群へのクラスタリング : 共鳴RF場のパルスによって制御される

Clustering into three groups on a quantum processor of five spins S = 1, controlled by pulses of resonant RF fields ( http://arxiv.org/abs/2303.05921v1 )

ライセンス: Link先を確認
I.S. Pichkovskiy and V.E. Zobov(参考訳) スピンS=1で表される5つの量子トリットに基づく量子プロセッサを、隣接レベル間の遷移において選択的に無線周波数(RF)パルスによって駆動する。 6点の集合を3つのグループに分割する例において,量子断熱クラスタリングアルゴリズムの実装の数値シミュレーションを行った。 我々は、長方形RFパルスの振幅と持続時間と、制御パルス列における自由エボリューオン間隔の持続時間を見いだし、離散時間近似において時間依存的な有効ハミルトニアンを設計できるようにした。 また,実装精度のpa-rameters依存性についても検討した。 四重極核をクエトリットとしたが、得られた結果は、他の系で表されるクエトリットに基づいて量子プロセサーを制御するのに有用である。

We consider a quantum processor based on five qutrits represented by spins S=1, which is driven by radio fre-quency (RF) pulses selective in transitions between adjacent levels. Numerical simulation of the implementation of the quantum-adiabatic clustering algorithm was performed on the example of partitioning a set of six points into three groups. We find the amplitudes and durations of rectangular RF pulses, as well as the durations of free evolu-tion intervals in the control pulse sequence, which made it possible to engineer a time-dependent effective Hamilto-nian in the discrete-time approximation. Also we studied the dependence of the implementation fidelity on the pa-rameters. We took quadrupole nuclei as qutrits, but the results obtained will be useful for controlling quantum pro-cessors based on qutrits represented by other systems.
翻訳日:2023-03-13 14:52:36 公開日:2023-03-09
# 階層型ニューラルプログラム合成

Hierarchical Neural Program Synthesis ( http://arxiv.org/abs/2303.06018v1 )

ライセンス: Link先を確認
Linghan Zhong, Ryan Lindeborg, Jesse Zhang, Joseph J. Lim, Shao-Hua Sun(参考訳) プログラム合成は、入力/出力ペアやデモなど、与えられたタスク仕様を満たすヒューマン可読プログラムを自動構築することを目的としている。 最近の研究は、文字列変換、テンソル操作、エンボディエージェントの挙動記述など、様々な領域において奨励的な結果を示している。 既存のプログラム合成手法の多くは、プログラムをスクラッチから合成し、トークンごとにプログラムトークンを生成するように設計されている。 これにより、これらの手法が、より長く、あるいはより複雑なプログラムを合成するためにスケールアップするのを防ぐことができる。 本稿では,プログラムを階層的に構成することでプログラムを合成するスケーラブルなプログラム合成フレームワークを提案する。 具体的には、まず、プログラムに埋め込まれたタスクをデコードできるタスク埋め込み空間とプログラムデコーダを学習します。 次に、タスク仕様(例えば入出力ペアやデモ)を長いプログラムから理解するために高レベルモジュールを訓練し、一連のタスク埋め込みを生成し、プログラムデコーダによってデコードされ、合成されたプログラムを生成する。 我々は、入出力対を持つ文字列変換ドメインにおいて提案フレームワークを広範囲に評価した。 実験の結果,提案フレームワークは,従来のプログラム合成作業で検討されたプログラムよりもはるかに長く,複雑であるプログラムを合成可能であることが示された。 webサイトはhttps://thoughtp0lice.github.io/hnps_web/

Program synthesis aims to automatically construct human-readable programs that satisfy given task specifications, such as input/output pairs or demonstrations. Recent works have demonstrated encouraging results in a variety of domains, such as string transformation, tensor manipulation, and describing behaviors of embodied agents. Most existing program synthesis methods are designed to synthesize programs from scratch, generating a program token by token, line by line. This fundamentally prevents these methods from scaling up to synthesize programs that are longer or more complex. In this work, we present a scalable program synthesis framework that instead synthesizes a program by hierarchically composing programs. Specifically, we first learn a task embedding space and a program decoder that can decode a task embedding into a program. Then, we train a high-level module to comprehend the task specification (e.g., input/output pairs or demonstrations) from long programs and produce a sequence of task embeddings, which are then decoded by the program decoder and composed to yield the synthesized program. We extensively evaluate our proposed framework in a string transformation domain with input/output pairs. The experimental results demonstrate that the proposed framework can synthesize programs that are significantly longer and more complex than the programs considered in prior program synthesis works. Website at https://thoughtp0lice.github.io/hnps_web/
翻訳日:2023-03-13 14:36:56 公開日:2023-03-09
# 時間的選択における射影バイアスのモデル化:予測理論に基づくアプローチ

Modelling Projection Bias in Intertemporal Choices: A Prospect Theory Based Approach ( http://arxiv.org/abs/2303.06016v1 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 購入時には、フル価格で1つのアイテムを購入するか、ディスカウントでバンドルを購入するかの2つの選択肢を選択する必要がある。 このシナリオでは、ユーザの選好は通常、投射バイアスに影響される。つまり、ユーザは、自分の将来の選好が現在の選好とよく似ていると信じ、不合理で近視的な決定をする。 プロジェクションバイアスがユーザの嗜好に及ぼす影響を分析することは非常に重要であり,本研究はユーザの意思決定過程を理解し,販売者へのバンドルと価格戦略を提供する。 先行研究は通常、定性解析に線形バイアスモデルを用いるが、ユーザの非線形バイアスやパーソナライズバイアスを定量的に計算することはできない。 本研究では,ユーザの選択を正確に予測するプロジェクションバイアス埋め込み選好モデルpobeを提案する。 提案するpobeは,ユーザの不合理な判断を分析するための予測理論を導入し,非線形・パーソナライズバイアスを扱うために重み関数を利用する。 また,提案するpobeに基づいて,商品の相関や割引価格がユーザの選択に与える影響について検討し,4つのバンドル戦略を提案する。 実験の結果,提案手法は,特に小型データしか利用できない場合において,従来の手法よりも優れた性能が得られることがわかった。

Users often face bundle promotions when purchasing, where they have to select between two options: buy the single item at full price, or buy the bundle at a discount. In this scenario, users' preferences are usually influenced by the projection bias, that is, users often believe that their future preferences are similar to their current preferences, causing them to make irrational and short-sighted decisions. It is of great significance to analyze the effect of the projection bias on users' preferences, and this study may help understand users' decision-making process and provide bundling and pricing strategies for sellers. Prior works typically use a linear bias model for qualitative analysis, and they cannot quantitatively calculate users' nonlinear and personalized bias. In this work, we propose Pobe, a projection bias-embedded preference model to accurately predict users' choices. The proposed Pobe introduces the prospect theory to analyze users' irrational decisions, and utilizes the weight function to handle users' nonlinear and personalized bias. Based on the proposed Pobe, we also study the impact of items' correlations or discount prices on users' choices, and provide four bundling strategies. Experimental results show that the proposed method can achieve better performance than prior works, especially when only small data is available.
翻訳日:2023-03-13 14:36:36 公開日:2023-03-09
# 自殺リスク評価における説明可能な人工知能の分析と評価

Analysis and Evaluation of Explainable Artificial Intelligence on Suicide Risk Assessment ( http://arxiv.org/abs/2303.06052v1 )

ライセンス: Link先を確認
Hao Tang, Aref Miri Rekavandi, Dharjinder Rooprai, Girish Dwivedi, Frank Sanfilippo, Farid Boussaid, Mohammed Bennamoun(参考訳) 本研究では,自殺リスクを予測し,その原因を特定するために,説明可能な人工知能(XAI)技術の有効性を検討した。 データ拡張技術とMLモデルは、関連するリスクを予測するために使用される。 さらに、SHAP(SHapley Additive exPlanations)と相関解析を用いて、予測における変数の重要性をランク付けする。 実験の結果,決定木 (DT), ランダムフォレスト (RF), およびeXtreme Gradient Boosting (XGBoost) モデルが最も優れた結果を得た一方, DTは95:23%, エリアアンダーカーブ (AUC) は0.95であった。 SHAPの結果によると、怒りの問題、抑うつ、社会的孤立が自殺のリスクを予測する主要な変数であり、優れた収入を持つ患者、尊敬された職業、大学教育が最もリスクが少ない。 その結果、自殺リスク予測のための機械学習とxaiフレームワークの有効性が示され、精神科医が複雑な人間の行動を理解するのを助け、信頼性の高い臨床意思決定を支援することができる。

This study investigates the effectiveness of Explainable Artificial Intelligence (XAI) techniques in predicting suicide risks and identifying the dominant causes for such behaviours. Data augmentation techniques and ML models are utilized to predict the associated risk. Furthermore, SHapley Additive exPlanations (SHAP) and correlation analysis are used to rank the importance of variables in predictions. Experimental results indicate that Decision Tree (DT), Random Forest (RF) and eXtreme Gradient Boosting (XGBoost) models achieve the best results while DT has the best performance with an accuracy of 95:23% and an Area Under Curve (AUC) of 0.95. As per SHAP results, anger problems, depression, and social isolation are the leading variables in predicting the risk of suicide, and patients with good incomes, respected occupations, and university education have the least risk. Results demonstrate the effectiveness of machine learning and XAI framework for suicide risk prediction, and they can assist psychiatrists in understanding complex human behaviours and can also assist in reliable clinical decision-making.
翻訳日:2023-03-13 14:27:26 公開日:2023-03-09
# 脳波信号を用いたニューラルネットワークとトランスフォーマによるうつ病診断と薬物応答予測

Depression Diagnosis and Drug Response Prediction via Recurrent Neural Networks and Transformers Utilizing EEG Signals ( http://arxiv.org/abs/2303.06033v1 )

ライセンス: Link先を確認
Abdolkarim Saeedi, Arash Maghsoudi, Fereidoun Nowshiravan Rahatabad(参考訳) うつ病の早期診断と治療は効果的な治療に不可欠である。 うつ病は最も一般的な精神疾患の1つであるが、研究と臨床の両方ではまだ理解されていない。 様々な治療において、処方薬は広く用いられているが、多くの患者には有効ではない。 本研究では,大うつ病(MDD)の診断法と,脳波信号を用いたMDD患者の薬物応答の予測法を提案する。 方法: 時系列の時間依存性を効果的に評価するために,新しいアーキテクチャを持つ再帰的ニューラルネットワークを改良したトランスフォーマーを用いる。 また,このモデルを,CNN,LSTM,CNN-LSTMなどのよく知られたディープラーニング手法と比較する。 結果: 変圧器は平均99.41%のリコールと97.14%の精度で正常とmddを分類できる。 さらに、トランスフォーマーは反応剤や非応答薬の分類にも優れ、97.01%の精度と97.76%のリコールが得られた。 結論: 同様のパラメータの他の手法よりも, スクリーニングツールとして, 早期診断および治療のためのMDD患者の評価において, 医療専門家を支援する可能性が示唆された。 意義: 時系列の時間依存性を調べるために再帰的モデルを新しい構造に置き換えたトランスフォーマーを用いた脳波信号解析が本研究の主な新規性である。

The Early diagnosis and treatment of depression is essential for effective treatment. Depression, while being one of the most common mental illnesses, is still poorly understood in both research and clinical practice. Among different treatments, drug prescription is widely used, however the drug treatment is not effective for many patients. In this work, we propose a method for major depressive disorder (MDD) diagnosis as well as a method for predicting the drug response in patient with MDD using EEG signals. Method: We employ transformers, which are modified recursive neural networks with novel architecture to evaluate the time dependency of time series effectively. We also compare the model to the well-known deep learning schemes such as CNN, LSTM and CNN-LSTM. Results: The transformer achieves an average recall of 99.41% and accuracy of 97.14% for classifying normal and MDD subjects. Furthermore, the transformer also performed well in classifying responders and non-responders to the drug, resulting in 97.01% accuracy and 97.76% Recall. Conclusion: Outperforming other methods on a similar number of parameters, the suggested technique, as a screening tool, seems to have the potential to assist health care professionals in assessing MDD patients for early diagnosis and treatment. Significance: Analyzing EEG signal analysis using transformers, which have replaced the recursive models as a new structure to examine the time dependence of time series, is the main novelty of this research.
翻訳日:2023-03-13 14:25:43 公開日:2023-03-09
# I Tag, You Tag, Everybody Tags!

I Tag, You Tag, Everybody Tags! ( http://arxiv.org/abs/2303.06073v1 )

ライセンス: Link先を確認
Hazem Ibrahim, Rohail Asim, Matteo Varvello, Yasir Zaki(参考訳) 位置情報タグは個人持ち物の追跡を可能にする。 これは、例えばBluetoothとペアの電話でローカルに達成され、タグに近づいた位置情報レポート装置によって報告された位置をピギーバックすることでリモートで達成される。 位置情報タグが人をストーカーするのに悪用されているという逸話もある。 本稿は,Apple の AirTag と Samsung の SmartTag の2つの人気ロケーションタグのパフォーマンスについて,ロケーションレポートデバイスを多数配布したコントロール実験と,Wild 内実験を行い,発生したレポートデバイスの数や種類を制御せずに,実生活のユースケースをエミュレートする。 どちらのタグも同様の性能を示しており、例えば、半径100m以内の約10分で60%の速度で位置する。 位置タグによるリアルタイムストーキングは,両タグが同時にデプロイされたとしても非現実的であり,半分の時間で同等の精度を達成している。 それでも、被害者の動作の半分は、わずか1時間遅れで正確に(10メートルの誤差)バックトラックできる。

Location tags enable tracking of personal belongings. This is achieved locally, e.g., via Bluetooth with a paired phone, and remotely, by piggybacking on the location reported by location-reporting devices which come into proximity of a tag. There has been anecdotal evidence that location tags are also misused to stalk people. This paper studies the performance of the two most popular location tags (Apple's AirTag and Samsung's SmartTag) through controlled experiments -- with a known large distribution of location-reporting devices -- as well as in-the-wild experiments -- with no control on the number and kind of reporting devices encountered, thus emulating real-life use-cases. We find that both tags achieve similar performance, e.g., they are located 60% of the times in about 10 minutes within a 100 meter radius. It follows that real time stalking via location tags is impractical, even when both tags are concurrently deployed which achieves comparable accuracy in half the time. Nevertheless, half of a victim's movements can be backtracked accurately (10 meter error) with just a one-hour delay.
翻訳日:2023-03-13 14:17:25 公開日:2023-03-09
# 高表現類似度モデルを用いたマカクとマウスの視覚経路を有するディープスパイキングニューラルネットワーク

Deep Spiking Neural Networks with High Representation Similarity Model Visual Pathways of Macaque and Mouse ( http://arxiv.org/abs/2303.06060v1 )

ライセンス: Link先を確認
Liwei Huang, Zhengyu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian(参考訳) 深層人工神経ネットワーク(ANN)は霊長類とネズミの視覚経路をモデル化する上で重要な役割を果たしている。 しかし、ニューロンの計算特性を生物学的に比較すると非常に単純化する。 スパイキングニューラルネットワーク(SNN)は、スパイキングニューロンが生物学的ニューロンと同じようにスパイクの時系列で情報をエンコードするので、生物学的にもっとも有効なモデルだ。 しかし、深部snsモデルを用いた視覚経路の研究が不足している。 本研究では,視覚野を初めて深部snsでモデル化し,それに加えて,最先端の深部cnnとvitsの比較を行った。 3つの類似度指標を用いて、2つの種から収集された3つの神経データセットを3種類の刺激で神経表現類似度実験を行う。 広範な類似性分析に基づき,本研究は種間の機能的階層と機構についてさらに検討する。 SNNのほぼ全ての類似度スコアは、平均6.6%のCNNよりも高い。 最も類似度が高い層の深さは、マウスの皮質領域ではほとんど差がないが、マカク領域ではかなり異なるため、マウスの視覚処理構造はマカクより局所的に均質であることが示唆された。 さらに、マウス上層脳のようなニューラルネットワークで観察されるマルチブランチ構造は、マウスにおける並列処理ストリームの計算的証拠を提供し、異なる刺激下でのマカク神経表現の適合性は、マカクにおける情報処理の機能的特殊化を示す。 本研究は,SNNが視覚系の機能的階層と機構をモデル化し,説明するための有望な候補として機能することを示す。

Deep artificial neural networks (ANNs) play a major role in modeling the visual pathways of primate and rodent. However, they highly simplify the computational properties of neurons compared to their biological counterparts. Instead, Spiking Neural Networks (SNNs) are more biologically plausible models since spiking neurons encode information with time sequences of spikes, just like biological neurons do. However, there is a lack of studies on visual pathways with deep SNNs models. In this study, we model the visual cortex with deep SNNs for the first time, and also with a wide range of state-of-the-art deep CNNs and ViTs for comparison. Using three similarity metrics, we conduct neural representation similarity experiments on three neural datasets collected from two species under three types of stimuli. Based on extensive similarity analyses, we further investigate the functional hierarchy and mechanisms across species. Almost all similarity scores of SNNs are higher than their counterparts of CNNs with an average of 6.6%. Depths of the layers with the highest similarity scores exhibit little differences across mouse cortical regions, but vary significantly across macaque regions, suggesting that the visual processing structure of mice is more regionally homogeneous than that of macaques. Besides, the multi-branch structures observed in some top mouse brain-like neural networks provide computational evidence of parallel processing streams in mice, and the different performance in fitting macaque neural representations under different stimuli exhibits the functional specialization of information processing in macaques. Taken together, our study demonstrates that SNNs could serve as promising candidates to better model and explain the functional hierarchy and mechanisms of the visual system.
翻訳日:2023-03-13 14:16:17 公開日:2023-03-09
# 認知心理学における量子フォーマリズム

Quantum formalism for cognitive psychology ( http://arxiv.org/abs/2303.06055v1 )

ライセンス: Link先を確認
Dorje C Brody(参考訳) 選択すべき範囲に関する心の認知状態は、高次元ヒルベルト空間の要素の観点から、効果的にモデル化することができる。 心の状態のダイナミクスは、量子論のvon Neumann-L\"uders予想によって特徴づけられる。 これは、ベイジアン更新と同等の不確実性最小の動的行動をもたらすことが示されており、脳科学における自由エネルギー原理と一致する認知状態のダイナミクスを特徴づける別のアプローチを提供する。 しかし、量子フォーマリズムは認知行動の説明における古典的推論の適用範囲を超えており、新しい可能性と興味深い可能性を開く。

The cognitive state of mind concerning a range of choices to be made can effectively be modelled in terms of an element of a high-dimensional Hilbert space. The dynamics of the state of mind resulting form information acquisition is characterised by the von Neumann-L\"uders projection postulate of quantum theory. This is shown to give rise to an uncertainty-minimising dynamical behaviour equivalent to the Bayesian updating, hence providing an alternative approach to characterising the dynamics of cognitive state that is consistent with the free energy principle in brain science. The quantum formalism however goes beyond the range of applicability of classical reasoning in explaining cognitive behaviours, thus opens up new and intriguing possibilities.
翻訳日:2023-03-13 14:15:26 公開日:2023-03-09
# パーソナライズしよう: 個人的な質問は、alexa賞のソーシャルボットのパフォーマンスを改善する

Let's Get Personal: Personal Questions Improve SocialBot Performance in the Alexa Prize ( http://arxiv.org/abs/2303.04953v1 )

ライセンス: Link先を確認
Kevin K. Bowden and Marilyn Walker(参考訳) 音声対話コミュニティでは,対話型オープンドメイン対話システムの構築が注目されている。 従来の対話システムとは異なり、これらの会話システムは特定の情報要求やドメイン制限を前提とすることはできない。 自然言語理解(NLU)の大幅な改善と利用可能な知識資源の増加は、部分的には堅牢な会話をサポートすることができるが、これらの会話は一般的に、お互いを知っている2人の人間間のラッピングを欠いている。 私たちは、Alexa Prizeコンペティションの文脈で、実際のAmazon Echoユーザにアクセスし、大規模に評価する、堅牢なオープンドメイン会話システムAthenaを開発しました。 本研究では,現在およびその後の会話をパーソナライズするルールベースのユーザモデルを開発し,A/B研究における特定の個人的意見質問戦略を評価することによって,アテナとユーザ間の親密性を高める方法の実験を行った。 その結果,これらの戦略を用いた場合,会話の質や長さに対する統計的に有意な影響が認められた。

There has been an increased focus on creating conversational open-domain dialogue systems in the spoken dialogue community. Unlike traditional dialogue systems, these conversational systems cannot assume any specific information need or domain restrictions, i.e., the only inherent goal is to converse with the user on an unknown set of topics. While massive improvements in Natural Language Understanding (NLU) and the growth of available knowledge resources can partially support a robust conversation, these conversations generally lack the rapport between two humans that know each other. We developed a robust open-domain conversational system, Athena, that real Amazon Echo users access and evaluate at scale in the context of the Alexa Prize competition. We experiment with methods intended to increase intimacy between Athena and the user by heuristically developing a rule-based user model that personalizes both the current and subsequent conversations and evaluating specific personal opinion question strategies in A/B studies. Our results show a statistically significant positive impact on perceived conversation quality and length when employing these strategies.
翻訳日:2023-03-10 16:41:53 公開日:2023-03-09
# 量子エルゴトロピーと量子フィードバック制御

Quantum Ergotropy and Quantum Feedback Control ( http://arxiv.org/abs/2303.04977v1 )

ライセンス: Link先を確認
Kenta Koshihara, Kazuya Yuasa(参考訳) 一般量子演算による有限次元量子系へのエネルギー抽出と充電について検討する。 単位量子演算によるエネルギー変化は、ユニタリ量子演算に対するエルゴトロピー/チャージ境界によって制限されることを示す。 これは、ユニタリ量子演算のエルゴトロピー/チャージ境界を破るために、フィードバック制御を伴う量子演算を実行する必要があることを意味する。 また,初期熱平衡状態に適用した単位的量子演算のエルゴトロピー/チャージ境界は,熱力学の標準第二法則を表す不等式よりも厳密であることを示した。

We study the energy extraction from and charging to a finite-dimensional quantum system by general quantum operations. We prove that the changes in energy induced by unital quantum operations are limited by the ergotropy/charging bound for unitary quantum operations. This implies that, in order to break the ergotropy/charging bound for unitary quantum operations, one needs to perform a quantum operation with feedback control. We also show that the ergotropy/charging bound for unital quantum operations, applied to initial thermal equilibrium states, is tighter than the inequality representing the standard second law of thermodynamics.
翻訳日:2023-03-10 16:32:09 公開日:2023-03-09
# 近似ラプラスモンテカルロによる曲率知覚予測符号化

Curvature-Sensitive Predictive Coding with Approximate Laplace Monte Carlo ( http://arxiv.org/abs/2303.04976v1 )

ライセンス: Link先を確認
Umais Zahid, Qinghai Guo, Karl Friston, Zafeirios Fountas(参考訳) 予測符号化(predictive coding, pc)は、現在脳の主要な計算理論の1つであり、階層的潜在確率モデル上で推論と学習のための一般的なアルゴリズムを規定している。 それにもかかわらず、彼らは、比較生成モデリング技術が栄えた機械学習の幅広い分野への輸出をほとんど楽しんだ。 これは、PCでトレーニングされたモデルの性能が、サンプルの品質と限界確率の両方で評価されているためである。 ラプラス近似に基づく変分ベイズアルゴリズムとしてpcの視点を採用することで、これらの欠陥の原因を、確率的景観のシャープさを定式化し、近似後続の過確さを防げる、pc目的関数における関連するヘッシアン項の排除にあると同定する。 これを補うために、我々は3つの主要な貢献をする: ヘッセン偏光変分体後部からのサンプリングに依存する単純なモンテカルロ推定証拠を下限に提案することから始める。 次に、メモリ要件が低く、数学的性質が好ましい完全ヘッセン行列に対する新しいブロック対角近似を導出する。 最後に,本手法を標準PCと組み合わせることで,メモリの複雑さをさらに軽減するアルゴリズムを提案する。 画像ベンチマークデータセットの標準PCフレームワークに対するアプローチでトレーニングしたモデルを評価する。 当社の手法は,データ生成分布の多様性をより深く捉えた,より高いログ類似度と質的に優れたサンプルを生成する。

Predictive coding (PC) accounts of perception now form one of the dominant computational theories of the brain, where they prescribe a general algorithm for inference and learning over hierarchical latent probabilistic models. Despite this, they have enjoyed little export to the broader field of machine learning, where comparative generative modelling techniques have flourished. In part, this has been due to the poor performance of models trained with PC when evaluated by both sample quality and marginal likelihood. By adopting the perspective of PC as a variational Bayes algorithm under the Laplace approximation, we identify the source of these deficits to lie in the exclusion of an associated Hessian term in the PC objective function, which would otherwise regularise the sharpness of the probability landscape and prevent over-certainty in the approximate posterior. To remedy this, we make three primary contributions: we begin by suggesting a simple Monte Carlo estimated evidence lower bound which relies on sampling from the Hessian-parameterised variational posterior. We then derive a novel block diagonal approximation to the full Hessian matrix that has lower memory requirements and favourable mathematical properties. Lastly, we present an algorithm that combines our method with standard PC to reduce memory complexity further. We evaluate models trained with our approach against the standard PC framework on image benchmark datasets. Our approach produces higher log-likelihoods and qualitatively better samples that more closely capture the diversity of the data-generating distribution.
翻訳日:2023-03-10 16:31:59 公開日:2023-03-09
# LMR: 参照型スーパーリゾリューションのための大規模マルチリファレンスデータセット

LMR: A Large-Scale Multi-Reference Dataset for Reference-based Super-Resolution ( http://arxiv.org/abs/2303.04970v1 )

ライセンス: Link先を確認
Lin Zhang, Xin Li, Dongliang He, Errui Ding, Zhaoxiang Zhang(参考訳) 参照ベーススーパーレゾリューション(refsr)は、単一画像スーパーレゾリューション(sisr)と比較して、同様の高品質画像を参照することで優れた結果が得られると広く認識されている。 直感的には、参照が多ければ多いほどパフォーマンスが良くなる。 しかし、以前のRefSR手法はいずれも単一参照画像トレーニングに重点を置いており、複数の参照画像はテストや実用的なアプリケーションでしばしば利用できる。 このようなトレーニングテストミスマッチの根本原因は、公開されているマルチ参照SRトレーニングデータセットがないことである。 この目的のために,LMRと呼ばれる大規模マルチ参照超解像データセットを構築した。 300x300のトレーニングイメージの112,142グループが含まれており、これは既存の最大のRefSRデータセットの10倍である。 画像サイズもはるかに大きい。 さらに重要なことに、それぞれのグループには、異なる類似度を持つ5つの参照画像がある。 MRefSRは、任意の数の参照画像の特徴融合のためのマルチ参照注意モジュール(MAM)と、融合した特徴選択のための空間アウェアフィルタリングモジュール(SAFM)を含む、マルチ参照超解像のための新しいベースライン手法を提案する。 提案したMRefSRは,定量評価と定性評価の両面において,最先端のアプローチよりも大幅に改善されている。 コードとデータはすぐに手に入るでしょう。

It is widely agreed that reference-based super-resolution (RefSR) achieves superior results by referring to similar high quality images, compared to single image super-resolution (SISR). Intuitively, the more references, the better performance. However, previous RefSR methods have all focused on single-reference image training, while multiple reference images are often available in testing or practical applications. The root cause of such training-testing mismatch is the absence of publicly available multi-reference SR training datasets, which greatly hinders research efforts on multi-reference super-resolution. To this end, we construct a large-scale, multi-reference super-resolution dataset, named LMR. It contains 112,142 groups of 300x300 training images, which is 10x of the existing largest RefSR dataset. The image size is also much larger. More importantly, each group is equipped with 5 reference images with different similarity levels. Furthermore, we propose a new baseline method for multi-reference super-resolution: MRefSR, including a Multi-Reference Attention Module (MAM) for feature fusion of an arbitrary number of reference images, and a Spatial Aware Filtering Module (SAFM) for the fused feature selection. The proposed MRefSR achieves significant improvements over state-of-the-art approaches on both quantitative and qualitative evaluations. Our code and data would be made available soon.
翻訳日:2023-03-10 16:31:34 公開日:2023-03-09
# MDAESF: 運動誘導型変形性アライメントと高能率時空間自己アテンション固定による正弦波MRI再構成

MDAESF: Cine MRI Reconstruction Based on Motion-Guided Deformable Alignment and Efficient Spatiotemporal Self-Attention Fusion ( http://arxiv.org/abs/2303.04968v1 )

ライセンス: Link先を確認
Xiaoxiang Han, Yiman Liu, Yuanjie Lin, Naiyue Xu, Keyan Chen, Weikun Zhang and Qiaohong Liu(参考訳) cine mriは、時間領域と空間領域の2次元における解剖学的構造と臓器の生理的および病理学的メカニズムの継続的な影響を共同で得ることができる。 通常の2次元の静的MRI画像と比較して、シネMRIの時間次元の情報は多くの重要な情報を含んでいる。 しかし、時間次元の情報は過去の手法ではうまく利用されていない。 時空間情報をフル活用し, 人工物の影響を低減するため, 二次元双方向伝搬, 運動誘導型変形性アライメント, 時空間自己注意融合に基づくシネMRI再構成モデルを提案する。 提案手法は他の高度な手法と比較して,ピーク信号-雑音比 (PSNR) と構造類似度指数 (SSIM) の指標と視覚効果を比較検討し,画像再構成の精度を向上した。 ソースコードはhttps://github.com/GtLinyer/MDAESFで公開されている。

Cine MRI can jointly obtain the continuous influence of the anatomical structure and physiological and pathological mechanisms of organs in the two dimensions of time domain and space domain. Compared with ordinary two-dimensional static MRI images, the information in the time dimension of cine MRI contains many important information. But the information in the temporal dimension is not well utilized in past methods. To make full use of spatiotemporal information and reduce the influence of artifacts, this paper proposes a cine MRI reconstruction model based on second-order bidirectional propagation, motion-guided deformable alignment, and efficient spatiotemporal self-attention fusion. Compared to other advanced methods, our proposed method achieved better image reconstruction quality in terms of peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM) metrics as well as visual effects. The source code will be made available on https://github.com/GtLinyer/MDAESF.
翻訳日:2023-03-10 16:31:13 公開日:2023-03-09
# アクセシビリティデータセットへの貢献:盲人による学習データの共有に関する考察

Contributing to Accessibility Datasets: Reflections on Sharing Study Data by Blind People ( http://arxiv.org/abs/2303.04962v1 )

ライセンス: Link先を確認
Rie Kamikubo, Kyungjun Lee, Hernisa Kacorri(参考訳) aiを組み込んだシステムが障害者に確実に機能するためには、このコミュニティから得られたアクセシビリティデータセットを開発ライフサイクルに導入する必要があります。 しかし、多くの倫理的およびプライバシー上の懸念があるため、そのようなデータセットは容易に利用できない。 そこで本研究では,13名の盲目参加者がデータ収集活動に従事し,aiデータセットを介してデータを共有する決定に影響を及ぼすさまざまな要因を探索することなく反映する。 リスク・ベネフィットのトレードオフを評価する際に、異なる要因が被験者の学習データ共有意欲にどのように影響するかを確認する。 大多数は、技術を改善するためにデータの共有をサポートするが、商用利用、関連するメタデータ、データの影響に関する透明性の欠如に対する懸念も表現している。 これらの知見はアクセシビリティデータセットを管理するための責任あるプラクティスの開発に影響を及ぼし、この分野の幅広い議論に貢献することができる。

To ensure that AI-infused systems work for disabled people, we need to bring accessibility datasets sourced from this community in the development lifecycle. However, there are many ethical and privacy concerns limiting greater data inclusion, making such datasets not readily available. We present a pair of studies where 13 blind participants engage in data capturing activities and reflect with and without probing on various factors that influence their decision to share their data via an AI dataset. We see how different factors influence blind participants' willingness to share study data as they assess risk-benefit tradeoffs. The majority support sharing of their data to improve technology but also express concerns over commercial use, associated metadata, and the lack of transparency about the impact of their data. These insights have implications for the development of responsible practices for stewarding accessibility datasets, and can contribute to broader discussions in this area.
翻訳日:2023-03-10 16:30:57 公開日:2023-03-09
# 量子力学の構成空間密度定式化の非量子挙動

Non-Quantum Behaviors of Configuration-Space Density Formulations of quantum mechanics ( http://arxiv.org/abs/2303.04959v1 )

ライセンス: Link先を確認
Philipp Roser, Matthew T. Scoggins(参考訳) 量子力学のパイロット波定式化とその経験的予測の軌跡は、物理的波動関数に言及せずに、系の構成空間上の密度関数のダイナミクスを介して回復することができる。 我々はそのような定式化の 'CSD フレームワーク' をラベル付けする。 しかし、この結果は、標準量子力学における波動関数の単値性と同値である特定のアドホック条件が課される場合にのみ成立する。 ここでこの条件を緩和します。 量子力学からの逸脱に繋がるシナリオの種類について述べる。 計算モデルを使って、状態の'非量子性'の程度が時間とともにどのように変化するか尋ねる。 非自明な力学の下でも時間的に一定であり、これはウォールストローム条件の動的正当化が成功しそうにないことを意味すると論じる。 しかし, csdフレームワークの定常状態についてもある程度の観察を行い, ウォールストローム条件の正当化の一助となるかもしれない。

The trajectories of the pilot-wave formulation of quantum mechanics and hence its empirical predictions may be recovered via the dynamics of a density function on the configuration space of a system, without reference to a physical wave function. We label such formulations `CSD frameworks.' But this result only holds if a particular, apparently ad hoc condition, broadly speaking equivalent to the single-valuedness of the wave function in standard quantum mechanics, is imposed. Here we relax this condition. We describe the types of scenarios in which this would lead to deviations from quantum mechanics. Using computational models we ask how the degree of `non-quantumness' of a state, suitably defined, changes with time. We find that it remains constant in time even under non-trivial dynamics, and argue that this implies that a dynamical justification of the Wallstrom condition is unlikely to be successful. However, we also make certain observations about stationary states in CSD frameworks, which may offer a way forward in justifying the Wallstrom condition.
翻訳日:2023-03-10 16:30:41 公開日:2023-03-09
# NIFF:Neural Instance Feature Forgingによる汎用Few-Shotオブジェクト検出におけるフォッティングの軽減

NIFF: Alleviating Forgetting in Generalized Few-Shot Object Detection via Neural Instance Feature Forging ( http://arxiv.org/abs/2303.04958v1 )

ライセンス: Link先を確認
Karim Guirguis, Johannes Meier, George Eskandar, Matthias Kayser, Bin Yang, Juergen Beyerer(参考訳) プライバシとメモリは、AIの社会的影響に関する広範な会話において、2つの繰り返しテーマである。 これらの懸念は、ディープニューラルネットワークをトレーニングするための膨大なデータの必要性から生じる。 AIの学習パラダイムであるGeneralized Few-shot Object Detection (G-FSOD)の約束は、古いクラス(ベースクラス)から事前の知識を活用することで、検出したい新しいクラスの豊富なトレーニングサンプルを集める必要性を軽減することである。 G-FSODはこれらの新しいクラスを学習し、基礎クラスの破滅的な忘れを緩和する。 しかし、既存のアプローチでは、ベースイメージがアクセス可能であると仮定しており、データの共有と保存が問題となる。 本稿では,ベースモデルからの関心領域(roi)特徴の統計を活用し,ベース画像にアクセスせずにインスタンスレベルの特徴を偽造する,g-fsodに対する最初のデータフリー知識蒸留(dfkd)手法を提案する。 1)(2)クラスワイドヘッドを備えたスタンドアロン軽量ジェネレータを設計し、新規なデータを微調整しながら、インスタンスレベルの多様な特徴をRoIヘッドに生成・再生する。 これは、ベース画像を生成するためにネットワーク全体を反転させる、イメージ分類における標準的なDFKDアプローチとは対照的である。 さらに,新しい微調整パイプラインで注意深い設計選択を行い,モデルを定式化する。 提案手法は,MS-COCOおよびPASCAL-VOCベンチマーク上でG-FSODの新しい標準を設定しながら,ベースメモリ要件を劇的に削減できることを示す。

Privacy and memory are two recurring themes in a broad conversation about the societal impact of AI. These concerns arise from the need for huge amounts of data to train deep neural networks. A promise of Generalized Few-shot Object Detection (G-FSOD), a learning paradigm in AI, is to alleviate the need for collecting abundant training samples of novel classes we wish to detect by leveraging prior knowledge from old classes (i.e., base classes). G-FSOD strives to learn these novel classes while alleviating catastrophic forgetting of the base classes. However, existing approaches assume that the base images are accessible, an assumption that does not hold when sharing and storing data is problematic. In this work, we propose the first data-free knowledge distillation (DFKD) approach for G-FSOD that leverages the statistics of the region of interest (RoI) features from the base model to forge instance-level features without accessing the base images. Our contribution is three-fold: (1) we design a standalone lightweight generator with (2) class-wise heads (3) to generate and replay diverse instance-level base features to the RoI head while finetuning on the novel data. This stands in contrast to standard DFKD approaches in image classification, which invert the entire network to generate base images. Moreover, we make careful design choices in the novel finetuning pipeline to regularize the model. We show that our approach can dramatically reduce the base memory requirements, all while setting a new standard for G-FSOD on the challenging MS-COCO and PASCAL-VOC benchmarks.
翻訳日:2023-03-10 16:30:23 公開日:2023-03-09
# 音声アシスタントの親制御に向けて

Towards Usable Parental Control for Voice Assistants ( http://arxiv.org/abs/2303.04957v1 )

ライセンス: Link先を確認
Peiyi Yang, Jie Fan, Zice Wei, Haoqian Li, Tu Le, and Yuan Tian(参考訳) ボイスパーソナルアシスタント(VPA)は一般的な家電製品となっている。 VPA技術の主要なプラットフォームのひとつとして、AmazonはAlexaを開発し、子供向けのAmazon Kidsを設計し、VPAの豊富な機能を安全に享受し、親がペアレントダッシュボードを通じて子供の活動を監視するようにした。 このエコシステムは存在するが、親ダッシュボードの利用は親にはまだ普及していない。 本稿では,親による調査を行い,親のコントロール機能について,親の好みや嫌いについて調査する。 親は、子どもの活動、子どものセキュリティ機能へのアクセスの容易化、ユーザーインターフェースの改善など、より視覚的な情報を必要としている。 本調査から得られた知見をもとに,親の期待を鑑み,親のダッシュボードに新たなデザインを提案する。

Voice Personal Assistants (VPA) have become a common household appliance. As one of the leading platforms for VPA technology, Amazon created Alexa and designed Amazon Kids for children to safely enjoy the rich functionalities of VPA and for parents to monitor their kids' activities through the Parent Dashboard. Although this ecosystem is in place, the usage of Parent Dashboard is not yet popularized among parents. In this paper, we conduct a parent survey to find out what they like and dislike about the current parental control features. We find that parents need more visuals about their children's activity, easier access to security features for their children, and a better user interface. Based on the insights from our survey, we present a new design for the Parent Dashboard considering the parents' expectations.
翻訳日:2023-03-10 16:29:55 公開日:2023-03-09
# 時間依存結果関数とドット積を持つブラックウェルのアプローチ可能性。 ビッグマッチへの応用

Blackwell's Approachability with Time-Dependent Outcome Functions and Dot Products. Application to the Big Match ( http://arxiv.org/abs/2303.04956v1 )

ライセンス: Link先を確認
Joon Kwon, Bruno Ziliotto(参考訳) ブラックウェルのアプローチ可能性(blackwell's approachability)は、意思決定者がベクトル値の成果を得る非常に一般的なシーケンシャルな決定フレームワークであり、与えられた「目標」集合への平均結果の収束を目標としている。 ブラックウェルは、敵の環境に対してそのような収束を保証する戦略を持つ意思決定者に十分な条件を与え、我々が現在ブラックウェルのアルゴリズムと呼ぶものを与え、収束を確実にする。 ブラックウェルのアプローチ性は、オンライン学習やゲーム理論、特に多くの問題に応用されてきた。 結果関数とドット積を時間依存で可能にすることで、このフレームワークを拡張します。 我々は、ブラックウェルのアルゴリズムのこの枠組みの自然な拡張に対する一般的な保証を確立する。 対象集合がオルサントである場合、平均結果の座標ごとに異なる収束速度が得られる時間依存ドット積の族を示す。 我々はこのフレームワークをビッグマッチ(確率ゲームにおける最も重要な玩具の例)に適用し、プレイヤーIに対する$\epsilon$-uniformly optimal strategy をブラックウェルのアルゴリズムにより、よく補足的なアプローチ可能性問題で与えられる。

Blackwell's approachability is a very general sequential decision framework where a Decision Maker obtains vector-valued outcomes, and aims at the convergence of the average outcome to a given "target" set. Blackwell gave a sufficient condition for the decision maker having a strategy guaranteeing such a convergence against an adversarial environment, as well as what we now call the Blackwell's algorithm, which then ensures convergence. Blackwell's approachability has since been applied to numerous problems, in online learning and game theory, in particular. We extend this framework by allowing the outcome function and the dot product to be time-dependent. We establish a general guarantee for the natural extension to this framework of Blackwell's algorithm. In the case where the target set is an orthant, we present a family of time-dependent dot products which yields different convergence speeds for each coordinate of the average outcome. We apply this framework to the Big Match (one of the most important toy examples of stochastic games) where an $\epsilon$-uniformly optimal strategy for Player I is given by Blackwell's algorithm in a well-chosen auxiliary approachability problem.
翻訳日:2023-03-10 16:29:43 公開日:2023-03-09
# スマート商業ビルにおけるモノのインターネットデータ収集に対する居住者の認識と通知嗜好の検討

Exploring Smart Commercial Building Occupants' Perceptions and Notification Preferences of Internet of Things Data Collection in the United States ( http://arxiv.org/abs/2303.04955v1 )

ライセンス: Link先を確認
Tu Le, Alan Wang, Yaxing Yao, Yuanyuan Feng, Arsalan Heydarian, Norman Sadeh, and Yuan Tian(参考訳) 商用ビルにおけるIoT(Internet of Things, モノのインターネット)デバイスによるデータ収集は、利便性とエネルギー効率の向上を可能にする。 しかし、このような利点は、建物で働く居住者がデータ収集を理解し信頼する方法が異なるため、実際に実施される際の大きな知覚上の課題に直面している。 スマートな建物におけるデータ収集の半公的、普及的、マルチモーダルな性質は、データ収集と通知の好みに対する住民の理解を研究する必要があることを示している。 スマートな商業ビルで働くことを報告している米国参加者492人を対象に,オンライン調査を行った。 1)スマート商業ビルにおけるデータ収集の意識と認識 2)プライバシ通知の嗜好,及び 3) プライバシ通知選択の潜在的な要因。 参加者の約半数は、IoTデバイスやセンサーの存在に気付いていても、IoTのデータ収集と使用プラクティスを十分に認識していません。 さまざまなデータプラクティスに関する誤解も少なくありません。 参加者の大多数は、スマートな建物におけるデータプラクティスを通知したいと考えており、Webサイトや物理的な兆候といった受動的なものへのプッシュ通知を好んでいる。 驚いたことに、モバイルアプリの通知はスマートホームの人気のあるチャンネルであるにもかかわらず、スマートな商業ビルでは最も好まれない方法だ。

Data collection through the Internet of Things (IoT) devices, or smart devices, in commercial buildings enables possibilities for increased convenience and energy efficiency. However, such benefits face a large perceptual challenge when being implemented in practice, due to the different ways occupants working in the buildings understand and trust in the data collection. The semi-public, pervasive, and multi-modal nature of data collection in smart buildings points to the need to study occupants' understanding of data collection and notification preferences. We conduct an online study with 492 participants in the US who report working in smart commercial buildings regarding: 1) awareness and perception of data collection in smart commercial buildings, 2) privacy notification preferences, and 3) potential factors for privacy notification preferences. We find that around half of the participants are not fully aware of the data collection and use practices of IoT even though they notice the presence of IoT devices and sensors. We also discover many misunderstandings around different data practices. The majority of participants want to be notified of data practices in smart buildings, and they prefer push notifications to passive ones such as websites or physical signs. Surprisingly, mobile app notification, despite being a popular channel for smart homes, is the least preferred method for smart commercial buildings.
翻訳日:2023-03-10 16:29:23 公開日:2023-03-09
# オーディオディープステガノグラフィーのロバスト化に向けて

Towards Robust Image-in-Audio Deep Steganography ( http://arxiv.org/abs/2303.05007v1 )

ライセンス: Link先を確認
Jaume Ros Alonso, Margarita Geleta, Jordi Pons, Xavier Giro-i-Nieto(参考訳) ステガノグラフィーの分野は、最近のAI技術の発展、特に異なる性質の信号における信号の隠蔽を可能にするマルチモーダル設定の文脈によって、関心が高まっている。 全てのステガノグラフィー手法の主な目的は、知覚的透明性、堅牢性、そして古典的手法が和解に苦しんだ相反する目標を示す大きな埋め込み能力を達成することである。 本稿では,その堅牢性向上に焦点をあて,既存の音響深部ステガノグラフィー手法を拡張し,拡張する。 提案した機能拡張には、損失関数の修正、短い時間フーリエ変換(STFT)の利用、誤り訂正のための符号化プロセスにおける冗長性の導入、ピクセルサブ畳み込み操作における追加情報のバッファリングが含まれる。 その結果,我々の手法は,堅牢性と知覚的透明性の観点から既存手法よりも優れていた。

The field of steganography has experienced a surge of interest due to the recent advancements in AI-powered techniques, particularly in the context of multimodal setups that enable the concealment of signals within signals of a different nature. The primary objectives of all steganographic methods are to achieve perceptual transparency, robustness, and large embedding capacity - which often present conflicting goals that classical methods have struggled to reconcile. This paper extends and enhances an existing image-in-audio deep steganography method by focusing on improving its robustness. The proposed enhancements include modifications to the loss function, utilization of the Short-Time Fourier Transform (STFT), introduction of redundancy in the encoding process for error correction, and buffering of additional information in the pixel subconvolution operation. The results demonstrate that our approach outperforms the existing method in terms of robustness and perceptual transparency.
翻訳日:2023-03-10 16:23:23 公開日:2023-03-09
# パルスベース逆進化を用いた適応量子誤差緩和

Adaptive quantum error mitigation using pulse-based inverse evolutions ( http://arxiv.org/abs/2303.05001v1 )

ライセンス: Link先を確認
Ivan Henao, Jader P. Santos, and Raam Uzdin(参考訳) 量子エラー緩和(quantum error mitigation, qem)は、量子エラー訂正符号に関連する現在の非実用的ハードウェアオーバヘッドを伴わずに量子コンピュータのノイズを抑制する手法である。 残念ながら、現在のQEM技術は、弱いノイズやスケーラビリティに制限されている。 我々は、ターゲット装置の雑音強度に適応し、中等度から強靭なノイズを処理できるKIKと呼ばれるQEM法を開発した。 この手法の実装は実験的に単純であり、必要な数の量子回路はシステムのサイズに依存しない。 さらに,非一貫性雑音とコヒーレント雑音の両方を扱うために,ランダム化コンパイルと統合できることを示す。 我々は、IBM量子コンピュータと数値シミュレーションを用いて、我々の研究結果を実証した。

Quantum error mitigation (QEM) comprises methods for suppressing noise in quantum computers without involving the presently impractical hardware overhead associated with quantum error correction codes. Unfortunately, current QEM techniques are limited to weak noise or lack scalability. We develop a QEM method called KIK that adapts to the noise strength of the target device and therefore can handle moderate-to-strong noise. The implementation of the method is experimentally simple, and the required number of quantum circuits is independent of the size of the system. Furthermore, we show that it can be integrated with randomized compiling for handling both incoherent and coherent noise. We demonstrate our findings in the IBM quantum computers and through numerical simulations.
翻訳日:2023-03-10 16:23:08 公開日:2023-03-09
# 車両軌道の異常検出のための学習表現

Learning Representation for Anomaly Detection of Vehicle Trajectories ( http://arxiv.org/abs/2303.05000v1 )

ライセンス: Link先を確認
Ruochen Jiao, Juyang Bai, Xiangguo Liu, Takami Sato, Xiaowei Yuan, Qi Alfred Chen and Qi Zhu(参考訳) 走行履歴に基づく周辺車両の将来の軌道予測は、自動運転において重要な課題である。 しかしながら、これらの歴史軌道に小さな工芸的な摂動が導入された場合、結果として生じる異常(または逆行)軌道は、エゴ車両の将来の軌道予測モジュールを著しく誤解させ、安全でない計画や致命的な事故を引き起こす可能性がある。 そのため、周囲の車両の異常な軌跡をシステム安全のために検出することが重要であるが、この問題に対処する研究は少ない。 本研究では,車両軌道のオンライン異常検出のための効率的かつ効率的な表現を学習するための2つの新しい手法を提案する。 一般の時系列異常検出とは異なり、異常な車両軌道検出は道路上のより豊かな状況と異常な軌道自体の観測可能なパターンを扱う。 これらの課題に対処するため,本手法では,コントラスト学習手法と軌道意味論を用いて運転シナリオの基礎となるパターンを捉え,教師なし設定と教師なし設定で効果的な異常検出を行う。 比較学習に基づく教師あり手法と,意味的潜在空間による再構成に基づく教師なし手法を併用することで,様々なベースライン手法を用いた異常軌道検出の性能を大幅に向上できることを示す。 また,異常なパターンを検出する手法の一般化能力を実証する。

Predicting the future trajectories of surrounding vehicles based on their history trajectories is a critical task in autonomous driving. However, when small crafted perturbations are introduced to those history trajectories, the resulting anomalous (or adversarial) trajectories can significantly mislead the future trajectory prediction module of the ego vehicle, which may result in unsafe planning and even fatal accidents. Therefore, it is of great importance to detect such anomalous trajectories of the surrounding vehicles for system safety, but few works have addressed this issue. In this work, we propose two novel methods for learning effective and efficient representations for online anomaly detection of vehicle trajectories. Different from general time-series anomaly detection, anomalous vehicle trajectory detection deals with much richer contexts on the road and fewer observable patterns on the anomalous trajectories themselves. To address these challenges, our methods exploit contrastive learning techniques and trajectory semantics to capture the patterns underlying the driving scenarios for effective anomaly detection under supervised and unsupervised settings, respectively. We conduct extensive experiments to demonstrate that our supervised method based on contrastive learning and unsupervised method based on reconstruction with semantic latent space can significantly improve the performance of anomalous trajectory detection in their corresponding settings over various baseline methods. We also demonstrate our methods' generalization ability to detect unseen patterns of anomalies.
翻訳日:2023-03-10 16:22:56 公開日:2023-03-09
# マスキングビジュアルトークンモデリングとしてのビジュアルプロンプト学習の再考

Rethinking Visual Prompt Learning as Masked Visual Token Modeling ( http://arxiv.org/abs/2303.04998v1 )

ライセンス: Link先を確認
Ning Liao, Bowen Shi, Min Cao, Xiaopeng Zhang, Qi Tian, Junchi Yan(参考訳) プロンプト学習は、自然言語処理(NLP)における大規模事前学習モデルを効率的に活用することに成功した。 下流タスクを生成前トレーニングタスクに再構成することで、ギャップを狭め、パフォーマンスを安定的に向上させる。 しかし、視覚領域に転送する場合、現在の視覚的プロンプト学習手法はすべて差別的な事前学習モデルに基づいて設計されており、事前学習タスクと下流タスクの形式を統合するための注意深い設計が欠如している。 生成前訓練された視覚モデルに対する迅速な学習とタスクの整合性を維持するために、下流の視覚分類を事前訓練された視覚トークン予測に変換するために、マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案する。 さらに,予測された視覚トークンを暗黙のセマンティクスにマッピングし,明示的な下流ラベルにマッピングする原型的動詞化器を開発した。 我々の知る限り、VPTMは、生成前訓練された視覚モデルに関する最初の視覚的プロンプト手法であり、タスク再構成による事前学習と下流視覚分類の整合性を達成する最初の方法である。 実験により、VPTMは他の視覚的プロンプト法よりも優れ、優れた効率を達成することが示された。 さらに、VPTMのタスク一貫性は、迅速な位置、迅速な長さ、プロトタイプ次元に対する堅牢性に寄与し、均一にデプロイできる。

Prompt learning has achieved great success in efficiently exploiting large-scale pre-trained models in natural language processing (NLP). It reformulates the downstream tasks as the generative pre-training ones, thus narrowing down the gap between them and improving the performance stably. However, when transferring it to the vision area, current visual prompt learning methods are all designed on discriminative pre-trained models, and there is also a lack of careful design to unify the forms of pre-training and downstream tasks. To explore prompt learning on the generative pre-trained visual model as well as keeping the task consistency, we propose Visual Prompt learning as masked visual Token Modeling (VPTM) to transform the downstream visual classification into the pre-trained masked visual token prediction. In addition, we develop the prototypical verbalizer for mapping the predicted visual token with implicit semantics to explicit downstream labels. To our best knowledge, VPTM is the first visual prompt method on the generative pre-trained visual model, and the first to achieve consistency between pre-training and downstream visual classification by task reformulation. Experiments show that VPTM outperforms other visual prompt methods and achieves excellent efficiency. Moreover, the task consistency of VPTM contributes to the robustness against prompt location, prompt length and prototype dimension, and could be deployed uniformly.
翻訳日:2023-03-10 16:22:33 公開日:2023-03-09
# ディフレクトロメトリ情報を用いた最適眼球追跡

Optimization-Based Eye Tracking using Deflectometric Information ( http://arxiv.org/abs/2303.04997v1 )

ライセンス: Link先を確認
Tianfu Wang, Jiazhang Wang, Oliver Cossairt, Florian Willomitzer(参考訳) アイトラッキングは、Virtual、Augmented、Mixed Reality(VR/AR/MR)技術における幅広いアプリケーションを持つ重要なツールである。 最先端のアイトラッキング手法は、スパース点光源の反射ベースとトラックリフレクション、または画像ベースで取得したアイイメージの2d特徴を利用する。 本研究では, 画素密度の回折表面測定と, 最適化に基づく逆レンダリングアルゴリズムを組み合わせることで, 反射法を著しく改善することを試みる。 偏光度設定の既知の形状を利用して、スクリーン照明下の仮想眼をシミュレートするpytorch3dに基づく微分可能なレンダリングパイプラインを開発した。 最終的に、撮影した測定値からの画像画面対応情報を利用して、勾配降下によるレンダラーによる眼球の回転、翻訳、形状パラメータを見つける。 一般的に,本手法は特定のパターンを必要とせず,メインのVR/AR/MR画面の通常のビデオフレームで動作する。 平均相対視線誤差が0.45度以下で0.11度以下の精度で評価された実世界実験を実演する。 さらに、シミュレーションにおいて、代表反射に基づく最先端手法よりも6Xの改善を示す。

Eye tracking is an important tool with a wide range of applications in Virtual, Augmented, and Mixed Reality (VR/AR/MR) technologies. State-of-the-art eye tracking methods are either reflection-based and track reflections of sparse point light sources, or image-based and exploit 2D features of the acquired eye image. In this work, we attempt to significantly improve reflection-based methods by utilizing pixel-dense deflectometric surface measurements in combination with optimization-based inverse rendering algorithms. Utilizing the known geometry of our deflectometric setup, we develop a differentiable rendering pipeline based on PyTorch3D that simulates a virtual eye under screen illumination. Eventually, we exploit the image-screen-correspondence information from the captured measurements to find the eye's rotation, translation, and shape parameters with our renderer via gradient descent. In general, our method does not require a specific pattern and can work with ordinary video frames of the main VR/AR/MR screen itself. We demonstrate real-world experiments with evaluated mean relative gaze errors below 0.45 degrees at a precision better than 0.11 degrees. Moreover, we show an improvement of 6X over a representative reflection-based state-of-the-art method in simulation.
翻訳日:2023-03-10 16:22:07 公開日:2023-03-09
# 効率的な2次元ビデオグラウンドティングのためのテキスト・ビジュアル・プロンプティング

Text-Visual Prompting for Efficient 2D Temporal Video Grounding ( http://arxiv.org/abs/2303.04995v1 )

ライセンス: Link先を確認
Yimeng Zhang, Xin Chen, Jinghan Jia, Sijia Liu, Ke Ding(参考訳) 本稿では,長編未編集ビデオにおけるテキスト記述の開始時点と終了時点の予測を目的とした,時間的ビデオグラウンドリング(TVG)の問題について検討する。 細粒度の3D視覚的特徴を活かしたTVG技術は,近年,目覚ましい進歩を遂げている。 しかし、3D畳み込みニューラルネットワーク(CNN)の複雑さが高いため、高密度な3D視覚特徴の抽出には時間を要する。 そこで我々は,TVGモデルの視覚的入力とテキスト的特徴の両方に,最適化された摂動パターン("prompts"と呼ぶ)を組み込んだ,新しいテキスト視覚プロンプト(TVP)フレームワークを提案する。 3d cnnとは対照的に,2d tvgモデルでは視覚エンコーダと言語エンコーダを効果的に共訓練でき,低複雑さのスパース2d視覚機能のみを用いたクロスモーダル特徴融合の性能が向上することを示す。 また,視覚特徴抽出のための2次元CNNにおける時空間情報の不足を補うプロンプトを提案する。 さらに,TVGを効率的に学習するための時間距離IoU(TDIoU)損失を提案する。 最後に重要なこととして、2つのベンチマークデータセットであるCharades-STAとActivityNet Captionsデータセットに関する広範な実験では、提案されたTVPが2D TVG(例えば、Charades-STAの9.79%の改善とActivityNet Captionsの30.77%の改善)の性能を大幅に向上し、TVGよりも5倍の推論加速を実現している。 コードとモデルはリリースされる。

In this paper, we study the problem of temporal video grounding (TVG), which aims to predict the starting/ending time points of moments described by a text sentence within a long untrimmed video. Benefiting from fine-grained 3D visual features, the TVG techniques have achieved remarkable progress in recent years. However, the high complexity of 3D convolutional neural networks (CNNs) makes extracting dense 3D visual features time-consuming, which calls for intensive memory and computing resources. Towards efficient TVG, we propose a novel text-visual prompting (TVP) framework, which incorporates optimized perturbation patterns (that we call 'prompts') into both visual inputs and textual features of a TVG model. In sharp contrast to 3D CNNs, we show that TVP allows us to effectively co-train vision encoder and language encoder in a 2D TVG model and improves the performance of crossmodal feature fusion using only low-complexity sparse 2D visual features. The proposed prompts also compensate for the lack of spatiotemporal information in 2D CNNs for visual feature extraction. Further, we propose a TemporalDistance IoU (TDIoU) loss for efficient learning of TVG. Last but not least, extensive experiments on two benchmark datasets, Charades-STA and ActivityNet Captions datasets, empirically show that the proposed TVP significantly boosts the performance of 2D TVG (e.g., 9.79% improvement in Charades-STA and 30.77% improvement in ActivityNet Captions) and achieves 5x inference acceleration over TVG of using 3D visual features. Code and model will be released.
翻訳日:2023-03-10 16:21:48 公開日:2023-03-09
# デフォーマ:ロバストハンドポース推定のためのダイナミックフュージョン変換器

Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation ( http://arxiv.org/abs/2303.04991v1 )

ライセンス: Link先を確認
Qichen Fu, Xingyu Liu, Ran Xu, Juan Carlos Niebles, Kris M. Kitani(参考訳) 正確に3Dのポーズを推定することは、人間が世界とどのように相互作用するかを理解するのに不可欠だ。 目覚ましい進歩にもかかわらず、既存の方法では、手のこもりが強かったり、ぼやけたりする際に、手のポーズをよく作ろうとする。 ビデオでは、手の動きによって、手の各部分が1つのフレームでぼやけているか、ぼやけているのを観察できる。 強靭な手ポーズ推定の前後の視覚的手がかりを適応的に活用するために,同じ画像内の手の部分(空間次元)と異なる時間ステップ(時間次元)の関係を暗黙的に推論するフレームワークであるDeformerを提案する。 また,特定のフレームにおける動きのぼかしやオクルージョンが手の特徴をゆがめ,不正確なキーやクエリを生成する可能性があるため,トランスフォーマ自着機構のナイーブな適用では不十分であることを示す。 この課題に対処するために,動的融合モジュールをデフォーマに組み込み,手の変形を予測し,近傍のフレームからハンドメッシュ予測を逸脱し,現在のフレーム推定を明示的に支持する。 さらに,指先周辺の頂点は手のひら周辺のものよりも不均等に高い誤差を呈し,各部位に誤差が均一に分散していることが観察された。 我々は、各頂点の重みを自動的に調整し、重要な手の部分に集中するmaxMSEと呼ばれる新しい損失関数を導入することで、この問題を軽減する。 実験の結果,本手法は最先端の手法を10%以上上回り,閉塞性(14%以上)が高いことがわかった。

Accurately estimating 3D hand pose is crucial for understanding how humans interact with the world. Despite remarkable progress, existing methods often struggle to generate plausible hand poses when the hand is heavily occluded or blurred. In videos, the movements of the hand allow us to observe various parts of the hand that may be occluded or blurred in a single frame. To adaptively leverage the visual clue before and after the occlusion or blurring for robust hand pose estimation, we propose the Deformer: a framework that implicitly reasons about the relationship between hand parts within the same image (spatial dimension) and different timesteps (temporal dimension). We show that a naive application of the transformer self-attention mechanism is not sufficient because motion blur or occlusions in certain frames can lead to heavily distorted hand features and generate imprecise keys and queries. To address this challenge, we incorporate a Dynamic Fusion Module into Deformer, which predicts the deformation of the hand and warps the hand mesh predictions from nearby frames to explicitly support the current frame estimation. Furthermore, we have observed that errors are unevenly distributed across different hand parts, with vertices around fingertips having disproportionately higher errors than those around the palm. We mitigate this issue by introducing a new loss function called maxMSE that automatically adjusts the weight of every vertex to focus the model on critical hand parts. Extensive experiments show that our method significantly outperforms state-of-the-art methods by 10%, and is more robust to occlusions (over 14%).
翻訳日:2023-03-10 16:21:14 公開日:2023-03-09
# ARS-DETR:変換器を用いたアスペクト比感度オブジェクト指向検出

ARS-DETR: Aspect Ratio Sensitive Oriented Object Detection with Transformer ( http://arxiv.org/abs/2303.04989v1 )

ライセンス: Link先を確認
Ying Zeng, Xue Yang, Qingyun Li, Yushi Chen, Junchi Yan(参考訳) 既存の指向オブジェクト検出手法では、モデルの性能を測定するのにメトリック ap$_{50}$ を使うのが一般的である。 ap$_{50}$は、角度偏差の許容度が大きいため、本質的に指向オブジェクト検出には不向きであると主張する。 したがって、モデルの性能を測定するために、ap$_{75}$のような高精度の計量を用いることを推奨する。 本稿では,高精度指向性物体検出における競合性能を示す,ars-detrと呼ばれるトランスフォーマを用いたアスペクト比感度指向性物体検出器を提案する。 具体的には、Aspect Ratio aware Circle Smooth Label (AR-CSL) と呼ばれる新しい角度分類法を提案し、より合理的な方法で角度ラベルを滑らかにし、従来の作業(例えばCSL)によって導入されたハイパーパラメータを破棄する。 そして、回転変形可能な注目モジュールを、対応する角度でサンプリングポイントを回転させ、領域特徴とサンプリングポイントとのずれを取り除くように設計する。 また、アスペクト比に応じた動的重み係数を採用して角度損失を算出する。 複数の挑戦的データセットに関する包括的実験により,本手法は高精度指向オブジェクト検出タスクにおいて競合性能が得られることを示した。

Existing oriented object detection methods commonly use metric AP$_{50}$ to measure the performance of the model. We argue that AP$_{50}$ is inherently unsuitable for oriented object detection due to its large tolerance in angle deviation. Therefore, we advocate using high-precision metric, e.g. AP$_{75}$, to measure the performance of models. In this paper, we propose an Aspect Ratio Sensitive Oriented Object Detector with Transformer, termed ARS-DETR, which exhibits a competitive performance in high-precision oriented object detection. Specifically, a new angle classification method, calling Aspect Ratio aware Circle Smooth Label (AR-CSL), is proposed to smooth the angle label in a more reasonable way and discard the hyperparameter that introduced by previous work (e.g. CSL). Then, a rotated deformable attention module is designed to rotate the sampling points with the corresponding angles and eliminate the misalignment between region features and sampling points. Moreover, a dynamic weight coefficient according to the aspect ratio is adopted to calculate the angle loss. Comprehensive experiments on several challenging datasets show that our method achieves competitive performance on the high-precision oriented object detection task.
翻訳日:2023-03-10 16:20:45 公開日:2023-03-09
# 線形音響量子分類器のロバスト性検証

The Robustness Verification of Linear Sound Quantum Classifiers ( http://arxiv.org/abs/2303.04982v1 )

ライセンス: Link先を確認
Su Bonan(参考訳) 線形音であるある種の量子分類器のロバスト性検証のための迅速かつ健全な手法を提案する。 量子機械学習は、関連する分野や線形音響特性において実践されているため、LSPは広く普及している性質であり、この手法を普遍的に適用することができる。 提案手法を,MindQuantum,Huaweiを用いて量子畳み込みニューラルネットワーク,QCNNを用いて実装し,MNISTデータセットの分類においてその堅牢性を検証することに成功した。

I present a quick and sound method for the robustness verification of a sort of quantum classifiers who are Linear Sound. Since quantum machine learning has been put into practice in relevant fields and Linear Sound Property, LSP is a pervasive property, the method could be universally applied. I implemented my method with a Quantum Convolutional Neural Network, QCNN using MindQuantum, Huawei and successfully verified its robustness when classifying MNIST dataset.
翻訳日:2023-03-10 16:20:25 公開日:2023-03-09
# Decision-BADGE:方向勾配推定による決定に基づく逆バッチ攻撃

Decision-BADGE: Decision-based Adversarial Batch Attack with Directional Gradient Estimation ( http://arxiv.org/abs/2303.04980v1 )

ライセンス: Link先を確認
Geunhyeok Yu, Minwoo Jeon and Hyoseok Hwang(参考訳) 敵の例に対するディープニューラルネットワークの脆弱性は、敵の攻撃の使用の増加につながった。 様々な意思決定と普遍的攻撃法が提案されているが、決定に基づく普遍的敵攻撃を創り出そうとする試みはない。 本研究では、ランダムな勾配のない最適化とバッチアタックを用いて、決定に基づく攻撃に対する普遍的な逆摂動を生成するDecision-BADGEを提案する。 複数の逆の例を組み合わせて単一の普遍摂動を最適化し、精度の計量を連続ハミング距離形式に再構成する。 損失関数としての精度測定の有効性を示し、数学的に証明した。 Decision-BADGEと精度損失関数の組み合わせは、攻撃時間効率の点でスコアベース画像依存攻撃法とホワイトボックスユニバーサル攻撃法より優れている。 この研究は、Decision-BADGEが未確認の犠牲者を欺いて、特定のクラスを正確にターゲットできることを示した。

The vulnerability of deep neural networks to adversarial examples has led to the rise in the use of adversarial attacks. While various decision-based and universal attack methods have been proposed, none have attempted to create a decision-based universal adversarial attack. This research proposes Decision-BADGE, which uses random gradient-free optimization and batch attack to generate universal adversarial perturbations for decision-based attacks. Multiple adversarial examples are combined to optimize a single universal perturbation, and the accuracy metric is reformulated into a continuous Hamming distance form. The effectiveness of accuracy metric as a loss function is demonstrated and mathematically proven. The combination of Decision-BADGE and the accuracy loss function performs better than both score-based image-dependent attack and white-box universal attack methods in terms of attack time efficiency. The research also shows that Decision-BADGE can successfully deceive unseen victims and accurately target specific classes.
翻訳日:2023-03-10 16:20:16 公開日:2023-03-09
# プライバシー保護深層学習のための学習可能な画像暗号化に対する生成モデルに基づく攻撃

Generative Model-Based Attack on Learnable Image Encryption for Privacy-Preserving Deep Learning ( http://arxiv.org/abs/2303.05036v1 )

ライセンス: Link先を確認
AprilPyone MaungMaung and Hitoshi Kiya(参考訳) 本稿では,プライバシー保護深層学習のための学習可能な画像暗号化手法に対する,新たな生成モデルに基づく攻撃を提案する。 様々な学習可能な暗号化手法が、画像の繊細な視覚情報を保護するために研究され、それらのいくつかは、既存の攻撃に対して十分に堅牢であるように研究されている。 しかし、以前の画像暗号化攻撃は従来の暗号解析攻撃や逆変換モデルにのみ焦点をあてていたため、ブロックスクランブル暗号化ステップが効果的にグローバル情報を破壊する場合、これらの攻撃は視覚情報を回復することはできない。 そこで本稿では,このモデルが暗号化画像からセンシティブな視覚情報を初めて復元できるかどうかを評価するために,生成モデルについて検討する。 まず,暗号化画像は埋め込み空間におけるプレーン画像と類似点があることを指摘した。 暗号化画像からの漏洩情報を活用することで,学習可能な画像暗号化に対する攻撃として,個人識別可能な視覚情報を復元するための誘導生成モデルを提案する。 提案手法は,スタイルガンモデルと潜在拡散モデルという2つの最先端生成モデルを用いて2つの手法で実装する。 CelebA-HQとImageNetのデータセットで実験が行われた。 その結果,提案手法により再構成された画像は,プレーン画像と知覚的類似性を有することがわかった。

In this paper, we propose a novel generative model-based attack on learnable image encryption methods proposed for privacy-preserving deep learning. Various learnable encryption methods have been studied to protect the sensitive visual information of plain images, and some of them have been investigated to be robust enough against all existing attacks. However, previous attacks on image encryption focus only on traditional cryptanalytic attacks or reverse translation models, so these attacks cannot recover any visual information if a block-scrambling encryption step, which effectively destroys global information, is applied. Accordingly, in this paper, generative models are explored to evaluate whether such models can restore sensitive visual information from encrypted images for the first time. We first point out that encrypted images have some similarity with plain images in the embedding space. By taking advantage of leaked information from encrypted images, we propose a guided generative model as an attack on learnable image encryption to recover personally identifiable visual information. We implement the proposed attack in two ways by utilizing two state-of-the-art generative models: a StyleGAN-based model and latent diffusion-based one. Experiments were carried out on the CelebA-HQ and ImageNet datasets. Results show that images reconstructed by the proposed method have perceptual similarities to plain images.
翻訳日:2023-03-10 16:14:27 公開日:2023-03-09
# 対話インテント誘導のための多段階粗相関学習

Multi-Stage Coarse-to-Fine Contrastive Learning for Conversation Intent Induction ( http://arxiv.org/abs/2303.05034v1 )

ライセンス: Link先を確認
Caiyuan Chu, Ya Li, Yifan Liu, Jia-Chen Gu, Quan Liu, Yongxin Ge, Guoping Hu(参考訳) タスク指向対話システムでは意図認識が重要である。 しかし、新興ドメインや新しいサービスでは、時間を要するデータアノテーションと比較的貧弱なモデル転送可能性のため、会話の重要な意図を正確に特定することは困難である。 したがって、対話意図の自動誘導はインテリジェントな対話システムにとって非常に重要である。 本稿では,第11回対話システム技術チャレンジ(DSTC11)におけるタスク指向対話の会話からのインテントインジェクションのトラック2について述べる。 意図クラスタリングの本質は、異なる対話発話の表現を区別することにある。 自動意図誘導の鍵は、任意の新しいデータのセットに対して、モデルによって得られた文表現が異なるラベルとよく区別できることである。 そこで本研究では,非教師付きコントラスト学習事前学習,教師付きコントラスト学習事前学習,協調型コントラスト学習とクラスタリングによる微調整を含む多段階間相関学習モデルの訓練手法を提案し,クラスタリングタスクのためのより良い対話発話表現モデルを得る。 DSTC11 Track 2の評価結果では,このトラックの2つのサブタスクのうちの1位が提案システムである。

Intent recognition is critical for task-oriented dialogue systems. However, for emerging domains and new services, it is difficult to accurately identify the key intent of a conversation due to time-consuming data annotation and comparatively poor model transferability. Therefore, the automatic induction of dialogue intention is very important for intelligent dialogue systems. This paper presents our solution to Track 2 of Intent Induction from Conversations for Task-Oriented Dialogue at the Eleventh Dialogue System Technology Challenge (DSTC11). The essence of intention clustering lies in distinguishing the representation of different dialogue utterances. The key to automatic intention induction is that, for any given set of new data, the sentence representation obtained by the model can be well distinguished from different labels. Therefore, we propose a multi-stage coarse-to-fine contrastive learning model training scheme including unsupervised contrastive learning pre-training, supervised contrastive learning pre-training, and fine-tuning with joint contrastive learning and clustering to obtain a better dialogue utterance representation model for the clustering task. In the released DSTC11 Track 2 evaluation results, our proposed system ranked first on both of the two subtasks of this Track.
翻訳日:2023-03-10 16:14:05 公開日:2023-03-09
# 入出力変換を用いた分布外検出

Out-of-distribution Detection with Implicit Outlier Transformation ( http://arxiv.org/abs/2303.05033v1 )

ライセンス: Link先を確認
Qizhou Wang, Junjie Ye, Feng Liu, Quanyu Dai, Marcus Kalander, Tongliang Liu, Jianye Hao, Bo Han(参考訳) 外周露光(OE)は、オフ・オブ・ディストリビューション(OOD)検出において強力であり、OODデータを代理するモデル微調整による検出能力を向上させる。 しかし、データサロゲートは通常、テストOODデータから逸脱する。 これにより、見知らぬOODデータに直面する場合のOEの性能を弱めることができる。 この問題に対処するために,未確認のOODケースにおいても,未確認のOOD状況に対してモデルが良好に機能する新しいOEベースのアプローチを提案する。 OOD検出におけるOODデータから最悪の判断と学習をもたらすOODデータを合成し、OOD検出における均一なパフォーマンスを実現するため、min-max学習スキームが実現される。 我々の認識では、これらの最悪のOODデータは、元の代理データを変換することによって合成される。 特に、関連する変換関数は、モデルの摂動がデータ変換につながるという新しい洞察に基づいて暗黙的に学習されます。 提案手法は,OODデータを効率的に合成する方法を提供し,OODデータのサロゲートに加えて,検出モデルにさらなるメリットをもたらすことができる。 各種OOD検出装置を用いて広範囲な実験を行い, 提案手法の有効性を実証した。

Outlier exposure (OE) is powerful in out-of-distribution (OOD) detection, enhancing detection capability via model fine-tuning with surrogate OOD data. However, surrogate data typically deviate from test OOD data. Thus, the performance of OE, when facing unseen OOD data, can be weakened. To address this issue, we propose a novel OE-based approach that makes the model perform well for unseen OOD situations, even for unseen OOD cases. It leads to a min-max learning scheme -- searching to synthesize OOD data that leads to worst judgments and learning from such OOD data for uniform performance in OOD detection. In our realization, these worst OOD data are synthesized by transforming original surrogate ones. Specifically, the associated transform functions are learned implicitly based on our novel insight that model perturbation leads to data transformation. Our methodology offers an efficient way of synthesizing OOD data, which can further benefit the detection model, besides the surrogate OOD data. We conduct extensive experiments under various OOD detection setups, demonstrating the effectiveness of our method against its advanced counterparts.
翻訳日:2023-03-10 16:13:48 公開日:2023-03-09
# CoralStyleCLIP:画像編集のための共最適化領域と層選択

CoralStyleCLIP: Co-optimized Region and Layer Selection for Image Editing ( http://arxiv.org/abs/2303.05031v1 )

ライセンス: Link先を確認
Ambareesh Revanur, Debraj Basu, Shradha Agrawal, Dhwanit Agarwal, Deepak Pai(参考訳) 編集忠実度は、オープンワールド制御可能な生成画像編集において重要な問題である。 近年、CLIPベースのアプローチは、StyleGANのハンズアップされた層に空間的注意を導入することで、これらの問題を緩和するためにシンプルさを欠いている。 本稿では,高忠実度編集のための多層注意誘導ブレンディング戦略をStyleGAN2の特徴空間に組み込んだCoralStyleCLIPを提案する。 複数形態の協調最適化領域と層選択戦略を提案し, 単純さを保ちながら, 異なるアーキテクチャの複雑さと編集品質の相違を実証する。 本手法は, 最新のクリップベース手法に対して, 広範囲な実験解析を行い, ベンチマークを行った。 以上の結果から,CoralStyleCLIPは使いやすさを保ちながら高品質な編集が可能であることが示唆された。

Edit fidelity is a significant issue in open-world controllable generative image editing. Recently, CLIP-based approaches have traded off simplicity to alleviate these problems by introducing spatial attention in a handpicked layer of a StyleGAN. In this paper, we propose CoralStyleCLIP, which incorporates a multi-layer attention-guided blending strategy in the feature space of StyleGAN2 for obtaining high-fidelity edits. We propose multiple forms of our co-optimized region and layer selection strategy to demonstrate the variation of time complexity with the quality of edits over different architectural intricacies while preserving simplicity. We conduct extensive experimental analysis and benchmark our method against state-of-the-art CLIP-based methods. Our findings suggest that CoralStyleCLIP results in high-quality edits while preserving the ease of use.
翻訳日:2023-03-10 16:13:29 公開日:2023-03-09
# ssl^2:自己教師付き学習は半教師付き学習と一致する:大規模3t-mriを用いた7t-mriにおける多発性硬化症分節化

SSL^2: Self-Supervised Learning meets Semi-Supervised Learning: Multiple Sclerosis Segmentation in 7T-MRI from large-scale 3T-MRI ( http://arxiv.org/abs/2303.05026v1 )

ライセンス: Link先を確認
Jiacheng Wang, Hao Li, Han Liu, Dewei Hu, Daiwei Lu, Keejin Yoon, Kelsey Barter, Francesca Bagnato, and Ipek Oguz(参考訳) MRIによる多発性硬化症 (MS) 病変の自動分離は, 疾患進行の定量化に重要である。 近年、畳み込みニューラルネットワーク(convolutional neural networks:cnns)は、大量のラベル付きデータがある場合、このタスクで最高性能を示している。 しかし、CNNの精度は、わずかなラベル付きデータセットを扱うときに悩む。 潜在的な解決策は、限られたラベル付きデータしか持たないターゲットデータセットと合わせて、大規模な公開データセットで利用可能な情報を活用することである。 本稿では,マルチモダリティMS病変分類のためのトレーニングフレームワークであるSSL2(self-supervised-semi-supervised)を提案する。 我々は,大規模3tデータセットからの知識を活用し,小規模7tターゲットデータセットの制限に取り組むために,自己教師付き学習を採用する。 ラベルなしの7tデータからの情報を活用するために,ラベル付きトレーニングサイズやスパースアノテーションなど,制限されたアノテーション設定に対する最先端の半教師付きメソッドも評価する。 バックボーンネットワークとしてshifted-window (swin) transformer1を使用します。 自己教師付きおよび半教師付きトレーニング戦略の有効性を社内7t mriデータセットで評価した。 以上の結果から,各戦略は訓練データサイズとスパースラベリングシナリオの両方において病変セグメンテーションを改善することが示唆された。 統合された全体的なフレームワークは、いずれのコンポーネントよりもパフォーマンスが大幅に向上する。 提案するフレームワークは将来のデータ・ラベル・ハングリー7TMS研究に有望なソリューションを提供する。

Automated segmentation of multiple sclerosis (MS) lesions from MRI scans is important to quantify disease progression. In recent years, convolutional neural networks (CNNs) have shown top performance for this task when a large amount of labeled data is available. However, the accuracy of CNNs suffers when dealing with few and/or sparsely labeled datasets. A potential solution is to leverage the information available in large public datasets in conjunction with a target dataset which only has limited labeled data. In this paper, we propose a training framework, SSL2 (self-supervised-semi-supervised), for multi-modality MS lesion segmentation with limited supervision. We adopt self-supervised learning to leverage the knowledge from large public 3T datasets to tackle the limitations of a small 7T target dataset. To leverage the information from unlabeled 7T data, we also evaluate state-of-the-art semi-supervised methods for other limited annotation settings, such as small labeled training size and sparse annotations. We use the shifted-window (Swin) transformer1 as our backbone network. The effectiveness of self-supervised and semi-supervised training strategies is evaluated in our in-house 7T MRI dataset. The results indicate that each strategy improves lesion segmentation for both limited training data size and for sparse labeling scenarios. The combined overall framework further improves the performance substantially compared to either of its components alone. Our proposed framework thus provides a promising solution for future data/label-hungry 7T MS studies.
翻訳日:2023-03-10 16:13:17 公開日:2023-03-09
# 大規模ネットワークにおける小コミュニティ検出のための位相遷移

Phase transition for detecting a small community in a large network ( http://arxiv.org/abs/2303.05024v1 )

ライセンス: Link先を確認
Jiashun Jin, Zheng Tracy Ke, Paxton Turner, Anru R. Zhang(参考訳) 大規模ネットワーク内の小さなコミュニティを検出する方法は興味深い問題であり、特に、Urd\H{o}s-Renyiバックグラウンドの存在下では、単純度に基づく$\chi^2$-testが強力であることが示されている。 Sinkhorn の定理を用いて、$\chi^2$-test で得られた信号はモデリングアーティファクトであり、より広いネットワークモデルによって Erd\H{o}s-Renyi モデルを置き換えると消える可能性があることを示す。 最近のSgnQテストはそのような設定に適していることを示す。 このテストは、ネットワーク全体のサイズに匹敵する大きさのコミュニティを検出するのに最適なものですが、私たちの設定での研究は行われていません。 次数補正ブロックモデル(DCBM)を用いて,小規模・大規模コミュニティにおける小コミュニティの大きさとエッジ密度に関するテスト問題の相転移を確立する。 小さなコミュニティのサイズが$\sqrt{n}$より大きい場合、sgnqテストは、多項式計算時間を可能にする方法の情報ローバウンドである計算ローバウンド(clb)を達成するために最適である。 小コミュニティのサイズが$\sqrt{n}$より小さいとき、SgnQテストがフルパワーを持つパラメータ構造を確立し、CLBのいくつかの予想を行う。 また、古典情報下界(LB)について検討し、CLBとLBの間には常にギャップがあることを示す。

How to detect a small community in a large network is an interesting problem, including clique detection as a special case, where a naive degree-based $\chi^2$-test was shown to be powerful in the presence of an Erd\H{o}s-Renyi background. Using Sinkhorn's theorem, we show that the signal captured by the $\chi^2$-test may be a modeling artifact, and it may disappear once we replace the Erd\H{o}s-Renyi model by a broader network model. We show that the recent SgnQ test is more appropriate for such a setting. The test is optimal in detecting communities with sizes comparable to the whole network, but has never been studied for our setting, which is substantially different and more challenging. Using a degree-corrected block model (DCBM), we establish phase transitions of this testing problem concerning the size of the small community and the edge densities in small and large communities. When the size of the small community is larger than $\sqrt{n}$, the SgnQ test is optimal for it attains the computational lower bound (CLB), the information lower bound for methods allowing polynomial computation time. When the size of the small community is smaller than $\sqrt{n}$, we establish the parameter regime where the SgnQ test has full power and make some conjectures of the CLB. We also study the classical information lower bound (LB) and show that there is always a gap between the CLB and LB in our range of interest.
翻訳日:2023-03-10 16:12:53 公開日:2023-03-09
# X-SepFormer: 話者融合の明示的最適化によるエンドツーエンド話者抽出ネットワーク

X-SepFormer: End-to-end Speaker Extraction Network with Explicit Optimization on Speaker Confusion ( http://arxiv.org/abs/2303.05023v1 )

ライセンス: Link先を確認
Kai Liu, Ziqing Du, Xucheng Wan, Huan Zhou(参考訳) ターゲット音声抽出システム(TSE)は,多話者混合からターゲット音声を抽出するように設計されている。 従来のTSEネットワークのトレーニングの目的は,抽出した音声波形の再構成性能を向上させることである。 しかし,TSEシステムによる再現性能の向上は,実際には低品質な体験問題に悩まされることが報告されている。 そのような経験上の問題のひとつは、話者抽出の誤り(話者混乱、SC)であり、これは強い否定的な経験をもたらし、効果的な会話を妨げている。 命令的sc問題を軽減するために,訓練目標を再構成し,小さなチャンクレベルで定義された再構築改善性能の指標を探索する2つの新しい損失スキームを提案し,関連する分布情報を活用する。 どちらの損失スキームも、その分布情報に基づいて、TSEネットワークがこれらのSCチャンクに注意を払うことを奨励することを目的としている。 提案する損失スキームとSepFormerのバックボーンを備えたエンドツーエンドTSEモデルであるX-SepFormerを提案する。 ベンチマークWSJ0-2mixデータセットの実験結果から,提案手法の有効性を検証し,SC誤差を14.8%改善した。 さらに、SI-SDRiの19.4dB、PSSQの3.81では、現在のSOTAシステムよりも優れた性能を示し、WSJ0-2mixで報告されたトップTSE結果を提供する。

Target speech extraction (TSE) systems are designed to extract target speech from a multi-talker mixture. The popular training objective for most prior TSE networks is to enhance reconstruction performance of extracted speech waveform. However, it has been reported that a TSE system delivers high reconstruction performance may still suffer low-quality experience problems in practice. One such experience problem is wrong speaker extraction (called speaker confusion, SC), which leads to strong negative experience and hampers effective conversations. To mitigate the imperative SC issue, we reformulate the training objective and propose two novel loss schemes that explore the metric of reconstruction improvement performance defined at small chunk-level and leverage the metric associated distribution information. Both loss schemes aim to encourage a TSE network to pay attention to those SC chunks based on the said distribution information. On this basis, we present X-SepFormer, an end-to-end TSE model with proposed loss schemes and a backbone of SepFormer. Experimental results on the benchmark WSJ0-2mix dataset validate the effectiveness of our proposals, showing consistent improvements on SC errors (by 14.8% relative). Moreover, with SI-SDRi of 19.4 dB and PESQ of 3.81, our best system significantly outperforms the current SOTA systems and offers the top TSE results reported till date on the WSJ0-2mix.
翻訳日:2023-03-10 16:12:26 公開日:2023-03-09
# diffusion depth: diffusion denoising approachによる単眼深度推定

DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation ( http://arxiv.org/abs/2303.05021v1 )

ライセンス: Link先を確認
Yiqun Duan, Xianda Guo, Zheng Zhu(参考訳) 単眼深度推定は1枚の2次元画像から画素幅の深度を予測する難しい課題である。 現在の手法は通常、この問題を回帰または分類タスクとしてモデル化する。 単分子深度推定をデノナイズ拡散過程として再構成する新しい手法であるDiffusionDepthを提案する。 モノラルな視覚条件の誘導でランダムな深度分布を深度マップに"デノザイズ"する反復的認知過程を学習する。 この処理は、専用深度エンコーダおよびデコーダによって符号化された潜時空間で実行される。 基底真理(GT)の深さを拡散する代わりに、モデルは自分自身の洗練された深さをランダムな深さ分布に拡散する過程を逆転させることを学ぶ。 この自己拡散の定式化は、GT深度シナリオに生成モデルを適用することの難しさを克服する。 提案手法は,高精度かつ高精度な深度マップを生成するのに優れている深さ推定ステップを段階的に精錬することで,この課題を活用できる。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。

Monocular depth estimation is a challenging task that predicts the pixel-wise depth from a single 2D image. Current methods typically model this problem as a regression or classification task. We propose DiffusionDepth, a new approach that reformulates monocular depth estimation as a denoising diffusion process. It learns an iterative denoising process to `denoise' random depth distribution into a depth map with the guidance of monocular visual conditions. The process is performed in the latent space encoded by a dedicated depth encoder and decoder. Instead of diffusing ground truth (GT) depth, the model learns to reverse the process of diffusing the refined depth of itself into random depth distribution. This self-diffusion formulation overcomes the difficulty of applying generative models to sparse GT depth scenarios. The proposed approach benefits this task by refining depth estimation step by step, which is superior for generating accurate and highly detailed depth maps. Experimental results on KITTI and NYU-Depth-V2 datasets suggest that a simple yet efficient diffusion approach could reach state-of-the-art performance in both indoor and outdoor scenarios with acceptable inference time.
翻訳日:2023-03-10 16:11:59 公開日:2023-03-09
# バンディットフィードバックによるオンラインカーネル選択における後悔領域の改善

Improved Regret Bounds for Online Kernel Selection under Bandit Feedback ( http://arxiv.org/abs/2303.05018v1 )

ライセンス: Link先を確認
Junfan Li and Shizhong Liao(参考訳) 本稿では,バンディットフィードバックによるオンラインカーネル選択に対する後悔度を向上する。 以前のアルゴリズムは、リプシッツ損失関数の期待バウンドとして$O((\Vert f\Vert^2_{\mathcal{H}_i}+1)K^{\frac{1}{3}}T^{\frac{2}{3}})を楽しんだ。 過去の限界を改善する2種類の後悔境界を証明する。 滑らかな損失関数に対して、$O(U^{\frac{2}{3}}K^{-\frac{1}{3}}(\sum^K_{i=1}L_T(f^\ast_i))^{\frac{2}{3}})$期待境界を持つアルゴリズムを提案し、$L_T(f^\ast_i)$は、$\mathbb{H}_{i}=\{f\in\mathcal{H}_i:\Vert f\Vert_{\mathcal{H}_i}\leq U\}$における最適仮説の累積損失である。 データ依存のバウンドは、以前の最悪のケースバウンドを保持し、候補カーネルがデータとマッチする場合にはより小さくなる。 リプシッツ損失関数に対しては、$O(U\sqrt{KT}\ln^{\frac{2}{3}}{T})$期待境界を漸近的に改善したアルゴリズムを提案する。 2つのアルゴリズムを時間制約付きオンラインカーネル選択に適用し、以前の$o(\sqrt{t\ln{k}} +\vert f\vert^2_{\mathcal{h}_i}\max\{\sqrt{t},\frac{t}{\sqrt{\mathcal{r}}}\})$が時間予算であるような新たな後悔の限界を証明します。 最後に、オンライン回帰および分類タスクにおけるアルゴリズムを実証的に検証する。

In this paper, we improve the regret bound for online kernel selection under bandit feedback. Previous algorithm enjoys a $O((\Vert f\Vert^2_{\mathcal{H}_i}+1)K^{\frac{1}{3}}T^{\frac{2}{3}})$ expected bound for Lipschitz loss functions. We prove two types of regret bounds improving the previous bound. For smooth loss functions, we propose an algorithm with a $O(U^{\frac{2}{3}}K^{-\frac{1}{3}}(\sum^K_{i=1}L_T(f^\ast_i))^{\frac{2}{3}})$ expected bound where $L_T(f^\ast_i)$ is the cumulative losses of optimal hypothesis in $\mathbb{H}_{i}=\{f\in\mathcal{H}_i:\Vert f\Vert_{\mathcal{H}_i}\leq U\}$. The data-dependent bound keeps the previous worst-case bound and is smaller if most of candidate kernels match well with the data. For Lipschitz loss functions, we propose an algorithm with a $O(U\sqrt{KT}\ln^{\frac{2}{3}}{T})$ expected bound asymptotically improving the previous bound. We apply the two algorithms to online kernel selection with time constraint and prove new regret bounds matching or improving the previous $O(\sqrt{T\ln{K}} +\Vert f\Vert^2_{\mathcal{H}_i}\max\{\sqrt{T},\frac{T}{\sqrt{\mathcal{R}}}\})$ expected bound where $\mathcal{R}$ is the time budget. Finally, we empirically verify our algorithms on online regression and classification tasks.
翻訳日:2023-03-10 16:11:40 公開日:2023-03-09
# 物体検出のためのスムースとステップワイズ自己蒸留

Smooth and Stepwise Self-Distillation for Object Detection ( http://arxiv.org/abs/2303.05015v1 )

ライセンス: Link先を確認
Jieren Deng, Xin Zhou, Hao Tian, Zhihong Pan, Derek Aguiar(参考訳) 特徴マップでキャプチャされた構造化情報は、オブジェクト検出タスクの改善に寄与しているが、ベースラインアーキテクチャの慎重に選択と実質的な事前学習が必要である。 自己蒸留はこれらの制限に対処し、最近、いくつかのアーキテクチャ上の仮定を単純化したにもかかわらず、オブジェクト検出の最先端のパフォーマンスを達成した。 本研究では,物体検出のためのSmooth and Stepwise Self-Distillation (SSSD)を提案する。 私たちのsssdアーキテクチャは、オブジェクトラベルからの暗黙的な教師と特徴ピラミッドネットワークバックボーンを形成し、jensen-shannon距離を使用してラベル注釈特徴マップを蒸留します。 さらに, 学習率に基づいて適応的に設定された蒸留係数を付加する。 我々は,COCOデータセット上のベースラインと2つの最先端オブジェクト検出器アーキテクチャに対して,係数とバックボーンおよび検出器ネットワークを変化させることで,SSSDを広範囲にベンチマークする。 sssdは,ほとんどの実験環境では高い平均精度を達成し,幅広い係数に頑健であり,ステップワイズ蒸留法から得られる利点を実証した。

Distilling the structured information captured in feature maps has contributed to improved results for object detection tasks, but requires careful selection of baseline architectures and substantial pre-training. Self-distillation addresses these limitations and has recently achieved state-of-the-art performance for object detection despite making several simplifying architectural assumptions. Building on this work, we propose Smooth and Stepwise Self-Distillation (SSSD) for object detection. Our SSSD architecture forms an implicit teacher from object labels and a feature pyramid network backbone to distill label-annotated feature maps using Jensen-Shannon distance, which is smoother than distillation losses used in prior work. We additionally add a distillation coefficient that is adaptively configured based on the learning rate. We extensively benchmark SSSD against a baseline and two state-of-the-art object detector architectures on the COCO dataset by varying the coefficients and backbone and detector networks. We demonstrate that SSSD achieves higher average precision in most experimental settings, is robust to a wide range of coefficients, and benefits from our stepwise distillation procedure.
翻訳日:2023-03-10 16:11:02 公開日:2023-03-09
# スピン乗法を規定しない変分量子固有解法アルゴリズムによる化学反応の計算解析

Computational analysis of chemical reactions using a variational quantum eigensolver algorithm without specifying spin multiplicity ( http://arxiv.org/abs/2303.05065v1 )

ライセンス: Link先を確認
Soichi Shirai, Hokuto Iwakiri, Keita Kanno, Takahiro Horiba, Keita Omiya, Hirotoshi Hirai and Sho Koh(参考訳) 未知のスピン状態と連動して基底状態ポテンシャルエネルギー面に沿った化学反応の解析は困難であり、電子状態は異なるスピン乗法を用いて数回別々に計算し、最低エネルギー状態を見つける必要がある。 しかし、原理的には、スピン多重度を事前に指定することなく、量子コンピュータを用いた単一の計算だけで基底状態が得られる。 本研究では,変分量子固有解法(VQE)アルゴリズムを用いて,PtCOの基底状態ポテンシャルエネルギー曲線を概念実証として計算した。 この系は、PtとCOの相互作用の結果、一重項のクロスオーバーを示す。 状態ベクトルシミュレータを用いたVQE計算により,結合領域内の一重項状態に収束し,解離限界で三重項状態が得られることがわかった。 実際の量子デバイスを用いた計算は、誤差緩和手法を採用した後、シミュレーションエネルギーの$\pm$2 kcal/mol以内のポテンシャルエネルギーを提供した。 ボンディング領域と解離領域のスピン多重性は、少量のショットであっても明確に区別できる。 本研究の結果から, 量子コンピューティングは, 基底状態のスピン乗数性とパラメータの変動が予め分かっていない系の化学反応を解析するための強力なツールとなる可能性が示唆された。

The analysis of a chemical reaction along the ground state potential energy surface in conjunction with an unknown spin state is challenging because electronic states must be separately computed several times using different spin multiplicities to find the lowest energy state. However, in principle, the ground state could be obtained with just a single calculation using a quantum computer without specifying the spin multiplicity in advance. In the present work, ground state potential energy curves for PtCO were calculated as a proof-of-concept using a variational quantum eigensolver (VQE) algorithm. This system exhibits a singlet-triplet crossover as a consequence of the interaction between Pt and CO. VQE calculations using a statevector simulator were found to converge to a singlet state in the bonding region, while a triplet state was obtained at the dissociation limit. Calculations performed using an actual quantum device provided potential energies within $\pm$2 kcal/mol of the simulated energies after adopting error mitigation techniques. The spin multiplicities in the bonding and dissociation regions could be clearly distinguished even in the case of a small number of shots. The results of this study suggest that quantum computing can be a powerful tool for the analysis of the chemical reactions of systems for which the spin multiplicity of the ground state and variations in this parameter are not known in advance.
翻訳日:2023-03-10 16:05:12 公開日:2023-03-09
# icl-d3ie: ドキュメント情報抽出のためのさまざまなデモによるインコンテキスト学習

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction ( http://arxiv.org/abs/2303.05063v1 )

ライセンス: Link先を確認
Jiabang He, Lei Wang, Yi Hu, Ning Liu, Hui Liu, Xing Xu, and Heng Tao Shen(参考訳) GPT-3 や ChatGPT のような大規模言語モデル (LLM) は、いくつかの実例に基づく推論を含む、文脈内学習を伴う様々な自然言語処理 (NLP) タスクにおいて顕著な結果を示している。 NLPタスクの成功にもかかわらず、LLMが文脈内学習を用いて文書情報抽出(DIE)を行う能力を評価するための調査は行われていない。 LLMをDIEに適用することは、モダリティとタスクギャップという2つの課題をもたらす。 そこで本研究では,様々な種類の実演例を用いてllmによるダイ実行を可能にするicl-d3ieという,シンプルかつ効果的なインコンテキスト学習フレームワークを提案する。 具体的には、すべてのテストインスタンスのメリットを享受するためのハードトレーニングドキュメントから、最も困難で明確なセグメントを抽出する。 我々は、LLMが位置関係を理解することができる関係を記述するデモンストレーションを設計する。 簡単な解答抽出のためのフォーマッティングデモを導入する。 さらに、フレームワークは繰り返し更新することで様々なデモを改善している。 In-distribution (ID) 設定とout-of-distribution (OOD) 設定の両方でフルトレーニングを施した従来の事前学習手法と比較して, ICL-D3IE フレームワークは優れた性能が得られることを示す。

Large language models (LLMs), such as GPT-3 and ChatGPT, have demonstrated remarkable results in various natural language processing (NLP) tasks with in-context learning, which involves inference based on a few demonstration examples. Despite their successes in NLP tasks, no investigation has been conducted to assess the ability of LLMs to perform document information extraction (DIE) using in-context learning. Applying LLMs to DIE poses two challenges: the modality and task gap. To this end, we propose a simple but effective in-context learning framework called ICL-D3IE, which enables LLMs to perform DIE with different types of demonstration examples. Specifically, we extract the most difficult and distinct segments from hard training documents as hard demonstrations for benefiting all test instances. We design demonstrations describing relationships that enable LLMs to understand positional relationships. We introduce formatting demonstrations for easy answer extraction. Additionally, the framework improves diverse demonstrations by updating them iteratively. Our experiments on three widely used benchmark datasets demonstrate that the ICL-D3IE framework enables GPT-3/ChatGPT to achieve superior performance when compared to previous pre-trained methods fine-tuned with full training in both the in-distribution (ID) setting and in the out-of-distribution (OOD) setting.
翻訳日:2023-03-10 16:04:33 公開日:2023-03-09
# Lifelong-MonoDepth:マルチドメイン単分子距離推定のための生涯学習

Lifelong-MonoDepth: Lifelong Learning for Multi-Domain Monocular Metric Depth Estimation ( http://arxiv.org/abs/2303.05050v1 )

ライセンス: Link先を確認
Junjie Hu, Chenyou Fan, Liguang Zhou, Qing Gao, Honghai Liu, Tin Lun Lam(参考訳) 近年,単眼深度推定(mde)はデータ駆動学習の手法において大きな進歩を遂げている。 従来の手法では、単一ドメインや混合データを用いた共同ドメイントレーニングのパラダイムに基づいて、特定のドメインの深さマップを推論できる。 しかし、新しいドメインへのスケーラビリティの低下に苦しむ。 実際には、ターゲットドメインは動的に変化または増加し、インクリメンタルなマルチドメイン/タスク学習の要求が高まる。 本稿では,ドメイン間深度学習を逐次行うMDEの生涯学習を可能とし,新しいドメイン上で高い塑性を実現し,元のドメイン上での安定性を維持することを目的とする。 そこで我々は,特徴抽出のための領域共有エンコーダと距離深度推定のための領域固有予測器からなる軽量マルチヘッドフレームワークを設計した。 さらに,入力画像が与えられた場合,深度推定のための予測器を自動的に識別する効率的な予測器選択手法を提案する。 その結果,提案手法は高い効率,安定性,可塑性を達成でき,ベンチマークを8%から15%に向上させることができた。

In recent years, monocular depth estimation (MDE) has gained significant progress in a data-driven learning fashion. Previous methods can infer depth maps for specific domains based on the paradigm of single-domain or joint-domain training with mixed data. However, they suffer from low scalability to new domains. In reality, target domains often dynamically change or increase, raising the requirement of incremental multi-domain/task learning. In this paper, we seek to enable lifelong learning for MDE, which performs cross-domain depth learning sequentially, to achieve high plasticity on a new domain and maintain good stability on original domains. To overcome significant domain gaps and enable scale-aware depth prediction, we design a lightweight multi-head framework that consists of a domain-shared encoder for feature extraction and domain-specific predictors for metric depth estimation. Moreover, given an input image, we propose an efficient predictor selection approach that automatically identifies the corresponding predictor for depth inference. Through extensive numerical studies, we show that the proposed method can achieve good efficiency, stability, and plasticity, leading the benchmarks by 8% to 15%.
翻訳日:2023-03-10 16:04:04 公開日:2023-03-09
# デカップリング拡散モデルによるレイアウト生成の統一化

Unifying Layout Generation with a Decoupled Diffusion Model ( http://arxiv.org/abs/2303.05049v1 )

ライセンス: Link先を確認
Mude Hui, Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yuwang Wang, Yan Lu(参考訳) レイアウト生成は、カテゴリ、サイズ、位置、要素間の関係など、異なる属性を持つ要素からなるリアルなグラフィックシーンを合成することを目的としている。 これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。 多様なアプリケーションシナリオは、条件付きおよび無条件生成を含む様々なレイアウト生成サブタスクを統合する際に大きな課題を課す。 本稿では,1つの分離拡散モデルでそのような統一を実現するために,レイアウト拡散生成モデル(LDGM)を提案する。 LDGMは、任意の欠落または粗い要素属性のレイアウトを、完了したレイアウトから中間拡散状態として見る。 異なる属性は個々のセマンティクスと特性を持っているため、トレーニングサンプルの多様性を向上させるために拡散過程を分離し、相互にリバースプロセスを学習し、グローバルスコープコンテキストを活用し、生成を促進する。 その結果、LDGMはスクラッチまたは任意の属性に対して条件付きでレイアウトを生成することができる。 大規模定性的および定量的実験により,提案するLDGMは,既存のレイアウト生成モデルよりも機能および性能に優れることを示した。

Layout generation aims to synthesize realistic graphic scenes consisting of elements with different attributes including category, size, position, and between-element relation. It is a crucial task for reducing the burden on heavy-duty graphic design works for formatted scenes, e.g., publications, documents, and user interfaces (UIs). Diverse application scenarios impose a big challenge in unifying various layout generation subtasks, including conditional and unconditional generation. In this paper, we propose a Layout Diffusion Generative Model (LDGM) to achieve such unification with a single decoupled diffusion model. LDGM views a layout of arbitrary missing or coarse element attributes as an intermediate diffusion status from a completed layout. Since different attributes have their individual semantics and characteristics, we propose to decouple the diffusion processes for them to improve the diversity of training samples and learn the reverse process jointly to exploit global-scope contexts for facilitating generation. As a result, our LDGM can generate layouts either from scratch or conditional on arbitrary available attributes. Extensive qualitative and quantitative experiments demonstrate our proposed LDGM outperforms existing layout generation models in both functionality and performance.
翻訳日:2023-03-10 16:03:38 公開日:2023-03-09
# 大規模IoTネットワークにおけるコラボレーティブインテリジェンスのためのセミフェデレーション学習

Semi-Federated Learning for Collaborative Intelligence in Massive IoT Networks ( http://arxiv.org/abs/2303.05048v1 )

ライセンス: Link先を確認
Wanli Ni, Jingheng Zheng, and Hui Tian(参考訳) 大規模モノのインターネット(IoT)ネットワークにおける既存のフェデレーション学習の実装は、不均衡や統計的に異質なデータやデバイスの多様性といった重要な課題に直面している。 この目的のために,知的IoTの実現のための潜在的なソリューションを提供するためのセミフェデレーション学習(SemiFL)フレームワークを提案する。 集中型とフェデレートされたパラダイムをシームレスに統合することにより、SemiFLフレームワークは、コンピューティング限定のセンサーが存在する場合でも、IoTデバイスの数の観点から高いスケーラビリティを示します。 さらに,従来の学習手法と比較して,エッジサーバとローカルデバイス間の協調モデルトレーニングにより,semiflは分散データと計算リソースをより活用することができる。 シミュレーション結果は,大規模iotネットワークにおけるsemiflフレームワークの有効性を示す。 コードはhttps://github.com/niwanli/semifl_iotにある。

Implementing existing federated learning in massive Internet of Things (IoT) networks faces critical challenges such as imbalanced and statistically heterogeneous data and device diversity. To this end, we propose a semi-federated learning (SemiFL) framework to provide a potential solution for the realization of intelligent IoT. By seamlessly integrating the centralized and federated paradigms, our SemiFL framework shows high scalability in terms of the number of IoT devices even in the presence of computing-limited sensors. Furthermore, compared to traditional learning approaches, the proposed SemiFL can make better use of distributed data and computing resources, due to the collaborative model training between the edge server and local devices. Simulation results show the effectiveness of our SemiFL framework for massive IoT networks. The code can be found at https://github.com/niwanli/SemiFL_IoT.
翻訳日:2023-03-10 16:03:18 公開日:2023-03-09
# 多様性測定可能な異常検出

Diversity-Measurable Anomaly Detection ( http://arxiv.org/abs/2303.05047v1 )

ライセンス: Link先を確認
Wenrui Liu, Hong Chang, Bingpeng Ma, Shiguang Shan, Xilin Chen(参考訳) 再構成に基づく異常検出モデルは、異常の一般化能力を抑制して目的を達成する。 しかし、多彩な正常なパターンも十分に再構築されていない。 サンプルの多様性をモデル化することでこの問題を緩和する努力も行われているが、異常情報の不要な伝達によるショートカット学習に悩まされている。 本稿では,このトレードオフ問題に対処するため,不必要な異常の一般化を回避しつつ,再構成の多様性を高めるため,DMAD(Diversity-Measurable Anomaly Detection)フレームワークを提案する。 この目的のために、多スケール変形場を原入力への再構成基準から推定することにより、様々な正規性をモデル化し、異常の深刻度を測定するピラミッド変形モジュール(PDM)を設計する。 情報圧縮モジュールと統合され、PDMは基本的に原型埋め込みから変形を分離し、最終的な異常スコアをより信頼性を高める。 監視ビデオと産業画像の両方の実験結果から,本手法の有効性が示された。 さらに、DMADは汚染されたデータや異常のような正常なサンプルの前でも同じように機能する。

Reconstruction-based anomaly detection models achieve their purpose by suppressing the generalization ability for anomaly. However, diverse normal patterns are consequently not well reconstructed as well. Although some efforts have been made to alleviate this problem by modeling sample diversity, they suffer from shortcut learning due to undesired transmission of abnormal information. In this paper, to better handle the tradeoff problem, we propose Diversity-Measurable Anomaly Detection (DMAD) framework to enhance reconstruction diversity while avoid the undesired generalization on anomalies. To this end, we design Pyramid Deformation Module (PDM), which models diverse normals and measures the severity of anomaly by estimating multi-scale deformation fields from reconstructed reference to original input. Integrated with an information compression module, PDM essentially decouples deformation from prototypical embedding and makes the final anomaly score more reliable. Experimental results on both surveillance videos and industrial images demonstrate the effectiveness of our method. In addition, DMAD works equally well in front of contaminated data and anomaly-like normal samples.
翻訳日:2023-03-10 16:03:06 公開日:2023-03-09
# 教師なし言語非依存WER標準化

Unsupervised Language agnostic WER Standardization ( http://arxiv.org/abs/2303.05046v1 )

ライセンス: Link先を確認
Satarupa Guha, Rahul Ambavat, Ankur Gupta, Manish Gupta, Rupeshkumar Mehta(参考訳) 単語誤り率(英: word error rate、wer)は、自動音声認識(asr)システムの評価のための標準指標である。 しかし、WERは、綴りのバリエーション、略語、あるいは凝集によって生じる複合語の存在下で、人間の知覚品質を公平に評価することができない。 複数の綴りのバリエーションは、ローカライズ/地理学、代替の略語、借用語、外国語からターゲット言語スクリプトへのコード混合語の文字化に基づいて受け入れられる。 同様に、凝集の場合、しばしば凝集した凝集体と分裂した形態が許容される。 従来の作業では、手動で正規化ペアを識別し、それをWER計算の前に書き起こしと仮説の両方に適用することでこの問題に対処していた。 本稿では,スペル正規化とセグメント正規化という2つのモジュールからなる自動WER正規化システムを提案する。 提案システムは教師なし,言語に依存しないため,スケーラブルである。 4つの言語にわたる35K発話に対するASRによる実験の結果、平均的なWERの減少率は13.28%となった。 自動同定された正規化ペアの人間の判断は、我々のWER正規化評価がASR出力の知覚品質と極めて一致していることを示している。

Word error rate (WER) is a standard metric for the evaluation of Automated Speech Recognition (ASR) systems. However, WER fails to provide a fair evaluation of human perceived quality in presence of spelling variations, abbreviations, or compound words arising out of agglutination. Multiple spelling variations might be acceptable based on locale/geography, alternative abbreviations, borrowed words, and transliteration of code-mixed words from a foreign language to the target language script. Similarly, in case of agglutination, often times the agglutinated, as well as the split forms, are acceptable. Previous work handled this problem by using manually identified normalization pairs and applying them to both the transcription and the hypothesis before computing WER. In this paper, we propose an automatic WER normalization system consisting of two modules: spelling normalization and segmentation normalization. The proposed system is unsupervised and language agnostic, and therefore scalable. Experiments with ASR on 35K utterances across four languages yielded an average WER reduction of 13.28%. Human judgements of these automatically identified normalization pairs show that our WER-normalized evaluation is highly consistent with the perceived quality of ASR output.
翻訳日:2023-03-10 16:02:49 公開日:2023-03-09
# ランダムフーリエ特徴を持つ可逆カーネルPCA

Invertible Kernel PCA with Random Fourier Features ( http://arxiv.org/abs/2303.05043v1 )

ライセンス: Link先を確認
Daniel Gedon, Ant\^oni H. Ribeiro, Niklas Wahlstr\"om, Thomas B. Sch\"on(参考訳) カーネル主成分分析(kPCA)は、非線形変換後の低次元データ表現を構築するために広く研究されている手法である。 そこで本研究では,kPCAからの入力信号を復調するためには,教師付き学習問題を解く必要がある。 本稿では,圧縮ステップから自然に復元を行う代替手法を提案する。 まずカーネルをランダムなフーリエ特徴で近似する。 そして、ある部分領域において非線形変換が可逆であるという事実を利用する。 したがって、名前は \emph{invertible kernel PCA (ikPCA)} である。 我々は、異なるデータモダリティを実験し、ikPCAがkPCAと同じようなタスクの教師付き再構成を行うことを示す。

Kernel principal component analysis (kPCA) is a widely studied method to construct a low-dimensional data representation after a nonlinear transformation. The prevailing method to reconstruct the original input signal from kPCA -- an important task for denoising -- requires us to solve a supervised learning problem. In this paper, we present an alternative method where the reconstruction follows naturally from the compression step. We first approximate the kernel with random Fourier features. Then, we exploit the fact that the nonlinear transformation is invertible in a certain subdomain. Hence, the name \emph{invertible kernel PCA (ikPCA)}. We experiment with different data modalities and show that ikPCA performs similarly to kPCA with supervised reconstruction on denoising tasks, making it a strong alternative.
翻訳日:2023-03-10 16:02:32 公開日:2023-03-09
# コンテキスト構造を活用して有用な補助タスクを生成する

Exploiting Contextual Structure to Generate Useful Auxiliary Tasks ( http://arxiv.org/abs/2303.05038v1 )

ライセンス: Link先を確認
Benedict Quartey, Ankit Shah, George Konidaris(参考訳) 強化学習はロボットにとって高価な環境との相互作用を必要とする。 この制約は、以前の経験の再利用を最大化することで、限られた環境相互作用を扱うアプローチを必要とする。 有用な補助タスクの生成と学習を同時に行うことにより,与えられたタスクを学習しながら,経験の再利用を最大化する手法を提案する。 これらのタスクを生成するために、与えられたタスクの抽象時間論理表現を構築し、大きな言語モデルを利用して、オブジェクトの置換を容易にするコンテキスト認識オブジェクトの埋め込みを生成する。 反事実推論とオフポリシー法により、与えられた対象タスクを解きながら、これらの補助タスクを同時に学習することができる。 我々はこれらの知見をマルチタスク強化学習のための新しい枠組みに組み合わせ、生成した補助タスクが与えられたタスクと類似した探索要件を共有できることを実験的に示す。 当社のアプローチでは, 余分な環境相互作用を伴わずに, 追加の有用なポリシーを自動学習することができる。

Reinforcement learning requires interaction with an environment, which is expensive for robots. This constraint necessitates approaches that work with limited environmental interaction by maximizing the reuse of previous experiences. We propose an approach that maximizes experience reuse while learning to solve a given task by generating and simultaneously learning useful auxiliary tasks. To generate these tasks, we construct an abstract temporal logic representation of the given task and leverage large language models to generate context-aware object embeddings that facilitate object replacements. Counterfactual reasoning and off-policy methods allow us to simultaneously learn these auxiliary tasks while solving the given target task. We combine these insights into a novel framework for multitask reinforcement learning and experimentally show that our generated auxiliary tasks share similar underlying exploration requirements as the given task, thereby maximizing the utility of directed exploration. Our approach allows agents to automatically learn additional useful policies without extra environment interaction.
翻訳日:2023-03-10 16:02:19 公開日:2023-03-09
# 滑らか・強凸集合上のゲージと加速最適化

Gauges and Accelerated Optimization over Smooth and/or Strongly Convex Sets ( http://arxiv.org/abs/2303.05037v1 )

ライセンス: Link先を確認
Ning Liu, Benjamin Grimmer(参考訳) 滑らかかつ強凸集合上で定義される実現可能性と制約付き最適化問題を考える。 これらの概念は一般的な関数を反映しているが、一階最適化の文献では明らかに研究されていない。 これらの設定において,新しい拡張性,プロジェクションフリー,アクセラレーションファーストオーダー手法を提案する。 提案手法は,安価な一次元線形探索と通常のベクトル計算のみを用いて,線形最適化や射影オラクルを回避する。 それにもかかわらず、強凸問題に対しては$o(1/t)$、滑らかな問題では$o(1/t^2)$という最適加速収束保証が導かれる。 我々のアルゴリズムと解析は、滑らかかつ強い凸集合のミンコフスキーゲージの新たな特徴付けに基づいているが、これは独立興味を持つかもしれない: ゲージは滑らかでも強凸でもないが、ゲージの平方形がその集合に存在する任意の構造を継承していることを示す。

We consider feasibility and constrained optimization problems defined over smooth and/or strongly convex sets. These notions mirror their popular function counterparts but are much less explored in the first-order optimization literature. We propose new scalable, projection-free, accelerated first-order methods in these settings. Our methods avoid linear optimization or projection oracles, only using cheap one-dimensional linesearches and normal vector computations. Despite this, we derive optimal accelerated convergence guarantees of $O(1/T)$ for strongly convex problems, $O(1/T^2)$ for smooth problems, and accelerated linear convergence given both. Our algorithms and analysis are based on novel characterizations of the Minkowski gauge of smooth and/or strongly convex sets, which may be of independent interest: although the gauge is neither smooth nor strongly convex, we show the gauge squared inherits any structure present in the set.
翻訳日:2023-03-10 16:02:03 公開日:2023-03-09
# DDS3D: 半スーパービジョン3次元物体検出のための動的閾値付き高密度擬似ラベル

DDS3D: Dense Pseudo-Labels with Dynamic Threshold for Semi-Supervised 3D Object Detection ( http://arxiv.org/abs/2303.05079v1 )

ライセンス: Link先を確認
Jingyu Li1, Zhe Liu1, Jinghua Hou1, Dingkang Liang(参考訳) 本稿では,DDS3Dという簡易かつ効果的な半教師付き3次元物体検出器を提案する。 私たちの主な貢献は2倍です。 一方,非最大抑制 (nms) やその変種を用いたスパース擬似ラベルを得るための従来の作品と異なり,学生ネットワークの監視情報を多く保持できる密集した擬似ラベル生成戦略を提案する。 一方,従来の固定しきい値の代わりに擬似ラベルを生成する動的しきい値法を提案し,学習過程全体における擬似ラベルの品質と量を保証する。 この2つのコンポーネントの利点により、dds3dは、歩行者の3.1%、サイクリストの2.1%という、最先端の半教師付き3dオブジェクト検出よりも優れています。 KITTIデータセットの大規模なアブレーション研究は、我々のDDS3Dの有効性を実証している。 コードとモデルはhttps://github.com/hust-jy/DDS3Dで公開される。

In this paper, we present a simple yet effective semi-supervised 3D object detector named DDS3D. Our main contributions have two-fold. On the one hand, different from previous works using Non-Maximal Suppression (NMS) or its variants for obtaining the sparse pseudo labels, we propose a dense pseudo-label generation strategy to get dense pseudo-labels, which can retain more potential supervision information for the student network. On the other hand, instead of traditional fixed thresholds, we propose a dynamic threshold manner to generate pseudo-labels, which can guarantee the quality and quantity of pseudo-labels during the whole training process. Benefiting from these two components, our DDS3D outperforms the state-of-the-art semi-supervised 3d object detection with mAP of 3.1% on the pedestrian and 2.1% on the cyclist under the same configuration of 1% samples. Extensive ablation studies on the KITTI dataset demonstrate the effectiveness of our DDS3D. The code and models will be made publicly available at https://github.com/hust-jy/DDS3D
翻訳日:2023-03-10 15:55:50 公開日:2023-03-09
# 動的トークンハルティングによるトランスフォーマーを用いた3次元物体検出

Efficient Transformer-based 3D Object Detection with Dynamic Token Halting ( http://arxiv.org/abs/2303.05078v1 )

ライセンス: Link先を確認
Mao Ye, Gregory P. Meyer, Yuning Chai, Qiang Liu(参考訳) 効率と正確さのバランスは、ディープラーニングモデルのデプロイにおいて長年の課題である。 このトレードオフは、自動運転車のようなリアルタイム安全クリティカルシステムにとってさらに重要である。 本稿では,様々な層でトークンを動的に停止させることにより,トランスベース3次元物体検出を高速化する効果的な手法を提案する。 トークンの停止は微分不可能な操作であるが,本手法は等価な微分可能フォワードパスを活用することで,エンドツーエンドの学習を可能にする。 さらに,本フレームワークでは,停止トークンを再利用して,簡単なトークンリサイクル機構を通じてモデルの予測を通知する。 提案手法は,従来の手法と比較して効率と精度のParetoフロンティアを大幅に改善する。 トークンの停止とモデルキャパシティの増大により、Waymo Open Datasetでのモデルのレイテンシを増大させることなく、ベースラインモデルのパフォーマンスを改善することができます。

Balancing efficiency and accuracy is a long-standing problem for deploying deep learning models. The trade-off is even more important for real-time safety-critical systems like autonomous vehicles. In this paper, we propose an effective approach for accelerating transformer-based 3D object detectors by dynamically halting tokens at different layers depending on their contribution to the detection task. Although halting a token is a non-differentiable operation, our method allows for differentiable end-to-end learning by leveraging an equivalent differentiable forward-pass. Furthermore, our framework allows halted tokens to be reused to inform the model's predictions through a straightforward token recycling mechanism. Our method significantly improves the Pareto frontier of efficiency versus accuracy when compared with the existing approaches. By halting tokens and increasing model capacity, we are able to improve the baseline model's performance without increasing the model's latency on the Waymo Open Dataset.
翻訳日:2023-03-10 15:55:30 公開日:2023-03-09
# 視覚テキストの摂動の正当性を学ぶ

Learning the Legibility of Visual Text Perturbations ( http://arxiv.org/abs/2303.05077v1 )

ライセンス: Link先を確認
Dev Seth, Rickard Stureborg, Danish Pruthi and Bhuwan Dhingra(参考訳) NLPパーターブの多くの敵攻撃は、視覚的に類似した文字列('ergo' $\rightarrow$ '$\epsilon$rgo')を生成するために入力される。 正当性を維持することはテキストの摂動に必要条件であるが、体系的な特徴付けのためにはほとんど行われておらず、代わりに摂動の性質と範囲に関する直観によって適性は緩やかに強制される。 特に、可視性を保ちながらどの程度入力が摂動できるのか、あるいは摂動弦の可視性を定量化する方法は不明確である。 本研究では,摂動文字列の正当性を予測する学習モデルと,その正当性に基づいたランク候補摂動により,このギャップに対処する。 そこで我々は、視覚的摂動テキストの可視性を含む人称注釈付きデータセットである \dataset を収集、リリースする。 このデータセットを用いて、入力が正当かどうかを予測するために最大0.91ドルF1スコアを得るテキストと視覚に基づくモデルと、与えられた2つの摂動のどちらがより正当かを予測する精度0.86ドルのモデルを構築する。 さらに, 従来の攻撃戦略よりもNLPモデルの性能低下に有効であることが示唆され, 現在のモデルでは, 既存の視覚的攻撃によって捉えられる範囲を超えて, 幅広い摂動に対して脆弱である可能性が示唆された。 データ、コード、モデルはhttps://github.com/dvsth/learning-legibility-2023で入手できる。

Many adversarial attacks in NLP perturb inputs to produce visually similar strings ('ergo' $\rightarrow$ '$\epsilon$rgo') which are legible to humans but degrade model performance. Although preserving legibility is a necessary condition for text perturbation, little work has been done to systematically characterize it; instead, legibility is typically loosely enforced via intuitions around the nature and extent of perturbations. Particularly, it is unclear to what extent can inputs be perturbed while preserving legibility, or how to quantify the legibility of a perturbed string. In this work, we address this gap by learning models that predict the legibility of a perturbed string, and rank candidate perturbations based on their legibility. To do so, we collect and release \dataset, a human-annotated dataset comprising the legibility of visually perturbed text. Using this dataset, we build both text- and vision-based models which achieve up to $0.91$ F1 score in predicting whether an input is legible, and an accuracy of $0.86$ in predicting which of two given perturbations is more legible. Additionally, we discover that legible perturbations from the \dataset dataset are more effective at lowering the performance of NLP models than best-known attack strategies, suggesting that current models may be vulnerable to a broad range of perturbations beyond what is captured by existing visual attacks. Data, code, and models are available at https://github.com/dvsth/learning-legibility-2023.
翻訳日:2023-03-10 15:55:15 公開日:2023-03-09
# GaitEditer: 歩行表現学習のための属性編集

GaitEditer: Attribute Editing for Gait Representation Learning ( http://arxiv.org/abs/2303.05076v1 )

ライセンス: Link先を確認
Dingqiang Ye, Jingzhe Ma, Chao Fan, and Shiqi Yu(参考訳) 歩行パターンはアプリケーションにとって有望なバイオメトリックであり、個々の協力を必要とせずに遠くから捉えることができる。 しかしながら、既存の歩行データセットは通常、限られた多様性に悩まされており、屋内データセットでは、参加者は制限された環境で一定のルートを歩かなければならない。 以前の生成メソッドでは、仮想のgaitデータセットを構築することで、これらの制限を緩和しようと試みている。 主に単一の特定の歩数属性(視点や搬送など)を操作することに重点を置いており、訓練には教師付きデータペアを必要とするため、実用的な使用には柔軟性と多様性が欠如している。 対照的に、GaitEditerはオンラインモジュールとして機能し、ズボン、視点、年齢などの幅広い歩行属性を教師なしの方法で編集することができる。 さらに、GaitEidterは生成した歩行シーケンスにおける時間的連続性とアイデンティティ特性を微細に保存する。 実験の結果,GaitEditerは,様々な難易度シナリオ下での衣服不変およびビュー不変の歩行表現学習に広範な知識を提供することがわかった。 ソースコードは利用可能になる。

Gait pattern is a promising biometric for applications, as it can be captured from a distance without requiring individual cooperation. Nevertheless, existing gait datasets typically suffer from limited diversity, with indoor datasets requiring participants to walk along a fixed route in a restricted setting, and outdoor datasets containing only few walking sequences per subject. Prior generative methods have attempted to mitigate these limitations by building virtual gait datasets. They primarily focus on manipulating a single, specific gait attribute (e.g., viewpoint or carrying), and require the supervised data pairs for training, thus lacking the flexibility and diversity for practical usage. In contrast, our GaitEditer can act as an online module to edit a broad range of gait attributes, such as pants, viewpoint, and even age, in an unsupervised manner, which current gait generative methods struggle with. Additionally, GaitEidter also finely preserves both temporal continuity and identity characteristics in generated gait sequences. Experiments show that GaitEditer provides extensive knowledge for clothing-invariant and view-invariant gait representation learning under various challenging scenarios. The source code will be available.
翻訳日:2023-03-10 15:54:46 公開日:2023-03-09
# プログレッシブ・セルフ蒸留による食品認識の学習

Learn More for Food Recognition via Progressive Self-Distillation ( http://arxiv.org/abs/2303.05073v1 )

ライセンス: Link先を確認
Yaohui Zhu, Linhu Liu, Jiang Tian(参考訳) 食品認識には、健康に配慮したレコメンデーションやセルフサービスレストランなど、幅広い応用がある。 食品認識の従来の手法は、まず、弱い管理方法で情報領域を特定し、その特徴を集約する。 しかし、情報領域の位置誤差は、これらの手法の有効性をある程度制限する。 そこで本研究では,複数の地域を探索する代わりに,より詳細な食品認識のためのネットワークのマイニング能力を高めるプログレッシブ・セルフ蒸留(PSD)手法を提案する。 PSDのトレーニングは、教師ネットワークと学生ネットワークが同一の埋め込みネットワークを共有する複数の自己蒸留を含む。 教師ネットワークは、一部の情報領域をマスキングして教師ネットワークから修正画像を受け取るので、教師ネットワークは生徒ネットワークよりも強力な意味表現を出力する。 より強力な意味を持つ教師ネットワークによって指導され、学生ネットワークは、より有用な地域を、自身の能力を高めて修正画像からマイニングすることが奨励される。 また、共有埋め込みネットワークにより、教師ネットワークの能力も向上する。 プログレッシブトレーニングを使用することで、教師ネットワークはより差別的な地域をマイニングする能力を向上させる。 推論フェーズでは、学生ネットワークの助けなしに教師ネットワークのみが使用される。 3つのデータセットに関する広範囲な実験により,提案手法の有効性と最新性能が実証された。

Food recognition has a wide range of applications, such as health-aware recommendation and self-service restaurants. Most previous methods of food recognition firstly locate informative regions in some weakly-supervised manners and then aggregate their features. However, location errors of informative regions limit the effectiveness of these methods to some extent. Instead of locating multiple regions, we propose a Progressive Self-Distillation (PSD) method, which progressively enhances the ability of network to mine more details for food recognition. The training of PSD simultaneously contains multiple self-distillations, in which a teacher network and a student network share the same embedding network. Since the student network receives a modified image from its teacher network by masking some informative regions, the teacher network outputs stronger semantic representations than the student network. Guided by such teacher network with stronger semantics, the student network is encouraged to mine more useful regions from the modified image by enhancing its own ability. The ability of the teacher network is also enhanced with the shared embedding network. By using progressive training, the teacher network incrementally improves its ability to mine more discriminative regions. In inference phase, only the teacher network is used without the help of the student network. Extensive experiments on three datasets demonstrate the effectiveness of our proposed method and state-of-the-art performance.
翻訳日:2023-03-10 15:54:26 公開日:2023-03-09
# 希少部分群における画像分類器の系統誤差の同定

Identification of Systematic Errors of Image Classifiers on Rare Subgroups ( http://arxiv.org/abs/2303.05072v1 )

ライセンス: Link先を確認
Jan Hendrik Metzen, Robin Hutmacher, N. Grace Hua, Valentyn Boreiko, Dan Zhang(参考訳) 多くの画像分類器の平均ケース性能にもかかわらず、それらの性能はトレーニングデータで表現されていないデータのセマンティックコヒーレントな部分群で著しく低下する。 これらの系統的誤りは、少数民族集団の公平性と、ドメインシフト下での堅牢性と安全性の両方に影響を与える可能性がある。 主要な課題は、これらの部分群がアノテートされず、その発生が非常に稀なときに、サブパー性能を持つ部分群を特定することである。 我々は,テキスト・ツー・イメージ・モデルにおける最近の進歩と,プロンプト付き合成データに対する目標モデルの性能が低いサブグループに対するサブグループのテキスト記述空間の探索を利用する。 指数関数的に増加するサブグループに対処するために、組合せテストを採用する。 本稿では,プロンプトアタック(PromptAttack)と表現し,プロンプト空間における敵攻撃と解釈できる。 制御された環境では,プロンプトアタックによるサブグループカバレッジと識別性を調査し,高い精度で系統的誤りを識別できることを見いだした。 本稿では、ImageNet分類器にPromptAttackを適用し、稀なサブグループの新しい体系的エラーを特定する。

Despite excellent average-case performance of many image classifiers, their performance can substantially deteriorate on semantically coherent subgroups of the data that were under-represented in the training data. These systematic errors can impact both fairness for demographic minority groups as well as robustness and safety under domain shift. A major challenge is to identify such subgroups with subpar performance when the subgroups are not annotated and their occurrence is very rare. We leverage recent advances in text-to-image models and search in the space of textual descriptions of subgroups ("prompts") for subgroups where the target model has low performance on the prompt-conditioned synthesized data. To tackle the exponentially growing number of subgroups, we employ combinatorial testing. We denote this procedure as PromptAttack as it can be interpreted as an adversarial attack in a prompt space. We study subgroup coverage and identifiability with PromptAttack in a controlled setting and find that it identifies systematic errors with high accuracy. Thereupon, we apply PromptAttack to ImageNet classifiers and identify novel systematic errors on rare subgroups.
翻訳日:2023-03-10 15:54:08 公開日:2023-03-09
# MBPTrack: メモリネットワークとBoxによる3Dポイントクラウドトラッキングの改善

MBPTrack: Improving 3D Point Cloud Tracking with Memory Networks and Box Priors ( http://arxiv.org/abs/2303.05071v1 )

ライセンス: Link先を確認
Tian-Xing Xu, Yuan-Chen Guo, Yu-Kun Lai, Song-Hai Zhang(参考訳) 3Dオブジェクトトラッキングは、自律運転など多くのアプリケーションにおいて、何十年にもわたって重要な問題となっている。 広範囲にわたる使用にもかかわらず、追跡対象間の咬合やサイズ差による外観変化が顕著であることから、この課題は依然として困難である。 これらの問題に対処するため,MBPTrack は過去の情報を活用するメモリ機構を採用し,第1フレームで指定した Box Priors を用いた粗大きめのスキームにおける局所化を定式化する。 具体的には、目標マスク付き過去のフレームが外部メモリとして機能し、トランスフォーマーベースのモジュールが、追跡対象キューをメモリから現在のフレームに伝搬する。 すべてのサイズのオブジェクトを正確にローカライズするために、MBPTrackはまずHough投票を通じてターゲットセンターを予測する。 第1のフレームで与えられるボックスプリエントを活用することで、ターゲットセンター周辺の参照ポイントを適応的にサンプリングし、異なるサイズのターゲットを大まかにカバーする。 そして,点特徴を基準点に集約することで,局所化をより効果的に行うことのできる高密度特徴マップを得る。 大規模な実験では、単一のRTX3090 GPU上で50FPSで動作しながら、KITTI、nuScenes、Waymo Open Datasetで最先端のパフォーマンスを実現する。

3D single object tracking has been a crucial problem for decades with numerous applications such as autonomous driving. Despite its wide-ranging use, this task remains challenging due to the significant appearance variation caused by occlusion and size differences among tracked targets. To address these issues, we present MBPTrack, which adopts a Memory mechanism to utilize past information and formulates localization in a coarse-to-fine scheme using Box Priors given in the first frame. Specifically, past frames with targetness masks serve as an external memory, and a transformer-based module propagates tracked target cues from the memory to the current frame. To precisely localize objects of all sizes, MBPTrack first predicts the target center via Hough voting. By leveraging box priors given in the first frame, we adaptively sample reference points around the target center that roughly cover the target of different sizes. Then, we obtain dense feature maps by aggregating point features into the reference points, where localization can be performed more effectively. Extensive experiments demonstrate that MBPTrack achieves state-of-the-art performance on KITTI, nuScenes and Waymo Open Dataset, while running at 50 FPS on a single RTX3090 GPU.
翻訳日:2023-03-10 15:53:50 公開日:2023-03-09
# 言語条件課題に対する概念強化学習

Conceptual Reinforcement Learning for Language-Conditioned Tasks ( http://arxiv.org/abs/2303.05069v1 )

ライセンス: Link先を確認
Shaohui Peng, Xing Hu, Rui Zhang, Jiaming Guo, Qi Yi, Ruizhi Chen, Zidong Du, Ling Li, Qi Guo, Yunji Chen(参考訳) 深層強化学習(RL)の幅広い適用にもかかわらず、政策を目に見えないが類似した環境に移行し、適応することは依然として重要な課題である。 近年,環境にまたがるコンパクトで不変な情報を捕捉する観察とテキストの合同表現を学習することで,政策伝達を促進するための言語条件ポリシーが提案されている。 言語条件付きRL手法の既存の研究は、しばしば与えられたインスタンス(エピソード固有の観察とテキスト)の単純な潜在層として結合表現を学習するが、それは必然的にノイズや無関係な情報を含んでおり、インスタンスに依存している突発的な相関を生じさせるため、一般化性能と訓練効率が損なわれる。 この問題に対処するために,言語条件付き政策における概念的共同表現を学習するための概念強化学習(CRL)フレームワークを提案する。 鍵となる洞察は、概念は人間の認知におけるコンパクトで不変な表現であり、実世界の多くの事例から類似点を抽出することである。 CRLでは,コンパクトで不変な概念を学習するためのマルチレベルアテンションエンコーダと2つの相互情報制約を提案する。 RTFMとMessengerの2つの困難な環境で検証されたCRLは、トレーニング効率(最大70%)と、新しい環境ダイナミクスに対する一般化能力(最大30%)を大幅に改善する。

Despite the broad application of deep reinforcement learning (RL), transferring and adapting the policy to unseen but similar environments is still a significant challenge. Recently, the language-conditioned policy is proposed to facilitate policy transfer through learning the joint representation of observation and text that catches the compact and invariant information across environments. Existing studies of language-conditioned RL methods often learn the joint representation as a simple latent layer for the given instances (episode-specific observation and text), which inevitably includes noisy or irrelevant information and cause spurious correlations that are dependent on instances, thus hurting generalization performance and training efficiency. To address this issue, we propose a conceptual reinforcement learning (CRL) framework to learn the concept-like joint representation for language-conditioned policy. The key insight is that concepts are compact and invariant representations in human cognition through extracting similarities from numerous instances in real-world. In CRL, we propose a multi-level attention encoder and two mutual information constraints for learning compact and invariant concepts. Verified in two challenging environments, RTFM and Messenger, CRL significantly improves the training efficiency (up to 70%) and generalization ability (up to 30%) to the new environment dynamics.
翻訳日:2023-03-10 15:53:27 公開日:2023-03-09
# 教師なし現実的視覚質問応答に向けて

Toward Unsupervised Realistic Visual Question Answering ( http://arxiv.org/abs/2303.05068v1 )

ライセンス: Link先を確認
Yuwei Zhang, Chih-Hui Ho, Nuno Vasconcelos(参考訳) モデルが解決不可能な質問(UQ)を拒絶し、答え可能な質問(AQ)を答えなければならない現実的なVQA(RVQA)の問題について検討する。 1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。 最初の欠点を解決するために、既存のVQAデータセットからのAQと約29Kの人間アノテーション付きUQを組み合わせた新しいテストデータセットRGQAを提案する。 これらのUQは、CLIPベースとPerturbationベースという2つのアプローチで生成された、きめ細かい画像と粗い画像の両方からなる。 第2の欠点に対処するために,教師なしのトレーニングアプローチを導入する。 これは、画像と質問をランダムにペアリングして得られる擬似UQと、よりきめ細かい擬似UQを生成するRoI Mixupプロシージャと、モデルの信頼性を規則化するモデルアンサンブルを組み合わせる。 実験の結果,疑似UQはRVQAベースラインよりも有意に優れていた。 RoI Mixupとモデルアンサンブルはさらに利益を増やします。 最後に、人間の評価は人間とモデルのパフォーマンスのギャップを明らかにし、より多くのRVQA研究が必要であることを示す。

The problem of realistic VQA (RVQA), where a model has to reject unanswerable questions (UQs) and answer answerable ones (AQs), is studied. We first point out 2 drawbacks in current RVQA research, where (1) datasets contain too many unchallenging UQs and (2) a large number of annotated UQs are required for training. To resolve the first drawback, we propose a new testing dataset, RGQA, which combines AQs from an existing VQA dataset with around 29K human-annotated UQs. These UQs consist of both fine-grained and coarse-grained image-question pairs generated with 2 approaches: CLIP-based and Perturbation-based. To address the second drawback, we introduce an unsupervised training approach. This combines pseudo UQs obtained by randomly pairing images and questions, with an RoI Mixup procedure to generate more fine-grained pseudo UQs, and model ensembling to regularize model confidence. Experiments show that using pseudo UQs significantly outperforms RVQA baselines. RoI Mixup and model ensembling further increase the gain. Finally, human evaluation reveals a performance gap between humans and models, showing that more RVQA research is needed.
翻訳日:2023-03-10 15:53:01 公開日:2023-03-09
# 歪みの異なるコントラスト学習

Distortion-Disentangled Contrastive Learning ( http://arxiv.org/abs/2303.05066v1 )

ライセンス: Link先を確認
Jinfeng Wang, Sifan Song, Jionglong Su, and S. Kevin Zhou(参考訳) 自己教師付き学習は、表現学習と様々な下流コンピュータビジョンタスクにおける顕著な性能で有名である。 近年,Positive-pair-Only Contrastive Learning (POCL) は,正負のトレーニングセットを構築することなく信頼性の高いパフォーマンスを実現している。 バッチサイズへの依存性を少なくすることで、メモリ要件を削減する。 POCL法は通常、1つの損失関数を用いて歪み不変表現(DIR)を抽出し、異なる歪みに影響を受ける正対表現の近接を記述する。 この損失関数は、異なる歪みに影響を受ける歪み変動表現(DVR)を暗黙的にフィルタリングまたは無視することができる。 しかし、既存のPOCL法は、実際に価値のあるDVRの混乱と利用を明示的に強制するものではない。 さらに,これらのPOCL法は拡張戦略に敏感であることが観察されている。 これらの制約に対処するため、DCL(Distortion-Disentangled Contrastive Learning)とDDL(Distortion-Disentangled Loss)という新しいPOCLフレームワークを提案する。 我々のアプローチは、モデルと特徴ストリーム内のDVRを明示的に切り離し、活用して、全体的な表現利用効率、堅牢性、表現能力を改善する最初の方法です。 実験により、いくつかのベンチマークデータセットにおける収束性、表現品質、堅牢性の観点から、Barlow Twins と Simsiam に対する我々のフレームワークの優位性を実証した。

Self-supervised learning is well known for its remarkable performance in representation learning and various downstream computer vision tasks. Recently, Positive-pair-Only Contrastive Learning (POCL) has achieved reliable performance without the need to construct positive-negative training sets. It reduces memory requirements by lessening the dependency on the batch size. The POCL method typically uses a single loss function to extract the distortion invariant representation (DIR) which describes the proximity of positive-pair representations affected by different distortions. This loss function implicitly enables the model to filter out or ignore the distortion variant representation (DVR) affected by different distortions. However, existing POCL methods do not explicitly enforce the disentanglement and exploitation of the actually valuable DVR. In addition, these POCL methods have been observed to be sensitive to augmentation strategies. To address these limitations, we propose a novel POCL framework named Distortion-Disentangled Contrastive Learning (DDCL) and a Distortion-Disentangled Loss (DDL). Our approach is the first to explicitly disentangle and exploit the DVR inside the model and feature stream to improve the overall representation utilization efficiency, robustness and representation ability. Experiments carried out demonstrate the superiority of our framework to Barlow Twins and Simsiam in terms of convergence, representation quality, and robustness on several benchmark datasets.
翻訳日:2023-03-10 15:52:39 公開日:2023-03-09
# StyleDiff: ラテン遠方空間におけるラベルなしデータセットの属性比較

StyleDiff: Attribute Comparison Between Unlabeled Datasets in Latent Disentangled Space ( http://arxiv.org/abs/2303.05102v1 )

ライセンス: Link先を確認
Keisuke Kawano, Takuro Kutsuna, Ryoko Tokuhisa, Akihiro Nakamura, Yasushi Esaki(参考訳) 機械学習アプリケーションにおける大きな課題のひとつは、開発で使用されるデータセットと実際のアプリケーションで得られたデータセットのミスマッチに対処することだ。 これらのミスマッチは、不正確な予測とエラーを引き起こし、製品の品質が悪く、信頼できないシステムをもたらす可能性がある。 本研究では,機械学習システムの安定した開発のための2つのデータセットの違いを開発者に通知するStyleDiffを提案する。 最近提案された生成モデルから得られた不整合画像空間を用いて、StyleDiffは、画像の属性に着目して2つのデータセットを比較し、データセット間の差異を分かりやすく分析する。 提案されたStyleDiffは$O (d N\log N)$で実行され、$N$はデータセットのサイズ、$d$は属性の数であり、アプリケーションが大きなデータセットにアクセスできる。 StyleDiffはデータセットの違いを正確に検出し、例えばシーンデータセットを駆動するなどして理解可能な形式で提示する。

One major challenge in machine learning applications is coping with mismatches between the datasets used in the development and those obtained in real-world applications. These mismatches may lead to inaccurate predictions and errors, resulting in poor product quality and unreliable systems. In this study, we propose StyleDiff to inform developers of the differences between the two datasets for the steady development of machine learning systems. Using disentangled image spaces obtained from recently proposed generative models, StyleDiff compares the two datasets by focusing on attributes in the images and provides an easy-to-understand analysis of the differences between the datasets. The proposed StyleDiff performs in $O (d N\log N)$, where $N$ is the size of the datasets and $d$ is the number of attributes, enabling the application to large datasets. We demonstrate that StyleDiff accurately detects differences between datasets and presents them in an understandable format using, for example, driving scenes datasets.
翻訳日:2023-03-10 15:47:06 公開日:2023-03-09
# 非対角距離におけるスケーラブル確率勾配リーマンランゲインダイナミクス

Scalable Stochastic Gradient Riemannian Langevin Dynamics in Non-Diagonal Metrics ( http://arxiv.org/abs/2303.05101v1 )

ライセンス: Link先を確認
Hanlin Yu, Marcelo Hartmann, Bernardo Williams and Arto Klami(参考訳) ベイズニューラルネットワークの推論は確率勾配サンプリング法を用いて行われることが多い。 最良の性能のためには、局所曲率を計算して後方探索を改善するリーマン計量を用いるべきであるが、既存の方法は計算効率を維持するために単純な対角距離を用いる。 これは多少の利益を失う。 本稿では,2つの非対角的メトリクスを確率的サンプリング器で使用して収束と探索を改善する方法を提案するが,対角的メトリクスに対する計算オーバーヘッドはわずかである。 複雑な後部を持つニューラルネットワークの場合、例えば、空間性誘導前部の使用によって引き起こされる場合、これらの指標を用いることで明らかな改善が期待できる。 他の選択肢では、後部は単純なメトリクスに対しても十分簡単である。

Bayesian neural network inference is often carried out using stochastic gradient sampling methods. For best performance the methods should use a Riemannian metric that improves posterior exploration by accounting for the local curvature, but the existing methods resort to simple diagonal metrics to remain computationally efficient. This loses some of the gains. We propose two non-diagonal metrics that can be used in stochastic samplers to improve convergence and exploration but that have only a minor computational overhead over diagonal metrics. We show that for neural networks with complex posteriors, caused e.g. by use of sparsity-inducing priors, using these metrics provides clear improvements. For some other choices the posterior is sufficiently easy also for the simpler metrics.
翻訳日:2023-03-10 15:46:49 公開日:2023-03-09
# 自動フォーマット選択と機械学習によるスパース線形代数の最適化

Optimizing Sparse Linear Algebra Through Automatic Format Selection and Machine Learning ( http://arxiv.org/abs/2303.05098v1 )

ライセンス: Link先を確認
Christodoulos Stylianou, Michele Weiland(参考訳) スパース行列は科学シミュレーションの不可欠な部分である。 ハードウェアが進化するにつれて、新しいハードウェア特有の最適化を活用すべく、新しいスパースマトリックスストレージ形式が提案されている。 ヘテロジニアスコンピューティングの時代において、ユーザは、利用可能な異なるハードウェアにまたがって最適な状態を維持するために、アプリケーションのために複数のフォーマットを使用する必要がある。 この問題に対する潜在的な解決策は、機械学習(ml)によって駆動される軽量なオートチューニングを使用することで、ユーザが利用可能なフォーマットのプールから最適なフォーマットを選択することで、スパーシティパターン、ターゲットハードウェア、実行操作の特徴にマッチする。 本稿では,複数のバックエンドにまたがる最適なフォーマットを正確に予測可能な軽量MLオートチューニングライブラリであるMorpheus-Oracleを紹介する。 2000以上の実生活行列から、平均的な分類精度と平衡精度はそれぞれ92.63%と80.22%である。 オートチューニングの採用により、CPUでは1.1倍、NVIDIAとAMDのGPUでは1.5倍から8倍、それぞれ最大速度は7倍と1000倍に達する。

Sparse matrices are an integral part of scientific simulations. As hardware evolves new sparse matrix storage formats are proposed aiming to exploit optimizations specific to the new hardware. In the era of heterogeneous computing, users often are required to use multiple formats for their applications to remain optimal across the different available hardware, resulting in larger development times and maintenance overhead. A potential solution to this problem is the use of a lightweight auto-tuner driven by Machine Learning (ML) that would select for the user an optimal format from a pool of available formats that will match the characteristics of the sparsity pattern, target hardware and operation to execute. In this paper, we introduce Morpheus-Oracle, a library that provides a lightweight ML auto-tuner capable of accurately predicting the optimal format across multiple backends, targeting the major HPC architectures aiming to eliminate any format selection input by the end-user. From more than 2000 real-life matrices, we achieve an average classification accuracy and balanced accuracy of 92.63% and 80.22% respectively across the available systems. The adoption of the auto-tuner results in average speedup of 1.1x on CPUs and 1.5x to 8x on NVIDIA and AMD GPUs, with maximum speedups reaching up to 7x and 1000x respectively.
翻訳日:2023-03-10 15:46:36 公開日:2023-03-09
# 連続変数量子状態の量子エンハンス学習

Quantum-Enhanced Learning of Continuous-Variable Quantum States ( http://arxiv.org/abs/2303.05097v1 )

ライセンス: Link先を確認
Ya-Dong Wu, Giulio Chiribella, Nana Liu(参考訳) 連続変数量子状態の効率的なキャラクタリゼーションは、量子通信、量子センシング、量子シミュレーション、量子コンピューティングにおいて重要である。 しかし、従来の量子状態トモグラフィーや最近提案された古典的なシャドウトモグラフィーではヒルベルト空間や位相空間の切断が必要となり、結果として得られるサンプル複雑性はモードの数に指数関数的にスケールする。 本稿では,先行する欠点を克服する連続変数状態に対する量子エンハンスド学習戦略を提案する。 これは量子状態トモグラフィに有用であり、量子忠実性、非古典性、量子非ガウス性などの物理的性質を推測するのに有用である。 例えば、反射対称性を持つ任意の連続変数量子状態 $\rho$(例えば、平均値がゼロのガウス状態、フォック状態、ゴッテマン・キタエフ・プレスキル状態、シュル・オディンジャー・キャット状態、二項符号状態)に対して、実用的な量子デバイスでは、任意の位相空間点における特性関数の平方を正確に推定するために、状態 $\rho$ の一定数のコピーしか必要としない。 これは、$\rho$の2つのコピー上で平衡ビームスプリッターを実行し、ホモダイン測定によって達成される。 この結果に基づき、非局所量子測定により、任意の$k$-モード連続変数状態に対して、反射対称性を持つ$\rho$ に対して、その特性関数値を任意の$m$位相空間点で正確に推定するには、$o(\log m)$ のコピーだけが必要であることが示される。 さらに、コピーの数は$k$とは独立である。 これは、任意の位相空間点で特性関数値を推定するために$\omega(m)$コピーが必要となる制限付き従来のアプローチと比較することができる。

Efficient characterization of continuous-variable quantum states is important for quantum communication, quantum sensing, quantum simulation and quantum computing. However, conventional quantum state tomography and recently proposed classical shadow tomography require truncation of the Hilbert space or phase space and the resulting sample complexity scales exponentially with the number of modes. In this paper, we propose a quantum-enhanced learning strategy for continuous-variable states overcoming the previous shortcomings. We use this to estimate the point values of a state characteristic function, which is useful for quantum state tomography and inferring physical properties like quantum fidelity, nonclassicality and quantum non-Gaussianity. We show that for any continuous-variable quantum states $\rho$ with reflection symmetry - for example Gaussian states with zero mean values, Fock states, Gottesman-Kitaev-Preskill states, Schr\"odinger cat states and binomial code states - on practical quantum devices we only need a constant number of copies of state $\rho$ to accurately estimate the square of its characteristic function at arbitrary phase-space points. This is achieved by performinig a balanced beam splitter on two copies of $\rho$ followed by homodyne measurements. Based on this result, we show that, given nonlocal quantum measurements, for any $k$-mode continuous-variable states $\rho$ having reflection symmetry, we only require $O(\log M)$ copies of $\rho$ to accurately estimate its characteristic function values at any $M$ phase-space points. Furthermore, the number of copies is independent of $k$. This can be compared with restricted conventional approach, where $\Omega(M)$ copies are required to estimate the characteristic function values at $M$ arbitrary phase-space points.
翻訳日:2023-03-10 15:46:14 公開日:2023-03-09
# 多人数ポーズ予測のための軌道認識体相互作用トランス

Trajectory-Aware Body Interaction Transformer for Multi-Person Pose Forecasting ( http://arxiv.org/abs/2303.05095v1 )

ライセンス: Link先を確認
Xiaogang Peng, Siyuan Mao, Zizhao Wu(参考訳) 多人数のポーズ予測は、特に複雑な群衆シナリオにおけるきめ細かい人体相互作用のモデリングにおいて、依然として困難な問題である。 既存の方法は通常、ポーズのシーケンス全体を時系列として表現するが、骨格の身体部位に基づく人との対話的な影響は見過ごされている。 本稿では,身体部位間相互作用を効果的にモデル化し,多人数ポーズ予測のための新しい軌道認識ボディーインタラクショントランス(tbiformer)を提案する。 具体的には、すべてのポーズシーケンスを多人数のボディパートシーケンスに変換し、ボディセマンティクスに基づく空間的および時間的情報を保持する時間的ボディ分割モジュールを構築する。 そこで,SBI-MSA(Social Body Interaction Self-Attention)モジュールを開発した。 さらに,従来のユークリッド距離に基づく空間符号化とは違って,sbi-msaのための新しい効率的な軌道対応相対位置符号化法を提案する。 CMU-Mocap, MuPoTS-3D, および合成されたデータセット(6~10人)の枠組みを, 短期的・長期的両面において実証的に評価し, 提案手法が最先端の手法を大きく上回ることを示す。 コードは受理次第公開される予定だ。

Multi-person pose forecasting remains a challenging problem, especially in modeling fine-grained human body interaction in complex crowd scenarios. Existing methods typically represent the whole pose sequence as a temporal series, yet overlook interactive influences among people based on skeletal body parts. In this paper, we propose a novel Trajectory-Aware Body Interaction Transformer (TBIFormer) for multi-person pose forecasting via effectively modeling body part interactions. Specifically, we construct a Temporal Body Partition Module that transforms all the pose sequences into a Multi-Person Body-Part sequence to retain spatial and temporal information based on body semantics. Then, we devise a Social Body Interaction Self-Attention (SBI-MSA) module, utilizing the transformed sequence to learn body part dynamics for inter- and intra-individual interactions. Furthermore, different from prior Euclidean distance-based spatial encodings, we present a novel and efficient Trajectory-Aware Relative Position Encoding for SBI-MSA to offer discriminative spatial information and additional interactive clues. On both short- and long-term horizons, we empirically evaluate our framework on CMU-Mocap, MuPoTS-3D as well as synthesized datasets (6 ~ 10 persons), and demonstrate that our method greatly outperforms the state-of-the-art methods. Code will be made publicly available upon acceptance.
翻訳日:2023-03-10 15:45:35 公開日:2023-03-09
# Adaptive Marginによるビデオ検索の改善

Improving Video Retrieval by Adaptive Margin ( http://arxiv.org/abs/2303.05093v1 )

ライセンス: Link先を確認
Feng He, Qi Wang, Zhifan Feng, Wenbin Jiang, Yajuan Lv, Yong zhu, Xiao Tan(参考訳) インターネット上のビデオの急速な出現により、ビデオ検索はますます重要になりつつある。 ビデオ検索の主流パラダイムは、正の対と負の対の類似性の間の距離を固定辺から切り離すことで、ビデオテキスト表現を学習する。 しかし、トレーニングに使用される負のペアはランダムにサンプリングされ、これは負のペア間のセマンティクスが関連あるいは等価であることを示しているが、ほとんどのメソッドは相似表現を強制して類似性を減少させる。 この現象は、ビデオテキスト表現の学習における不正確な監督と性能の低下につながる。 多くのビデオ検索手法ではその現象を見落としているが,上記の問題を解くために,正対と負対の距離によって適応マージンが変化する。 まず,距離計測法や距離とマージン間の関数を含む適応マージンの計算フレームワークを設計する。 そこで我々は,ほとんどのビデオ検索モデルの上部にほとんど変更を加えることなく構築可能なCMGSD(Cross-Modal Generalized Self-Distillation)という新しい実装を提案する。 特に、CMGSDは、列車時に計算オーバーヘッドを少なくし、テスト時に計算オーバーヘッドを追加しない。 広範に使用されている3つのデータセットの実験結果から,提案手法は対応するバックボーンモデルよりも大幅に性能が向上し,最先端の手法よりも大きなマージンで性能が向上することが示された。

Video retrieval is becoming increasingly important owing to the rapid emergence of videos on the Internet. The dominant paradigm for video retrieval learns video-text representations by pushing the distance between the similarity of positive pairs and that of negative pairs apart from a fixed margin. However, negative pairs used for training are sampled randomly, which indicates that the semantics between negative pairs may be related or even equivalent, while most methods still enforce dissimilar representations to decrease their similarity. This phenomenon leads to inaccurate supervision and poor performance in learning video-text representations. While most video retrieval methods overlook that phenomenon, we propose an adaptive margin changed with the distance between positive and negative pairs to solve the aforementioned issue. First, we design the calculation framework of the adaptive margin, including the method of distance measurement and the function between the distance and the margin. Then, we explore a novel implementation called "Cross-Modal Generalized Self-Distillation" (CMGSD), which can be built on the top of most video retrieval models with few modifications. Notably, CMGSD adds few computational overheads at train time and adds no computational overhead at test time. Experimental results on three widely used datasets demonstrate that the proposed method can yield significantly better performance than the corresponding backbone model, and it outperforms state-of-the-art methods by a large margin.
翻訳日:2023-03-10 15:45:11 公開日:2023-03-09
# 強化学習におけるタスク一般化のための逆インフォームドドリーム

Reward Informed Dreamer for Task Generalization in Reinforcement Learning ( http://arxiv.org/abs/2303.05092v1 )

ライセンス: Link先を確認
Chengyang Ying, Zhongkai Hao, Xinning Zhou, Hang Su, Songming Liu, Jialian Li, Dong Yan, Jun Zhu(参考訳) 強化学習の長年の目標は、アルゴリズムがトレーニングタスクで学び、人間のような目に見えないタスクにうまく一般化できることである。 一般的な課題は、これらの異なるタスク間の類似性を定量的に測定することは、タスクの分布を分析し、より強力な一般化を伴うアルゴリズムを設計するのに不可欠であるという点である。 そこで本稿では,タスク分布の定量的な関連性を捉えるために,最適q関数を用いたタスク分布関係(tdr)という新しい指標を提案する。 高いTDRを持つタスクの場合、すなわちタスクが著しく異なる場合、マルコフのポリシーはそれらを区別することができず、それに応じて性能が劣ることを示す。 そこで本研究では,Reward Informed Dreamer (RID) のフレームワークを提案する。このフレームワークは,タスク上の不変潜時特徴を捉え,異なるタスクを識別するためのポリシーに報酬信号をエンコードする。 ridでは、報酬に左右される世界モデルに基づいて、異なるタスクを状態によって区別する新しい用語を含むデータ上の対数類似度の変化下限を計算する。 最後に、DeepMindコントロールスイートの広範な実験により、RIDは、特に高いTDRを持つ場合において、異なるタスクを同時に処理する性能を大幅に向上し、さらに、見えないタスクを効果的に一般化できることが示されている。

A long-standing goal of reinforcement learning is that algorithms can learn on training tasks and generalize well on unseen tasks like humans, where different tasks share similar dynamic with different reward functions. A general challenge is that it is nontrivial to quantitatively measure the similarities between these different tasks, which is vital for analyzing the task distribution and further designing algorithms with stronger generalization. To address this, we present a novel metric named Task Distribution Relevance (TDR) via optimal Q functions to capture the relevance of the task distribution quantitatively. In the case of tasks with a high TDR, i.e., the tasks differ significantly, we demonstrate that the Markovian policies cannot distinguish them, yielding poor performance accordingly. Based on this observation, we propose a framework of Reward Informed Dreamer (RID) with reward-informed world models, which captures invariant latent features over tasks and encodes reward signals into policies for distinguishing different tasks. In RID, we calculate the corresponding variational lower bound of the log-likelihood on the data, which includes a novel term to distinguish different tasks via states, based on reward-informed world models. Finally, extensive experiments in DeepMind control suite demonstrate that RID can significantly improve the performance of handling different tasks at the same time, especially for those with high TDR, and further generalize to unseen tasks effectively.
翻訳日:2023-03-10 15:44:48 公開日:2023-03-09
# 複合開量子系の断熱除去:ハイゼンベルクの定式化と数値シミュレーション

Adiabatic elimination for composite open quantum systems: Heisenberg formulation and numerical simulations ( http://arxiv.org/abs/2303.05089v1 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) 本稿では,複数のオープン量子サブシステムからなるオープン量子システムを用いて,古典的コンピュータ上でシミュレーションを行う数値計算法を提案する。 各サブシステムはデコヒーレンス自由部分空間に向かって指数関数的に安定化され、いくつかのデコヒーレンスチャネルにわずかに影響され、他のサブシステムと弱結合していると仮定される。 この数値法は、連続時間または離散時間における力学のハイゼンベルク定式化を利用したオリジナルの漸近展開による摂動解析に基づいている。 これはサブシステムの局所的および名目的散逸的ダイナミクスの不変作用素に依存する。 ヒルベルト空間全体の大域的な計算を避けた局所計算だけで二階展開を計算できることが示されている。 このアルゴリズムは、例えばschr\"odinger cat状態を持つボソニック符号のような自律的量子誤り訂正スキームのシミュレーションに特に適している。 これらの二階ハイゼンベルクシミュレーションは、完全シュル=オディンガーシミュレーションと二階断熱による解析公式と比較されている。 これらの比較は、1つの猫量子ビット上のZゲート、2つの猫量子ビット上のZZゲート、3つの猫量子ビット上のZZZゲートという3つの猫量子ビットゲートを実行する。 zzz-gateでは、各キャットキュービットのエネルギーである$\alpha^2$が8を超えると完全なシュル=オディンガーシミュレーションはほぼ不可能であるが、第2次ハイゼンベルクシミュレーションはマシン精度まで容易にアクセス可能である。 これらの数値的な研究は、2階ハイゼンベルク力学が非常に小さなビットフリップ誤差確率を捉え、指数関数は 1 から 16 まで様々に$\alpha^2$に対して減少することを示している。 また、量子プロセストモグラフィー(いわゆる$\chi$ matrix)への直接的な数値アクセスを提供し、それらの確率で異なるエラーチャネルの完全な特徴づけを提供する。

This report proposes a numerical method for simulating on a classical computer an open quantum system composed of several open quantum subsystems. Each subsystem is assumed to be strongly stabilized exponentially towards a decoherence free sub-space, slightly impacted by some decoherence channels and weakly coupled to the other subsystems. This numerical method is based on a perturbation analysis with an original asymptotic expansion exploiting the Heisenberg formulation of the dynamics, either in continuous time or discrete time. It relies on the invariant operators of the local and nominal dissipative dynamics of the subsystems. It is shown that second-order expansion can be computed with only local calculations avoiding global computations on the entire Hilbert space. This algorithm is particularly well suited for simulation of autonomous quantum error correction schemes, such as in bosonic codes with Schr\"odinger cat states. These second-order Heisenberg simulations have been compared with complete Schr\"odinger simulations and analytical formulas obtained by second order adiabatic elimination. These comparisons have been performed three cat-qubit gates: a Z-gate on a single cat qubit; a ZZ-gate on two cat qubits; a ZZZ-gate on three cat qubits. For the ZZZ-gate, complete Schr\"odinger simulations are almost impossible when $\alpha^2$, the energy of each cat qubit, exceeds 8, whereas second-order Heisenberg simulations remain easily accessible up to machine precision. These numerical investigations indicate that second-order Heisenberg dynamics capture the very small bit-flip error probabilities and their exponential decreases versus $\alpha^2$ varying from 1 to 16. They also provides a direct numerical access to quantum process tomography, the so called $\chi$ matrix providing a complete characterization of the different error channels with their probabilities.
翻訳日:2023-03-10 15:44:23 公開日:2023-03-09
# 中国関係抽出のための動的多視点融合機構

Dynamic Multi-View Fusion Mechanism For Chinese Relation Extraction ( http://arxiv.org/abs/2303.05082v1 )

ライセンス: Link先を確認
Jing Yang, Bin Ji, Shasha Li, Jun Ma, Long Peng, and Jie Yu(参考訳) 近年,中国語関係抽出の性能を向上させるために,外部知識を特徴量ベースモデルに組み込む研究が数多く行われている。 しかし、これらの手法は漢字の内部情報を無視する傾向があり、外部知識の騒々しい情報をフィルタリングすることができない。 これらの課題に対処するため,中国関係抽出のための多視点特徴を動的に学習するための混合ビューエキスパートフレームワーク (MoVE) を提案する。 漢字の内部知識と外部知識の両面から,我々の枠組みは漢字の意味情報をよりよく捉えることができる。 提案手法の有効性を実証するため,異なる領域の3つの実世界データセットについて広範な実験を行った。 実験の結果,提案フレームワークの一貫性と顕著な優位性と堅牢性を示した。 私たちのコードとデータセットは、https://gitee.com/tmg-nudt/multi-view-of-expert-for- chineserelation-extractionでリリースされます。

Recently, many studies incorporate external knowledge into character-level feature based models to improve the performance of Chinese relation extraction. However, these methods tend to ignore the internal information of the Chinese character and cannot filter out the noisy information of external knowledge. To address these issues, we propose a mixture-of-view-experts framework (MoVE) to dynamically learn multi-view features for Chinese relation extraction. With both the internal and external knowledge of Chinese characters, our framework can better capture the semantic information of Chinese characters. To demonstrate the effectiveness of the proposed framework, we conduct extensive experiments on three real-world datasets in distinct domains. Experimental results show consistent and significant superiority and robustness of our proposed framework. Our code and dataset will be released at: https://gitee.com/tmg-nudt/multi-view-of-expert-for-chineserelation-extraction
翻訳日:2023-03-10 15:43:51 公開日:2023-03-09
# 伝統的なジャンルの関連性の再検討--フィクション読者の好みのネットワーク分析

Revisiting the relevance of traditional genres: a network analysis of fiction readers' preferences ( http://arxiv.org/abs/2303.05080v1 )

ライセンス: Link先を確認
Taom Sakal, Stephen Proulx(参考訳) ファンタジー、スリラー、文学といった伝統的なフィクションジャンルが読者の好みをいかによく表しているか調査する。 goodreadsのユーザデータを利用することで、同じ人が読んでも楽しんでも、2冊の本が強くリンクされるブックネットワークを構築します。 次に、このネットワークを類似した書籍のコミュニティに分割し、各主題のリストをThe Open Libraryから割り当て、従来のジャンルのプロキシとして機能させる。 分析の結果,ネットワークコミュニティは従来のジャンルのコンビネーションと一致しているが,本を読むか,読むかによってコミュニティが異なっていることが明らかとなった。 さらに,主成分分析をデータに適用し,本書コミュニティのばらつきを,本書の成熟・児童性・リアリズム・ファンタスティック性という2つの要因により最もよく説明できることを示す。 本稿では,この成熟現実主義平面をストーリーの粗い分類ツールとして用いることを提案する。

We investigate how well traditional fiction genres like Fantasy, Thriller, and Literature represent readers' preferences. Using user data from Goodreads we construct a book network where two books are strongly linked if the same people tend to read or enjoy them both. We then partition this network into communities of similar books and assign each a list of subjects from The Open Library to serve as a proxy for traditional genres. Our analysis reveals that the network communities correspond to existing combinations of traditional genres, but that the exact communities differ depending on whether we consider books that people read or books that people enjoy. In addition, we apply principal component analysis to the data and find that the variance in the book communities is best explained by two factors: the maturity/childishness and realism/fantastical nature of the books. We propose using this maturity-realism plane as a coarse classification tool for stories.
翻訳日:2023-03-10 15:43:39 公開日:2023-03-09
# R-Tuning: オープンセットシナリオにおける定期的なプロンプトチューニング

R-Tuning: Regularized Prompt Tuning in Open-Set Scenarios ( http://arxiv.org/abs/2303.05122v1 )

ライセンス: Link先を確認
Ning Liao, Xiaopeng Zhang, Min Cao, Qi Tian, Junchi Yan(参考訳) テストデータの一部のラベルが完全に未知である現実的なオープンセットシナリオでは、現在の視覚言語(VL)モデルのプロンプトメソッドは常に下流のトレーニングクラスとして未知のクラスを予測する。 表示されたラベルバイアスは、画像が既知のクラスまたは未知のクラスの1つとして正しく予測されるべきであるオープンセット認識(OSR)において困難を引き起こす。 オープンセットシナリオにおけるプロンプトを学習するために、ラベルバイアスを軽減するために正規化プロンプトチューニング(R-Tuning)を提案する。 WordNetからのオープンワードを導入し、クローズドセットのラベルワードのみから、プロンプトテキストを形成する単語の範囲を広げる。 したがって、プロンプトはシミュレートされたオープンセットシナリオで調整される。 また,大規模データセットに直接分類することで,小さなデータセットよりも偽陽性率が高いという観測に触発され,性能向上のための組合せチューニング・テスト(ctt)戦略を提案する。 CTTは、大規模データセット上のR-Tuningを、より少ないクラスの複数の独立したグループワイドチューニングとして分解し、最適なサブプロンプトを選択することで包括的な予測を行う。 公平な比較のために、VLモデルに基づくOSRの新しいベースライン、特にプロンプトメソッドを構築する。 本手法は,様々なスケールのデータセット上で最高の結果を得る。 広範なアブレーション研究により,本手法の有効性が検証された。

In realistic open-set scenarios where labels of a part of testing data are totally unknown, current prompt methods on vision-language (VL) models always predict the unknown classes as the downstream training classes. The exhibited label bias causes difficulty in the open set recognition (OSR), by which an image should be correctly predicted as one of the known classes or the unknown one. To learn prompts in open-set scenarios, we propose the Regularized prompt Tuning (R-Tuning) to mitigate the label bias. It introduces open words from the WordNet to extend the range of words forming the prompt texts from only closed-set label words to more. Thus, prompts are tuned in a simulated open-set scenario. Besides, inspired by the observation that classifying directly on large datasets causes a much higher false positive rate than on small datasets, we propose the Combinatorial Tuning and Testing (CTT) strategy for improving performance. CTT decomposes R-Tuning on large datasets as multiple independent group-wise tuning on fewer classes, then makes comprehensive predictions by selecting the optimal sub-prompt. For fair comparisons, we construct new baselines for OSR based on VL models, especially for prompt methods. Our method achieves the best results on datasets with various scales. Extensive ablation studies validate the effectiveness of our method.
翻訳日:2023-03-10 15:37:24 公開日:2023-03-09
# エントロピーワッサースタイン成分分析

Entropic Wasserstein Component Analysis ( http://arxiv.org/abs/2303.05119v1 )

ライセンス: Link先を確認
Antoine Collas, Titouan Vayer, R\'emi Flamary, Arnaud Breloy(参考訳) 次元減少法(DR)は高次元データを解析するための体系的なアプローチを提供する。 DRのキーとなる要件は、埋め込みスペース内のクラスタを保持しながら、オリジナルおよび組み込みサンプル間のグローバルな依存関係を統合することである。 これを実現するために,我々は最適輸送(ot)と主成分分析(pca)の原理を組み合わせる。 提案手法は, サンプルの近傍情報を自然に符号化するエントロピーOTを用いて, 復元誤差を最小化する最適線形部分空間を求める。 アルゴリズムの観点から,Stiefel多様体上の効率的なブロック行列化最小化解法を提案する。 実験の結果,提案手法は高次元クラスタを効果的に保存でき,より解釈可能で効果的な埋め込みが可能となった。 アルゴリズムと実験のpythonコードはオンラインで入手できる。

Dimension reduction (DR) methods provide systematic approaches for analyzing high-dimensional data. A key requirement for DR is to incorporate global dependencies among original and embedded samples while preserving clusters in the embedding space. To achieve this, we combine the principles of optimal transport (OT) and principal component analysis (PCA). Our method seeks the best linear subspace that minimizes reconstruction error using entropic OT, which naturally encodes the neighborhood information of the samples. From an algorithmic standpoint, we propose an efficient block-majorization-minimization solver over the Stiefel manifold. Our experimental results demonstrate that our approach can effectively preserve high-dimensional clusters, leading to more interpretable and effective embeddings. Python code of the algorithms and experiments is available online.
翻訳日:2023-03-10 15:37:00 公開日:2023-03-09
# slca:事前学習モデルを用いた連続学習のための分類器アライメント付き遅い学習者

SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained Model ( http://arxiv.org/abs/2303.05118v1 )

ライセンス: Link先を確認
Gengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei(参考訳) 連続学習の目的は、逐次到達データ学習における認識モデルの性能を向上させることである。 既存の作品の多くはスクラッチから学ぶという前提で構築されているが、事前学習の利点を取り入れることに努力が注がれている。 しかし、その一般化性を維持しつつ、各漸進的なタスクに対する事前学習された知識を適応的に活用する方法は、未解決の問題である。 本研究では,事前学習モデル (CLPM) を用いた継続学習の広範な解析を行い,その課題を進歩的オーバーフィッティング問題に帰着させる。 学習率を選択的に減少させることで、この問題を表現層でほぼ解決することができることを観察し、クラスワイズ分布をモデル化し、ポストホックな方法で分類層を整列させることにより、分類層をさらに改善するSlow Learner with Classifier Alignment (SLCA) という、シンプルだが極めて効果的なアプローチを提案する。 さまざまなシナリオにおいて、当社の提案はCLPMの大幅な改善(例えば、Split CIFAR-100、Split ImageNet-R、Split CUB-200、Split Cars-196で最大49.76%、50.05%、44.69%、40.16%)を提供し、その結果、最先端のアプローチを大きなマージンで上回っている。 このような強いベースラインに基づいて、重要な要因と有望な方向性を詳細に分析し、その後の研究を促進する。

The goal of continual learning is to improve the performance of recognition models in learning sequentially arrived data. Although most existing works are established on the premise of learning from scratch, growing efforts have been devoted to incorporating the benefits of pre-training. However, how to adaptively exploit the pre-trained knowledge for each incremental task while maintaining its generalizability remains an open question. In this work, we present an extensive analysis for continual learning on a pre-trained model (CLPM), and attribute the key challenge to a progressive overfitting problem. Observing that selectively reducing the learning rate can almost resolve this issue in the representation layer, we propose a simple but extremely effective approach named Slow Learner with Classifier Alignment (SLCA), which further improves the classification layer by modeling the class-wise distributions and aligning the classification layers in a post-hoc fashion. Across a variety of scenarios, our proposal provides substantial improvements for CLPM (e.g., up to 49.76%, 50.05%, 44.69% and 40.16% on Split CIFAR-100, Split ImageNet-R, Split CUB-200 and Split Cars-196, respectively), and thus outperforms state-of-the-art approaches by a large margin. Based on such a strong baseline, critical factors and promising directions are analyzed in-depth to facilitate subsequent research.
翻訳日:2023-03-10 15:36:48 公開日:2023-03-09
# ビデオ異常検出のための多レベルメモリ拡張外観対応フレームワーク

Multi-level Memory-augmented Appearance-Motion Correspondence Framework for Video Anomaly Detection ( http://arxiv.org/abs/2303.05116v1 )

ライセンス: Link先を確認
Xiangyu Huang, Caidan Zhao, Jinghui Yu, Chenxing Gao and Zhiqiang Wu(参考訳) AutoEncoderに基づくフレーム予測は、教師なしビデオ異常検出において重要な役割を果たす。 理想的には、通常のデータでトレーニングされたモデルは、異常のより大きな予測エラーを引き起こす可能性がある。 しかし、外観と動作情報の相関性は過小評価されており、モデルには通常のパターンの理解が欠けている。 さらに、Deep AutoEncoderの制御不能な一般化性のため、モデルはうまく動作しない。 これらの問題に対処するために,マルチレベルメモリ拡張外見対応フレームワークを提案する。 出現と動作の潜在対応は、出現-動作意味のアライメントと意味の置換トレーニングによって検討される。 また、通常のプロトタイプとの違いを利用して、スキップ接続による復元能力を抑制し、正常データの良好な再構築と異常データの貧弱な再構築のトレードオフを実現するメモリガイド圧縮モジュールも導入する。 実験の結果,本手法は,ucsd ped2,cuhk avenue,上海工科大学のデータセットで99.6\%,93.8\%,76.3\%のaucsを達成した。

Frame prediction based on AutoEncoder plays a significant role in unsupervised video anomaly detection. Ideally, the models trained on the normal data could generate larger prediction errors of anomalies. However, the correlation between appearance and motion information is underutilized, which makes the models lack an understanding of normal patterns. Moreover, the models do not work well due to the uncontrollable generalizability of deep AutoEncoder. To tackle these problems, we propose a multi-level memory-augmented appearance-motion correspondence framework. The latent correspondence between appearance and motion is explored via appearance-motion semantics alignment and semantics replacement training. Besides, we also introduce a Memory-Guided Suppression Module, which utilizes the difference from normal prototype features to suppress the reconstruction capacity caused by skip-connection, achieving the tradeoff between the good reconstruction of normal data and the poor reconstruction of abnormal data. Experimental results show that our framework outperforms the state-of-the-art methods, achieving AUCs of 99.6\%, 93.8\%, and 76.3\% on UCSD Ped2, CUHK Avenue, and ShanghaiTech datasets.
翻訳日:2023-03-10 15:36:20 公開日:2023-03-09
# ヒステリシスを用いたMRA脳血管の分画法

Segmentation method for cerebral blood vessels from MRA using hysteresis ( http://arxiv.org/abs/2303.05113v1 )

ライセンス: Link先を確認
Georgia Kenyon, Stephan Lau, Michael A. Chappell and Mark Jenkinson(参考訳) 磁気共鳴イメージング(MRI)による脳血管の分画は、ディープラーニング(DL)で解決できるオープンな問題である。 しかし、トレーニング用の注釈付きデータは少ないことが多い。 オープンソースツールが欠如しているため,磁気共鳴血管造影法から血管の真実を生成する古典的なセグメンテーション手法を開発し,様々なモダリティにまたがるセグメンテーションのDLトレーニングを目指す。 この方法は、サイズ固有のヘッセンフィルタ、ヒステリシスしきい値および連結成分補正を組み合わせたものである。 プロセッシングステップの最適選択は,24次元画像を用いた臨床医によるブラインドスコアを用いて評価した。 その結果、最も高い(14.2/15)容器セグメンテーション品質スコアを得るためには、すべての方法ステップが必要であることがわかった。 コネクテッドコンポーネントの修正を省略することで、品質の損失が最大になった。 GitHubで入手可能なこのメソッドは、コンテナセグメンテーションのためのDLモデルをトレーニングするために使用することができる。

Segmentation of cerebral blood vessels from Magnetic Resonance Imaging (MRI) is an open problem that could be solved with deep learning (DL). However, annotated data for training is often scarce. Due to the absence of open-source tools, we aim to develop a classical segmentation method that generates vessel ground truth from Magnetic Resonance Angiography for DL training of segmentation across a variety of modalities. The method combines size-specific Hessian filters, hysteresis thresholding and connected component correction. The optimal choice of processing steps was evaluated with a blinded scoring by a clinician using 24 3D images. The results show that all method steps are necessary to produce the highest (14.2/15) vessel segmentation quality score. Omitting the connected component correction caused the largest quality loss. The method, which is available on GitHub, can be used to train DL models for vessel segmentation.
翻訳日:2023-03-10 15:36:01 公開日:2023-03-09
# 非教師なしビデオ異常検出のための合成擬似異常:マスク付きオートエンコーダに基づく単純かつ効率的なフレームワーク

Synthetic Pseudo Anomalies for Unsupervised Video Anomaly Detection: A Simple yet Efficient Framework based on Masked Autoencoder ( http://arxiv.org/abs/2303.05112v1 )

ライセンス: Link先を確認
Xiangyu Huang, Caidan Zhao, Chenxing Gao, Lvdong Chen and Zhiqiang Wu(参考訳) トレーニング用の異常サンプルが限られているため、ビデオ異常検出は1クラス分類問題として一般的に見なされる。 オートエンコーダ (AEs) が生成する再構成差を, AEs が異常を再現しながら正常なデータをよく再構成する,という仮定の下で検討する。 しかし、通常のデータトレーニングだけでは、AEは異常をよく再構築し、異常検出性能を低下させる。 この問題を軽減するため,映像異常検出のための簡易かつ効率的なフレームワークを提案する。 擬似異常サンプルを導入し、余分なデータ処理をせずにランダムマスクトークンを埋め込み、通常のデータのみから合成する。 また,正規性とそれに対応する疑似異常データから正規知識をよりよく学習することを促す正規性一貫性トレーニング戦略を提案する。 このようにして、aesは正常データと異常データの間のより明確な再構成境界を学習し、より優れた異常識別能力が得られる。 実験の結果,提案手法の有効性が示された。

Due to the limited availability of anomalous samples for training, video anomaly detection is commonly viewed as a one-class classification problem. Many prevalent methods investigate the reconstruction difference produced by AutoEncoders (AEs) under the assumption that the AEs would reconstruct the normal data well while reconstructing anomalies poorly. However, even with only normal data training, the AEs often reconstruct anomalies well, which depletes their anomaly detection performance. To alleviate this issue, we propose a simple yet efficient framework for video anomaly detection. The pseudo anomaly samples are introduced, which are synthesized from only normal data by embedding random mask tokens without extra data processing. We also propose a normalcy consistency training strategy that encourages the AEs to better learn the regular knowledge from normal and corresponding pseudo anomaly data. This way, the AEs learn more distinct reconstruction boundaries between normal and abnormal data, resulting in superior anomaly discrimination capability. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-10 15:35:46 公開日:2023-03-09
# 小データセットを用いた網膜画像分割

Retinal Image Segmentation with Small Datasets ( http://arxiv.org/abs/2303.05110v1 )

ライセンス: Link先を確認
Nchongmaje Ndipenoch, Alina Miron, Zidong Wang and Yongmin Li(参考訳) 糖尿病黄斑浮腫(DME)、加齢関連黄斑変性(AMD)、緑内障などの多くの眼疾患が網膜に出現し、不可逆的な失明や中心バージョンに深刻な障害を引き起こす。 光コヒーレンス断層撮影(oct)は、網膜の形態に関する高い定性的情報を持つ網膜の3dスキャンであり、網膜解剖の変化の診断と監視に使用できる。 多くのDeep Learning(DL)メソッドは、網膜の病理学的変化を監視する自動化ツールの開発の成功を共有している。 しかし、これらの手法の成功は主に大きなデータセットに依存している。 極小かつ限られたデータセットからの課題に対処するため、我々は、非常に小さなデータセット(100以上のトレーニングサンプル)上の網膜oct画像における層と流体の結合セグメンテーションのための、conet(coherent network)と呼ばれるdlアーキテクチャを提案した。 提案モデルは,DME患者10名のBスキャン110名からなるDuke DMEデータセットを用いて評価した。 実験の結果,提案手法は,55画像でトレーニングした際,データ拡張を伴わずに平均88%のクレームスコアで,人間エキスパートのアノテーションと現在の最先端アーキテクチャの両方を上回っていた。

Many eye diseases like Diabetic Macular Edema (DME), Age-related Macular Degeneration (AMD), and Glaucoma manifest in the retina, can cause irreversible blindness or severely impair the central version. The Optical Coherence Tomography (OCT), a 3D scan of the retina with high qualitative information about the retinal morphology, can be used to diagnose and monitor changes in the retinal anatomy. Many Deep Learning (DL) methods have shared the success of developing an automated tool to monitor pathological changes in the retina. However, the success of these methods depend mainly on large datasets. To address the challenge from very small and limited datasets, we proposed a DL architecture termed CoNet (Coherent Network) for joint segmentation of layers and fluids in retinal OCT images on very small datasets (less than a hundred training samples). The proposed model was evaluated on the publicly available Duke DME dataset consisting of 110 B-Scans from 10 patients suffering from DME. Experimental results show that the proposed model outperformed both the human experts' annotation and the current state-of-the-art architectures by a clear margin with a mean Dice Score of 88% when trained on 55 images without any data augmentation.
翻訳日:2023-03-10 15:35:28 公開日:2023-03-09
# 更新バージョン: 出現・動きのセマンティクス表現一貫性に基づくビデオ異常検出フレームワーク

Updated version: A Video Anomaly Detection Framework based on Appearance-Motion Semantics Representation Consistency ( http://arxiv.org/abs/2303.05109v1 )

ライセンス: Link先を確認
Xiangyu Huang, Caidan Zhao and Zhiqiang Wu(参考訳) ビデオ異常検出は必須だが難しい課題である。 一般的な手法は, 正常パターンと異常パターンの再構成の差異を主に検討するが, 行動パターンの出現と動作情報のセマンティクス一貫性を無視し, フレームシーケンスの局所的文脈に大きく依存し, 行動セマンティクスの理解を欠いている。 そこで本研究では,正規データと異常データとの出現・移動意味表現のギャップを利用した出現・移動意味表現一貫性の枠組みを提案する。 この2つのストリーム構造は,正規サンプルの出現・運動情報表現を符号化するために設計され,特徴セマンティクスの一貫性を高めるために新たな一貫性損失が提案されている。 さらに、異常の低い整合性特徴を用いて予測フレームの品質を劣化させ、異常を見つけやすくすることができる。 実験の結果,提案手法の有効性が示された。

Video anomaly detection is an essential but challenging task. The prevalent methods mainly investigate the reconstruction difference between normal and abnormal patterns but ignore the semantics consistency between appearance and motion information of behavior patterns, making the results highly dependent on the local context of frame sequences and lacking the understanding of behavior semantics. To address this issue, we propose a framework of Appearance-Motion Semantics Representation Consistency that uses the gap of appearance and motion semantic representation consistency between normal and abnormal data. The two-stream structure is designed to encode the appearance and motion information representation of normal samples, and a novel consistency loss is proposed to enhance the consistency of feature semantics so that anomalies with low consistency can be identified. Moreover, the lower consistency features of anomalies can be used to deteriorate the quality of the predicted frame, which makes anomalies easier to spot. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2023-03-10 15:35:01 公開日:2023-03-09
# maskdiff: 拡散確率モデルを用いた少数インスタンスセグメンテーションのためのマスク分布のモデル化

MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model for Few-Shot Instance Segmentation ( http://arxiv.org/abs/2303.05105v1 )

ライセンス: Link先を確認
Minh-Quan Le, Tam V. Nguyen, Trung-Nghia Le, Thanh-Toan Do, Minh N. Do, Minh-Triet Tran(参考訳) 少数ショットのインスタンスセグメンテーション 少数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。これは、新しいカテゴリの注釈付き例でクエリイメージからインスタンスオブジェクトをセグメンテーションしようとするものである。 従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。 しかし、このメカニズムはノイズの影響を受けやすく、データ不足によりバイアスに悩まされる。 点推定機構の欠点を克服するため,我々はMaskDiffと呼ばれる新しい手法を提案し,対象領域と$K$-shot情報に条件付けされたバイナリマスクの条件分布をモデル化した。 ガウス雑音による摂動データを低密度領域に分散させる拡張手法に着想を得て,拡散確率モデルを用いてマスク分布をモデル化する。 さらに,分類器なしの誘導マスクサンプリングを用いて,カテゴリ情報をバイナリマスク生成プロセスに統合する手法を提案する。 提案手法は,既存の手法よりも安定しながら,cocoデータセットのベースクラスと新規クラスの両方において,最先端のメソッドを一貫して上回っています。

Few-shot instance segmentation extends the few-shot learning paradigm to the instance segmentation task, which tries to segment instance objects from a query image with a few annotated examples of novel categories. Conventional approaches have attempted to address the task via prototype learning, known as point estimation. However, this mechanism is susceptible to noise and suffers from bias due to a significant scarcity of data. To overcome the disadvantages of the point estimation mechanism, we propose a novel approach, dubbed MaskDiff, which models the underlying conditional distribution of a binary mask, which is conditioned on an object region and $K$-shot information. Inspired by augmentation approaches that perturb data with Gaussian noise for populating low data density regions, we model the mask distribution with a diffusion probabilistic model. In addition, we propose to utilize classifier-free guided mask sampling to integrate category information into the binary mask generation process. Without bells and whistles, our proposed method consistently outperforms state-of-the-art methods on both base and novel classes of the COCO dataset while simultaneously being more stable than existing methods.
翻訳日:2023-03-10 15:34:43 公開日:2023-03-09
# アルゴリズム中立性

Algorithmic neutrality ( http://arxiv.org/abs/2303.05103v1 )

ライセンス: Link先を確認
Milo Phillips-Brown(参考訳) バイアスは我々の生活をコントロールしやすくするアルゴリズムに感染する。 色コミュニティにおける犯罪を過大評価する予測警察システム、女性候補を雇用するアルゴリズム、そして顔認識ソフトウェアは、浅黒い肌の顔を認識するのに苦労している。 アルゴリズムバイアスは注目されている。 対照的にアルゴリズム中立性は無視されている。 アルゴリズム中立性は私のトピックです。 私は3つの質問を受け取ります。 アルゴリズム中立とは何か? アルゴリズム中立性は可能か? アルゴリズムの中立性に目を向けると、アルゴリズムのバイアスについて何を学べますか? これらの疑問に具体的な言葉で答えるために、私はケーススタディである検索エンジンに取り組んでいます。 科学における中立性に関する著作を引用すると、検索エンジンが中立であることは、政治イデオロギーや検索エンジン運営者の金銭的利益といった特定の価値が、検索エンジンがページのランク付けに何の役割も果たさない場合に限ると私は言う。 検索中立性は不可能だ、と私は思う。 検索エンジンが中立でなければ、どの検索エンジンにもバイアスがかかる。 この脅威を解消するために、私は2種類のバイアス、未熟な期間バイアスと他の価値バイアスを区別します。 この区別により、中立性の欠如にもかかわらず、探索バイアスを理解し、その規範的な複雑さを捉えることができる。

Bias infects the algorithms that wield increasing control over our lives. Predictive policing systems overestimate crime in communities of color; hiring algorithms dock qualified female candidates; and facial recognition software struggles to recognize dark-skinned faces. Algorithmic bias has received significant attention. Algorithmic neutrality, in contrast, has been largely neglected. Algorithmic neutrality is my topic. I take up three questions. What is algorithmic neutrality? Is algorithmic neutrality possible? When we have an eye to algorithmic neutrality, what can we learn about algorithmic bias? To answer these questions in concrete terms, I work with a case study: search engines. Drawing on work about neutrality in science, I say that a search engine is neutral only if certain values, like political ideologies or the financial interests of the search engine operator, play no role in how the search engine ranks pages. Search neutrality, I argue, is impossible. Its impossibility seems to threaten the significance of search bias: if no search engine is neutral, then every search engine is biased. To defuse this threat, I distinguish two forms of bias, failing-on-its-own-terms bias and other-values bias. This distinction allows us to make sense of search bias, and capture its normative complexion, despite the impossibility of neutrality.
翻訳日:2023-03-10 15:34:23 公開日:2023-03-09
# 凍結事前学習型言語モデルはエンティティ中心の質問に対するゼロショットニューラル検索に使用できるか?

Can a Frozen Pretrained Language Model be used for Zero-shot Neural Retrieval on Entity-centric Questions? ( http://arxiv.org/abs/2303.05153v1 )

ライセンス: Link先を確認
Yasuto Hoshi, Daisuke Miyashita, Yasuhiro Morioka, Youyang Ng, Osamu Torii, Jun Deguchi(参考訳) ディープパス検索(DPR)を含むニューラルドキュメント検索は、特定の問合せデータセットに対して微調整およびテストを行う場合、BM25のような古典的な語彙マッチング検索よりも優れている。 しかし、既存の密集したレトリバーは、ドメイン外だけでなく、wikipediaのようなドメインにおいても、特に質問中の名前付きエンティティが検索の主要な手がかりである場合にも、うまく一般化することが示されている。 本稿では、ドメイン内のエンティティで訓練された凍結言語モデルによって生成された埋め込みを用いたドメイン内一般化へのアプローチを提案する。 微調整を行わず、事前訓練された言語モデルに含まれる豊富な知識が検索タスクに利用できる可能性を探る。 提案手法は、Wikipediaドメインのエンティティ中心の質問に対して従来のDPRよりも優れており、BM25や最先端のSPARモデルとほぼ同等の性能を発揮する。 また,エンティティ名が共通語であるbm25と比較して,コンテキスト化キーが強力な改善をもたらすことを示す。 DPRが実行に苦しむウィキペディアドメインのエンティティ中心の質問に対して,ゼロショット検索手法が実現可能であることを示す。

Neural document retrievers, including dense passage retrieval (DPR), have outperformed classical lexical-matching retrievers, such as BM25, when fine-tuned and tested on specific question-answering datasets. However, it has been shown that the existing dense retrievers do not generalize well not only out of domain but even in domain such as Wikipedia, especially when a named entity in a question is a dominant clue for retrieval. In this paper, we propose an approach toward in-domain generalization using the embeddings generated by the frozen language model trained with the entities in the domain. By not fine-tuning, we explore the possibility that the rich knowledge contained in a pretrained language model can be used for retrieval tasks. The proposed method outperforms conventional DPRs on entity-centric questions in Wikipedia domain and achieves almost comparable performance to BM25 and state-of-the-art SPAR model. We also show that the contextualized keys lead to strong improvements compared to BM25 when the entity names consist of common words. Our results demonstrate the feasibility of the zero-shot retrieval method for entity-centric questions of Wikipedia domain, where DPR has struggled to perform.
翻訳日:2023-03-10 15:28:38 公開日:2023-03-09
# 効率的なニューラルネットワーク学習のための確率的データセット選択

Provable Data Subset Selection For Efficient Neural Network Training ( http://arxiv.org/abs/2303.05151v1 )

ライセンス: Link先を確認
Murad Tukan, Samson Zhou, Alaa Maalouf, Daniela Rus, Vladimir Braverman, Dan Feldman(参考訳) 放射基底関数ニューラルネットワーク(英語版) (\emph{RBFNN}) は、閉有界集合上の任意の連続関数を、十分な隠れたニューロンを任意の精度で近似する能力においてよく知られている。 本稿では,任意のラジアル基底関数ネットワーク上での入力データの損失を近似し,より大きな入力データ上での \emph{RBFNN} で定義される任意の関数を近似する,小さな重み付き部分集合である \emph{RBFNNs} のコアセットを構築するための最初のアルゴリズムを提案する。 特に、放射基底とラプラシア損失関数のコアセットを構築する。 次に、コアセットを使用して、ディープニューラルネットワークをトレーニングするための証明可能なデータサブセット選択アルゴリズムを得る。 我々のコアセットは全ての関数を近似するので、入力の特定の関数であるニューラルネットワークの各重みの勾配も近似する。 次に,人気のあるネットワークアーキテクチャとデータセット上で関数近似とデータセットサブセット選択に関する経験的評価を行い,コアセット構築の有効性と精度を示す。

Radial basis function neural networks (\emph{RBFNN}) are {well-known} for their capability to approximate any continuous function on a closed bounded set with arbitrary precision given enough hidden neurons. In this paper, we introduce the first algorithm to construct coresets for \emph{RBFNNs}, i.e., small weighted subsets that approximate the loss of the input data on any radial basis function network and thus approximate any function defined by an \emph{RBFNN} on the larger input data. In particular, we construct coresets for radial basis and Laplacian loss functions. We then use our coresets to obtain a provable data subset selection algorithm for training deep neural networks. Since our coresets approximate every function, they also approximate the gradient of each weight in a neural network, which is a particular function on the input. We then perform empirical evaluations on function approximation and dataset subset selection on popular network architectures and data sets, demonstrating the efficacy and accuracy of our coreset construction.
翻訳日:2023-03-10 15:28:18 公開日:2023-03-09
# 確率的論理推論を用いた物体検出のための弱教師付き知識伝達

Weakly Supervised Knowledge Transfer with Probabilistic Logical Reasoning for Object Detection ( http://arxiv.org/abs/2303.05148v1 )

ライセンス: Link先を確認
Martijn Oldenhof, Adam Arany, Yves Moreau and Edward De Brouwer(参考訳) オブジェクト検出モデルのトレーニングは通常、各画像に存在するすべてのオブジェクトの位置やラベルなどのインスタンスレベルのアノテーションを必要とする。 残念ながらこのような監視は必ずしも可能ではなく、より多くは画像レベルの情報のみ提供され、弱い監督としても知られている。 最近の研究は、豊富な注釈付きドメインからの知識を活用することで、この制限に対処している。 しかしながら、これらのアプローチによって支持される弱い監視の範囲は非常に制限されており、利用可能なすべての情報を使用することができない。 本稿では,確率論的論理的推論に基づくフレームワークであるProbKTを提案する。 probktがターゲットドメインを大幅に改善し、既存のベースラインよりもより良い一般化につながるため、利用可能なすべての情報を使用することが有益なことを、さまざまなデータセットで実証的に示しています。 また、複雑な論理文を監視信号として扱う方法についても紹介する。

Training object detection models usually requires instance-level annotations, such as the positions and labels of all objects present in each image. Such supervision is unfortunately not always available and, more often, only image-level information is provided, also known as weak supervision. Recent works have addressed this limitation by leveraging knowledge from a richly annotated domain. However, the scope of weak supervision supported by these approaches has been very restrictive, preventing them to use all available information. In this work, we propose ProbKT, a framework based on probabilistic logical reasoning that allows to train object detection models with arbitrary types of weak supervision. We empirically show on different datasets that using all available information is beneficial as our ProbKT leads to significant improvement on target domain and better generalization compared to existing baselines. We also showcase the ability of our approach to handle complex logic statements as supervision signal.
翻訳日:2023-03-10 15:27:59 公開日:2023-03-09
# ESCL: 文表現のための等価自己コントラスト学習

ESCL: Equivariant Self-Contrastive Learning for Sentence Representations ( http://arxiv.org/abs/2303.05143v1 )

ライセンス: Link先を確認
Jie Liu, Yixuan Liu, Xue Han, Chao Deng, Junlan Feng(参考訳) 文表現に対する従来のコントラスト学習法は、しばしば正のペアを生成するために不感な変換に焦点を当てるが、意味表現に有害なセンシティブな変換の役割を無視する。 そこで,本研究では,等価な学習タスクを付加することで,学習表現が特定の種類の変換に敏感になるように促す,敏感な変換をフルに活用する同変自己共生学習(escl)手法を提案する。 一方、実用性と汎用性を改善するために、esclは、マルチタスク学習の観点からモデルパラメータを共有する伝統的な同変コントラストメソッドの実装を単純化する。 意味的テキスト類似性タスクのesclを評価する。 提案手法は,従来の手法に比べて学習パラメータを少なくしつつ,より良い結果が得られる。

Previous contrastive learning methods for sentence representations often focus on insensitive transformations to produce positive pairs, but neglect the role of sensitive transformations that are harmful to semantic representations. Therefore, we propose an Equivariant Self-Contrastive Learning (ESCL) method to make full use of sensitive transformations, which encourages the learned representations to be sensitive to certain types of transformations with an additional equivariant learning task. Meanwhile, in order to improve practicability and generality, ESCL simplifies the implementations of traditional equivariant contrastive methods to share model parameters from the perspective of multi-task learning. We evaluate our ESCL on semantic textual similarity tasks. The proposed method achieves better results while using fewer learning parameters compared to previous methods.
翻訳日:2023-03-10 15:27:46 公開日:2023-03-09
# 半古典的アプローチによる加速荷電粒子の電磁波放射

Electromagnetic radiation of accelerated charged particle in the framework of a semiclassical approach ( http://arxiv.org/abs/2303.05142v1 )

ライセンス: Link先を確認
T. C. Adorno, A. I. Breev, A. J. D. Farias Jr, D. M. Gitman(参考訳) 本研究では,バグロフ,ギットマン,シシュマレフ,ファリアス(J. Synchrotron Rad. (2020), 27. 902-911]による半古典的アプローチの枠組みにおける電荷分布による電磁放射の問題点に対処する。 このアプローチでは、放射を発生させる電流は古典的に考慮され、放射の量子的性質は正確に保持される。 電磁場の量子状態はシュル=オディンガー方程式の解であり、問題に関連する量は遷移確率の助けを借りて評価される。 この構成により、物理量に量子遷移時間を導入し、古典電流による放射問題におけるその役割を評価することができる。 放射された電磁エネルギーを詳細に研究し、放射源から放射される速度の定義を示す。 一定かつ均一な電界で加速された点状荷電粒子によって放射される全エネルギーと速度を計算することで、古典放射理論の枠組みにおいて、他の著者による結果と適切な限界下での適合性を見出した。 また,結果の数値的,漸近的な分析を行う。

We address the problem of the electromagnetic radiation produced by charge distributions in the framework of a semiclassical approach proposed in the work by Bagrov, Gitman, Shishmarev and Farias [J. Synchrotron Rad. (2020). 27, 902-911]. In this approach, currents, generating the radiation are considered classically, while the quantum nature of the radiation is kept exactly. Quantum states of the electromagnetic field are solutions of Schr\"odinger's equation and relevant quantities to the problem are evaluated with the aid of transition probabilities. This construction allows us to introduce the quantum transition time in physical quantities and assess its role in radiation problems by classical currents. We study radiated electromagnetic energies in detail and present a definition for the rate at which radiation is emitted from sources. In calculating the total energy and rate radiated by a pointlike charged particle accelerated by a constant and uniform electric field, we discover that our results are compatible with results obtained by other authors in the framework of the classical radiation theory under an appropriate limit. We also perform numerical and asymptotic analysis of the results.
翻訳日:2023-03-10 15:27:33 公開日:2023-03-09
# Erd\H{o}s-R\'enyi ネットワークにおける結合ノード次数分布

The joint node degree distribution in the Erd\H{o}s-R\'enyi network ( http://arxiv.org/abs/2303.05138v1 )

ライセンス: Link先を確認
Boshra Alarfaj, Charles Taylor and Leonid Bogachev(参考訳) Erd\H{o}s-R\'enyiランダムグラフはノード次数分布の最も単純なモデルであり、最も広く研究されている1つである。 このモデルでは、$n$の頂点のペアが選択され、確率$p$でランダムに連結され、従って与えられた頂点の次数は二項分布に従う。 頂点の数が大きい場合、二項は中心極限定理を用いて正規に近似することができ、これは$\min (np, n(1-p)) > 5$ のときしばしば許される。 これは各ノードに独立して当てはまる。 しかし、グラフ内のノードの次数が独立でないという事実から、この論文では、Erd\H{o}s-R\'enyi グラフ内のノードごとの次数が多変量正規分布 MVN を持つかどうかをテストする。 次数間の依存性から、二項がノード全体の分布であるという仮説に対する適合性テストのチ方正方性は否定される。 MVNをテストする前に、グラフ内の任意の一対のノードの次数の共分散と相関は、それぞれ$p(1-p)$と$1/(n-1)$であることを示す。 我々は、独立度と依存度という2つの仮定を考慮しMVNを試験し、チリ正方形の棄却された統計率、アンダーソン・ダーリング試験の$p$値、CDF比較に基づいて結果を得る。 私たちは常に、$n$と$p$の大きな値を持つ多変量正規分布をうまく適合させ、$n$または$p$が非常に小さいときに非常に不適合である。 この近似は$np \geq 10$ の場合に有効である。 また、独立性と依存を仮定するMVN分布における最大推定値$p$の比較を行う。 推定値はバイアス、分散、平均二乗誤差を用いて評価される。

The Erd\H{o}s-R\'enyi random graph is the simplest model for node degree distribution, and it is one of the most widely studied. In this model, pairs of $n$ vertices are selected and connected uniformly at random with probability $p$, consequently, the degrees for a given vertex follow the binomial distribution. If the number of vertices is large, the binomial can be approximated by Normal using the Central Limit Theorem, which is often allowed when $\min (np, n(1-p)) > 5$. This is true for every node independently. However, due to the fact that the degrees of nodes in a graph are not independent, we aim in this paper to test whether the degrees of per node collectively in the Erd\H{o}s-R\'enyi graph have a multivariate normal distribution MVN. A chi square goodness of fit test for the hypothesis that binomial is a distribution for the whole set of nodes is rejected because of the dependence between degrees. Before testing MVN we show that the covariance and correlation between the degrees of any pair of nodes in the graph are $p(1-p)$ and $1/(n-1)$, respectively. We test MVN considering two assumptions: independent and dependent degrees, and we obtain our results based on the percentages of rejected statistics of chi square, the $p$-values of Anderson Darling test, and a CDF comparison. We always achieve a good fit of multivariate normal distribution with large values of $n$ and $p$, and very poor fit when $n$ or $p$ are very small. The approximation seems valid when $np \geq 10$. We also compare the maximum likelihood estimate of $p$ in MVN distribution where we assume independence and dependence. The estimators are assessed using bias, variance and mean square error.
翻訳日:2023-03-10 15:27:13 公開日:2023-03-09
# ハイパースペクトル文書画像のブラインド劣化

Blind deblurring of hyperspectral document images ( http://arxiv.org/abs/2303.05130v1 )

ライセンス: Link先を確認
M. Ljubenovic, P. Guzzonato, G. Franceschin, A. Traviglia(参考訳) ほとんどのコンピュータビジョンと機械学習に基づく歴史的文書分析のアプローチは、グレイスケール画像やrgb画像に合わせたものである。 マルチスペクトル(MS)およびハイパースペクトル(HS)画像は、空間情報に隣接して、より効率的な特徴抽出、より正確な分類と認識を容易にし、分析を改善することができるRGB画像(通常、可視スペクトル範囲を超えて広がる)よりもはるかにリッチなスペクトル情報を含んでいる。 豊富なスペクトル情報の利用は歴史的文書解析を大幅に改善するが、カメラによるノイズやぼやきなどのhs画像には、慎重に設計された前処理ステップを必要とする潜在的な制限がある。 本稿では,文書化に適した新しいブラインドHS画像デブロワー法を提案する。 我々は、HS画像の低ランク特性(すなわち、低次元部分空間にHS画像を投影することで)を活用し、サブスペース成分のPSF推定および劣化を行う前にテキスト・テーラー画像を利用する。 予備的な結果から,提案手法はすべてのスペクトル帯域に対して良好な結果をもたらし,ぼかしやノイズによる画像アーチファクトの除去に成功し,さらなる分析に使用できる帯域の数を著しく増やした。

Most computer vision and machine learning-based approaches for historical document analysis are tailored to grayscale or RGB images and thus, mostly exploit their spatial information. Multispectral (MS) and hyperspectral (HS) images contain, next to the spatial information, much richer spectral information than RGB images (usually spreading beyond the visible spectral range) that can facilitate more effective feature extraction, more accurate classification and recognition, and thus, improved analysis. Although utilization of rich spectral information can improve historical document analysis tremendously, there are still some potential limitations of HS imagery such as camera-induced noise and blur that require a carefully designed preprocessing step. Here, we propose novel blind HS image deblurring methods tailored to document images. We exploit a low-rank property of HS images (i.e., by projecting an HS image to a lower dimensional subspace) and utilize a text tailor image prior to performing a PSF estimation and deblurring of subspace components. The preliminary results show that the proposed approach gives good results over all spectral bands, removing successfully image artefacts introduced by blur and noise and significantly increasing the number of bands that can be used in further analysis.
翻訳日:2023-03-10 15:26:38 公開日:2023-03-09
# MRIスキャンの半教師分割のための二重不確実性誘導を用いたハイブリッドデュアル平均教師ネットワーク

Hybrid Dual Mean-Teacher Network With Double-Uncertainty Guidance for Semi-Supervised Segmentation of MRI Scans ( http://arxiv.org/abs/2303.05126v1 )

ライセンス: Link先を確認
Jiayi Zhu, Bart Bolsterlee, Brian V. Y. Chow, Yang Song, Erik Meijering(参考訳) 半教師付き学習は、医用画像のセグメンテーションに大きな進歩をもたらした。 しかし、既存の手法では、主に1次元(2D/3D)から取得した情報を利用するため、複数の物体を持つMRI(MRI)スキャンや高異方性分解能などの課題データに対する準最適性能が得られる。 この問題に対処するために,ハイブリット,セミ教師付き,マルチタスク学習を併用したハイブリットデュアル平均教師モデルを提案し,高い効率のセミ教師付きセグメンテーションを実現する。 HD-Teacherは2Dおよび3D平均教師ネットワークを使用して、両方の次元でキャプチャされたハイブリッド情報からセグメンテーションラベルと符号付き距離フィールドを生成する。 このハイブリッド学習メカニズムにより、hd-teacherは2d、3d、または両方の次元から抽出された特徴を利用して、適合するアウトプットを生成することができる。 2次元および3次元教師モデルからの出力も、個々の不確実性スコアに基づいて動的に結合され、ハイブリッド不確実性が推定される。 次に,両学習モデルが不確実性重み付けハイブリッド予測に近い結果を生成することを奨励するハイブリッド正規化モジュールを提案する。 ハイブリッド不確実性は、ハイブリッド予測における信頼できない知識を抑制し、有用な情報のみを残してネットワーク性能をさらに向上させる。 3つのmriデータセットを用いたバイナリおよびマルチクラスセグメンテーションの広範な実験により,提案手法の有効性が示された。 コードはhttps://github.com/ThisGame42/Hybrid-Teacherで入手できる。

Semi-supervised learning has made significant progress in medical image segmentation. However, existing methods primarily utilize information acquired from a single dimensionality (2D/3D), resulting in sub-optimal performance on challenging data, such as magnetic resonance imaging (MRI) scans with multiple objects and highly anisotropic resolution. To address this issue, we present a Hybrid Dual Mean-Teacher (HD-Teacher) model with hybrid, semi-supervised, and multi-task learning to achieve highly effective semi-supervised segmentation. HD-Teacher employs a 2D and a 3D mean-teacher network to produce segmentation labels and signed distance fields from the hybrid information captured in both dimensionalities. This hybrid learning mechanism allows HD-Teacher to combine the `best of both worlds', utilizing features extracted from either 2D, 3D, or both dimensions to produce outputs as it sees fit. Outputs from 2D and 3D teacher models are also dynamically combined, based on their individual uncertainty scores, into a single hybrid prediction, where the hybrid uncertainty is estimated. We then propose a hybrid regularization module to encourage both student models to produce results close to the uncertainty-weighted hybrid prediction. The hybrid uncertainty suppresses unreliable knowledge in the hybrid prediction, leaving only useful information to improve network performance further. Extensive experiments of binary and multi-class segmentation conducted on three MRI datasets demonstrate the effectiveness of the proposed framework. Code is available at https://github.com/ThisGame42/Hybrid-Teacher.
翻訳日:2023-03-10 15:26:16 公開日:2023-03-09
# Cones: カスタマイズ生成のための拡散モデルにおける概念ニューロン

Cones: Concept Neurons in Diffusion Models for Customized Generation ( http://arxiv.org/abs/2303.05125v1 )

ライセンス: Link先を確認
Zhiheng Liu, Ruili Feng, Kai Zhu, Yifei Zhang, Kecheng Zheng, Yu Liu, Deli Zhao, Jingren Zhou, Yang Cao(参考訳) 人間の脳は、異なるニューロンで提示された刺激のセマンティックな特徴に反応する。 そして、現代のディープニューラルネットワークが類似の行動パターンを認めるかどうか興味をそそられる。 具体的には、特定の対象に対応する拡散モデルにおいて、ニューロンの小さなクラスターを見つける。 これらのニューロンを概念ニューロンと呼びます。 ネットワーク勾配の統計から、与えられた被験者に関連付けられた刺激を同定することができる。 概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。 それらをシャットダウンすることで、関連する主題を異なるシーンでコンテキスト化することができる。 概念ニューロンの複数のクラスターを連結することで、1つの画像で関連する全ての概念を鮮やかに生成することができる。 さらに微調整を行ういくつかのステップは、単一のイメージで最大4つの異なる主題を生成できる、マルチコンセプト機能を強化することができる。 大規模アプリケーションでは、パラメータの密集したfloat32値ではなく、intインデックスのばらばらなクラスタを格納するだけで、従来のサブジェクト駆動型生成法に比べてストレージ消費を90%削減できるため、概念ニューロンは環境にやさしい。 多様なシナリオに関する大規模定性的および定量的研究は,拡散モデルの解釈と操作において,我々の手法の優位性を示している。

Human brains respond to semantic features of presented stimuli with different neurons. It is then curious whether modern deep neural networks admit a similar behavior pattern. Specifically, this paper finds a small cluster of neurons in a diffusion model corresponding to a particular subject. We call those neurons the concept neurons. They can be identified by statistics of network gradients to a stimulation connected with the given subject. The concept neurons demonstrate magnetic properties in interpreting and manipulating generation results. Shutting them can directly yield the related subject contextualized in different scenes. Concatenating multiple clusters of concept neurons can vividly generate all related concepts in a single image. A few steps of further fine-tuning can enhance the multi-concept capability, which may be the first to manage to generate up to four different subjects in a single image. For large-scale applications, the concept neurons are environmentally friendly as we only need to store a sparse cluster of int index instead of dense float32 values of the parameters, which reduces storage consumption by 90\% compared with previous subject-driven generation methods. Extensive qualitative and quantitative studies on diverse scenarios show the superiority of our method in interpreting and manipulating diffusion models.
翻訳日:2023-03-10 15:25:51 公開日:2023-03-09
# 視覚位置認識のための集合データベース選択の優位化

Dominating Set Database Selection for Visual Place Recognition ( http://arxiv.org/abs/2303.05123v1 )

ライセンス: Link先を確認
Anastasiia Kornilova, Ivan Moskalenko, Timofei Pushkin, Fakhriddin Tojiboev, Rahim Tariverdizadeh, Gonzalo Ferrer(参考訳) 本稿では,RGBDスキャンシーケンスから室内環境のローカライズのための視覚的位置認識(VPR)データベースを作成する手法を提案する。 提案手法は,空間情報から構築したグラフのドミネーションセットアルゴリズムを用いて最小化問題として定式化され,ドミネーションセットと呼ばれる。 本アルゴリズムは,データベース作成に使用される他の手法と比較して,シーンカバレッジを向上する。 また,dominatingsetを使用すると,データベースサイズは元のスキャンシーケンスの最大250~1400倍小さくなり,リコールレートはテストシーケンスの80%以上となることを実証した。 提案アルゴリズムを7シーンとBundleFusionデータセットと,高度に反復的なオフィス設定で追加記録したシーケンスで評価した。 さらに、データベース選択は、ニューラルネットワークの位置認識アルゴリズムを特定の設定に微調整する弱い教師付きラベルを生成することができ、精度をさらに向上させる。 また、RGBDスキャンシーケンスからVPRデータベースを作成するための完全自動化パイプラインと、VPRデータベース評価のためのメトリクスセットも提示する。 コードとリリースされたデータは、私たちのWebページ~-https://prime-slam.github.io/place-recognition-db/で利用可能です。

This paper presents an approach for creating a visual place recognition (VPR) database for localization in indoor environments from RGBD scanning sequences. The proposed approach is formulated as a minimization problem in terms of dominating set algorithm for graph, constructed from spatial information, and referred as DominatingSet. Our algorithm shows better scene coverage in comparison to other methodologies that are used for database creation. Also, we demonstrate that using DominatingSet, a database size could be up to 250-1400 times smaller than the original scanning sequence while maintaining a recall rate of more than 80% on testing sequences. We evaluated our algorithm on 7-scenes and BundleFusion datasets and an additionally recorded sequence in a highly repetitive office setting. In addition, the database selection can produce weakly-supervised labels for fine-tuning neural place recognition algorithms to particular settings, improving even more their accuracy. The paper also presents a fully automated pipeline for VPR database creation from RGBD scanning sequences, as well as a set of metrics for VPR database evaluation. The code and released data are available on our web-page~ -- https://prime-slam.github.io/place-recognition-db/
翻訳日:2023-03-10 15:25:34 公開日:2023-03-09
# 病理組織学における分類:多重分類課題のための一意な深層埋め込み抽出器

Classification in Histopathology: A unique deep embeddings extractor for multiple classification tasks ( http://arxiv.org/abs/2303.05180v1 )

ライセンス: Link先を確認
Adrien Nivaggioli and Nicolas Pozin and R\'emy Peyret and St\'ephane Sockeel and Marie Sockeel and Nicolas Nerrienet and Marceau Clavel and Clara Simmat and Catherine Miquel(参考訳) バイオメディカルイメージングでは、深層学習に基づく手法は、病理組織学におけるあらゆるモダリティ(仮想スライド、mriなど)の最先端技術であり、これらの手法は特定のバイオマーカーの検出や病変の分類に使用できる。 しかし、このような技術は、特にバイオマーカーの少ない場合には、本質的に取得が困難であるハイパフォーマンスモデルを訓練するために大量のデータを必要とする。 この課題に対処するために、我々は、単一の事前学習された深層埋め込み抽出器を使用して、画像を深い特徴に変換し、分類タスクごとにこれらの埋め込みに対して、小さく専用の分類ヘッドを訓練する。 このアプローチは、様々なタスクのために事前訓練された1つのディープネットワークを再利用する能力、分類ヘッドに必要なラベル付きデータの量を減らすこと、最大1000倍のトレーニング時間を短縮することなど、いくつかの利点を提供している。 本研究では,様々なオープンソースバックボーンを広範囲に比較し,対象の組織画像領域への適合性を評価する。 これはプロキシ分類タスクに基づいた新しい手法を用いて達成される。 この選択法により、対象領域の異なるタスクに対して最適な特徴抽出器を選択できることを実証する。 また、検討対象の異なるタスクに対して計算された最終的なメトリクスを大幅に改善する機能空間拡張戦略も導入する。 このようなバックボーン選択と機能空間拡張の利点を実証するために, マイクロ石灰化 (29.1% f1-score増加), リンパ節転移 (12.5% f1-score増加), 分裂 (15.0% f1-score増加) の3つの異なる分類タスクを用いて実験を行った。

In biomedical imaging, deep learning-based methods are state-of-the-art for every modality (virtual slides, MRI, etc.) In histopathology, these methods can be used to detect certain biomarkers or classify lesions. However, such techniques require large amounts of data to train high-performing models which can be intrinsically difficult to acquire, especially when it comes to scarce biomarkers. To address this challenge, we use a single, pre-trained, deep embeddings extractor to convert images into deep features and train small, dedicated classification head on these embeddings for each classification task. This approach offers several benefits such as the ability to reuse a single pre-trained deep network for various tasks; reducing the amount of labeled data needed as classification heads have fewer parameters; and accelerating training time by up to 1000 times, which allows for much more tuning of the classification head. In this work, we perform an extensive comparison of various open-source backbones and assess their fit to the target histological image domain. This is achieved using a novel method based on a proxy classification task. We demonstrate that thanks to this selection method, an optimal feature extractor can be selected for different tasks on the target domain. We also introduce a feature space augmentation strategy which proves to substantially improve the final metrics computed for the different tasks considered. To demonstrate the benefit of such backbone selection and feature-space augmentation, our experiments are carried out on three separate classification tasks and show a clear improvement on each of them: microcalcifications (29.1% F1-score increase), lymph nodes metastasis (12.5% F1-score increase), mitosis (15.0% F1-score increase).
翻訳日:2023-03-10 15:19:14 公開日:2023-03-09
# riddle: latent encryptorによる可逆性と多様化した非識別

RiDDLE: Reversible and Diversified De-identification with Latent Encryptor ( http://arxiv.org/abs/2303.05171v1 )

ライセンス: Link先を確認
Dongze Li, Wei Wang, Kang Zhao, Jing Dong and Tieniu Tan(参考訳) この研究は、人々の身元情報を誤用から守るために、可逆的かつ多角化された非識別を潜在暗号化装置と略すriddleを提示している。 事前に学習したStyleGAN2ジェネレータ上に構築されたRiDDLEは、潜伏空間内の顔認証を暗号化して復号する。 RiDDLEの設計には3つの魅力がある。 まず、暗号化プロセスは暗号化誘導され、異なるパスワードを使って様々な匿名化が可能である。 第二に、真のidは正しいパスワードでしか解読できない。そうでなければ、システムはプライバシーを維持するために別の身元不明の顔を生成する。 第三に、暗号化と復号化の両方が効率的な実装を共有しており、慎重に調整された軽量暗号化の利点がある。 既存の代替手段との比較では、我々のアプローチがより良い品質、高い多様性、より強い可逆性を備えた非識別タスクを達成することを確認した。 さらに,ビデオの匿名化におけるRiDDLEの有効性を示す。 コードとモデルは公開される予定だ。

This work presents RiDDLE, short for Reversible and Diversified De-identification with Latent Encryptor, to protect the identity information of people from being misused. Built upon a pre-learned StyleGAN2 generator, RiDDLE manages to encrypt and decrypt the facial identity within the latent space. The design of RiDDLE has three appealing properties. First, the encryption process is cipher-guided and hence allows diverse anonymization using different passwords. Second, the true identity can only be decrypted with the correct password, otherwise the system will produce another de-identified face to maintain the privacy. Third, both encryption and decryption share an efficient implementation, benefiting from a carefully tailored lightweight encryptor. Comparisons with existing alternatives confirm that our approach accomplishes the de-identification task with better quality, higher diversity, and stronger reversibility. We further demonstrate the effectiveness of RiDDLE in anonymizing videos. Code and models will be made publicly available.
翻訳日:2023-03-10 15:18:40 公開日:2023-03-09
# TAEC: 時間認識埋め込みとクラスタリングによる教師なしアクションセグメンテーション

TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering ( http://arxiv.org/abs/2303.05166v1 )

ライセンス: Link先を確認
Wei Lin, Anna Kukleva, Horst Possegger, Hilde Kuehne, Horst Bischof(参考訳) ビデオ中の時間的アクションセグメンテーションは近年注目を集めている。 しかし、特に大規模データセットでは、アクションクラスとフレームワイド境界の注釈付けは非常に時間がかかり、コストがかかる。 この問題に対処するために,未編集のビデオシーケンスからアクションクラスを学習するための教師なしアプローチを提案する。 特に,映像特徴の空間的レイアウトとシーケンシャル性を維持するために,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。 これら組み込み機能表現上の2ステップのクラスタリングパイプラインにより、ビデオ内だけでなく、時間的一貫性を強制することができます。 識別されたクラスタに基づいて,映像を意味的に意味のあるアクションクラスに対応するコヒーレントなテンポラルセグメントにデコードする。 3つの挑戦的データセットに対する評価は、各コンポーネントの影響を示し、さらに、最先端の教師なしアクションセグメンテーションの結果を示す。

Temporal action segmentation in untrimmed videos has gained increased attention recently. However, annotating action classes and frame-wise boundaries is extremely time consuming and cost intensive, especially on large-scale datasets. To address this issue, we propose an unsupervised approach for learning action classes from untrimmed video sequences. In particular, we propose a temporal embedding network that combines relative time prediction, feature reconstruction, and sequence-to-sequence learning, to preserve the spatial layout and sequential nature of the video features. A two-step clustering pipeline on these embedded feature representations then allows us to enforce temporal consistency within, as well as across videos. Based on the identified clusters, we decode the video into coherent temporal segments that correspond to semantically meaningful action classes. Our evaluation on three challenging datasets shows the impact of each component and, furthermore, demonstrates our state-of-the-art unsupervised action segmentation results.
翻訳日:2023-03-10 15:18:22 公開日:2023-03-09
# 弱スーパービジョンポイントクラウドセグメンテーションのための信頼性適応一貫性規則化

Reliability-Adaptive Consistency Regularization for Weakly-Supervised Point Cloud Segmentation ( http://arxiv.org/abs/2303.05164v1 )

ライセンス: Link先を確認
Zhonghua Wu, Yicheng Wu, Guosheng Lin, Jianfei Cai(参考訳) 極端に限られたラベルを持つ弱教師付きポイントクラウドセグメンテーションは、高額な注釈付き3Dポイントの収集コストを軽減するために非常に望ましい。 本稿では,弱教師付き学習においてよく用いられる一貫性の正規化を,複数のデータ固有の拡張に対応する点クラウドに適用する。 弱教師付きポイントクラウドセグメンテーションに整合性制約を適用する簡単な方法は、従来の信頼度に基づく選択によるノイズのある擬似ラベルと、信頼性の低い疑似ラベルを破棄する不整合性制約の2つの大きな制限がある。 そこで我々は,予測信頼度とモデル不確実性を両立させて疑似ラベルの信頼性を計測し,対応する擬似ラベルの信頼性に基づいて異なる点に対する異なる整合性制約を伴って,すべての未ラベル点に対する整合性トレーニングを適用する新しい信頼性適応整合性ネットワーク(RAC-Net)を提案する。 S3DIS と ScanNet-v2 ベンチマークデータセットによる実験結果から,弱制御点クラウドセグメンテーションにおいて,本モデルが優れた性能を発揮することが示された。 コードはリリースされます。

Weakly-supervised point cloud segmentation with extremely limited labels is highly desirable to alleviate the expensive costs of collecting densely annotated 3D points. This paper explores to apply the consistency regularization that is commonly used in weakly-supervised learning, for its point cloud counterpart with multiple data-specific augmentations, which has not been well studied. We observe that the straightforward way of applying consistency constraints to weakly-supervised point cloud segmentation has two major limitations: noisy pseudo labels due to the conventional confidence-based selection and insufficient consistency constraints due to discarding unreliable pseudo labels. Therefore, we propose a novel Reliability-Adaptive Consistency Network (RAC-Net) to use both prediction confidence and model uncertainty to measure the reliability of pseudo labels and apply consistency training on all unlabeled points while with different consistency constraints for different points based on the reliability of corresponding pseudo labels. Experimental results on the S3DIS and ScanNet-v2 benchmark datasets show that our model achieves superior performance in weakly-supervised point cloud segmentation. The code will be released.
翻訳日:2023-03-10 15:18:05 公開日:2023-03-09
# EVOLINベンチマーク:線検出と関連性の評価

EVOLIN Benchmark: Evaluation of Line Detection and Association ( http://arxiv.org/abs/2303.05162v1 )

ライセンス: Link先を確認
Kirill Ivanov, Gonzalo Ferrer, Anastasiia Kornilova(参考訳) 線は、屋内や都市でよく見られる興味深い幾何学的特徴である。 ライン検出、ラインアソシエーション、Poseエラーといったすべてのステージにおいて、シーケンシャルな画像ストリームから行を評価することができる完全なベンチマークが欠けている。 そのため,RGB と RGBD の両方の SLAM フロントエンドにおける視覚線に対する完全かつ徹底的なベンチマークを,相補的な指標を多数提供する。 また、slamデータセットのデータをラベル付けして、すべての値を1つのポーズで正確にアノテートしました。 特に, 1組のフレームを複数の検出器結合の組み合わせで整合させるために, 17行検出アルゴリズム, 5行連想法, 結果ポーズ誤差を評価した。 すべてのメソッドと評価メトリクスをパッケージ化し、Webページhttps://prime-slam.github.io/evolin/で公開しました。

Lines are interesting geometrical features commonly seen in indoor and urban environments. There is missing a complete benchmark where one can evaluate lines from a sequential stream of images in all its stages: Line detection, Line Association and Pose error. To do so, we present a complete and exhaustive benchmark for visual lines in a SLAM front-end, both for RGB and RGBD, by providing a plethora of complementary metrics. We have also labelled data from well-known SLAM datasets in order to have all in one poses and accurately annotated lines. In particular, we have evaluated 17 line detection algorithms, 5 line associations methods and the resultant pose error for aligning a pair of frames with several combinations of detector-association. We have packaged all methods and evaluations metrics and made them publicly available on web-page https://prime-slam.github.io/evolin/.
翻訳日:2023-03-10 15:17:41 公開日:2023-03-09
# ディープラーニングにおけるクラス多様体の反転ダイナミクスは、一般化の基礎となるトレードオフを明らかにする

Inversion dynamics of class manifolds in deep learning reveals tradeoffs underlying generalisation ( http://arxiv.org/abs/2303.05161v1 )

ライセンス: Link先を確認
Simone Ciceri, Lorenzo Cassani, Pierre Pizzochero, Matteo Osella, Pietro Rotondo, Marco Gherardi(参考訳) 分類問題におけるほぼゼロに近いトレーニング誤差を達成するためには、ディープネットワークの層が異なるラベルでデータポイントの多様体を歪め、識別を容易にする必要がある。 しかし、良い一般化にはある種の絡み合いを伴う不変な特徴を学ぶ必要があるため、過剰なクラス分離は過剰フィッティングをもたらす可能性がある。 楽観化ダイナミクスが、これらの対立する傾向と非単調な傾向をバランスさせる表現をどのように見つけるかを示す数値実験を報告する。 高速な分離フェーズの後、遅い再配置(データセットとアーキテクチャにまたがって保存される)により、クラス絡み合いが増加する。 インバージョンでのトレーニングエラーは、サブサンプリングやネットワーク初期化やオプティマイザ間で著しく安定しており、データ構造とアーキテクチャの(非常に弱い)特性のみを特徴としている。 逆転は、特に一般化に影響を及ぼす「ストラグラー」と呼ばれるトレーニングセットの明確に定義された最大安定な要素によって引き起こされるトレードオフの顕現である。

To achieve near-zero training error in a classification problem, the layers of a deep network have to disentangle the manifolds of data points with different labels, to facilitate the discrimination. However, excessive class separation can bring to overfitting since good generalisation requires learning invariant features, which involve some level of entanglement. We report on numerical experiments showing how the optimisation dynamics finds representations that balance these opposing tendencies with a non-monotonic trend. After a fast segregation phase, a slower rearrangement (conserved across data sets and architectures) increases the class entanglement. The training error at the inversion is remarkably stable under subsampling, and across network initialisations and optimisers, which characterises it as a property solely of the data structure and (very weakly) of the architecture. The inversion is the manifestation of tradeoffs elicited by well-defined and maximally stable elements of the training set, coined "stragglers", particularly influential for generalisation.
翻訳日:2023-03-10 15:17:27 公開日:2023-03-09
# $\pi$-augmented pregroups と言語学への応用

$\pi$-augmented pregroups and applications to linguistics ( http://arxiv.org/abs/2303.05160v1 )

ライセンス: Link先を確認
Valentin Boboc(参考訳) 我々は、指定された部分文字列に局所的に事前巡回置換を適用できるマッピングでプリグループを豊かにする。 このような代数構造に対する正規化定理を証明し、ある自然言語におけるクリティック代名詞の解析に対する前群の既知の応用を簡潔に定式化する。

We enrich pregroups with a mapping which allows us to locally apply precyclic permutations to designated substrings. We prove a normalisation theorem for such algebraic structures and briefly formalise some known applications of pregroups to the analysis of clitic pronouns in certain natural languages.
翻訳日:2023-03-10 15:17:09 公開日:2023-03-09
# 任意スケール画像超解像に対する局所帰納正規化流れ

Local Implicit Normalizing Flow for Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2303.05156v1 )

ライセンス: Link先を確認
Jie-En Yao, Li-Yuan Tsao, Yi-Chen Lo, Roy Tseng, Chia-Che Chang, Chun-Yi Lee(参考訳) フローベース手法は,高分解能(HR)画像の正規化フローによる分布を学習することにより,超解像(SR)の誤った性質に対処する上で有望な結果を示した。 しかし、これらの手法は予め定義された固定スケールのSRしか実行できず、現実の応用においてその可能性を制限する。 一方、任意のスケールのSRが注目され、大きな進歩を遂げた。 それでも、以前の任意のスケールのSR手法は不適切な問題を無視し、ピクセル当たりのL1損失でモデルを訓練し、曖昧なSR出力をもたらす。 そこで本研究では,これらの問題に対する統一解として,LINF(Local Implicit Normalizing Flow)を提案する。 LINFは、流れの正規化を伴う異なるスケーリング要因の下でテクスチャの詳細な分布をモデル化する。 したがって、LINFは任意のスケールの要素でテクスチャの詳細がリッチなフォトリアリスティックHR画像を生成することができる。 我々は、LINFを広範囲な実験により評価し、従来の任意スケールSR法と比較して、LINFが最先端の知覚品質を達成することを示す。

Flow-based methods have demonstrated promising results in addressing the ill-posed nature of super-resolution (SR) by learning the distribution of high-resolution (HR) images with the normalizing flow. However, these methods can only perform a predefined fixed-scale SR, limiting their potential in real-world applications. Meanwhile, arbitrary-scale SR has gained more attention and achieved great progress. Nonetheless, previous arbitrary-scale SR methods ignore the ill-posed problem and train the model with per-pixel L1 loss, leading to blurry SR outputs. In this work, we propose "Local Implicit Normalizing Flow" (LINF) as a unified solution to the above problems. LINF models the distribution of texture details under different scaling factors with normalizing flow. Thus, LINF can generate photo-realistic HR images with rich texture details in arbitrary scale factors. We evaluate LINF with extensive experiments and show that LINF achieves the state-of-the-art perceptual quality compared with prior arbitrary-scale SR methods.
翻訳日:2023-03-10 15:17:04 公開日:2023-03-09
# Aux-Drop:補助ドロップアウトを用いたオンライン学習におけるハファザード入力処理

Aux-Drop: Handling Haphazard Inputs in Online Learning Using Auxiliary Dropouts ( http://arxiv.org/abs/2303.05155v1 )

ライセンス: Link先を確認
Rohit Agarwal, Deepak Gupta, Alexander Horsch and Dilip K. Prasad(参考訳) オンライン学習に基づく現実世界のアプリケーションの多くは、本質的にハザードなストリーミングデータを生成する。すなわち、欠落した機能、時代遅れになった機能、後続の新機能の出現、入力機能の総数に対する明確さの欠如などである。 これらの課題は、そのようなアプリケーションのための学習可能なシステムを構築するのを難しくし、この問題に対処するディープラーニングの作業はほとんどありません。 本稿では,haphazard 入力機能を効果的に扱うオンライン学習のための補助的ドロップアウト正規化戦略である aux-drop を提案する。 aux-dropは、haphazard入力特徴空間の従来のドロップアウト正規化スキームを採用しており、最終的な出力がそのような特徴のカオス的外観によって最小限の影響を受けることを保証している。 これは、特に補助的特徴と基底的特徴の共適応を防止し、モデルの任意の補助的な入力に対する出力の強い依存を減らすのに役立つ。 これにより、特定の機能が時間内に消失したり、新機能がモデル化される場合のシナリオの学習が向上する。 Aux-Dropの有効性は、イタリア電力需要、HIGGS、SUSY、複数のUCIデータセットを含むSOTAベンチマークデータセットに関する広範な数値実験を通じて実証されている。

Many real-world applications based on online learning produce streaming data that is haphazard in nature, i.e., contains missing features, features becoming obsolete in time, the appearance of new features at later points in time and a lack of clarity on the total number of input features. These challenges make it hard to build a learnable system for such applications, and almost no work exists in deep learning that addresses this issue. In this paper, we present Aux-Drop, an auxiliary dropout regularization strategy for online learning that handles the haphazard input features in an effective manner. Aux-Drop adapts the conventional dropout regularization scheme for the haphazard input feature space ensuring that the final output is minimally impacted by the chaotic appearance of such features. It helps to prevent the co-adaptation of especially the auxiliary and base features, as well as reduces the strong dependence of the output on any of the auxiliary inputs of the model. This helps in better learning for scenarios where certain features disappear in time or when new features are to be modeled. The efficacy of Aux-Drop has been demonstrated through extensive numerical experiments on SOTA benchmarking datasets that include Italy Power Demand, HIGGS, SUSY and multiple UCI datasets.
翻訳日:2023-03-10 15:16:48 公開日:2023-03-09
# ハイパースペクトル音場からの3次元風況--気象学的視点からの再検討

3D wind field profiles from hyperspectral sounders: revisiting optic-flow from a meteorological perspective ( http://arxiv.org/abs/2303.05154v1 )

ライセンス: Link先を確認
P. H\'eas and O. Hautecoeur and R. Borde(参考訳) 本研究では, 垂直分解型3次元大気運動ベクトル(AMV)場を不完全な高スペクトル画像データから抽出するための高効率光流アルゴリズムを提案する。 最小化されるエネルギーの中心にあるモデルは、熱力学、静水平衡、統計乱流の成分を取り入れた大気力学と一致している。 現代的な最適化手法は、非凸、非微分可能、高次元、物理的制約の対象となるエネルギー最小化問題のための低複素解法を設計するためにデプロイされる。 特に, 乗算器法 (ADMM) の代替方向を利用して, 従来の高次元問題を, 標準およびトラクタブルなサブプロブレムの集合を含む再帰に分割する方法を示す。 欧州中距離気象予報センター(ecmwf)の運用数値シミュレーションにより得られた基礎的真理との比較により,本手法の性能は実赤外大気観測干渉計(iasi)の観測において最先端の光学フローアルゴリズムよりも優れていることを示した。

In this work, we present an efficient optic flow algorithm for the extraction of vertically resolved 3D atmospheric motion vector (AMV) fields from incomplete hyperspectral image data measures by infrared sounders. The model at the heart of the energy to be minimized is consistent with atmospheric dynamics, incorporating ingredients of thermodynamics, hydrostatic equilibrium and statistical turbulence. Modern optimization techniques are deployed to design a low-complexity solver for the energy minimization problem, which is non-convex, non-differentiable, high-dimensional and subject to physical constraints. In particular, taking advantage of the alternate direction of multipliers methods (ADMM), we show how to split the original high-dimensional problem into a recursion involving a set of standard and tractable optic-flow sub-problems. By comparing with the ground truth provided by the operational numerical simulation of the European Centre for Medium-Range Weather Forecasts (ECMWF), we show that the performance of the proposed method is superior to state-of-the-art optical flow algorithms in the context of real infrared atmospheric sounding interferometer (IASI) observations.
翻訳日:2023-03-10 15:16:23 公開日:2023-03-09
# 計画型強化学習による再生可能電力システムのリアルタイムスケジューリング

Real-time scheduling of renewable power systems through planning-based reinforcement learning ( http://arxiv.org/abs/2303.05205v1 )

ライセンス: Link先を確認
Shaohuai Liu, Jinbo Liu, Weirui Ye, Nan Yang, Guanglun Zhang, Haiwang Zhong, Chongqing Kang, Qirong Jiang, Xuri Song, Fangchun Di, Yang Gao(参考訳) 再生可能エネルギー源の増大は、従来の電力スケジューリングに重大な課題をもたらした。 オペレーターは、再生可能発電の正確な日頭予測を得ることが困難であり、そのため、将来のスケジューリングシステムでは、超短期予測に合わせたリアルタイムスケジューリング決定を行う必要がある。 計算速度の制限により、従来の最適化手法ではこの問題は解決できない。 強化学習(RL)の最近の進歩は、この課題を解決する可能性を示している。 しかし、既存のRL法は制約複雑性、アルゴリズム性能、環境忠実度の観点からは不十分である。 我々は、最先端の強化学習アルゴリズムと実電力グリッド環境に基づく体系的なソリューションを最初に提案する。 提案手法により、ユニットコミットメントや経済派遣を含む発電装置の時間分解調整の計画と微調整が可能となり、電力網の再生可能エネルギー獲得能力が向上する。 適切に訓練されたスケジューリングエージェントは、従来のスケジュールが不正確な日頭予測に依存することに起因する問題である再生可能カーテリーメントと負荷シェディングを大幅に削減する。 高周波制御決定は、実験結果で示されたように、既存のユニットの柔軟性を利用し、ハードウェア変換への電力グリッドの依存を減らし、投資と運用コストを節約する。 本研究は、低炭素・インテリジェント電力システムの推進における強化学習の可能性を示し、持続可能な発電に向けた確かなステップを示す。

The growing renewable energy sources have posed significant challenges to traditional power scheduling. It is difficult for operators to obtain accurate day-ahead forecasts of renewable generation, thereby requiring the future scheduling system to make real-time scheduling decisions aligning with ultra-short-term forecasts. Restricted by the computation speed, traditional optimization-based methods can not solve this problem. Recent developments in reinforcement learning (RL) have demonstrated the potential to solve this challenge. However, the existing RL methods are inadequate in terms of constraint complexity, algorithm performance, and environment fidelity. We are the first to propose a systematic solution based on the state-of-the-art reinforcement learning algorithm and the real power grid environment. The proposed approach enables planning and finer time resolution adjustments of power generators, including unit commitment and economic dispatch, thus increasing the grid's ability to admit more renewable energy. The well-trained scheduling agent significantly reduces renewable curtailment and load shedding, which are issues arising from traditional scheduling's reliance on inaccurate day-ahead forecasts. High-frequency control decisions exploit the existing units' flexibility, reducing the power grid's dependence on hardware transformations and saving investment and operating costs, as demonstrated in experimental results. This research exhibits the potential of reinforcement learning in promoting low-carbon and intelligent power systems and represents a solid step toward sustainable electricity generation.
翻訳日:2023-03-10 15:10:30 公開日:2023-03-09
# RMMDet:自動運転のための道路側マルチタイプ・マルチグループセンサ検出システム

RMMDet: Road-Side Multitype and Multigroup Sensor Detection System for Autonomous Driving ( http://arxiv.org/abs/2303.05203v1 )

ライセンス: Link先を確認
Xiuyu Yang, Zhuangyan Zhang, Haikuo Du, Sui Yang, Fengping Sun, Yanbo Liu, Ling Pei, Wenchao Xu, Weiqi Sun, Zhengyu Li(参考訳) 人工知能のおかげで、自律運転は大きな進歩を遂げ、単一のセンサーやマルチセンサー検出方法を含む、車両のエンドターゲット検出のための多くの高度な手法が提案されている。 しかし、実際の交通状況の複雑さと多様性は、これらの手法を実際の道路状況でどのように利用するかを検討する必要がある。 本稿では、自動運転のための道路側マルチタイプ・マルチグループセンサ検出システムであるrmmdetを提案する。 実環境,特にセンサの物理的および機能的構成をシミュレーションするために,ROSベースの仮想環境を用いる。 そして、この環境でミューティ型センサ検出とマルチグループセンサー融合を実装し、結果レベル融合に基づくカメラレーダーとカメラライダー検出を行う。 ローカルデータセットと実際のサンドテーブルフィールドを作成し、様々な実験を行います。 さらに,マルチエージェント協調スケジューリングシステムと融合検出システムとをリンクする。 これにより、路側知覚、融合検出、スケジューリング計画により路側検出システム全体が形成される。 実験の結果, RMMDetシステムは自動車と道路の協調と最適化において重要な役割を担っていることがわかった。 コードと補足資料は、https://github.com/orangesodahub/rmmdetにある。

Autonomous driving has now made great strides thanks to artificial intelligence, and numerous advanced methods have been proposed for vehicle end target detection, including single sensor or multi sensor detection methods. However, the complexity and diversity of real traffic situations necessitate an examination of how to use these methods in real road conditions. In this paper, we propose RMMDet, a road-side multitype and multigroup sensor detection system for autonomous driving. We use a ROS-based virtual environment to simulate real-world conditions, in particular the physical and functional construction of the sensors. Then we implement muti-type sensor detection and multi-group sensors fusion in this environment, including camera-radar and camera-lidar detection based on result-level fusion. We produce local datasets and real sand table field, and conduct various experiments. Furthermore, we link a multi-agent collaborative scheduling system to the fusion detection system. Hence, the whole roadside detection system is formed by roadside perception, fusion detection, and scheduling planning. Through the experiments, it can be seen that RMMDet system we built plays an important role in vehicle-road collaboration and its optimization. The code and supplementary materials can be found at: https://github.com/OrangeSodahub/RMMDet
翻訳日:2023-03-10 15:10:08 公開日:2023-03-09
# 改良した戦略カードゲーム(ハースストーン)

Mastering Strategy Card Game (Hearthstone) with Improved Techniques ( http://arxiv.org/abs/2303.05197v1 )

ライセンス: Link先を確認
Changnan Xiao, Yongxin Zhang, Xuefeng Huang, Qinhan Huang, Jie Chen, Peng Sun(参考訳) 戦略カードゲームは知的なゲームプレイを要求される有名なジャンルであり、AIにとって理想的なテストベンチになり得る。 これまでの作品は、エンド・ツー・エンドのポリシー機能と楽観的なスムーズな架空のプレイを組み合わせることで、戦略カードゲーム『Regend of Code and Magic』で有望なパフォーマンスを示している。 本研究では,このアルゴリズムを,ゲームルールや機構においてより複雑な,有名な商用ゲームであるhearthstoneに適用する。 我々はさらに,いくつかの改良手法を提案し,その結果,著しい進歩を遂げた。 マシンvsヒューマンテストでは、中国のオフィシャルリーグの上位10位にランクインしたハートストーンストリーマーを招待します。 私たちのモデルは、全試合(デッキビルディングとバトルの両方を含む)のベスト5のトーナメントで人間プレイヤーを倒し、意思決定の強い能力を示します。

Strategy card game is a well-known genre that is demanding on the intelligent game-play and can be an ideal test-bench for AI. Previous work combines an end-to-end policy function and an optimistic smooth fictitious play, which shows promising performances on the strategy card game Legend of Code and Magic. In this work, we apply such algorithms to Hearthstone, a famous commercial game that is more complicated in game rules and mechanisms. We further propose several improved techniques and consequently achieve significant progress. For a machine-vs-human test we invite a Hearthstone streamer whose best rank was top 10 of the official league in China region that is estimated to be of millions of players. Our models defeat the human player in all Best-of-5 tournaments of full games (including both deck building and battle), showing a strong capability of decision making.
翻訳日:2023-03-10 15:09:50 公開日:2023-03-09
# 回転平均値の再検討:不確実性とロバストな損失

Revisiting Rotation Averaging: Uncertainties and Robust Losses ( http://arxiv.org/abs/2303.05195v1 )

ライセンス: Link先を確認
Ganlin Zhang, Viktor Larsson, Daniel Barath(参考訳) 本稿では,グローバルなStructure-from-Motionパイプラインに適用される回転平均化問題を再考する。 提案手法の主な課題は,推定エピポーラ・ジオメトリによる入力データとの弱い結合しか持たない最小コスト関数であり,各点対応からの不確実性を回転平均化へ直接伝播させることにより,基礎となる雑音分布をモデル化することである。 このような不確実性は、2ビューの洗練のヤコビアンを考えることで自由に得られる。 さらに,MAGSAC損失の変種を,現在のフレームワークで使用される古典的ロバスト損失ではなく,回転平均化問題に統合することを検討する。 提案手法は,大規模公開ベンチマークの精度において,ベースラインよりも優れた結果をもたらす。 コードは公開されています。 https://github.com/zhangganlin/GlobalSfMpy

In this paper, we revisit the rotation averaging problem applied in global Structure-from-Motion pipelines. We argue that the main problem of current methods is the minimized cost function that is only weakly connected with the input data via the estimated epipolar geometries.We propose to better model the underlying noise distributions by directly propagating the uncertainty from the point correspondences into the rotation averaging. Such uncertainties are obtained for free by considering the Jacobians of two-view refinements. Moreover, we explore integrating a variant of the MAGSAC loss into the rotation averaging problem, instead of using classical robust losses employed in current frameworks. The proposed method leads to results superior to baselines, in terms of accuracy, on large-scale public benchmarks. The code is public. https://github.com/zhangganlin/GlobalSfMpy
翻訳日:2023-03-10 15:09:34 公開日:2023-03-09
# セマンティックセグメンテーションにおけるクロスコンディションロバストネスのコントラストモデル適応

Contrastive Model Adaptation for Cross-Condition Robustness in Semantic Segmentation ( http://arxiv.org/abs/2303.05194v1 )

ライセンス: Link先を確認
David Bruggemann, Christos Sakaridis, Tim Br\"odermann, Luc Van Gool(参考訳) 標準の教師なしドメイン適応手法では、ラベル付きソースデータとラベルなしターゲットデータを組み合わせてソースからターゲットドメインにモデルを適用する。 一方、モデル適応では、ラベル付きソースデータへのアクセスが禁止され、すなわち、ソース訓練されたモデルとラベルなしのターゲットデータのみが利用できる。 画像レベルの対応が対象領域で利用可能となるセグメンテーションのための正規-逆条件モデル適応について検討する。 ターゲットセットは、GPSにマッチした場所で撮影された悪条件と正常条件のストリートイメージのラベルのないペアで構成されている。 提案手法は, コントラスト学習による条件不変特徴の学習に, このような画像ペアを利用する。 特に、CMAは、各入力をキャプチャする条件に従ってではなく、条件不変のセマンティックコンテンツに基づいて、埋め込み空間の特徴をグループ化することを推奨する。 正確なクロスドメインセマンティクス対応を得るために,正規画像を悪像の視点に警告し,warp-confidenceスコアを利用してロバストで集約された特徴を生成する。 このアプローチにより,ACDCやダークチューリッヒなど,複数の正規-逆適応ベンチマークにおけるモデル適応のための最先端セマンティックセマンティックセマンティックセマンティクス性能を実現する。 また,新たな悪条件一般化ベンチマークによるcmaの評価を行い,ソースデータへのアクセス不能によるcmaのハンディキャップが比較されたにもかかわらず,標準非教師なしドメイン適応法と比較して好成績を報告した。 コードはhttps://github.com/brdav/cmaで入手できる。

Standard unsupervised domain adaptation methods adapt models from a source to a target domain using labeled source data and unlabeled target data jointly. In model adaptation, on the other hand, access to the labeled source data is prohibited, i.e., only the source-trained model and unlabeled target data are available. We investigate normal-to-adverse condition model adaptation for semantic segmentation, whereby image-level correspondences are available in the target domain. The target set consists of unlabeled pairs of adverse- and normal-condition street images taken at GPS-matched locations. Our method -- CMA -- leverages such image pairs to learn condition-invariant features via contrastive learning. In particular, CMA encourages features in the embedding space to be grouped according to their condition-invariant semantic content and not according to the condition under which respective inputs are captured. To obtain accurate cross-domain semantic correspondences, we warp the normal image to the viewpoint of the adverse image and leverage warp-confidence scores to create robust, aggregated features. With this approach, we achieve state-of-the-art semantic segmentation performance for model adaptation on several normal-to-adverse adaptation benchmarks, such as ACDC and Dark Zurich. We also evaluate CMA on a newly procured adverse-condition generalization benchmark and report favorable results compared to standard unsupervised domain adaptation methods, despite the comparative handicap of CMA due to source data inaccessibility. Code is available at https://github.com/brdav/cma.
翻訳日:2023-03-10 15:09:20 公開日:2023-03-09
# GOATS:カリキュラム強化学習によるスクーピングのためのゴールサンプリング適応

GOATS: Goal Sampling Adaptation for Scooping with Curriculum Reinforcement Learning ( http://arxiv.org/abs/2303.05193v1 )

ライセンス: Link先を確認
Yaru Niu, Shiyu Jin, Zeqing Zhang, Jiacheng Zhu, Ding Zhao, Liangjun Zhang(参考訳) 本研究では,まず,強化学習による目標条件付きロボット水スクーピングの問題を定式化する。 この課題は流体の複雑なダイナミクスとマルチモーダルな目標達成のために難しい。 この政策は、位置目標と水量目標の両方を達成するために必要であり、大きな畳み込み目標状態空間に繋がる。 これらの課題に対処するために,ロボットスクープタスクの効果的かつ汎用的な方針を学習可能なカリキュラム強化学習手法であるgoats(goats)の目標サンプリング適応を提案する。 具体的には,ゴール分解報酬の定式化と位置目標分布と量目標分布を補間し,学習過程を通じてカリキュラムを作成する。 その結果,提案手法はシミュレーションのベースラインを上回ることができ,ボウルスクーピングとバケットスクーピング作業において,タンク内の初期水状態の1000種類以下で5.46%,8.71%の誤差が達成できた。 本手法は,シミュレーション環境において有効であるだけでなく,異なる物理構成と非認識設定によるノイズの多い実ロボット水冷シナリオを効率的に一般化し,優れた有効性と汎用性を示す。 この作業のビデオはプロジェクトのページで公開されている。

In this work, we first formulate the problem of goal-conditioned robotic water scooping with reinforcement learning. This task is challenging due to the complex dynamics of fluid and multi-modal goal-reaching. The policy is required to achieve both position goals and water amount goals, which leads to a large convoluted goal state space. To address these challenges, we introduce Goal Sampling Adaptation for Scooping (GOATS), a curriculum reinforcement learning method that can learn an effective and generalizable policy for robot scooping tasks. Specifically, we use a goal-factorized reward formulation and interpolate position goal distributions and amount goal distributions to create curriculum through the learning process. As a result, our proposed method can outperform the baselines in simulation and achieves 5.46% and 8.71% amount errors on bowl scooping and bucket scooping tasks, respectively, under 1000 variations of initial water states in the tank and a large goal state space. Besides being effective in simulation environments, our method can efficiently generalize to noisy real-robot water-scooping scenarios with different physical configurations and unseen settings, demonstrating superior efficacy and generalizability. The videos of this work are available on our project page: https://sites.google.com/view/goatscooping.
翻訳日:2023-03-10 15:08:53 公開日:2023-03-09
# 同時姿勢と動き推定のための仮想逆視点マッピング

Virtual Inverse Perspective Mapping for Simultaneous Pose and Motion Estimation ( http://arxiv.org/abs/2303.05192v1 )

ライセンス: Link先を確認
Masahiro Hirano, Taku Senoo, Norimasa Kishi, Masatoshi Ishikawa(参考訳) 移動ロボット搭載単眼カメラの地表面に対するポーズと動きの自動推定法を提案する。 このフレームワークは、高精度な画像登録技術により、画像の変位計算のために複数のパッチを設定することにより、特徴ベース法と画像登録法の両方の利点を生かした半深度アプローチを採用する。 精度を向上させるために、画像登録における視点効果を排除するために、改良段階に仮想逆視点マッピング(IPM)を導入する。 ポーズと動きは、仮想IPMによる幾何バンドル調整の定式化により、共同で頑健に推定される。 従来の視覚計測法と異なり, カメラの垂直運動がフレーム間隔内の高さに比し無視され, 近傍の地表がほぼ平坦な地上移動ロボットに搭載されたカメラ構成を利用して, 地表面の姿勢や動きを直接推定するので, 累積誤差は生じない。 短時間のカメラ揺動時においても, ピッチとロール角の相対平均誤差が約1.0度, 走行距離の絶対平均誤差が0.3mmであった。

We propose an automatic method for pose and motion estimation against a ground surface for a ground-moving robot-mounted monocular camera. The framework adopts a semi-dense approach that benefits from both a feature-based method and an image-registration-based method by setting multiple patches in the image for displacement computation through a highly accurate image-registration technique. To improve accuracy, we introduce virtual inverse perspective mapping (IPM) in the refinement step to eliminate the perspective effect on image registration. The pose and motion are jointly and robustly estimated by a formulation of geometric bundle adjustment via virtual IPM. Unlike conventional visual odometry methods, the proposed method is free from cumulative error because it directly estimates pose and motion against the ground by taking advantage of a camera configuration mounted on a ground-moving robot where the camera's vertical motion is ignorable compared to its height within the frame interval and the nearby ground surface is approximately flat. We conducted experiments in which the relative mean error of the pitch and roll angles was approximately 1.0 degrees and the absolute mean error of the travel distance was 0.3 mm, even under camera shaking within a short period.
翻訳日:2023-03-10 15:08:30 公開日:2023-03-09
# 量子チェシャー猫を用いた単一光子の波粒子双対性分離の実験的研究

Experimental demonstration of separating the waveparticle duality of a single photon with the quantum Cheshire cat ( http://arxiv.org/abs/2303.05187v1 )

ライセンス: Link先を確認
JiaKun Li, Kai Sun, Yan Wang, ZeYan Hao, ZhengHao Liu, Jie Zhou, XingYan Fan, JingLing Chen, JinShi Xu, ChuanFeng Li, and GuangCan Guo(参考訳) 物理的実体の基本的な特徴として、波動粒子双対性は、顕微鏡的実体が特定の実験装置によって波動特性または粒子特性を示すかどうかを記述する。 この仮定は、物理的性質が対象キャリアと分離できないという概念に基づいている。 しかし、量子チェシャー猫の概念が提案され、実体と物理的属性の分離が可能になった後、前提はもはや保持されない。 さらに、このシナリオにインスパイアされた波動特性と粒子特性の分離に関する実験的な実証は少ないままである。 本研究では,量子チェシャー猫の概念を初めて活用することにより,単一光子の波動特性と粒子特性を実験的に分離した。 弱外乱を系の進化に応用することにより,量子チェシャー猫と同様の効果を実現し,弱値の抽出による波動特性と粒子属性の分離を実証した。 我々の研究は、波動粒子の双対性に関する深い理解の新しい視点を提供し、量子力学の基礎における弱い測定の適用を促進する。

As a fundamental characteristic of physical entities, waveparticle duality describes whether a microscopic entity exhibits wave or particle attributes depending on the specific experimental setup. This assumption is premised on the notion that physical properties are inseparable from the objective carrier. However, after the concept of the quantum Cheshire cats was proposed, which makes the separation of physical attributes from the entity possible, the premise no longer holds. Furthermore, an experimental demonstration of the separation of the wave and particle attributes inspired by this scenario remains scarce. In this work, we experimentally separated the wave and particle attributes of a single photon by exploiting the quantum Cheshire cat concept for the first time. By applying a weak disturbance to the evolution of the system, we achieve an effect similar to the quantum Cheshire cat and demonstrated the separation of the wave and particle attributes via the extraction of weak values. Our work provides a new perspective for the indepth understanding of waveparticle duality and promotes the application of weak measurements in fundamentals of quantum mechanics.
翻訳日:2023-03-10 15:08:08 公開日:2023-03-09
# 強化学習における履歴認識ハイパーパラメータ最適化の枠組み

A Framework for History-Aware Hyperparameter Optimisation in Reinforcement Learning ( http://arxiv.org/abs/2303.05186v1 )

ライセンス: Link先を確認
Juan Marcelo Parra-Ullauri, Chen Zhen, Antonio Garc\'ia-Dom\'inguez, Nelly Bencomo, Changgang Zheng, Juan Boubeta-Puig, Guadalupe Ortiz, Shufan Yang(参考訳) 強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件(ハイパーパラメータ)に依存する。 しかし、ハイパーパラメータのよい選択を定義することは難しい問題である。 ハイパーパラメータチューニングは、最適な値を見つけるために手動または自動検索を必要とすることが多い。 それでも、複雑なモデルに対するアルゴリズム評価のコストが高く、チューニングプロセスは計算コストが高く、時間がかかる。 本稿では,複雑なイベント処理と時間モデルを統合し,これらのトレードオフを緩和する枠組みを提案する。 この組み合わせにより、データストリーム監視に基づいて、実行中のRLシステムに関する洞察を効率的かつ控えめに得ることができ、RLシステムの歴史的な振る舞いを推論できる抽象表現を作成することができる。 得られた知識を利用して、並列リソースを効果的に活用しながら、そのハイパーパラメータを最適化するためのRLシステムへのフィードバックを提供する。 トレーニング全体に対して固定された静的なハイパーパラメータを代わりに使用するのではなく,エージェントの時間的ウィンドウにおける性能の分析に基づいて,実行時のハイパーパラメータを調整する,ヒストリを意識したエプシロンの最適化手法を提案する。 提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。 実験では、履歴を用いたハイパーパラメータチューニングがトレーニング安定性と報酬値に及ぼす影響を実証した。 提案した履歴認識フレームワークは,従来のハイパーパラメータチューニング手法に比べて性能が大幅に向上した。

A Reinforcement Learning (RL) system depends on a set of initial conditions (hyperparameters) that affect the system's performance. However, defining a good choice of hyperparameters is a challenging problem. Hyperparameter tuning often requires manual or automated searches to find optimal values. Nonetheless, a noticeable limitation is the high cost of algorithm evaluation for complex models, making the tuning process computationally expensive and time-consuming. In this paper, we propose a framework based on integrating complex event processing and temporal models, to alleviate these trade-offs. Through this combination, it is possible to gain insights about a running RL system efficiently and unobtrusively based on data stream monitoring and to create abstract representations that allow reasoning about the historical behaviour of the RL system. The obtained knowledge is exploited to provide feedback to the RL system for optimising its hyperparameters while making effective use of parallel resources. We introduce a novel history-aware epsilon-greedy logic for hyperparameter optimisation that instead of using static hyperparameters that are kept fixed for the whole training, adjusts the hyperparameters at runtime based on the analysis of the agent's performance over time windows in a single agent's lifetime. We tested the proposed approach in a 5G mobile communications case study that uses DQN, a variant of RL, for its decision-making. Our experiments demonstrated the effects of hyperparameter tuning using history on training stability and reward values. The encouraging results show that the proposed history-aware framework significantly improved performance compared to traditional hyperparameter tuning approaches.
翻訳日:2023-03-10 15:07:50 公開日:2023-03-09
# Blind2Sound:残音のない自己監督画像

Blind2Sound: Self-Supervised Image Denoising without Residual Noise ( http://arxiv.org/abs/2303.05183v1 )

ライセンス: Link先を確認
Zejin Wang, Jiazheng Liu, Jiazheng Liu, Hua Han(参考訳) Poisson-Gaussianノイズに対する自己監督型視覚障害は依然として困難な課題である。 単一ノイズ画像から構成した擬似教師付きペアは、信号を再分解し、性能を低下させる。 目に見える盲点は、マスクされた入力の情報損失を解決する。 しかし, 目標関数としての平均二乗誤差は, 動的雑音レベルの劣化強度を調整できないため, 顕著な残雑音が生じる。 本稿では,復調画像の残音を克服するシンプルな手法であるBlind2Soundを提案する。 提案した適応的可視損失はノイズレベルを感知し、信号損失を抑えながらノイズ残差を伴わずにパーソナライズする。 中間媒質勾配の理論解析は安定なトレーニングを保証し、クラーガウス損失はノイズレベルを正確に知覚し、デノイザーの性能を向上させるための正規化として作用する。 合成および実世界のデータセットを用いた実験は,特に単一チャネル画像において,本手法の優れた性能を示す。

Self-supervised blind denoising for Poisson-Gaussian noise remains a challenging task. Pseudo-supervised pairs constructed from single noisy images re-corrupt the signal and degrade the performance. The visible blindspots solve the information loss in masked inputs. However, without explicitly noise sensing, mean square error as an objective function cannot adjust denoising intensities for dynamic noise levels, leading to noticeable residual noise. In this paper, we propose Blind2Sound, a simple yet effective approach to overcome residual noise in denoised images. The proposed adaptive re-visible loss senses noise levels and performs personalized denoising without noise residues while retaining the signal lossless. The theoretical analysis of intermediate medium gradients guarantees stable training, while the Cramer Gaussian loss acts as a regularization to facilitate the accurate perception of noise levels and improve the performance of the denoiser. Experiments on synthetic and real-world datasets show the superior performance of our method, especially for single-channel images.
翻訳日:2023-03-10 15:07:24 公開日:2023-03-09
# Wikipediaにおける基準品質の経時的評価

Longitudinal Assessment of Reference Quality on Wikipedia ( http://arxiv.org/abs/2303.05227v1 )

ライセンス: Link先を確認
Aitolkyn Baigutanova, Jaehyeon Myung, Diego Saez-Trumper, Ai-Jou Chou, Miriam Redi, Changwook Jung, Meeyoung Cha(参考訳) Wikipediaはウェブの完全性において重要な役割を果たす。 本研究は,この世界百科事典の信頼性を,参考文献のレンズを通して解析する。 我々は、参照要求(rn)、引用を欠く文の割合、および基準リスク(rr)、すなわち非権威的参照の割合を定義することにより、基準品質の概念を運用する。 我々は、RNスコアを自動的に計算するツールであるCitation Detectiveをリリースし、RNスコアが過去10年間で20%減少し、現在半数以上が参照に付随していることを確認した。 RRスコアは、信頼できない参照を排除しようとするコミュニティの努力の結果、長年にわたって1%以下にとどまっている。 我々は、参照品質を高める戦略として、同じウィキペディアの記事に、ペア初心者と経験豊富な編集者を提案する。 このような共同編集経験は,将来の編集において信頼性の低い情報源を同定する上で,永続的な利点をもたらす可能性がある。 ウィキペディアは、多くのウェブアプリケーションの基礎となる真実として頻繁に使われており、その信頼性に関する私たちの発見と提案は、はるかに大きな影響を与えます。 ウィキスタイルのユーザコラボレーションを取り入れた他のWebサービスが、信頼性の低いコンテンツを排除できる可能性について論じる。

Wikipedia plays a crucial role in the integrity of the Web. This work analyzes the reliability of this global encyclopedia through the lens of its references. We operationalize the notion of reference quality by defining reference need (RN), i.e., the percentage of sentences missing a citation, and reference risk (RR), i.e., the proportion of non-authoritative references. We release Citation Detective, a tool for automatically calculating the RN score, and discover that the RN score has dropped by 20 percent point in the last decade, with more than half of verifiable statements now accompanying references. The RR score has remained below 1% over the years as a result of the efforts of the community to eliminate unreliable references. We propose pairing novice and experienced editors on the same Wikipedia article as a strategy to enhance reference quality. Our quasi-experiment indicates that such a co-editing experience can result in a lasting advantage in identifying unreliable sources in future edits. As Wikipedia is frequently used as the ground truth for numerous Web applications, our findings and suggestions on its reliability can have a far-reaching impact. We discuss the possibility of other Web services adopting Wiki-style user collaboration to eliminate unreliable content.
翻訳日:2023-03-10 15:01:09 公開日:2023-03-09
# 組織像の組織分割のためのアクティブラーニングに基づくドメイン適応

Active Learning Based Domain Adaptation for Tissue Segmentation of Histopathological Images ( http://arxiv.org/abs/2303.05225v1 )

ライセンス: Link先を確認
Saul Fuster, Farbod Khoraminia, Trygve Eftest{\o}l, Tahlita C.M. Zuiverloon, Kjersti Engan(参考訳) 組織像の正確な分節化は、診断および予後タスクの合理化のために関心領域(ROI)を定義するのに非常に有用である。 しかし、組織の視覚的特徴はデータセットによって大きく異なるため、組織像解析には異なる領域への適応が不可欠である。 しかし、医療領域で十分な注釈付きデータを取得するのは面倒で時間がかかる。 アクティブラーニングを活用することでラベル付けの労力を大幅に削減することができ、最も情報に富んだサンプルの選択的アノテーションを可能にする。 提案手法では,対象領域からのラベル付きデータの小さなセットを用いて,事前学習したディープニューラルネットワークを微調整すると同時に,次にラベル付けする最も有益なサンプルを積極的に選択する。 類似したf1-scoreに対する従来の教師付き学習手法に比べて,トレーニングセットの59\%しか使用せず,ラベル付きサンプルを有意に少ない精度で実施できることを実証した。 また,授業バランスの分布を調査し,ガイドラインを確立する。

Accurate segmentation of tissue in histopathological images can be very beneficial for defining regions of interest (ROI) for streamline of diagnostic and prognostic tasks. Still, adapting to different domains is essential for histopathology image analysis, as the visual characteristics of tissues can vary significantly across datasets. Yet, acquiring sufficient annotated data in the medical domain is cumbersome and time-consuming. The labeling effort can be significantly reduced by leveraging active learning, which enables the selective annotation of the most informative samples. Our proposed method allows for fine-tuning a pre-trained deep neural network using a small set of labeled data from the target domain, while also actively selecting the most informative samples to label next. We demonstrate that our approach performs with significantly fewer labeled samples compared to traditional supervised learning approaches for similar F1-scores, using barely a 59\% of the training set. We also investigate the distribution of class balance to establish annotation guidelines.
翻訳日:2023-03-10 15:00:50 公開日:2023-03-09
# SEAM: 読み上げにおける文処理と眼球運動の統合的活性化結合モデル

SEAM: An Integrated Activation-Coupled Model of Sentence Processing and Eye Movements in Reading ( http://arxiv.org/abs/2303.05221v1 )

ライセンス: Link先を確認
Maximilian M. Rabe, Dario Paape, Daniela Mertzen, Shravan Vasishth, Ralf Engbert(参考訳) 読書中の眼球運動制御のモデルは、主に心理学内で発達し、視覚的、注意的、運動的なプロセスに焦点をあてるが、語彙後言語処理は無視する。 眼球運動制御と文処理を統合した2つの研究スレッドを組み合わせたモデルを提案する。 このような統合モデルの開発は極めて困難かつ計算的に要求されるが、このような統合は自然言語理解の完全な数学的モデルへの重要な一歩である。 我々は、眼球運動制御のSWIFTモデル(Engbert et al., Psychological Review, 1112, 2005, pp. 777-813)とLewis and Vasishth文処理モデルのキーコンポーネント(Lewis and Vasishth, Cognitive Science, 29, 2005, pp. 375-419)を組み合わせる。 この統合は、動的モデルにおけるパラメータ識別が成功した最近の進歩により、初めて可能となり、個々のモデルパラメータのプロファイルログライク度を調査できる。 本手法は,マルコフ連鎖モンテカルロ(mcmc)サンプリングを用いたベイズモデル推論を主要な計算ツールとして用いた。 統合モデルSEAMは、読書における類似性に基づく干渉によって生じる眼球運動パターンをうまく再現することができる。 我々の知る限り、これは文理解における言語依存補完プロセスと眼球運動制御の完全なプロセスモデルの統合として初めてである。 今後の研究では、この概念モデルを包括的なベンチマークデータを用いて評価する必要がある。

Models of eye-movement control during reading, developed largely within psychology, usually focus on visual, attentional, and motor processes but neglect post-lexical language processing; by contrast, models of sentence comprehension processes, developed largely within psycholinguistics, generally focus only on post-lexical language processes. We present a model that combines these two research threads, by integrating eye-movement control and sentence processing. Developing such an integrated model is extremely challenging and computationally demanding, but such an integration is an important step toward complete mathematical models of natural language comprehension in reading. We combine the SWIFT model of eye-movement control (Engbert et al., Psychological Review, 112, 2005, pp. 777-813) with key components of the Lewis and Vasishth sentence processing model (Lewis and Vasishth, Cognitive Science, 29, 2005, pp. 375-419). This integration becomes possible, for the first time, due in part to recent advances in successful parameter identification in dynamical models, which allows us to investigate profile log-likelihoods for individual model parameters. We present a fully implemented proof-of-concept model demonstrating how such an integrated model can be achieved; our approach includes Bayesian model inference with Markov Chain Monte Carlo (MCMC) sampling as a key computational tool. The integrated model, SEAM, can successfully reproduce eye movement patterns that arise due to similarity-based interference in reading. To our knowledge, this is the first-ever integration of a complete process model of eye-movement control with linguistic dependency completion processes in sentence comprehension. In future work, this proof of concept model will need to be evaluated using a comprehensive set of benchmark data.
翻訳日:2023-03-10 15:00:34 公開日:2023-03-09
# 偏光路絡み込み単一光子を用いた雑音下での低反射物体検出

Harnessing polarization-path entangled single photons for low reflectivity object detection in noisy background ( http://arxiv.org/abs/2303.05218v1 )

ライセンス: Link先を確認
K. Muhammed Shafi, A. Padhye, C. M. Chandrashekar(参考訳) 雑音の背景に低反射率の照明を組み込むのは難しい課題である。 光の量子状態の対間の量子相関は、背景雑音や損失に非常に敏感であるが、従来の照明法よりも有利である。 ここでは、偏光と経路自由度に絡み合った単一光子を用いた量子照明の利点を実験的に示す。 自発的パラメトリックダウン変換過程からのヘラルド単光子を用いて偏光路絡み合い単一光子を生成し、対応する2つの光路を信号および基準経路として用いる。 異なる反射率のオブジェクトである$\eta$は、共同測定を行い量子相関を計算する前に、可変熱背景における信号の経路に沿って配置される。 信号対雑音比が0.02 (-15 dB) 以下の場合であっても, 単光子に対する多重経路に沿って非干渉計測を用いて背景雑音から信号を分離し, 対象物の検出・測位に優れることを示す。 信号経路に沿った光子の偏光度自由度の可視性の低下もまた、同様の観測結果をもたらす。 これは単光子ベースの量子ライダーの開発に直接関係している。

Illuminating object with low reflectivity embedded within a noisy background is a challenging task. Quantum correlations between pairs of quantum states of light, though are highly sensitive to background noise and losses, offer advantages over traditional illumination methods. Here we experimentally demonstrate the advantage of using single-photons entangled in polarization and path degree of freedom for quantum illumination. Heralded single-photons from spontaneous parametric down conversion process are employed to generate polarization-path entangled single photons and the corresponding two paths are used as signal and reference paths. An object of different reflectivity, $\eta$ is placed along the path of the signal in a variable thermal background before taking the joint measurements and calculating the quantum correlations. We show the significant advantage of using non-interferometric measurements along the multiple paths for single photon to isolate the signal from the background noise and outperform in detecting and ranging the objects even when the signal-to-noise ratio is as low as 0.02 (-15 dB) for low $\eta$. Decrease in visibility of polarization degree of freedom of the photon along the signal path also results in similar observations. This will have direct relevance to the development of single-photon based quantum lidar.
翻訳日:2023-03-10 15:00:05 公開日:2023-03-09
# キックトップモデルにおける位相空間局在測度と量子カオスの統計

Statistics of phase space localization measures and quantum chaos in the kicked top model ( http://arxiv.org/abs/2303.05216v1 )

ライセンス: Link先を確認
Qian Wang and Marko Robnik(参考訳) 量子カオスは、最近の理論および実験研究の重要な問題を理解する上で重要な役割を果たす。 ここでは、位相空間における固有状態の局在特性(フシミ関数による)に着目し、局在化測度の統計量を用いて量子カオスの特性を考察する。 我々は,蹴り強度の増加に伴うカオスへの移行を示す,パラダイム的蹴りトップモデルを考える。 本研究では,局所化対策の分布が,統合可能性からカオスへのクロスオーバーによって大きく変化することを示す。 また、局所化測度の分布の中心モーメントから量子カオスのシグネチャを特定する方法を示す。 さらに, 完全カオス状態における局所化対策は, ビリヤード系およびディックモデルにおける過去の研究と一致して, ベータ分布を普遍的に表していることが明らかとなった。 この結果は、量子カオスの存在の診断における位相空間の局在化尺度の統計学的有用性、および量子カオス系における固有状態の局在特性について、量子カオスのさらなる理解に寄与する。

Quantum chaos plays a significant role in understanding several important questions of recent theoretical and experimental studies. Here, by focusing on the localization properties of eigenstates in phase space (by means of Husimi functions),we explore the characterizations of quantum chaos using the statistics of the localization measures. We consider the paradigmatic kicked top model, which shows a transition to chaos with increasing the kicking strength. We demonstrate that the distributions of the localization measures exhibit a drastic change as the system undergoes the crossover from integrability to chaos. We also show how to identify the signatures of quantum chaos from the central moments of the distributions of localization measures. Moreover, we find that the localization measures in the fully chaotic regime apparently exhibit universally the beta distribution, in agreement with previous studies in the billiard systems and the Dicke model. Our results contribute to a further understanding of quantum chaos and shed light on the usefulness of the statistics of phase space localization measures in diagnosing the presence of quantum chaos, as well as the localization properties of eigenstates in quantum chaotic systems.
翻訳日:2023-03-10 14:59:43 公開日:2023-03-09
# 逐次・低レイテンシ・イベントベース光フロー学習のための処理コントラスト最大化

Taming Contrast Maximization for Learning Sequential, Low-latency, Event-based Optical Flow ( http://arxiv.org/abs/2303.05214v1 )

ライセンス: Link先を確認
Federico Paredes-Vall\'es, Kirk Y. W. Scheper, Christophe De Wagter, Guido C. H. E. de Croon(参考訳) イベントカメラは最近、複雑なコンピュータビジョン問題に対する低レイテンシと低消費電力のソリューションの新たな道を開くことで、大きな注目を集めている。 これらのソリューションをアンロックするには、イベントデータのユニークな性質を活用できるアルゴリズムを開発する必要がある。 しかし、現在の最先端技術は依然としてフレームベースの文学の影響を受けており、通常はこれらの約束を達成できない。 本研究では,このことを考慮し,モデルから高い推論周波数へのスケーリングを可能にするイベントベース光フローの逐次推定のための,新しい自己教師付き学習パイプラインを提案する。 その中核は、コントラスト最大化の新たな定式化を用いて訓練され、入力イベントにおける非線形性と様々な統計に頑健である、連続的に動作するステートフルニューラルネットワークである。 複数のデータセットにまたがる結果から,本手法の有効性が確認された。

Event cameras have recently gained significant traction since they open up new avenues for low-latency and low-power solutions to complex computer vision problems. To unlock these solutions, it is necessary to develop algorithms that can leverage the unique nature of event data. However, the current state-of-the-art is still highly influenced by the frame-based literature, and usually fails to deliver on these promises. In this work, we take this into consideration and propose a novel self-supervised learning pipeline for the sequential estimation of event-based optical flow that allows for the scaling of the models to high inference frequencies. At its core, we have a continuously-running stateful neural model that is trained using a novel formulation of contrast maximization that makes it robust to nonlinearities and varying statistics in the input events. Results across multiple datasets confirm the effectiveness of our method, which establishes a new state of the art in terms of accuracy for approaches trained or optimized without ground truth.
翻訳日:2023-03-10 14:59:22 公開日:2023-03-09
# PT対称ポテンシャルによって制御される二次元回転非対称量子滴の形成とダイナミクス

Formations and dynamics of two-dimensional spinning asymmetric quantum droplets controlled by a PT-symmetric potential ( http://arxiv.org/abs/2303.05210v1 )

ライセンス: Link先を確認
Jin Song, Zhenya Yan, Boris A. Malomed(参考訳) 本稿では,リー・ヒアン・ヤンの補正を施したGross-Pitaevskii方程式をモデルとした,PT対称ポテンシャルの様々な2次元スピン量子滴(QD)に対して渦ソリトンを作製する。 特に、特定のパラメータ制約の下で正確なQD状態が得られ、それぞれのジェネリックファミリーを見つけるためのガイドを提供する。 未破壊のPT対称性のパラメータ領域において, 線形モードから派生したQDの異なる族を, 標準値の低値および高値の多極性液滴, 渦状液滴の形でそれぞれ求め, その安定性について検討した。 スピン状態では、QDは臨界回転周波数よりも高く非対称になり、その多くは安定である。 スピンおよび非スピンqdsに及ぼすpt対称電位の影響を利得損失分布の強さを変化させて検討した。 一般に、PT対称ポテンシャルに閉じ込められた回転QDは、ゲインロス分布と回転の相互作用によって影響を受けるエネルギーの流れによって非対称性を示す。 最後に、スピンまたは非スピンQD間の相互作用を探索し、一定の条件下で弾性衝突を示す。

In this paper, vortex solitons are produced for a variety of 2D spinning quantum droplets (QDs) in a PT-symmetric potential, modeled by the amended Gross-Pitaevskii equation with Lee-Huang-Yang corrections. In particular, exact QD states are obtained under certain parameter constraints, providing a guide to finding the respective generic family. In a parameter region of the unbroken PT symmetry, different families of QDs originating from the linear modes are obtained in the form of multipolar and vortex droplets at low and high values of the norm, respectively, and their stability is investigated. In the spinning regime, QDs become asymmetric above a critical rotation frequency, most of them being stable. The effect of the PT -symmetric potential on the spinning and nonspinning QDs is explored by varying the strength of the gain-loss distribution. Generally, spinning QDs trapped in the PT -symmetric potential exhibit asymmetry due to the energy flow affected by the interplay of the gain-loss distribution and rotation. Finally, interactions between spinning or nonspinning QDs are explored, exhibiting elastic collisions under certain conditions.
翻訳日:2023-03-10 14:59:04 公開日:2023-03-09
# 言語の幾何学

Geometry of Language ( http://arxiv.org/abs/2303.05208v1 )

ライセンス: Link先を確認
Loe Feijs(参考訳) 本稿では,様々なソースからアイデアを合成しながら,新たな合成を取り入れた新たな言語視点について述べる。 ミニマリストプログラムと同様に、我々はエレガントな形式主義、普遍文法、あるいは人間の言語学の重要な側面を説明するメカニズムを定式化できるかどうかが問題である。 本稿では,その幾何学的性質から,既存の論理的・文法的アプローチと異なるメカニズムについて述べる。 我々の主な貢献は、単語を表すトークンの連鎖を形成した上で、文法的な単語順序を表す既存の連鎖とマッチングすることで、文認識が起こるという仮定を探ることである。 トークンの整列鎖は、2次元および3次元の錯体を生じさせる。 結果として得られるモデルは、伝統的にカテゴリー文法を用いて形式化された微妙な規則の代替表現を与える。

In this article, we present a fresh perspective on language, combining ideas from various sources, but mixed in a new synthesis. As in the minimalist program, the question is whether we can formulate an elegant formalism, a universal grammar or a mechanism which explains significant aspects of the human faculty of language, which in turn can be considered a natural disposition for the evolution and deployment of the diverse human languages. We describe such a mechanism, which differs from existing logical and grammatical approaches by its geometric nature. Our main contribution is to explore the assumption that sentence recognition takes place by forming chains of tokens representing words, followed by matching these chains with pre-existing chains representing grammatical word orders. The aligned chains of tokens give rise to two- and three-dimensional complexes. The resulting model gives an alternative presentation for subtle rules, traditionally formalized using categorial grammar.
翻訳日:2023-03-10 14:58:44 公開日:2023-03-09
# 一般化されたデータサイズを持つ量子ランダムアクセスメモリのための効率的でエラー耐性のあるプロトコル

An Efficient and Error-Resilient Protocol for Quantum Random Access Memory with Generalized Data Size ( http://arxiv.org/abs/2303.05207v1 )

ライセンス: Link先を確認
Zhao-Yun Chen, Cheng Xue, Tai-Ping Sun, Huan-Yu Liu, Xi-Ning Zhuang, Meng-Han Dou, Tian-Rui Zou, Yuan Fang, Yu-Chun Wu and Guo-Ping Guo(参考訳) 量子ランダムアクセスメモリ(QRAM)は、古典的なデータを量子コンピュータにロードするための重要なコンポーネントである。 しかし、実用的なQRAMの構築には、無限大のQRAMサイズの非現実性や完全な誤り訂正実装など、いくつかの課題がある。 本研究では,従来の研究で注目されていた単一ビットデータよりも,実世界のデータセットの方が単語長が大きいため,単語長の課題に対処する。 我々は、qramレベルを増加させることなく、単語長$k$でデータをロードするための新しいプロトコルを提案する。 データクエリプロセスの並列性を活用することで、O(n+k)$の時間複雑性を実現し、既存のアプローチと比較してエラースケーリング性能を向上させる。 また,データ項目数が$2^n$を超える場合の汎用データアクセスタスクのためのデータローディング手法も提供し,既存のハイブリッドQRAM+QROMアーキテクチャより優れていることを示す。 提案プロトコルは,QRAM デバイスにおける時間およびエラー最適化データアクセスプロトコルの開発に寄与し,QRAM 実装におけるキュービット数およびエラー要求を低減し,物理量子ビットを用いた実用的な QRAM デバイスの構築を容易にする。

Quantum Random Access Memory (QRAM) is a critical component for loading classical data into quantum computers. However, constructing a practical QRAM presents several challenges, including the impracticality of an infinitely large QRAM size and a fully error-correction implementation. In this work, we address the challenge of word length, as real-world datasets typically have larger word lengths than the single-bit data that most previous studies have focused on. We propose a novel protocol for loading data with larger word length $k$ without increasing the number of QRAM levels $n$. By exploiting the parallelism in the data query process, our protocol achieves a time complexity of $O(n+k)$ and improves error scaling performance compared to existing approaches. We also provide a data-loading method for general-sized data access tasks when the number of data items exceeds $2^n$, which outperforms the existing hybrid QRAM+QROM architecture. Our protocol contributes to the development of time and error-optimized data access protocols for QRAM devices, reducing the qubit count and error requirements for QRAM implementation, and making it easier to construct practical QRAM devices with physical qubits.
翻訳日:2023-03-10 14:58:29 公開日:2023-03-09
# FedREP:フェデレートラーニングのためのビザンチン・ロバスト・コミュニケーション効率・プライバシー保護フレームワーク

FedREP: A Byzantine-Robust, Communication-Efficient and Privacy-Preserving Framework for Federated Learning ( http://arxiv.org/abs/2303.05206v1 )

ライセンス: Link先を確認
Yi-Rui Yang, Kun Wang, Wu-Jun Li(参考訳) フェデレーション学習(fl)は近年,ビザンチンの堅牢性,通信効率,プライバシ保護の3つの重要な側面を持つ,ホットな研究テーマとなっている。 しかし、これら3つの側面の緊張は、それらすべてを同時に考慮することは困難である。 この課題を踏まえ,既存のビザンチン汚染法やプライバシ保護法と互換性のある通信圧縮手法が満足すべき条件を理論的に分析する。 分析結果に動機づけられ,コンセンサススパーシフィケーション(conspar)と呼ばれる新しいコミュニケーション圧縮手法を提案する。 私たちの知る限りでは、ConSparはByzantine-robustメソッドとプライバシ保護メソッドの両方と互換性を持つように設計された最初の通信圧縮方法です。 consparに基づき、さらに、ビザンチン・ロバストで通信効率が高く、プライバシを保存できるfeedrepと呼ばれる新しいflフレームワークを提案する。 理論的には、ビザンチンの堅牢性とFedREPの収束性を証明する。 実証的な結果は、FedREPが通信効率のよいプライバシー保護ベースラインを大幅に上回っていることを示している。 さらに、Byzantine-robust通信効率の高いベースラインと比較して、FedREPはプライバシー保護のさらなる利点によって同等の精度を達成できる。

Federated learning (FL) has recently become a hot research topic, in which Byzantine robustness, communication efficiency and privacy preservation are three important aspects. However, the tension among these three aspects makes it hard to simultaneously take all of them into account. In view of this challenge, we theoretically analyze the conditions that a communication compression method should satisfy to be compatible with existing Byzantine-robust methods and privacy-preserving methods. Motivated by the analysis results, we propose a novel communication compression method called consensus sparsification (ConSpar). To the best of our knowledge, ConSpar is the first communication compression method that is designed to be compatible with both Byzantine-robust methods and privacy-preserving methods. Based on ConSpar, we further propose a novel FL framework called FedREP, which is Byzantine-robust, communication-efficient and privacy-preserving. We theoretically prove the Byzantine robustness and the convergence of FedREP. Empirical results show that FedREP can significantly outperform communication-efficient privacy-preserving baselines. Furthermore, compared with Byzantine-robust communication-efficient baselines, FedREP can achieve comparable accuracy with the extra advantage of privacy preservation.
翻訳日:2023-03-10 14:58:07 公開日:2023-03-09
# Visual Prompt LearningからZero-Shot Transferへ:マッピングは必要なすべて

From Visual Prompt Learning to Zero-Shot Transfer: Mapping Is All You Need ( http://arxiv.org/abs/2303.05266v1 )

ライセンス: Link先を確認
Ziqing Yang and Zeyang Sha and Michael Backes and Yang Zhang(参考訳) 視覚的プロンプト学習は、新しく登場したテクニックとして、大規模な事前学習モデルによって学習された知識を活用し、プロンプトの使用を通じて下流タスクに適応する。 これまでの研究は効果的なプロンプトの設計に重点を置いてきたが、本研究では、プロンプト設計に比べて良いマッピング戦略が重要であると論じている。 この意味で、事前訓練されたモデルの知識と下流タスクとのセマンティックアライメントを用いたより効果的なマッピングであるSeMapを提案する。 実験の結果,semapは視覚的プロンプト学習の性能を大きく向上できることがわかった。 さらに,semapは競合的なゼロショット転送を実現することができ,対応するデータセットを微調整することなく下流タスクを実行できることを示した。 これにより,ゼロショット転送が望まれる広い範囲のアプリケーションにおいて,提案手法が適用可能であることを示す。 その結果,提案するsemapは,視覚プロンプト学習とゼロショット転送の両方において大きな進歩をもたらす可能性が示唆された。 semapを使えば、コミュニティが大きなビジョンモデルをより効率的で軽量に利用できるようになることを願っています。

Visual prompt learning, as a newly emerged technique, leverages the knowledge learned by a large-scale pre-trained model and adapts it to downstream tasks through the usage of prompts. While previous research has focused on designing effective prompts, in this work, we argue that compared to prompt design, a good mapping strategy matters more. In this sense, we propose SeMap, a more effective mapping using the semantic alignment between the pre-trained model's knowledge and the downstream task. Our experimental results show that SeMap can largely boost the performance of visual prompt learning. Moreover, our experiments show that SeMap is capable of achieving competitive zero-shot transfer, indicating that it can perform the downstream task without any fine-tuning on the corresponding dataset. This demonstrates the potential of our proposed method to be used in a broader range of applications where the zero-shot transfer is desired. Results suggest that our proposed SeMap could lead to significant advancements in both visual prompt learning and zero-shot transfer. We hope with SeMap, we can help the community move forward to more efficient and lightweight utilization of large vision models.
翻訳日:2023-03-10 14:52:33 公開日:2023-03-09
# Sparse Variational Bayesian Monte Carlo を用いた高速プロセス後ベイズ推定

Fast post-process Bayesian inference with Sparse Variational Bayesian Monte Carlo ( http://arxiv.org/abs/2303.05263v1 )

ライセンス: Link先を確認
Chengkun Li, Gr\'egoire Clart\'e, Luigi Acerbi(参考訳) Sparse Variational Bayesian Monte Carlo (SVBMC) は、ブラックボックスと潜在的ノイズの可能性のあるモデルに対する高速な「後処理」ベイズ推定法である。 SVBMCは、例えば以前の最適化やマルコフ・チェイン・モンテカルロの一部から、既存の目標密度評価を再利用して、ログ後続密度のスパースガウス過程(GP)シュロゲートモデルを構築する。 サロゲートの未知の領域は必要に応じてアクティブラーニングによって洗練される。 我々の研究はサンプル効率のよい推論のための変分ベイズ型モンテカルロ(vbmc)フレームワークに基づいている。 第一に、VBMCをスパースGP回帰による多数の既存評価にスケーラブルにし、新規なベイズ二次式と、スパースGPを用いたアクティブラーニングのための獲得関数を導出する。 第2に、ノイズシェーピング(ノイズシェーピング)を導入し、低周波GP近似を誘導し、高後方密度領域にフォーカスする。 第3に,SVBMC改良法を支持する理論的結果を示す。 本手法は,様々な難解なシナリオと実世界のアプリケーションで検証する。 SVBMCは、異なるソースから既存のモデル評価を後処理することで、常に良好な後部近似を構築しており、しばしば少数の追加密度評価しか必要としない。

We introduce Sparse Variational Bayesian Monte Carlo (SVBMC), a method for fast "post-process" Bayesian inference for models with black-box and potentially noisy likelihoods. SVBMC reuses all existing target density evaluations -- for example, from previous optimizations or partial Markov Chain Monte Carlo runs -- to build a sparse Gaussian process (GP) surrogate model of the log posterior density. Uncertain regions of the surrogate are then refined via active learning as needed. Our work builds on the Variational Bayesian Monte Carlo (VBMC) framework for sample-efficient inference, with several novel contributions. First, we make VBMC scalable to a large number of pre-existing evaluations via sparse GP regression, deriving novel Bayesian quadrature formulae and acquisition functions for active learning with sparse GPs. Second, we introduce noise shaping, a general technique to induce the sparse GP approximation to focus on high posterior density regions. Third, we prove theoretical results in support of the SVBMC refinement procedure. We validate our method on a variety of challenging synthetic scenarios and real-world applications. We find that SVBMC consistently builds good posterior approximations by post-processing of existing model evaluations from different sources, often requiring only a small number of additional density evaluations.
翻訳日:2023-03-10 14:52:13 公開日:2023-03-09
# 局所的マルチスケール再構成によるマスク画像モデリング

Masked Image Modeling with Local Multi-Scale Reconstruction ( http://arxiv.org/abs/2303.05251v1 )

ライセンス: Link先を確認
Haoqing Wang, Yehui Tang, Yunhe Wang, Jianyuan Guo, Zhi-Hong Deng, Kai Han(参考訳) Masked Image Modeling (MIM) は自己教師付き表現学習において大きな成功を収めている。 残念なことに、MIMモデルは一般に膨大な計算負荷と遅い学習プロセスを持ち、産業的応用には避けられない障害である。 下位層はMIMにおいて重要な役割を果たすが、既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。 下層層は明示的に誘導されず、パッチ間の相互作用は新しいアクティベーションを計算するためにのみ使用される。 目的信号の推論には非自明なパッチ間相互作用を必要とするため,下層と上層を含む複数のローカル層に適用する。 さらに,複数の層が異なるスケールの情報を学習することを期待するので,下位層と上位層がそれぞれ細かなスケールと粗大な監督信号を再構成する局所的多スケール再構成をデザインする。 この設計は、複数のレイヤを明示的に案内することで表現学習プロセスを加速するだけでなく、入力に対するマルチスケールなセマンティクス理解を促進する。 大規模な実験により,既存のMIMモデルに比べて,事前学習の負担が著しく少ないため,分類,検出,セグメンテーションタスクの性能が向上することが示された。

Masked Image Modeling (MIM) achieves outstanding success in self-supervised representation learning. Unfortunately, MIM models typically have huge computational burden and slow learning process, which is an inevitable obstacle for their industrial applications. Although the lower layers play the key role in MIM, existing MIM models conduct reconstruction task only at the top layer of encoder. The lower layers are not explicitly guided and the interaction among their patches is only used for calculating new activations. Considering the reconstruction task requires non-trivial inter-patch interactions to reason target signals, we apply it to multiple local layers including lower and upper layers. Further, since the multiple layers expect to learn the information of different scales, we design local multi-scale reconstruction, where the lower and upper layers reconstruct fine-scale and coarse-scale supervision signals respectively. This design not only accelerates the representation learning process by explicitly guiding multiple layers, but also facilitates multi-scale semantical understanding to the input. Extensive experiments show that with significantly less pre-training burden, our model achieves comparable or better performance on classification, detection and segmentation tasks than existing MIM models.
翻訳日:2023-03-10 14:51:50 公開日:2023-03-09
# 神経odeの効率的な訓練とロバスト性検証

Efficient Certified Training and Robustness Verification of Neural ODEs ( http://arxiv.org/abs/2303.05246v1 )

ライセンス: Link先を確認
Mustafa Zeqiri, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) ニューラル常微分方程式(Neural Ordinary Differential Equations, NODE)は、推論時に解決される学習力学による初期値問題を中心に構築された、新しいニューラルアーキテクチャである。 本質的には敵の摂動に対して堅牢であるにもかかわらず、彼らは最近、強い敵の攻撃に弱いことが示され、公式な保証の必要性が強調された。 しかし、標準フィードフォワードアーキテクチャのロバスト性検証の著しい進歩にもかかわらず、高次元NODEの検証は未解決の問題である。 本稿では,この課題に対処し,3つの主要なアイデアを組み合わせたNODEの分析フレームワークであるGAINSを提案する。 (i)変数ではあるが離散時間ステップに基づくodeソルバの新しいクラス (ii)ソルバ軌跡の効率的なグラフ表現、及び (iii)このグラフ表現で動作する新しい抽象アルゴリズム。 これらの進歩により、高次元のNODEの効率的な解析および認定訓練が可能となり、次元$d$および積分時間$T$において、ランタイムを難解な$O(\exp(d)+\exp(T))$から${O}(d+T^2 \log^2T)$に還元する。 コンピュータビジョン (mnist, fmnist) と時系列予測 (physio-net) の問題を広範囲に評価し,認証訓練と検証手法の両方の有効性を実証した。

Neural Ordinary Differential Equations (NODEs) are a novel neural architecture, built around initial value problems with learned dynamics which are solved during inference. Thought to be inherently more robust against adversarial perturbations, they were recently shown to be vulnerable to strong adversarial attacks, highlighting the need for formal guarantees. However, despite significant progress in robustness verification for standard feed-forward architectures, the verification of high dimensional NODEs remains an open problem. In this work, we address this challenge and propose GAINS, an analysis framework for NODEs combining three key ideas: (i) a novel class of ODE solvers, based on variable but discrete time steps, (ii) an efficient graph representation of solver trajectories, and (iii) a novel abstraction algorithm operating on this graph representation. Together, these advances enable the efficient analysis and certified training of high-dimensional NODEs, by reducing the runtime from an intractable $O(\exp(d)+\exp(T))$ to ${O}(d+T^2 \log^2T)$ in the dimensionality $d$ and integration time $T$. In an extensive evaluation on computer vision (MNIST and FMNIST) and time-series forecasting (PHYSIO-NET) problems, we demonstrate the effectiveness of both our certified training and verification methods.
翻訳日:2023-03-10 14:51:29 公開日:2023-03-09
# 射影ホバー分布を用いた確率的3次元回帰

Probabilistic 3d regression with projected huber distribution ( http://arxiv.org/abs/2303.05245v1 )

ライセンス: Link先を確認
David Mohlin, Josephine Sullivan(参考訳) カメラデータからオブジェクトがどこにあるかを記述する確率分布の推定は多くのアプリケーションにおいて課題である。 本研究では,このような手法が適合すべき性質について述べる。 また,これらの特性に適合する手法も設計する。 実験では,経験的誤差とよく相関する不確実性を示す。 また,予測分布のモードが回帰ベースラインより優れていることを示す。 実装のコードはオンラインで利用可能です。

Estimating probability distributions which describe where an object is likely to be from camera data is a task with many applications. In this work we describe properties which we argue such methods should conform to. We also design a method which conform to these properties. In our experiments we show that our method produces uncertainties which correlate well with empirical errors. We also show that the mode of the predicted distribution outperform our regression baselines. The code for our implementation is available online.
翻訳日:2023-03-10 14:50:49 公開日:2023-03-09
# リモートセンシング画像生成のためのGANの魅力

Intriguing Property of GAN for Remote Sensing Image Generation ( http://arxiv.org/abs/2303.05240v1 )

ライセンス: Link先を確認
Xingzhe Su, Lingyu Si, Wenwen Qiang, Junzhi Yu, Fengge Wu, Changwen Zheng, Fuchun Sun(参考訳) generative adversarial networks (gans) は自然画像分野において著しい進歩を遂げている。 しかし、リモートセンシング(rs)画像生成タスクにganを適用すると、ganモデルは自然画像生成よりも、rs画像生成のためのトレーニングデータのサイズに敏感であるという異常な現象が発見される。 言い換えると、rs画像の生成品質は、カテゴリごとのトレーニングカテゴリやサンプルの数によって大きく変化する。 本稿では,この現象を2種類の玩具実験から解析し,GANモデルに含まれる特徴情報の量は,トレーニングデータを減らすことで減少することを示す。 この発見に基づいて、分布レベルとサンプルレベルのGANモデルにより学習された情報を増やすために、統一正規化(UR)とエントロピー正規化(ER)の2つの革新的な調整手法を提案する。 我々は理論上,実証的に手法の有効性と汎用性を示す。 nwpu-resisc45とpatternnetデータセットの広範な実験により、rs画像生成タスクで確立されたモデルよりも優れた手法が得られた。

Generative adversarial networks (GANs) have achieved remarkable progress in the natural image field. However, when applying GANs in the remote sensing (RS) image generation task, we discover an extraordinary phenomenon: the GAN model is more sensitive to the size of training data for RS image generation than for natural image generation. In other words, the generation quality of RS images will change significantly with the number of training categories or samples per category. In this paper, we first analyze this phenomenon from two kinds of toy experiments and conclude that the amount of feature information contained in the GAN model decreases with reduced training data. Based on this discovery, we propose two innovative adjustment schemes, namely Uniformity Regularization (UR) and Entropy Regularization (ER), to increase the information learned by the GAN model at the distributional and sample levels, respectively. We theoretically and empirically demonstrate the effectiveness and versatility of our methods. Extensive experiments on the NWPU-RESISC45 and PatternNet datasets show that our methods outperform the well-established models on RS image generation tasks.
翻訳日:2023-03-10 14:50:39 公開日:2023-03-09
# GPGait: 汎用Poseベースの歩行認識

GPGait: Generalized Pose-based Gait Recognition ( http://arxiv.org/abs/2303.05234v1 )

ライセンス: Link先を確認
Yang Fu, Shibei Meng, Saihui Hou, Xuecai Hu and Yongzhen Huang(参考訳) ポーズに基づく歩行認識に関する最近の研究は、このような単純な情報を用いてシルエット法に匹敵する結果が得られる可能性を実証している。 しかし、異なるデータセット上でのポーズベースの手法の一般化能力は、シルエットベースの手法よりも好ましくないほど劣っている。 データセット間のポーズに基づく手法の一般化能力を向上させるため,GPGait(Generalized Pose-based Gait Recognition)フレームワークを提案する。 まず,Human-Oriented Transformation (HOT) と一連のHuman-Oriented Descriptor (HOD) が提案され,識別多機能化によるポーズの統一表現が得られる。 そして、hotとhodの後の統一表現のわずかなバリエーションを考えると、ネットワークがキーポイント間の局所的グローバル関係を抽出することが重要となる。 この目的のために,効率的なグラフ分割と局所的グローバル空間特徴抽出を実現するために,部分認識型グラフ畳み込みネットワーク (pagcn) を提案する。 casia-b, oumvlp-pose, gait3d, growの4つのgait認識データセットを用いた実験により, 既存のスケルトンベース法と比較して, より良好で安定なクロスドメイン機能を示し, シルエットベースのものと同等の認識結果を得た。 コードはリリースされます。

Recent works on pose-based gait recognition have demonstrated the potential of using such simple information to achieve results comparable to silhouette-based methods. However, the generalization ability of pose-based methods on different datasets is undesirably inferior to that of silhouette-based ones, which has received little attention but hinders the application of these methods in real-world scenarios. To improve the generalization ability of pose-based methods across datasets, we propose a Generalized Pose-based Gait recognition (GPGait) framework. First, a Human-Oriented Transformation (HOT) and a series of Human-Oriented Descriptors (HOD) are proposed to obtain a unified pose representation with discriminative multi-features. Then, given the slight variations in the unified representation after HOT and HOD, it becomes crucial for the network to extract local-global relationships between the keypoints. To this end, a Part-Aware Graph Convolutional Network (PAGCN) is proposed to enable efficient graph partition and local-global spatial feature extraction. Experiments on four public gait recognition datasets, CASIA-B, OUMVLP-Pose, Gait3D and GREW, show that our model demonstrates better and more stable cross-domain capabilities compared to existing skeleton-based methods, achieving comparable recognition results to silhouette-based ones. The code will be released.
翻訳日:2023-03-10 14:50:16 公開日:2023-03-09
# 臨界非エルミート系における対称性分解エンタングルメント

Symmetry-resolved entanglement in critical non-Hermitian systems ( http://arxiv.org/abs/2303.05232v1 )

ライセンス: Link先を確認
Michele Fossati, Filiberto Ares, Pasquale Calabrese(参考訳) 理論の対称性セクターにおける絡み合いの研究は、量子多体系のいくつかの側面をよりよく理解するため、最近多くの注目を集めている。 本稿では、この解析を非エルミートモデルに拡張し、還元密度行列 $\rho_a$ は非正定値であり、絡み合いエントロピーは負または偶数複素である。 ここでは、臨界点における非エルミートSu-シュリーファー-ヘーガー鎖の基底状態における対称性分解絡みについて、粒子数を保存し、スケーリング限界が$bc$-ghost非ユニタリCFTであるモデルについて詳細に検討する。 場理論におけるボゾナイズ手法と厳密な格子数値計算を組み合わせることで、解析的に $\rho_a$ と $|\rho_a|$ の荷電モーメントを導出する。 これらから、$\rho_a$ の非正性の起源を理解でき、各電荷セクタにおける正定値還元密度行列を自然に定義することができる。 副産物として臨界絡み合いスペクトルの解析的分布も得られる。

The study of entanglement in the symmetry sectors of a theory has recently attracted a lot of attention since it provides better understanding of some aspects of quantum many-body systems. In this paper, we extend this analysis to the case of non-Hermitian models, in which the reduced density matrix $\rho_A$ may be non-positive definite and the entanglement entropy negative or even complex. Here we examine in detail the symmetry-resolved entanglement in the ground state of the non-Hermitian Su-Schrieffer-Heeger chain at the critical point, a model that preserves particle number and whose scaling limit is a $bc$-ghost non-unitary CFT. By combining bosonization techniques in the field theory and exact lattice numerical calculations, we analytically derive the charged moments of $\rho_A$ and $|\rho_A|$. From them, we can understand the origin of the non-positiveness of $\rho_A$ and naturally define a positive-definite reduced density matrix in each charge sector, which gives a well-defined symmetry-resolved entanglement entropy. As byproduct, we also obtain the analytical distribution of the critical entanglement spectrum.
翻訳日:2023-03-10 14:49:47 公開日:2023-03-09
# Adaptive-View Graph Encoderを用いた構造認識グループ識別:高速グラフコントラスト学習フレームワーク

Structure-Aware Group Discrimination with Adaptive-View Graph Encoder: A Fast Graph Contrastive Learning Framework ( http://arxiv.org/abs/2303.05231v1 )

ライセンス: Link先を確認
Zhenshuo Zhang, Yun Zhu, Haizhou Shi, Siliang Tang(参考訳) 最近は大きな進歩を遂げているが、大規模なグラフ表現学習は2つの主な理由から、トレーニングとデプロイに費用がかかる。 (i)グラフニューラルネットワーク(gnns)における多重ホップメッセージの繰り返し計算と非線形性 (II) 複雑な対角学習損失の計算コスト。 まず,フォワードパス計算を高速化するために,限られた数のメッセージパッシングを持つ適応ビューグラフニューラルネットワークエンコーダ(avge)を提案し,その後,一般的なgclにおける非効率なペアワイズ損失計算を回避し,単純なグループ識別の性能を向上させる,このフレームワークにおける構造認識型グループ識別(sagd)損失を提案する。 提案するフレームワークにより、ダウンストリームタスクのパフォーマンスを損なうことなく、さまざまな大規模データセットのトレーニングと推論コストをかなりのマージン(250倍の高速化)で削減することができる。

Albeit having gained significant progress lately, large-scale graph representation learning remains expensive to train and deploy for two main reasons: (i) the repetitive computation of multi-hop message passing and non-linearity in graph neural networks (GNNs); (ii) the computational cost of complex pairwise contrastive learning loss. Two main contributions are made in this paper targeting this twofold challenge: we first propose an adaptive-view graph neural encoder (AVGE) with a limited number of message passing to accelerate the forward pass computation, and then we propose a structure-aware group discrimination (SAGD) loss in our framework which avoids inefficient pairwise loss computing in most common GCL and improves the performance of the simple group discrimination. By the framework proposed, we manage to bring down the training and inference cost on various large-scale datasets by a significant margin (250x faster inference time) without loss of the downstream-task performance.
翻訳日:2023-03-10 14:49:24 公開日:2023-03-09
# 焼成強磁性凝縮体の普遍粗大化ダイナミクスの分類

Classifying the universal coarsening dynamics of a quenched ferromagnetic condensate ( http://arxiv.org/abs/2303.05230v1 )

ライセンス: Link先を確認
SeungJung Huh and Koushik Mukherjee and Kiryang Kwon and Jihoon Seo and Simeon I. Mistakidis and H. R. Sadeghpour and Jae-yoon Choi(参考訳) 物理学におけるスケール不変性と自己相似性は、物質相と準平衡系の動的性質を分類するための統一的な枠組みを提供する。 しかし、この枠組みを非平衡量子多体系に拡張し、それらの力学を分類することは物理学において大きな課題である。 ここでは、2次元強磁性スピノルボースガスの普遍粗大化力学の最初の分類について報告する。 本研究では, スピン相関関数の時空間スケーリングを, それぞれ1/z=0.58(2)$と1/z=0.43(2)$で観測した。 粗化ダイナミクスの普遍性クラスは、順序パラメータの対称性と位相的欠陥の消滅ダイナミクスによって決定される。 これらの観測は多体シミュレーションとよく一致している。 量子多体系における遠方平衡ダイナミクスを分類するパラダイム的例を示す。

Scale invariance and self-similarity in physics provide a unified framework to classify phases of matter and dynamical properties of near-equilibrium systems. However, extending this framework to far-from-equilibrium quantum many-body systems and categorizing their dynamics have remained a major challenge in physics. Here, we report on the first classification of universal coarsening dynamics in a quenched two-dimensional ferromagnetic spinor Bose gas. We observe spatiotemporal scaling of spin correlation functions with distinguishable scaling exponents, $1/z=0.58(2)$ and $1/z=0.43(2)$, characteristic, respectively, of binary and diffusive fluids. We find the universality class of the coarsening dynamics are determined by the symmetry of the order parameters and the annihilation dynamics of the topological defects. These observations are in excellent agreement with many-body simulations. Our results represent a paradigmatic example of categorizing far-from-equilibrium dynamics in quantum many-body systems.
翻訳日:2023-03-10 14:49:07 公開日:2023-03-09
# 非)-マルコフ量子チャネル下の離散ウィグナー関数を用いた状態の調和量子性

Harnessing quantumness of states using discrete Wigner functions under (non)-Markovian quantum channels ( http://arxiv.org/abs/2303.05291v1 )

ライセンス: Link先を確認
Jai Lalita, K. G. Paulson, Subhashish Banerjee(参考訳) 離散ウィグナー関数(DWF)の負性は非古典性の尺度であり、しばしば系の量子コヒーレンス度を定量化するために用いられる。 異なる量子チャネルの下でのウィグナーの負性性とその進化の研究は、実用的な量子コンピューティングシステムの開発に不可欠である環境との相互作用の下での量子状態の安定性と堅牢性についての洞察を与えることができる。 我々は,(非)マルコフ型ランダム電信ノイズ (RTN) と振幅減衰 (AD) 量子チャネルの作用により, 量子ビット, 量子ビットおよび2量子ビット系のDWF負性度の変化について検討した。 我々は、量子計算と量子テレポーテーションのリソースとして使用できる異なる負の量子状態を構築する。 量子計算とテレポーテーションの成功は、(非)マルコフ進化の下でこれらの状態に対して推定される。

The negativity of the discrete Wigner functions (DWFs) is a measure of non-classicality and is often used to quantify the degree of quantum coherence in a system. The study of Wigner negativity and its evolution under different quantum channels can provide insight into the stability and robustness of quantum states under their interaction with the environment, which is essential for developing practical quantum computing systems. We investigate the variation of DWF negativity of qubit, qutrit, and two-qubit systems under the action of (non)-Markovian random telegraph noise (RTN) and amplitude damping (AD) quantum channels. We construct different negative quantum states which can be used as a resource for quantum computation and quantum teleportation. The success of quantum computation and teleportation is estimated for these states under (non)-Markovian evolutions.
翻訳日:2023-03-10 14:41:41 公開日:2023-03-09
# 制御可能な時変ポテンシャルに閉じ込められた粒子の非平衡量子熱力学

Non-equilibrium quantum thermodynamics of a particle trapped in a controllable time-varying potential ( http://arxiv.org/abs/2303.05289v1 )

ライセンス: Link先を確認
Qiongyuan Wu and Matteo Carlesso(参考訳) 非平衡熱力学は、より標準的な平衡状態と比較して強い利点をもたらす。 本稿では,ガウス力学の仮定を超えた具体的問題への応用を研究するための一般的な枠組みを提案する。 2つの異なる問題を考えます 1) 浮遊ナノ粒子の動力学は、調和から二重ウェルポテンシャルへの遷移を行う。 2) 古典的および量子的プロトコルによる二重井戸ポテンシャルの量子状態の転送。 どちらの場合も、システムはデコヒーレンスと熱化を前提としている。 ケース1では、問題に対する数値的なアプローチを構築し、システムの非平衡熱力学を研究する。 ケース2では、状態転送プロトコルの効率を定量化し、そのようなプロトコルの量子的および古典的バージョンに適用する新しいメリットの図を導入します。

Non-equilibrium thermodynamics can provide strong advantages when compared to more standard equilibrium situations. Here, we present a general framework to study its application to concrete problems, which is valid also beyond the assumption of a Gaussian dynamics. We consider two different problems: 1) the dynamics of a levitated nanoparticle undergoing the transition from an harmonic to a double-well potential; 2) the transfer of a quantum state across a double-well potential through classical and quantum protocols. In both cases, we assume that the system undergoes to decoherence and thermalisation. In case 1), we construct a numerical approach to the problem and study the non-equilibrium thermodynamics of the system. In case 2), we introduce a new figure of merit to quantify the efficiency of a state-transfer protocol and apply it to quantum and classical versions of such protocols.
翻訳日:2023-03-10 14:41:24 公開日:2023-03-09
# 知識集約型リスクアセスメント(KaRA):知識集約型リスクアセスメントを支援するハイブリッドインテリジェンスフレームワーク

Knowledge-augmented Risk Assessment (KaRA): a hybrid-intelligence framework for supporting knowledge-intensive risk assessment of prospect candidates ( http://arxiv.org/abs/2303.05288v1 )

ライセンス: Link先を確認
Carlos Raoni Mendes, Emilio Vital Brazil, Vinicius Segura, and Renato Cerqueira(参考訳) 予測候補の可能性を評価することは、異なる産業における複数の意思決定プロセスにおいて共通の課題である。 例えば、石油会社が石油を見つけることができる地域や、合成されると、必要な特性を持つ材料となる化合物などである。 多くの文脈において、確率の確率(PoS)を評価することは専門家の知識に大きく依存しており、しばしばバイアスと矛盾した評価につながる。 我々はこれらの問題に対処するためにKARA(Knowledge-augmented Risk Assessment)というフレームワークを開発した。 知識集約型コンテキストにおける候補候補のリスク評価プロセスを支援するために、構造化されたドメイン知識ベースの上に中小企業のフィードバックを考慮する複数のAI技術を組み合わせる。

Evaluating the potential of a prospective candidate is a common task in multiple decision-making processes in different industries. We refer to a prospect as something or someone that could potentially produce positive results in a given context, e.g., an area where an oil company could find oil, a compound that, when synthesized, results in a material with required properties, and so on. In many contexts, assessing the Probability of Success (PoS) of prospects heavily depends on experts' knowledge, often leading to biased and inconsistent assessments. We have developed the framework named KARA (Knowledge-augmented Risk Assessment) to address these issues. It combines multiple AI techniques that consider SMEs (Subject Matter Experts) feedback on top of a structured domain knowledge-base to support risk assessment processes of prospect candidates in knowledge-intensive contexts.
翻訳日:2023-03-10 14:41:12 公開日:2023-03-09
# 崩壊モデルと重力デコヒーレンス:量子力学の限界をどこまで進めることができるのか?

Collapse models and gravitational decoherence at test: How far can we push the limits of quantum mechanics? ( http://arxiv.org/abs/2303.05284v1 )

ライセンス: Link先を確認
Matteo Carlesso(参考訳) 崩壊モデルは、顕微鏡からマクロスケールへ移動する際の量子重ね合わせ原理の分解を記述する。 これらは量子測定問題の可能な解の1つであり、量子測定問題からの古典力学の出現を記述している。 崩壊モデルをテストすることは、量子力学の限界をテストすることと等価である。 私は、崩壊モデルをどのようにテストできるか、将来の理論的、実験的課題について概説します。

Collapse models describe the breakdown of the quantum superposition principle when moving from microscopic to macroscopic scales. They are among the possible solutions to the quantum measurement problem and thus describe the emergence of classical mechanics from the quantum one. Testing collapse models is equivalent to test the limits of quantum mechanics. I will provide an overview on how one can test collapse models, and which are the future theoretical and experimental challenges ahead.
翻訳日:2023-03-10 14:40:41 公開日:2023-03-09
# 相転移・KMS条件・意思決定

Phase transitions, KMS-condition and Decision Making ( http://arxiv.org/abs/2303.05278v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 我々は、ある質問に対して「yes」と「not」のどちらを選ぶよう依頼された対話エージェントの単純なモデルを考える。 これらのエージェントはスピン変数によって記述され、平均場ハイゼンベルクモデルに従って相互作用する。 我々は、エージェントが共通の選択をすることができる条件下で議論する。 これは社会的文脈において、KMS状態と相転移の概念を用いて作られる。

We consider a simple model of interacting agents asked to choose between "yes" and "not" to some given question. The agents are described in terms of spin variables, and they interact according to a mean field Heisenberg model. We discuss under which conditions the agents can come out with a common choice. This is made using, in a social context, the notion of KMS-states and phase transitions.
翻訳日:2023-03-10 14:40:22 公開日:2023-03-09
# ディフューザによる画像の検出

Detecting Images Generated by Diffusers ( http://arxiv.org/abs/2303.05275v1 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Andrea Esuli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 本稿では,テキスト・画像拡散モデルにより生成された画像を検出するタスクについて検討する。 これを評価するために,MSCOCOおよびWikimediaデータセットのキャプションから生成された画像について,静的拡散とGLIDEの2つの最先端モデルを用いて検討する。 本実験では,クリップや従来の畳み込みニューラルネットワーク(cnns)から抽出した特徴から,単純多層パーセプトロン(mlps)を用いて生成画像の検出が可能であることを示す。 また,安定拡散によって生成した画像にトレーニングされたモデルが比較的よく検出できるのを観察したが,逆は成り立たない。 最後に,画像に関連付けられたテキスト情報を組み込むことで検出結果が著しく向上することは稀であるが,画像に表される被写体の種類が性能に有意な影響を与える可能性があることを見出した。 この研究は、生成された画像の検出可能性に関する洞察を提供し、現実世界のアプリケーションにおけるセキュリティとプライバシの懸念に影響を及ぼす。

This paper explores the task of detecting images generated by text-to-image diffusion models. To evaluate this, we consider images generated from captions in the MSCOCO and Wikimedia datasets using two state-of-the-art models: Stable Diffusion and GLIDE. Our experiments show that it is possible to detect the generated images using simple Multi-Layer Perceptrons (MLPs), starting from features extracted by CLIP, or traditional Convolutional Neural Networks (CNNs). We also observe that models trained on images generated by Stable Diffusion can detect images generated by GLIDE relatively well, however, the reverse is not true. Lastly, we find that incorporating the associated textual information with the images rarely leads to significant improvement in detection results but that the type of subject depicted in the image can have a significant impact on performance. This work provides insights into the feasibility of detecting generated images, and has implications for security and privacy concerns in real-world applications.
翻訳日:2023-03-10 14:40:16 公開日:2023-03-09
# 細胞検出における教師なし領域適応のためのヒートマップに基づく効果的な擬似ラベル作成

Effective Pseudo-Labeling based on Heatmap for Unsupervised Domain Adaptation in Cell Detection ( http://arxiv.org/abs/2303.05269v1 )

ライセンス: Link先を確認
Hyeonwoo Cho, Kazuya Nishimura, Kazuhide Watanabe, Ryoma Bise(参考訳) 細胞検出は生物医学研究において重要な課題である。 近年,深層学習により細胞検出の性能向上が図られている。 しかしながら、特定の条件下でトレーニングされたデータ(ソースドメイン)でトレーニングされた検出ネットワークは、ドメインシフト問題と呼ばれる他の条件(ターゲットドメイン)のデータではうまく動作しない可能性がある。 特に、細胞は研究の目的に応じて異なる条件下で培養される。 特性、例えば細胞の形状や密度は条件によって変化し、そのような変化はドメインシフト問題を引き起こす可能性がある。 本稿では,セルセントロイドがガウス分布のピークと選択的擬似ラベルである擬似セル配置ヒートマップを用いて,セル検出のための教師なしドメイン適応法を提案する。 対象領域の予測結果では、ピーク位置が正しいとしても、ピーク周辺の信号分布は非ガウス形状であることが多い。 擬似セル配置熱マップは、予測された熱マップのピーク位置を用いて再生成され、透明なガウス形状となる。 本手法は,不確実性とカリキュラム学習に基づく疑似セル配置熱マップを選択する。 提案手法は,既存手法と比較して,異なる条件下での検出性能が向上したことを示す。

Cell detection is an important task in biomedical research. Recently, deep learning methods have made it possible to improve the performance of cell detection. However, a detection network trained with training data under a specific condition (source domain) may not work well on data under other conditions (target domains), which is called the domain shift problem. In particular, cells are cultured under different conditions depending on the purpose of the research. Characteristics, e.g., the shapes and density of the cells, change depending on the conditions, and such changes may cause domain shift problems. Here, we propose an unsupervised domain adaptation method for cell detection using a pseudo-cell-position heatmap, where the cell centroid is at the peak of a Gaussian distribution in the map and selective pseudo-labeling. In the prediction result for the target domain, even if the peak location is correct, the signal distribution around the peak often has a non-Gaussian shape. The pseudo-cell-position heatmap is thus re-generated using the peak positions in the predicted heatmap to have a clear Gaussian shape. Our method selects confident pseudo-cell-position heatmaps based on uncertainty and curriculum learning. We conducted numerous experiments showing that, compared with the existing methods, our method improved detection performance under different conditions.
翻訳日:2023-03-10 14:39:58 公開日:2023-03-09
# チャモンモデルに基づく量子記憶誤差補正計算

Quantum memory error correction computation based on Chamon model ( http://arxiv.org/abs/2303.05267v1 )

ライセンス: Link先を確認
Jian Zhao, Yu-Chun Wu and Guo-Ping Guo(参考訳) 量子誤り訂正符号は、フォールトトレラント量子コンピューティングの実現において中心的な役割を果たす。 Chamonモデルは、トーリックコードの3D一般化である。 このモデルにおける誤差補正の計算は、これまで検討されていない。 この作業では、ChamonモデルはCSS以外のエラー訂正コードに変換される。 論理キュービットは論理パウリ作用素の構成によって構築される。 論理演算子の性質は、コード距離の表現を明らかにする。 チャモンモデルのトポロジ特性により,誤差除去アルゴリズムが提案されている。 誤り除去アルゴリズムに基づいて,一量子化チャネル毎にChamonモデルをデコードするグローバルランダム化誤り訂正アルゴリズムを提案する。 この復号アルゴリズムは、様々な種類の高次元モデルに適応する確率的グリード局所アルゴリズムと呼ばれる前処理プロセスを追加することにより改善される。 数値実験のしきい値誤差は4.92 %$まで上昇することができる。

Quantum error correction codes play a central role in the realisation of fault-tolerant quantum computing. Chamon model is a 3D generalization of the toric code. The error correction computation on this model has not been explored so far. In this work, the Chamon model is turned to a non-CSS error correction code. Logical qubits are built by the construct of logical Pauli operators. The property of logical operators reveals the expressions of code distance. According to the topological properties of Chamon models, an error elimination algorithm is proposed. Based on the error elimination algorithm, we propose a global randomized error correction algorithm to decode Chamon models in every single-qubit depolarized channel. This decoding algorithm is improved by adding the pretreatment process, termed the probabilistic greedy local algorithm, which adapts to different kinds of high-dimensional models. The estimated threshold error rate for numerical experiment can be raised to $4.92\%$.
翻訳日:2023-03-10 14:39:36 公開日:2023-03-09
# きめ細かな視覚言語事前学習のための自己スーパービジョンとしての代替

Replacement as a Self-supervision for Fine-grained Vision-language Pre-training ( http://arxiv.org/abs/2303.05313v1 )

ライセンス: Link先を確認
Lisai Zhang, Qingcai Chen, Zhijian Chen, Yunpeng Han, Zhonghua Li, Zhao Cao(参考訳) オブジェクトアノテーションに基づくきめ細かい監督はビジョンと言語事前学習(vlp)に広く使われている。 しかしながら、現実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常はイメージキャプチャフォーマットであり、粒度の粗い監視のみを提供する。 さまざまなシナリオでオブジェクトアノテーションを収集し、オブジェクトアノテーションを事前抽出するコストがかかる。 本稿では,オブジェクトのアノテーションを伴わない細粒度自己スーパービジョン信号を提案する。 まず,トークンレベルの監視を行うために,同義語文書き換え(HSR)アルゴリズムを提案する。 このアルゴリズムは、字幕の動詞/名詞/形容詞/量子化語をWordNetの同義語に置き換える。 それに対応して,トークンレベルの監視を生かした視覚言語モデリング(RVLM)フレームワークを提案する。 細粒度アライメントを学ぶために,代替言語コントラスト(rlc)と代替言語モデリング(rlm)という2つのモデリングタスクが提案されている。 複数の下流タスクに関する広範囲な実験により,提案手法の優れた性能が示された。

Fine-grained supervision based on object annotations has been widely used for vision and language pre-training (VLP). However, in real-world application scenarios, aligned multi-modal data is usually in the image-caption format, which only provides coarse-grained supervision. It is cost-expensive to collect object annotations and build object annotation pre-extractor for different scenarios. In this paper, we propose a fine-grained self-supervision signal without object annotations from a replacement perspective. First, we propose a homonym sentence rewriting (HSR) algorithm to provide token-level supervision. The algorithm replaces a verb/noun/adjective/quantifier word of the caption with its homonyms from WordNet. Correspondingly, we propose a replacement vision-language modeling (RVLM) framework to exploit the token-level supervision. Two replaced modeling tasks, i.e., replaced language contrastive (RLC) and replaced language modeling (RLM), are proposed to learn the fine-grained alignment. Extensive experiments on several downstream tasks demonstrate the superior performance of the proposed method.
翻訳日:2023-03-10 14:34:11 公開日:2023-03-09
# 非同期入力からの3次元ビデオループ

3D Video Loops from Asynchronous Input ( http://arxiv.org/abs/2303.05312v1 )

ライセンス: Link先を確認
Li Ma and Xiaoyu Li and Jing Liao and Pedro V. Sander(参考訳) ループ動画は短いビデオクリップで、目に見えるシームやアーティファクトを使わずに無限にループできる。 自然の風景のダイナミズムを捉える非常に魅力的な方法を提供する。 既存の方法は2D表現に限られている。 本稿では,動的3次元ループシーンにおける没入型体験を実現するための実用的なソリューションを提案する。 重要な課題は、3D表現のビュー一貫性を維持しながら、非同期入力からビュー毎のループ条件を検討することである。 本稿では,MTV(Multi-Tile Video)という新しい3Dビデオ表現法を提案する。これは,ビューに一貫性があるだけでなく,メモリ使用量を大幅に削減し,4Dボリュームの最適化を可能にする。 そして、完全に非同期なマルチビュービデオから3DループMTVを構築するための2段階パイプラインを導入する。 3Dシーンをループする最適化において,ビデオ時間的リターゲティングアルゴリズムに基づく新たなループ損失が採用された。 本フレームワークの実験では,モバイルデバイス上でもリアルタイムに3Dループ映像を撮影・レンダリングできることが示されている。 コード、データセット、ライブデモはhttps://limacv.github.io/VideoLoop3D_web/で公開されている。

Looping videos are short video clips that can be looped endlessly without visible seams or artifacts. They provide a very attractive way to capture the dynamism of natural scenes. Existing methods have been mostly limited to 2D representations. In this paper, we take a step forward and propose a practical solution that enables an immersive experience on dynamic 3D looping scenes. The key challenge is to consider the per-view looping conditions from asynchronous input while maintaining view consistency for the 3D representation. We propose a novel sparse 3D video representation, namely Multi-Tile Video (MTV), which not only provides a view-consistent prior, but also greatly reduces memory usage, making the optimization of a 4D volume tractable. Then, we introduce a two-stage pipeline to construct the 3D looping MTV from completely asynchronous multi-view videos with no time overlap. A novel looping loss based on video temporal retargeting algorithms is adopted during the optimization to loop the 3D scene. Experiments of our framework have shown promise in successfully generating and rendering photorealistic 3D looping videos in real time even on mobile devices. The code, dataset, and live demos are available in https://limacv.github.io/VideoLoop3D_web/.
翻訳日:2023-03-10 14:33:54 公開日:2023-03-09
# mixspeech: 視覚音声翻訳と認識のための音声とビジュアルストリームのミックスアップによるクロスモダリティ自己学習

MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition ( http://arxiv.org/abs/2303.05309v1 )

ライセンス: Link先を確認
Xize Cheng, Linjun Li, Tao Jin, Rongjie Huang, Wang Lin, Zehan Wang, Huangdai Liu, Ye Wang, Aoxiong Yin, Zhou Zhao(参考訳) マルチメディア通信は、人々の世界的交流を促進する。 しかし、言語障壁を克服するために機械翻訳や音声翻訳などの言語間翻訳技術を探究する研究者はいるものの、視覚音声に関する言語間研究はいまだに不足している。 この研究の欠如は、主に視覚音声と翻訳されたテキストペアを含むデータセットがないためである。 本稿では, \textbf{A}udio-\textbf{V}isual \textbf{Mu}ltilingual \textbf{S}peech \textbf{T}ranslationの最初のデータセットである, \textbf{A}udio-\textbf{V}isual \textbf{Mu}ltilingual \textbf{S}peech \textbf{T}ranslationを提案する。 それにもかかわらず、視覚音声は音声音声ほど区別できないため、発声音素から対象言語へのマッピングを開発するのが困難である。 この問題に対処するため,視覚音声タスクのトレーニングを正規化するために,音声を用いた多目的自己学習フレームワークであるMixSpeechを提案する。 さらに,モダリティ間のギャップと知識伝達への影響を最小化するために,音声と視覚ストリームを補間した混合音声と,必要に応じて混合率を調整するカリキュラム学習戦略を採用することを提案する。 MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。 さらに, cmlr (11.1\%), lrs2 (25.5\%), lrs3 (28.0\%) のリップ読みにおける最先端性能を実現する。

Multi-media communications facilitate global interaction among people. However, despite researchers exploring cross-lingual translation techniques such as machine translation and audio speech translation to overcome language barriers, there is still a shortage of cross-lingual studies on visual speech. This lack of research is mainly due to the absence of datasets containing visual speech and translated text pairs. In this paper, we present \textbf{AVMuST-TED}, the first dataset for \textbf{A}udio-\textbf{V}isual \textbf{Mu}ltilingual \textbf{S}peech \textbf{T}ranslation, derived from \textbf{TED} talks. Nonetheless, visual speech is not as distinguishable as audio speech, making it difficult to develop a mapping from source speech phonemes to the target language text. To address this issue, we propose MixSpeech, a cross-modality self-learning framework that utilizes audio speech to regularize the training of visual speech tasks. To further minimize the cross-modality gap and its impact on knowledge transfer, we suggest adopting mixed speech, which is created by interpolating audio and visual streams, along with a curriculum learning strategy to adjust the mixing ratio as needed. MixSpeech enhances speech translation in noisy environments, improving BLEU scores for four languages on AVMuST-TED by +1.4 to +4.2. Moreover, it achieves state-of-the-art performance in lip reading on CMLR (11.1\%), LRS2 (25.5\%), and LRS3 (28.0\%).
翻訳日:2023-03-10 14:33:35 公開日:2023-03-09
# SpyroPose:SEにおけるオブジェクト空間分布推定のためのピラミドの重要サンプリング(3)

SpyroPose: Importance Sampling Pyramids for Object Pose Distribution Estimation in SE(3) ( http://arxiv.org/abs/2303.05308v1 )

ライセンス: Link先を確認
Rasmus Laurvig Haugaard, Frederik Hagelskj{\ae}r, Thorbj{\o}rn Mosekj{\ae}r Iversen(参考訳) オブジェクトポーズ推定はコンピュータビジョンのコア問題であり、ロボット工学において不可欠な要素であることが多い。 ポーズ推定は通常、オブジェクトのポーズを最もよく見積もることによってアプローチされるが、このアプローチは視覚的あいまいさを含むタスクには不適である。 このような場合、下流のタスクが情報的決定を行えるように、不確実性をポーズ分布として推定することが望ましい。 ポース分布は任意の複雑性を持ち、非パラメータ分布を推定する動機となるが、SE(3) 上のトレーニングや正規化の難しさから、これまではSO(3) の向き推定にしか使われていなかった。 本稿では,SE(3)に基づくポーズ分布推定手法を提案する。 階層格子,ピラミッドを用いて,訓練中に効率よく重要度を抽出し,推論時のピラミッドのスパース評価を行い,リアルタイムの6次元ポーズ分布推定を可能にする。 本手法はso(3)における最先端手法よりも優れており,se(3)におけるポーズ分布推定に関する最初の定量的な結果を提供する。 コードはspyropose.github.ioで利用可能になる

Object pose estimation is a core computer vision problem and often an essential component in robotics. Pose estimation is usually approached by seeking the single best estimate of an object's pose, but this approach is ill-suited for tasks involving visual ambiguity. In such cases it is desirable to estimate the uncertainty as a pose distribution to allow downstream tasks to make informed decisions. Pose distributions can have arbitrary complexity which motivates estimating unparameterized distributions, however, until now they have only been used for orientation estimation on SO(3) due to the difficulty in training on and normalizing over SE(3). We propose a novel method for pose distribution estimation on SE(3). We use a hierarchical grid, a pyramid, which enables efficient importance sampling during training and sparse evaluation of the pyramid at inference, allowing real time 6D pose distribution estimation. Our method outperforms state-of-the-art methods on SO(3), and to the best of our knowledge, we provide the first quantitative results on pose distribution estimation on SE(3). Code will be available at spyropose.github.io
翻訳日:2023-03-10 14:33:01 公開日:2023-03-09
# サイドペイメントによるマルチプレイヤー確率ゲームにおける戦略的価値と協調の学習

Learning Strategic Value and Cooperation in Multi-Player Stochastic Games through Side Payments ( http://arxiv.org/abs/2303.05307v1 )

ライセンス: Link先を確認
Alan Kuhnle, Jeffrey Richley, Darleen Perez-Lavin(参考訳) 一般のsum, n-player, strategy game with transferable utility に対して、Harsanyi-Shapley値はどちらも計算可能な方法を提供する。 1) プレーヤーの戦略的価値を定量化すること,及び 2) サイドペイメントによる協力を合理的にすること。 正規形式ゲームにおけるHS値を計算するための簡単な公式を与える。 次に、HS値を確率(マルコフ)ゲームに一般化する2つの方法を提案し、そのうちの1つは一般化Q-ラーニングアルゴリズムを用いて計算可能であることを示す。 最後に、3人以上のプレイヤーによる確率的グリッドゲームで実証検証を行う。 正規形式と確率ゲーム設定の両方のHS値を計算するためにソースコードが提供される。

For general-sum, n-player, strategic games with transferable utility, the Harsanyi-Shapley value provides a computable method to both 1) quantify the strategic value of a player; and 2) make cooperation rational through side payments. We give a simple formula to compute the HS value in normal-form games. Next, we provide two methods to generalize the HS values to stochastic (or Markov) games, and show that one of them may be computed using generalized Q-learning algorithms. Finally, an empirical validation is performed on stochastic grid-games with three or more players. Source code is provided to compute HS values for both the normal-form and stochastic game setting.
翻訳日:2023-03-10 14:32:40 公開日:2023-03-09
# 低コストソリューションとオープンアクセスデータに基づく中国全土の1m解像度土地被覆マッピング

National-scale 1-m resolution land-cover mapping for the entire China based on a low-cost solution and open-access data ( http://arxiv.org/abs/2303.05305v1 )

ライセンス: Link先を確認
Zhuohong Li, Wei He, Hongyan Zhang(参考訳) 現在、多くの大規模土地被覆(LC)製品がリリースされているが、現在の中国向けLC製品は精細な解像度や全国的なカバーを欠いている。 中国の急速な都市化に伴い、中国向けの超高解像度(VHR)全国規模のLCマップを作成する必要がある。 本研究では,深層学習フレームワークとマルチソースオープンアクセスデータを用いて,9,600,000 km^2$の中国における1m解像度LCマップを作成した。 VHRの全国規模のLCマップを効率的に生成するために,まず,3つの10mLC製品とオープンストリートマップデータから信頼性の高いLCラベルを収集した。 第二に、収集した10mのラベルと1mのGoogle Earth画像は、提案されたL2H(low-to-high)フレームワークでトレーニングに使用された。 弱い自己管理戦略により、L2Hフレームワークはトレーニングペア間のミスマッチ解決によるラベルノイズを解消し、VHR結果を生成する。 最後に、SinoLC-1を5つの広く使用されている製品と比較し、10,6852点と政府から収集された統計報告を含むサンプルセットと比較した。 その結果、sinolc-1 は oa を 74\%、kappa を 0.65 と達成した。 さらに、中国初の1mの全国規模のLCマップとして、SinoLC-1は、最も美しい景観の詳細を総合的に許容できる結果を示している。

Nowadays, many large-scale land-cover (LC) products have been released, however, current LC products for China either lack a fine resolution or nationwide coverage. With the rapid urbanization of China, there is an urgent need for creating a very-high-resolution (VHR) national-scale LC map for China. In this study, a novel 1-m resolution LC map of China covering $9,600,000 km^2$, called SinoLC-1, was produced by using a deep learning framework and multi-source open-access data. To efficiently generate the VHR national-scale LC map, firstly, the reliable LC labels were collected from three 10-m LC products and Open Street Map data. Secondly, the collected 10-m labels and 1-m Google Earth imagery were utilized in the proposed low-to-high (L2H) framework for training. With weak and self-supervised strategies, the L2H framework resolves the label noise brought by the mismatched resolution between training pairs and produces VHR results. Lastly, we compare the SinoLC-1 with five widely used products and validate it with a sample set including 10,6852 points and a statistical report collected from the government. The results show the SinoLC-1 achieved an OA of 74\% and a Kappa of 0.65. Moreover, as the first 1-m national-scale LC map for China, the SinoLC-1 shows overall acceptable results with the finest landscape details.
翻訳日:2023-03-10 14:32:28 公開日:2023-03-09
# m3ae : 欠失した脳腫瘍のマルチモーダル表現学習

M3AE: Multimodal Representation Learning for Brain Tumor Segmentation with Missing Modalities ( http://arxiv.org/abs/2303.05302v1 )

ライセンス: Link先を確認
Hong Liu, Dong Wei, Donghuan Lu, Jinghan Sun, Liansheng Wang, Yefeng Zheng(参考訳) multimodal magnetic resonance imaging (mri)は脳腫瘍のサブリージョン解析のための補完的情報を提供する。 4つのMRIモダリティを用いた自動脳腫瘍郭清法が提案され,優れた性能を示した。 しかし実際には、画像の破損、アーティファクト、取得プロトコル、コントラストエージェントへのアレルギー、あるいは単にコストによって1つ以上のモダリティが失われることが一般的である。 そこで本研究では,脳腫瘍切除のための新しい2段階フレームワークを提案する。 第1段階では、欠落したモダリティに対する堅牢なマルチモーダル表現の自己教師学習のために、ランダムなモダリティ(モダリティドロップアウト)と残りのモダリティのランダムなパッチの両方をマスクするマルチモーダルマスク自動符号化器(M3AE)が提案される。 この目的のために、我々のフレームワークをM3AEと命名する。 一方,モデルインバージョンを用いて,限界余剰コストで代表的フルモーダル画像を最適化し,不足するモダリティの代替や推論時の性能向上に活用する。 そして,第2段階において,教師付きセグメント化のモデルを微調整しながら,異種欠落状況間の知識を蒸留するメモリ効率の高い自己蒸留法を提案する。 私たちのm3aeは‘catch-all’ジャンルに属しており、単一のモデルをモダリティのすべての可能なサブセットに適用することができます。 BraTS 2018と2020データセットの大規模な実験は、そのコンポーネントの有効性だけでなく、モダリティの欠如した既存の最先端メソッドよりも優れたパフォーマンスを示している。 私たちのコードは、https://github.com/ccarliu/m3ae.comで利用可能です。

Multimodal magnetic resonance imaging (MRI) provides complementary information for sub-region analysis of brain tumors. Plenty of methods have been proposed for automatic brain tumor segmentation using four common MRI modalities and achieved remarkable performance. In practice, however, it is common to have one or more modalities missing due to image corruption, artifacts, acquisition protocols, allergy to contrast agents, or simply cost. In this work, we propose a novel two-stage framework for brain tumor segmentation with missing modalities. In the first stage, a multimodal masked autoencoder (M3AE) is proposed, where both random modalities (i.e., modality dropout) and random patches of the remaining modalities are masked for a reconstruction task, for self-supervised learning of robust multimodal representations against missing modalities. To this end, we name our framework M3AE. Meanwhile, we employ model inversion to optimize a representative full-modal image at marginal extra cost, which will be used to substitute for the missing modalities and boost performance during inference. Then in the second stage, a memory-efficient self distillation is proposed to distill knowledge between heterogenous missing-modal situations while fine-tuning the model for supervised segmentation. Our M3AE belongs to the 'catch-all' genre where a single model can be applied to all possible subsets of modalities, thus is economic for both training and deployment. Extensive experiments on BraTS 2018 and 2020 datasets demonstrate its superior performance to existing state-of-the-art methods with missing modalities, as well as the efficacy of its components. Our code is available at: https://github.com/ccarliu/m3ae.
翻訳日:2023-03-10 14:32:03 公開日:2023-03-09
# CoolPINNs: 真空系におけるアクティブ冷却の物理インフォームドニューラルネットワークモデリング

CoolPINNs: A Physics-informed Neural Network Modeling of Active Cooling in Vascular Systems ( http://arxiv.org/abs/2303.05300v1 )

ライセンス: Link先を確認
N. V. Jagtap, M. K. Mudunuru, and K. B. Nakshatrala(参考訳) 超音速航空機、宇宙探査車、バッテリーなどの新興技術は、効率的な熱調節のために組込みマイクロ血管内での流体循環に有効である。 これらのシステムの設計と運用においてモデリングは不可欠である。 しかし、モデリングフレームワークの開発には多くの課題がある。 欠けているのは 正確な枠組みで (i)複雑な血管配置における熱流束の鋭い跳躍をキャプチャする。 (ii)斜め微分(接成分及び正規成分)を扱う。 (iii)放射熱伝達による非線形性を扱う。 (iv)リアルタイム監視のための高速予測を提供し、 (v)ロバストな逆モデリングを容易にする。 本稿では,物理インフォームドニューラルネットワーク(PINN)のパワーを活用して,これらの課題に対処する。 当社は、血管ベースの熱規制のための高速で信頼性が高く正確なSciML(SciML)フレームワークを開発しています -- CoolPINNsと呼ばれる、アクティブ冷却のためのPINNベースのモデリングフレームワークです。 提案されたメッシュレスフレームワークは、前述のすべての課題をエレガントに克服する。 報告された研究の意義は多岐にわたる。 第一に、このフレームワークは急速な予測のため、熱規制システムのリアルタイム監視に有用である。 第2に、アプローチがメッシュレスであるため、複雑な熱調節設計に対処できる。 最後に、このフレームワークは、システマティックパラメータの識別と、おそらく現在のフレームワークの最も重要なユーティリティである逆モデリング研究を促進する。

Emerging technologies like hypersonic aircraft, space exploration vehicles, and batteries avail fluid circulation in embedded microvasculatures for efficient thermal regulation. Modeling is vital during these engineered systems' design and operational phases. However, many challenges exist in developing a modeling framework. What is lacking is an accurate framework that (i) captures sharp jumps in the thermal flux across complex vasculature layouts, (ii) deals with oblique derivatives (involving tangential and normal components), (iii) handles nonlinearity because of radiative heat transfer, (iv) provides a high-speed forecast for real-time monitoring, and (v) facilitates robust inverse modeling. This paper addresses these challenges by availing the power of physics-informed neural networks (PINNs). We develop a fast, reliable, and accurate Scientific Machine Learning (SciML) framework for vascular-based thermal regulation -- called CoolPINNs: a PINNs-based modeling framework for active cooling. The proposed mesh-less framework elegantly overcomes all the mentioned challenges. The significance of the reported research is multi-fold. First, the framework is valuable for real-time monitoring of thermal regulatory systems because of rapid forecasting. Second, researchers can address complex thermoregulation designs inasmuch as the approach is mesh-less. Finally, the framework facilitates systematic parameter identification and inverse modeling studies, perhaps the current framework's most significant utility.
翻訳日:2023-03-10 14:31:31 公開日:2023-03-09
# 平面X線からの視線投影による3次元CT再構成

Perspective Projection-Based 3D CT Reconstruction from Biplanar X-rays ( http://arxiv.org/abs/2303.05297v1 )

ライセンス: Link先を確認
Daeun Kyung, Kyungmin Jo, Jaegul Choo, Joonseok Lee, Edward Choi(参考訳) X線CT(CT)は、医療分野における様々な疾患の診断に最もよく用いられる画像技術の一つである。 高いコントラスト感度と空間分解能により、医師は骨、軟組織、血管などの身体部位の詳細を観察できる。 しかし、患者や外科医に潜在的に有害な放射線被曝を伴うため、垂直2次元x線画像からの3dctボリュームの再構成は、放射線リスクの低減とアクセシビリティの向上により、有望な選択肢であると考えられている。 しかし、すべての情報が重複する2d画像から3d解剖学的情報を再構築する必要があるため、これは非常に難しい。 本稿では,視点投影方式を反映した新しいX線CT再構成フレームワークPerX2CTを提案する。 提案手法は,各座標の異なる特徴の組み合わせを提供し,モデルが3d位置に関する情報を暗黙的に得ることを可能にする。 局所的特徴と大域的特徴を適切に利用することにより,CTの選択部分を高解像度で再構成する可能性を明らかにする。 提案手法は, 計算量が少なく, 推測時間も速い臨床応用の可能性を示し, 複数の評価指標において, ベースラインよりも優れた性能を示す。

X-ray computed tomography (CT) is one of the most common imaging techniques used to diagnose various diseases in the medical field. Its high contrast sensitivity and spatial resolution allow the physician to observe details of body parts such as bones, soft tissue, blood vessels, etc. As it involves potentially harmful radiation exposure to patients and surgeons, however, reconstructing 3D CT volume from perpendicular 2D X-ray images is considered a promising alternative, thanks to its lower radiation risk and better accessibility. This is highly challenging though, since it requires reconstruction of 3D anatomical information from 2D images with limited views, where all the information is overlapped. In this paper, we propose PerX2CT, a novel CT reconstruction framework from X-ray that reflects the perspective projection scheme. Our proposed method provides a different combination of features for each coordinate which implicitly allows the model to obtain information about the 3D location. We reveal the potential to reconstruct the selected part of CT with high resolution by properly using the coordinate-wise local and global features. Our approach shows potential for use in clinical applications with low computational complexity and fast inference time, demonstrating superior performance than baselines in multiple evaluation metrics.
翻訳日:2023-03-10 14:31:16 公開日:2023-03-09
# 効率的な変圧器訓練のための動的スタッシング量子化

Dynamic Stashing Quantization for Efficient Transformer Training ( http://arxiv.org/abs/2303.05295v1 )

ライセンス: Link先を確認
Guo Yang, Daniel Lo, Robert Mullins, Yiren Zhao(参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて、印象的なパフォーマンスを示している。 残念なことに、LLMトレーニングに必要な膨大な計算量とメモリアクセスは、ハードウェアコストの点で極めて高価であり、デバイス上での学習のようなユースケースでのデプロイが困難である。 本稿では,llmトレーニングがメモリバウンドであるという観測に動機づけられ,メモリ操作の削減に特化しつつ,演算コストの低減といった低精度トレーニングの他の利点を享受する,動的スタッキング量子化(dsq)と呼ばれる新しい動的量子化戦略を提案する。 我々は,2つの翻訳タスク(訓練済み)と3つの分類タスク(微調整)について徹底的に研究する。 DSQは、デバイス上での学習で広く使われている16ビット固定点と比較して、算術演算を20.95\times$、DRAM演算を2.55\times$に減らしている。

Large Language Models (LLMs) have demonstrated impressive performance on a range of Natural Language Processing (NLP) tasks. Unfortunately, the immense amount of computations and memory accesses required for LLM training makes them prohibitively expensive in terms of hardware cost, and thus challenging to deploy in use cases such as on-device learning. In this paper, motivated by the observation that LLM training is memory-bound, we propose a novel dynamic quantization strategy, termed Dynamic Stashing Quantization (DSQ), that puts a special focus on reducing the memory operations, but also enjoys the other benefits of low precision training, such as the reduced arithmetic cost. We conduct a thorough study on two translation tasks (trained-from-scratch) and three classification tasks (fine-tuning). DSQ reduces the amount of arithmetic operations by $20.95\times$ and the number of DRAM operations by $2.55\times$ on IWSLT17 compared to the standard 16-bit fixed-point, which is widely used in on-device learning.
翻訳日:2023-03-10 14:30:57 公開日:2023-03-09
# 知識強化Few-shot視覚関係検出

Knowledge-augmented Few-shot Visual Relation Detection ( http://arxiv.org/abs/2303.05342v1 )

ライセンス: Link先を確認
Tianyu Yu, Yangning Li, Jiaoyan Chen, Yinghui Li, Hai-Tao Zheng, Xi Chen, Qingbin Liu, Wenqiang Liu, Dongxiao Huang, Bei Wu, Yexin Wang(参考訳) 視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。 既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。 最近の論文では、精巧に設計されたパイプラインと事前学習された単語ベクトルを用いて、わずかなショット学習によってこの問題に対処している。 しかし、既存の数発のVRDモデルの性能は、視覚関係の膨大な意味的多様性を扱うのに苦労するため、一般化能力の貧弱さによって著しく妨げられている。 それでも、人間は知識に基づいてほんのわずかな例で新しい関係を学ぶことができる。 そこで我々は,テキスト知識と視覚関係知識を併用した知識提示・少数ショットvrdフレームワークを考案し,少数ショットvrdの一般化能力を向上させる。 予め訓練された言語モデルと自動構築された視覚関係知識グラフからテキスト知識と視覚関係知識を取得する。 我々はフレームワークの有効性を広範囲に検証した。 一般的に使用されているvisual genomeデータセットの3つのベンチマークで行った実験は、我々のパフォーマンスが既存の最先端モデルよりも大幅に改善されていることを示している。

Visual Relation Detection (VRD) aims to detect relationships between objects for image understanding. Most existing VRD methods rely on thousands of training samples of each relationship to achieve satisfactory performance. Some recent papers tackle this problem by few-shot learning with elaborately designed pipelines and pre-trained word vectors. However, the performance of existing few-shot VRD models is severely hampered by the poor generalization capability, as they struggle to handle the vast semantic diversity of visual relationships. Nonetheless, humans have the ability to learn new relationships with just few examples based on their knowledge. Inspired by this, we devise a knowledge-augmented, few-shot VRD framework leveraging both textual knowledge and visual relation knowledge to improve the generalization ability of few-shot VRD. The textual knowledge and visual relation knowledge are acquired from a pre-trained language model and an automatically constructed visual relation knowledge graph, respectively. We extensively validate the effectiveness of our framework. Experiments conducted on three benchmarks from the commonly used Visual Genome dataset show that our performance surpasses existing state-of-the-art models with a large improvement.
翻訳日:2023-03-10 14:24:50 公開日:2023-03-09
# 肺がん患者のCT検査における深部線状コックスモデルの適用

Penalized Deep Partially Linear Cox Models with Application to CT Scans of Lung Cancer Patients ( http://arxiv.org/abs/2303.05341v1 )

ライセンス: Link先を確認
Yuming Sun, Jian Kang, Chinmay Haridas, Nicholas R. Mayne, Alexandra L. Potter, Chi-Fu Jeffrey Yang, David C. Christiani, Yi Li(参考訳) 肺がんは世界中のがん死亡の原因であり、効果的な患者中心療法の設計における死亡リスクを理解することの重要性を強調している。 NLST(National Lung Screening Trial)は、肺癌の危険因子の調査を目的とした全国的な研究である。 ctスキャンのテクスチャパターンを客観的に測定し,肺癌患者の死亡リスクを定量化するためにctctテクスチャ解析(ctta)を用いた。 部分的に線形なCoxモデルは、確立されたリスク要因(年齢やその他の臨床要因)と新しいリスク要因(画像の特徴など)の両方を単一のフレームワークで効果的に扱うため、生存結果をモデル化するための一般的なツールになりつつある。 癌の生存に影響を及ぼすテクスチャの特徴を特定する上での課題は、スキャナタイプ、セグメンテーション、臓器運動などの要因に対する感受性にある。 そこで本研究では,SCADペナルティを組み込んだPentalized Deep partially Linear Cox Model (Penalized DPLC)を提案する。 我々は,推定器の収束性と漸近特性を証明し,リスク予測と特徴選択の性能評価を行い,他の手法と比較した。 本手法はNLST研究データセットに応用され,臨床および画像上の危険因子が患者の生存に及ぼす影響を明らかにする。 以上より,これらの因子と生存率との関係について考察した。

Lung cancer is a leading cause of cancer mortality globally, highlighting the importance of understanding its mortality risks to design effective patient-centered therapies. The National Lung Screening Trial (NLST) was a nationwide study aimed at investigating risk factors for lung cancer. The study employed computed tomography texture analysis (CTTA), which provides objective measurements of texture patterns on CT scans, to quantify the mortality risks of lung cancer patients. Partially linear Cox models are becoming a popular tool for modeling survival outcomes, as they effectively handle both established risk factors (such as age and other clinical factors) and new risk factors (such as image features) in a single framework. The challenge in identifying the texture features that impact cancer survival is due to their sensitivity to factors such as scanner type, segmentation, and organ motion. To overcome this challenge, we propose a novel Penalized Deep Partially Linear Cox Model (Penalized DPLC), which incorporates the SCAD penalty to select significant texture features and employs a deep neural network to estimate the nonparametric component of the model accurately. We prove the convergence and asymptotic properties of the estimator and compare it to other methods through extensive simulation studies, evaluating its performance in risk prediction and feature selection. The proposed method is applied to the NLST study dataset to uncover the effects of key clinical and imaging risk factors on patients' survival. Our findings provide valuable insights into the relationship between these factors and survival outcomes.
翻訳日:2023-03-10 14:24:30 公開日:2023-03-09
# 脳ディフューザ : 生成潜伏拡散を用いたfMRI信号からの自然シーン再構成

Brain-Diffuser: Natural scene reconstruction from fMRI signals using generative latent diffusion ( http://arxiv.org/abs/2303.05334v1 )

ライセンス: Link先を確認
Furkan Ozcelik and Rufin VanRullen(参考訳) ニューラルデコーディング研究において、最も興味深いトピックの1つは、fMRI信号に基づいて知覚された自然画像の再構成である。 以前の研究では、低レベルな特性(形状、テクスチャ、レイアウト)や高レベルな特徴(オブジェクトの分類、シーンの記述的意味論)など、視覚の異なる側面を再現することに成功しているが、複雑なシーン画像のためにこれらの特性を一緒に再構築することはできなかった。 生成AIは、最近、複雑度の高い画像を生成する潜在拡散モデルで飛躍的な進歩を遂げた。 本稿では,この革新的な脳デコード技術を活用する方法について検討する。 我々は ``brain-diffuser'' という2段階のシーン復元フレームワークを提案する。 第一段階では、fMRI信号から、VDVAE(Very Deep Variational Autoencoder)モデルを用いて、低レベル特性と全体レイアウトをキャプチャする画像を再構成する。 第2段階では、予測されたマルチモーダル機能(テキストとビジュアル)に基づく潜在拡散モデル(バータタイル拡散)の画像から画像へのフレームワークを用いて、最終的な再構成画像を生成する。 公開されているNatural Scenes Datasetベンチマークでは,従来のモデルよりも質的,定量的に優れている。 個別のROIマスクから生成された合成fMRIパターンに適用すると、トレーニングされたモデルが神経科学的な知識と整合した「ROI最適」シーンを生成する。 したがって、提案手法は応用(脳-コンピュータインタフェースなど)と基礎神経科学の両方に影響を及ぼす可能性がある。

In neural decoding research, one of the most intriguing topics is the reconstruction of perceived natural images based on fMRI signals. Previous studies have succeeded in re-creating different aspects of the visuals, such as low-level properties (shape, texture, layout) or high-level features (category of objects, descriptive semantics of scenes) but have typically failed to reconstruct these properties together for complex scene images. Generative AI has recently made a leap forward with latent diffusion models capable of generating high-complexity images. Here, we investigate how to take advantage of this innovative technology for brain decoding. We present a two-stage scene reconstruction framework called ``Brain-Diffuser''. In the first stage, starting from fMRI signals, we reconstruct images that capture low-level properties and overall layout using a VDVAE (Very Deep Variational Autoencoder) model. In the second stage, we use the image-to-image framework of a latent diffusion model (Versatile Diffusion) conditioned on predicted multimodal (text and visual) features, to generate final reconstructed images. On the publicly available Natural Scenes Dataset benchmark, our method outperforms previous models both qualitatively and quantitatively. When applied to synthetic fMRI patterns generated from individual ROI (region-of-interest) masks, our trained model creates compelling ``ROI-optimal'' scenes consistent with neuroscientific knowledge. Thus, the proposed methodology can have an impact on both applied (e.g. brain-computer interface) and fundamental neuroscience.
翻訳日:2023-03-10 14:24:07 公開日:2023-03-09
# 分布シフトを考慮したモデルキャリブレーションのための適応キャリブレータアンサンブル

Adaptive Calibrator Ensemble for Model Calibration under Distribution Shift ( http://arxiv.org/abs/2303.05331v1 )

ライセンス: Link先を確認
Yuli Zou, Weijian Deng, Liang Zheng(参考訳) モデルキャリブレーションは通常、あるパラメータ(例えば温度)を客観的関数(例えば負の対数類似度)に最適化する必要がある。 本稿では, 対象関数がキャリブレーションセットの難易度, すなわち, 誤分類サンプル数と正しく分類されたサンプル数との比率に影響されているという, 単純かつ重要かつしばしば無視される事実を報告する。 テストセットがキャリブレーションセットと大きく異なる難易度を持つ場合、2つのデータセットの最適なキャリブレーションパラメータが異なる。 言い換えれば、キャリブレーションセット上で最適であるキャリブレータは、oodテストセット上では準最適であり、したがって性能が低下する。 そこで本研究では, 適応校正器アンサンブル(ACE)という, キャリブレーションセットよりも難易度が高いOODデータセットの校正方法を提案する。 具体的には、2つのキャリブレーション関数をトレーニングし、1つは流通内データ(低難易度)、もう1つはOODデータ(高難易度)をトレーニングする。 新しいOODデータセットのキャリブレーションのために、ACEは2つの極端な関数のバランスをとる適応重み付け方式を使用している。 ACEがプラグインされると、OODベンチマークのいくつかの最先端キャリブレーション方式の性能が向上する。 重要な点として、このような改善は流通内校正精度を犠牲にしない。

Model calibration usually requires optimizing some parameters (e.g., temperature) w.r.t an objective function (e.g., negative log-likelihood). In this paper, we report a plain, important but often neglected fact that the objective function is influenced by calibration set difficulty, i.e., the ratio of the number of incorrectly classified samples to that of correctly classified samples. If a test set has a drastically different difficulty level from the calibration set, the optimal calibration parameters of the two datasets would be different. In other words, a calibrator optimal on the calibration set would be suboptimal on the OOD test set and thus has degraded performance. With this knowledge, we propose a simple and effective method named adaptive calibrator ensemble (ACE) to calibrate OOD datasets whose difficulty is usually higher than the calibration set. Specifically, two calibration functions are trained, one for in-distribution data (low difficulty), and the other for severely OOD data (high difficulty). To achieve desirable calibration on a new OOD dataset, ACE uses an adaptive weighting method that strikes a balance between the two extreme functions. When plugged in, ACE generally improves the performance of a few state-of-the-art calibration schemes on a series of OOD benchmarks. Importantly, such improvement does not come at the cost of the in-distribution calibration accuracy.
翻訳日:2023-03-10 14:23:38 公開日:2023-03-09
# マルチスケールリモートセンシングオブジェクト検出のためのTucker Bilinear Attention Network

Tucker Bilinear Attention Network for Multi-scale Remote Sensing Object Detection ( http://arxiv.org/abs/2303.05329v1 )

ライセンス: Link先を確認
Tao Chen, Ruirui Li, Jiafeng Fu, and Daguang Jiang(参考訳) vhrリモートセンシング画像における物体検出は,都市計画,土地資源管理,救助活動などにおいて重要な役割を担っている。 リモートセンシング対象の大規模変動は、VHRリモートセンシング対象検出における大きな課題の1つである。 既存の手法では,特徴ピラミッドの構造を改善し,異なる注意モジュールを採用することで,高解像度リモートセンシング物体の検出精度を向上させる。 しかし、小さなターゲットでは、重要な詳細機能が失われているため、検出が著しく欠落している。 マルチスケールの機能融合とバランスの方法にはまだ改善の余地があります。 本稿では, 早期核融合の段階と後期核融合の段階にそれぞれ適用可能な2つの新しいモジュール, Guided Attention と Tucker Bilinear Attention を提案する。 前者はクリーンなキーの詳細機能を効果的に保持でき、後者はセマンティックレベルの相関マイニングによって特徴のバランスを改善することができる。 2つのモジュールに基づいて、我々は新しいマルチスケールリモートセンシングオブジェクト検出フレームワークを構築した。 鐘も笛もない。 提案手法は小型オブジェクトの平均精度を大幅に向上させ,dota,dior,nwpu vhr-10.codeの9つの最先端手法と比較して,平均精度が最も高い。

Object detection on VHR remote sensing images plays a vital role in applications such as urban planning, land resource management, and rescue missions. The large-scale variation of the remote-sensing targets is one of the main challenges in VHR remote-sensing object detection. Existing methods improve the detection accuracy of high-resolution remote sensing objects by improving the structure of feature pyramids and adopting different attention modules. However, for small targets, there still be seriously missed detections due to the loss of key detail features. There is still room for improvement in the way of multiscale feature fusion and balance. To address this issue, this paper proposes two novel modules: Guided Attention and Tucker Bilinear Attention, which are applied to the stages of early fusion and late fusion respectively. The former can effectively retain clean key detail features, and the latter can better balance features through semantic-level correlation mining. Based on two modules, we build a new multi-scale remote sensing object detection framework. No bells and whistles. The proposed method largely improves the average precisions of small objects and achieves the highest mean average precisions compared with 9 state-of-the-art methods on DOTA, DIOR, and NWPU VHR-10.Code and models are available at https://github.com/Shinichict/GTNet.
翻訳日:2023-03-10 14:23:13 公開日:2023-03-09
# BaDLAD: 大規模マルチドメインのBengaliドキュメントレイアウト分析データセット

BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset ( http://arxiv.org/abs/2303.05325v1 )

ライセンス: Link先を確認
Md. Istiak Hossain Shihab, Md. Rakibul Hasan, Mahfuzur Rahman Emon, Syed Mobassir Hossen, Md. Nazmuddoha Ansary, Intesur Ahmed, Fazle Rabbi Rakib, Shahriar Elahi Dhruvo, Souhardya Saha Dip, Akib Hasan Pavel, Marsia Haque Meghla, Md. Rezwanul Haque1, Sayma Sultana Chowdhury, Farig Sadeque, Tahsin Reasat, Ahmed Imtiaz Humayun, Asif Shahriyar Sushmit(参考訳) 過去10年間、深層学習に基づくベンガル光文字認識(OCR)の努力が続けられてきたが、大規模な文書レイアウト分析(DLA)データセットが欠如しているため、OCRの文書の書き起こし、例えば、歴史文書や新聞の書き起こしが妨げられている。 さらに、現在実際に使用されているルールベースのDLAシステムは、ドメインのバリエーションや配布外レイアウトに対して堅牢ではない。 この目的のために、最初のマルチドメイン大規模Bengali Document Layout Analysis Dataset: BaDLADを提案する。 このデータセットには、6つのドメインから33,695人の注釈付きドキュメントサンプルが含まれている。 i)本及び雑誌 二 パブリックドメインのgovt。 書類や 三 解放戦争文書 iv) 新聞 v) 歴史新聞,及び vi) プロパティの処理, テキストボックス, 段落, 画像, テーブルの4つの単位タイプに対する710Kポリゴンアノテーション 英語DLAのための既存の最先端ディープラーニングアーキテクチャのパフォーマンスをベンチマークする予備実験を通じて、深層学習に基づくベンガル文書デジタル化モデルのトレーニングにおけるデータセットの有効性を実証する。

While strides have been made in deep learning based Bengali Optical Character Recognition (OCR) in the past decade, the absence of large Document Layout Analysis (DLA) datasets has hindered the application of OCR in document transcription, e.g., transcribing historical documents and newspapers. Moreover, rule-based DLA systems that are currently being employed in practice are not robust to domain variations and out-of-distribution layouts. To this end, we present the first multidomain large Bengali Document Layout Analysis Dataset: BaDLAD. This dataset contains 33,695 human annotated document samples from six domains - i) books and magazines, ii) public domain govt. documents, iii) liberation war documents, iv) newspapers, v) historical newspapers, and vi) property deeds, with 710K polygon annotations for four unit types: text-box, paragraph, image, and table. Through preliminary experiments benchmarking the performance of existing state-of-the-art deep learning architectures for English DLA, we demonstrate the efficacy of our dataset in training deep learning based Bengali document digitization models.
翻訳日:2023-03-10 14:22:51 公開日:2023-03-09
# ニューラルノードを用いた動的システム学習による制御可能な映像生成

Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE ( http://arxiv.org/abs/2303.05323v1 )

ライセンス: Link先を確認
Yucheng Xu, Nanbo Li, Arushi Goel, Zijian Guo, Zonghai Yao, Hamidreza Kasaei, Mohammadreze Kasaei, Zhibin Li(参考訳) ビデオは複雑な力学系の時間的変化を離散的な画像列の形で表現している。 ダイナミックなシステムを学ぶことで制御可能なビデオを生成することは、コンピュータビジョンコミュニティにおいて重要で未熟なトピックである。 本稿では,静的画像とテキストキャプションから高制御可能なビデオを生成するための新しいフレームワークTiV-ODEを提案する。 具体的には, 非線形常微分方程式の集合として複素力学系を表現するために, 神経常微分方程式 (neural ordinary differential equation)~(neural odes) を活用した。 このフレームワークは、望まれるダイナミック性とコンテンツの両方でビデオを生成することができる。 実験では、高度に制御可能で視覚的に一貫したビデオを生成するための提案手法と、動的システムのモデリング能力を示す。 全体として、この作業は複雑な動的シーンを処理できる高度な制御可能なビデオ生成モデルを開発するための重要なステップである。

Videos depict the change of complex dynamical systems over time in the form of discrete image sequences. Generating controllable videos by learning the dynamical system is an important yet underexplored topic in the computer vision community. This paper presents a novel framework, TiV-ODE, to generate highly controllable videos from a static image and a text caption. Specifically, our framework leverages the ability of Neural Ordinary Differential Equations~(Neural ODEs) to represent complex dynamical systems as a set of nonlinear ordinary differential equations. The resulting framework is capable of generating videos with both desired dynamics and content. Experiments demonstrate the ability of the proposed method in generating highly controllable and visually consistent videos, and its capability of modeling dynamical systems. Overall, this work is a significant step towards developing advanced controllable video generation models that can handle complex and dynamic scenes.
翻訳日:2023-03-10 14:22:31 公開日:2023-03-09
# WASD: より活発な話者検出データセット

WASD: A Wilder Active Speaker Detection Dataset ( http://arxiv.org/abs/2303.05321v1 )

ライセンス: Link先を確認
Tiago Roxo, Joana C. Costa, Pedro R. M. In\'acio, Hugo Proen\c{c}a(参考訳) AVA-ActiveSpeaker (AVA) モデルでは, 音声と顔の特徴のみを用いて, AVA-ActiveSpeaker (AVA) において優れた結果が得られる。 このアプローチは映画設定(ava)に適用できるが、制約の少ない条件には適していない。 そこで本研究では,現在のasdにおいて,音声と顔の2つのキーコンポーネントをターゲットとすることで,難易度を高めたwasd(wilder active speaker detection)データセットを提案する。 WASDは、最適条件から監視設定まで5つのカテゴリに分類され、オーディオと顔データの戦術的障害を伴うASDに対する漸進的な課題を含んでいる。 我々は、最先端モデルを選択し、WASDの2つのグループ、イージー(協調的設定)とハード(音声および/または顔は特に劣化している)でその性能を評価する。 結果はこう示しています 1) WASD Easyグループでは,AVAトレーニングモデルでは,Hardモデルでは性能が劣りながら,最先端のパフォーマンスを維持している。 2)AVAと簡易データとの類似性 3)WASDのトレーニングは,特に聴覚障害や監視設定において,モデル性能をAVAレベルに向上させるものではない。 このことは、AVAが野生のASDのためのモデルを準備しておらず、現在のアプローチはそのような条件に対処するには不十分であることを示している。 提案されたデータセットには、ASDの新しいソースを提供するためのボディデータアノテーションも含まれており、https://github.com/Tiago-Roxo/WASDで利用可能である。

Current Active Speaker Detection (ASD) models achieve great results on AVA-ActiveSpeaker (AVA), using only sound and facial features. Although this approach is applicable in movie setups (AVA), it is not suited for less constrained conditions. To demonstrate this limitation, we propose a Wilder Active Speaker Detection (WASD) dataset, with increased difficulty by targeting the two key components of current ASD: audio and face. Grouped into 5 categories, ranging from optimal conditions to surveillance settings, WASD contains incremental challenges for ASD with tactical impairment of audio and face data. We select state-of-the-art models and assess their performance in two groups of WASD: Easy (cooperative settings) and Hard (audio and/or face are specifically degraded). The results show that: 1) AVA trained models maintain a state-of-the-art performance in WASD Easy group, while underperforming in the Hard one, showing the 2) similarity between AVA and Easy data; and 3) training in WASD does not improve models performance to AVA levels, particularly for audio impairment and surveillance settings. This shows that AVA does not prepare models for wild ASD and current approaches are subpar to deal with such conditions. The proposed dataset also contains body data annotations to provide a new source for ASD, and is available at https://github.com/Tiago-Roxo/WASD.
翻訳日:2023-03-10 14:22:16 公開日:2023-03-09
# クリフォード回路による吸収状態相転移

Absorbing State Phase Transition with Clifford Circuits ( http://arxiv.org/abs/2303.05317v1 )

ライセンス: Link先を確認
Nastasia Makki, Nicolai Lang, Hans Peter B\"uchler(参考訳) 非平衡相転移の臨界挙動の修正における量子揺らぎの役割は、根本的なが未解決の問題である。 本研究では,コヒーレントと古典力学の両方を含む接触過程を行うキュービットの1次元鎖の吸収状態相転移について検討する。 我々は,安定化器形式に記述可能な状態を持つ離散時間量子モデルを採用し,大規模システム規模の効率的なシミュレーションを可能にした。 抽出された臨界指数は、このクリフォード回路モデルの吸収状態相転移が有向パーコレーション普遍性クラスに属することを示す。 これは、量子揺らぎの包含が、必ずしも純粋古典系の非平衡相転移の臨界挙動を変化させるとは限らないことを示唆する。 最後に、我々は解析を非クリフォード回路モデルに拡張し、小さな系における仮スケーリング解析により、有向パーコレーション普遍性クラスと一致する臨界指数が明らかとなる。

The role of quantum fluctuations in modifying the critical behavior of non-equilibrium phase transitions is a fundamental but unsolved question. In this study, we examine the absorbing state phase transition of a 1D chain of qubits undergoing a contact process that involves both coherent and classical dynamics. We adopt a discrete-time quantum model with states that can be described in the stabilizer formalism, and therefore allows for an efficient simulation of large system sizes. The extracted critical exponents indicate that the absorbing state phase transition of this Clifford circuit model belongs to the directed percolation universality class. This suggests that the inclusion of quantum fluctuations does not necessarily alter the critical behavior of non-equilibrium phase transitions of purely classical systems. Finally, we extend our analysis to a non-Clifford circuit model, where a tentative scaling analysis in small systems reveals critical exponents that are also consistent with the directed percolation universality class.
翻訳日:2023-03-10 14:21:50 公開日:2023-03-09
# 共鳴励起と光子相関を用いたhBNにおける量子エミッタの高速スペクトル拡散の研究

Investigating the fast spectral diffusion of a quantum emitter in hBN using resonant excitation and photon correlations ( http://arxiv.org/abs/2303.05315v1 )

ライセンス: Link先を確認
Clarisse Fournier, Kenji Watanabe, Takashi Taniguchi, St\'ephanie Buil, Julien Barjon, Jean-Pierre Hermier, Aymeric Delteil(参考訳) 均一で不均質なデファスメント過程を識別し特徴付ける能力は、固体量子光学において不可欠である。 特に、線幅拡大につながるスペクトル拡散は、光子検出率の逆数よりも、関連する時間スケールが短い場合の証明が困難である。 ここでは、共鳴レーザー励起と2次光子相関の組み合わせにより、そのような高速なダイナミクスにアクセスできることを示す。 共振レーザ駆動は、スペクトル拡散を強度変動に変換し、2階コヒーレンス関数 $g^{(2)}(\tau)$ の散乱光の符号を残す。 本研究では,電子線が生成する色中心の高速スペクトル拡散を,六方晶窒化ホウ素の2次元材料で実験的に検討する。 様々なレーザーパワーで10桁以上の遅延時間を測定する量子エミッタの$g^{(2)}(\tau)$関数は、スペクトルジャンプの間にフーリエ制限された単一光子(t_2/2t_1 \sim 1$)を放出しながら、色中心が数十マイクロ秒の特徴的な時間スケールでスペクトル拡散を経験することを示す。

The ability to identify and characterize homogeneous and inhomogeneous dephasing processes is crucial in solid-state quantum optics. In particular, spectral diffusion leading to line broadening is difficult to evidence when the associated timescale is shorter than the inverse of the photon detection rate. Here, we show that a combination of resonant laser excitation and second-order photon correlations allows to access such fast dynamics. The resonant laser drive converts spectral diffusion into intensity fluctuations, leaving a signature in the second-order coherence function $g^{(2)}(\tau)$ of the scattered light that can be characterized using two-photon coincidences -- which simultaneously provides the homogeneous dephasing time. We experimentally implement this method to investigate the fast spectral diffusion of a color center generated by an electron beam in the two-dimensional material hexagonal boron nitride. The $g^{(2)}(\tau)$ function of the quantum emitter measured over more than ten orders of magnitude of delay times, at various laser powers, establishes that the color center experiences spectral diffusion at a characteristic timescale of a few tens of microseconds, while emitting Fourier-limited single photons ($T_2/2T_1 \sim 1$) between spectral jumps.
翻訳日:2023-03-10 14:21:35 公開日:2023-03-09
# 3DGen: 3次元遅延拡散によるメッシュ生成

3DGen: Triplane Latent Diffusion for Textured Mesh Generation ( http://arxiv.org/abs/2303.05371v1 )

ライセンス: Link先を確認
Anchit Gupta, Wenhan Xiong, Yixin Nie, Ian Jones, Barlas O\u{g}uz(参考訳) 画像生成のための遅延拡散モデルは、大量導入を実現するための品質閾値を超えた。 近年、この成功を3Dドメインで再現するための一連の研究が進められており、ポイントクラウドVAE、トリプレーン表現、ニューラル暗黙表面、微分レンダリングベースのトレーニングなどの技術が導入されている。 この方向にさらに一歩進み、これらの開発を2段階のパイプラインで組み合わせます。 1) テクスチャメッシュの潜在表現を学習できる三面体VAE 2)三面体の特徴を生成する条件拡散モデル。 このアーキテクチャで初めて、複数のカテゴリにわたる高品質なテクスチャや非テキストの3dメッシュを、1つのgpu上で数秒で条件付きかつ無条件に生成できる。 メッシュの品質とテクスチャ生成に対するイメージコンディショニングと非コンディショナリ生成において、従来よりも大幅に優れていた。 さらに,モデルから大規模データセットへのスケーラビリティを実証し,品質と多様性を向上させる。 コードとトレーニングされたモデルをリリースします。

Latent diffusion models for image generation have crossed a quality threshold which enabled them to achieve mass adoption. Recently, a series of works have made advancements towards replicating this success in the 3D domain, introducing techniques such as point cloud VAE, triplane representation, neural implicit surfaces and differentiable rendering based training. We take another step along this direction, combining these developments in a two-step pipeline consisting of 1) a triplane VAE which can learn latent representations of textured meshes and 2) a conditional diffusion model which generates the triplane features. For the first time this architecture allows conditional and unconditional generation of high quality textured or untextured 3D meshes across multiple diverse categories in a few seconds on a single GPU. It outperforms previous work substantially on image-conditioned and unconditional generation on mesh quality as well as texture generation. Furthermore, we demonstrate the scalability of our model to large datasets for increased quality and diversity. We will release our code and trained models.
翻訳日:2023-03-10 14:15:49 公開日:2023-03-09
# 事前学習における自己監督型視覚表現学習の再考と形状推定

Rethinking Self-Supervised Visual Representation Learning in Pre-training for 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2303.05370v1 )

ライセンス: Link先を確認
Hongsuk Choi, Hyeongjin Nam, Taeryung Lee, Gyeongsik Moon, Kyoung Mu Lee(参考訳) 近年,自己教師付き表現学習(SSL)手法は,物体検出などの視覚タスクの事前学習において,ImageNet分類よりも優れている。 しかし、その3次元人体ポーズと形状推定(3DHPSE)に対する影響は疑問視されており、その標的は人間の独特なクラスに固定されており、SSLと固有のタスクギャップがある。 我々はSSLの効果を実証的に研究し分析し、3DHPSEの事前学習方法と比較した。 2Dアノテーションベースの事前トレーニングと合成データ事前トレーニングは、ラベルのコスト削減を目的としたSSLのモチベーションを共有している。 弱いスーパービジョンや微調整の源として広く利用されているが、訓練前の情報源として言及されていない。 SSLメソッドは、複数の3DHPSEベンチマークでトレーニング済みのImageNet分類を平均7.7%下回る。 対照的に、事前トレーニングデータの量がはるかに少ないにもかかわらず、2Dアノテーションベースの事前トレーニングは、すべてのベンチマークの精度を改善し、微調整中により高速な収束を示す。 我々の観察では、現在のSSLの3DHPSEへの初歩的な適用に挑戦し、事前トレーニングの側面における他のデータ型の価値を啓蒙する。

Recently, a few self-supervised representation learning (SSL) methods have outperformed the ImageNet classification pre-training for vision tasks such as object detection. However, its effects on 3D human body pose and shape estimation (3DHPSE) are open to question, whose target is fixed to a unique class, the human, and has an inherent task gap with SSL. We empirically study and analyze the effects of SSL and further compare it with other pre-training alternatives for 3DHPSE. The alternatives are 2D annotation-based pre-training and synthetic data pre-training, which share the motivation of SSL that aims to reduce the labeling cost. They have been widely utilized as a source of weak-supervision or fine-tuning, but have not been remarked as a pre-training source. SSL methods underperform the conventional ImageNet classification pre-training on multiple 3DHPSE benchmarks by 7.7% on average. In contrast, despite a much less amount of pre-training data, the 2D annotation-based pre-training improves accuracy on all benchmarks and shows faster convergence during fine-tuning. Our observations challenge the naive application of the current SSL pre-training to 3DHPSE and relight the value of other data types in the pre-training aspect.
翻訳日:2023-03-10 14:15:35 公開日:2023-03-09
# 可変サイズ圧縮によるデータ依存一般化境界

Data-dependent Generalization Bounds via Variable-Size Compressibility ( http://arxiv.org/abs/2303.05369v1 )

ライセンス: Link先を確認
Milad Sefidgaran and Abdellatif Zaidi(参考訳) 本稿では,本稿で新たに紹介する「可変サイズ圧縮性」フレームワークのレンズを通して,一般化誤差に関する新しいデータ依存上界を確立する。 この枠組みでは、アルゴリズムの一般化誤差は入力データの可変サイズの「圧縮率」にリンクされる。 これは、未知の分布ではなく、与えられた入力データの経験的尺度に依存する境界を持つことが示される。 私たちが確立する新しい一般化境界は、テール境界、期待上のテール境界、そして予想内境界である。 さらに,本フレームワークは,入力データの任意の関数に対する一般境界を導出し,確率変数を出力することも可能であることを示した。 特に、これらの一般境界は、いくつかの既存のPAC-Bayesおよび特別なケースとして回収されるデータ依存の内在的次元ベース境界を仮定し、改善する可能性がある。 例えば、一般化誤差を最適化軌道に接続し、プロセスの速度歪み次元、プロセスのR\enyi情報次元、およびメートル法平均次元と様々な興味深い関係を明らかにする、新しいデータ依存内在次元ベース境界を確立する。

In this paper, we establish novel data-dependent upper bounds on the generalization error through the lens of a "variable-size compressibility" framework that we introduce newly here. In this framework, the generalization error of an algorithm is linked to a variable-size 'compression rate' of its input data. This is shown to yield bounds that depend on the empirical measure of the given input data at hand, rather than its unknown distribution. Our new generalization bounds that we establish are tail bounds, tail bounds on the expectation, and in-expectations bounds. Moreover, it is shown that our framework also allows to derive general bounds on any function of the input data and output hypothesis random variables. In particular, these general bounds are shown to subsume and possibly improve over several existing PAC-Bayes and data-dependent intrinsic dimension-based bounds that are recovered as special cases, thus unveiling a unifying character of our approach. For instance, a new data-dependent intrinsic dimension based bounds is established, which connects the generalization error to the optimization trajectories and reveals various interesting connections with rate-distortion dimension of process, R\'enyi information dimension of process, and metric mean dimension.
翻訳日:2023-03-10 14:15:15 公開日:2023-03-09
# 量子公開鍵による暗号化

Encryption with Quantum Public Keys ( http://arxiv.org/abs/2303.05368v1 )

ライセンス: Link先を確認
Alex B. Grilo, Or Sattath, Quoc-Huy Vu(参考訳) 古典的プロトコルよりも弱い計算仮定に依存する量子暗号プロトコルの構築を見つけることは重要な問題である。 近年,ブラックボックス方式の古典的設定では不可能であるが,一方の関数から不要な転送や多要素計算が構築できることが示されている。 本研究では,一方向関数や弱い仮定から量子公開鍵暗号スキームを構築する問題について検討する。 まず、IND-CPAセキュリティの定義をこの設定に再検討する。 そこで我々は,一方方向関数からの量子公開鍵暗号,擬似乱数関数様状態と擬似乱数関数様状態との3つのスキームを提案する。

It is an important question to find constructions of quantum cryptographic protocols which rely on weaker computational assumptions than classical protocols. Recently, it has been shown that oblivious transfer and multi-party computation can be constructed from one-way functions, whereas this is impossible in the classical setting in a black-box way. In this work, we study the question of building quantum public-key encryption schemes from one-way functions and even weaker assumptions. Firstly, we revisit the definition of IND-CPA security to this setting. Then, we propose three schemes for quantum public-key encryption from one-way functions, pseudorandom function-like states with proof of deletion and pseudorandom function-like states, respectively.
翻訳日:2023-03-10 14:14:56 公開日:2023-03-09
# LiDARセグメンテーションにおける距離ビュー表現の再考

Rethinking Range View Representation for LiDAR Segmentation ( http://arxiv.org/abs/2303.05367v1 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Runnan Chen and Yuexin Ma and Xinge Zhu and Yikang Li and Yuenan Hou and Yu Qiao and Ziwei Liu(参考訳) LiDARセグメンテーションは自律運転知覚に不可欠である。 近年の傾向は、従来のレンジビュー表現よりもパフォーマンスが良い点やボクセルベースの手法が好まれている。 本研究では,強力な視野モデルを構築する上で重要な要素をいくつか提示する。 我々は,「一対一」マッピング,意味的不整合,形状変形が,射影からの効果的な学習を妨げる可能性があることを観察する。 RangeFormer(リンク) - ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含むフルサイクルのフレームワークで、レンジビューからLiDARポイントクラウドの学習と処理をより良く処理する。 我々はさらに,任意の低解像度の2dレンジイメージをトレーニングしながら,良好な3dセグメンテーション精度を維持しながら,レンジビュー(str)ストラテジーからスケーラブルなトレーニングを導入する。 そこで本研究では,ScribbleKITTI,SemanticKITTI,nuScenes,ScribbleKITTIと競合するLiDARセマンティックおよびパノプティクスセグメンテーションベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。

LiDAR segmentation is crucial for autonomous driving perception. Recent trends favor point- or voxel-based methods as they often yield better performance than the traditional range view representation. In this work, we unveil several key factors in building powerful range view models. We observe that the "many-to-one" mapping, semantic incoherence, and shape deformation are possible impediments against effective learning from range view projections. We present RangeFormer -- a full-cycle framework comprising novel designs across network architecture, data augmentation, and post-processing -- that better handles the learning and processing of LiDAR point clouds from the range view. We further introduce a Scalable Training from Range view (STR) strategy that trains on arbitrary low-resolution 2D range images, while still maintaining satisfactory 3D segmentation accuracy. We show that, for the first time, a range view method is able to surpass the point, voxel, and multi-view fusion counterparts in the competing LiDAR semantic and panoptic segmentation benchmarks, i.e., SemanticKITTI, nuScenes, and ScribbleKITTI.
翻訳日:2023-03-10 14:14:43 公開日:2023-03-09
# 第11回教育用ソフトウェアの定理証明コンポーネントに関する国際ワークショップ

Proceedings 11th International Workshop on Theorem Proving Components for Educational Software ( http://arxiv.org/abs/2303.05360v1 )

ライセンス: Link先を確認
Pedro Quaresma (University of Coimbra Portugal), Jo\~ao Marcos (Federal University of Rio Grande do Norte, Brazil), Walther Neuper (Johannes Kepler University Linz, Austria)(参考訳) セドゥ級数(Thedu series)は、中等教育における数学の直感的な方法から、STEM教育におけるより形式的なアプローチへのスムーズな移行を追求し、定理証明技術の力を活用して、この移行に対するソフトウェアサポートを好んでいる。 以下は、この事業にどのように貢献するかの簡単な説明である。 第11回 Theorem Proving Components for Educational Software (ThEdu'22) は、第8回連邦論理会議 (FLoC 2022) のサテライトイベントであり、2022年7月31日~8月12日、ハイファ、イスラエルのThEdu'22は活気あるワークショップであり、Thierry Dana-Picard (Jerusalem College of Technology, Israel, Israel) とYoni Zohar (Bar Ilan University, Tel Aviv, Israel) の招待講演と4つのコントリビューションがあった。 その後、公募が発行され、7件の論文が寄せられた。 これらの提案は、各コントリビューションに対して少なくとも3つの注意深いレポートを共同作成したレビュアーによって受け入れられました。 修正された論文は、現在巻にまとめられている。 この巻のコントリビューションはThEduの幅広い範囲の忠実な表現であり、自動化推論の研究に焦点を絞ったもの、教育環境での可能な応用の追跡を失わないもの、教育環境における応用、自動推論ツールや方法の応用に焦点を当てたものなどである。 ボリュームエディターたちは、この一連の論文が定理証明ベースのソフトウェアの開発をさらに促進し、コンピュータ科学者、数学者、教育利害関係者の相互理解を向上させることを期待している。 2023年7月1日 - 2023年7月4日 - 2023年7月4日 - イタリア・ローマで、第29回自動推論国際会議(CADE 2023)のサテライトイベントが開催される。

The ThEdu series pursues the smooth transition from an intuitive way of doing mathematics at secondary school to a more formal approach to the subject in STEM education, while favouring software support for this transition by exploiting the power of theorem-proving technologies. What follows is a brief description of how the present volume contributes to this enterprise. The 11th International Workshop on Theorem Proving Components for Educational Software (ThEdu'22), was a satellite event of the 8th Federated Logic Conference (FLoC 2022), July 31-August 12, 2022, Haifa, Israel ThEdu'22 was a vibrant workshop, with two invited talk by Thierry Dana-Picard (Jerusalem College of Technology, Jerusalem, Israel) and Yoni Zohar (Bar Ilan University, Tel Aviv, Israel) and four contributions. An open call for papers was then issued, and attracted seven submissions. Those submissions have been accepted by our reviewers, who jointly produced at least three careful reports on each of the contributions. The resulting revised papers are collected in the present volume. The contributions in this volume are a faithful representation of the wide spectrum of ThEdu, ranging from those more focused on the automated deduction research, not losing track of the possible applications in an educational setting, to those focused on the applications, in educational settings, of automated deduction tools and methods. We, the volume editors, hope that this collection of papers will further promote the development of theorem-proving based software, and that it will allow to improve the mutual understanding between computer scientists, mathematicians and stakeholders in education. While this volume goes to press, the next edition of the ThEdu workshop is being prepared: ThEdu'23 will be a satellite event of the 29th international Conference on Automated Deduction (CADE 2023), July 1-4, 2023, Rome, Italy.
翻訳日:2023-03-10 14:14:19 公開日:2023-03-09
# 生徒の目を通してChatGPTを見る:TikTokデータの解析

Seeing ChatGPT Through Students' Eyes: An Analysis of TikTok Data ( http://arxiv.org/abs/2303.05349v1 )

ライセンス: Link先を確認
Anna-Carolina Haensch, Sarah Ball, Markus Herklotz, Frauke Kreuter(参考訳) ChatGPTのような先進的な大規模言語モデルは近年、学生の間でも注目されている。 しかし、学界におけるchatgptに関する議論は波及しているが、生徒のchatgptの使い方や知覚について、講師や教師の間で理解を深める必要がある。 このギャップに対処するため、2023年2月にTikTokで利用可能なChatGPTの内容を分析した。 TikTokは、30歳未満の個人の間で急速に成長しているソーシャルメディアプラットフォームだ。 具体的には、#chatgptでタグ付けされた英語で最も人気のある100本のビデオのコンテンツを分析した。 私たちが研究したビデオのほとんどは、エッセイやコードを書くといったタスクにChatGPTを使うことを促進しました。 さらに、多くのビデオがAI検出器について論じており、他のツールがChatGPT出力を変換してこれらの検出器を騙す方法に焦点を当てている。 また、ChatGPTを講師として扱う方法や、教職や学級の教師として扱う方法についての教育者間の議論も反映している。 しかし、TikTokで分析されたクリップに欠けているのは、ChatGPTが生み出すコンテンツについて、トレーニングデータに不利で不誠実な議論をするビデオだ。

Advanced large language models like ChatGPT have gained considerable attention recently, including among students. However, while the debate on ChatGPT in academia is making waves, more understanding is needed among lecturers and teachers on how students use and perceive ChatGPT. To address this gap, we analyzed the content on ChatGPT available on TikTok in February 2023. TikTok is a rapidly growing social media platform popular among individuals under 30. Specifically, we analyzed the content of the 100 most popular videos in English tagged with #chatgpt, which collectively garnered over 250 million views. Most of the videos we studied promoted the use of ChatGPT for tasks like writing essays or code. In addition, many videos discussed AI detectors, with a focus on how other tools can help to transform ChatGPT output to fool these detectors. This also mirrors the discussion among educators on how to treat ChatGPT as lecturers and teachers in teaching and grading. What is, however, missing from the analyzed clips on TikTok are videos that discuss ChatGPT producing content that is nonsensical or unfaithful to the training data.
翻訳日:2023-03-10 14:13:11 公開日:2023-03-09
# TGDataset: 数十万のテレグラムチャンネルのコレクション

TGDataset: a Collection of Over One Hundred Thousand Telegram Channels ( http://arxiv.org/abs/2303.05345v1 )

ライセンス: Link先を確認
Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini(参考訳) Telegramは、今日のデジタル時代で最も人気のあるインスタントメッセージングアプリの一つだ。 プライベートメッセージングサービスの提供に加えて、Telegramはそのチャンネルとともに、大勢の人々にコンテンツを素早くブロードキャストするための有効なメディア(COVID-19の発表)でもあるが、残念ながら急進的なイデオロギーの広めや攻撃の調整(Capitol Hillの暴動)にも役立っている。 本稿では,120,979のTelegramチャネルと4億以上のメッセージを含む新たなデータセットであるTGDatasetについて述べる。 データ収集プロセスの簡単な紹介の後、データセット内で話される言語と、英語チャンネルでカバーされるトピックを分析します。 最後に、我々のデータセットがTelegramのエコシステムをよりよく理解し、疑わしいニュースの拡散を研究するために非常に有用なユースケースについて議論する。 生のデータセットに加えて、データセットの分析に使用したスクリプトと、Sabmykと呼ばれる新しい陰謀論のネットワークに属するチャネルのリストもリリースしました。

Telegram is one of the most popular instant messaging apps in today's digital age. In addition to providing a private messaging service, Telegram, with its channels, represents a valid medium for rapidly broadcasting content to a large audience (COVID-19 announcements), but, unfortunately, also for disseminating radical ideologies and coordinating attacks (Capitol Hill riot). This paper presents the TGDataset, a new dataset that includes 120,979 Telegram channels and over 400 million messages, making it the largest collection of Telegram channels to the best of our knowledge. After a brief introduction to the data collection process, we analyze the languages spoken within our dataset and the topic covered by English channels. Finally, we discuss some use cases in which our dataset can be extremely useful to understand better the Telegram ecosystem, as well as to study the diffusion of questionable news. In addition to the raw dataset, we released the scripts we used to analyze the dataset and the list of channels belonging to the network of a new conspiracy theory called Sabmyk.
翻訳日:2023-03-10 14:12:50 公開日:2023-03-09
# 深層ロボットアプライアンス学習の最近の進歩:強化学習の視点から

Recent Advances of Deep Robotic Affordance Learning: A Reinforcement Learning Perspective ( http://arxiv.org/abs/2303.05344v1 )

ライセンス: Link先を確認
Xintong Yang, Ze Ji, Jing Wu, Yu-kun Lai(参考訳) 心理学の分野で提案された一般的な概念として、余裕は人間が環境を理解し、交流できる重要な能力の1つとみなされてきた。 簡単に言えば、特定の対象またはより一般的には環境の一部に適用されるエージェントの作用の可能性と効果をキャプチャする。 本稿では,ロボット作業を支援するために,手頃な価格の概念を用いたデータ駆動型手法を開発することを目的とした,近年の深層ロボットアベイランス学習(DRAL)の成果を概観する。 まず、これらの論文を強化学習(RL)の観点から分類し、RLと余裕の関連性を引き出す。 各カテゴリの技術的な詳細を議論し、その限界を特定する。 さらにそれらを要約し、観察、行動、余裕表現、データ収集、実世界の展開といった側面から将来の課題を特定します。 最後に最終意見が述べられ、任意の行動の結果の予測を含むためにrlベースのアフォーアンス定義の将来的な方向性を提案する。

As a popular concept proposed in the field of psychology, affordance has been regarded as one of the important abilities that enable humans to understand and interact with the environment. Briefly, it captures the possibilities and effects of the actions of an agent applied to a specific object or, more generally, a part of the environment. This paper provides a short review of the recent developments of deep robotic affordance learning (DRAL), which aims to develop data-driven methods that use the concept of affordance to aid in robotic tasks. We first classify these papers from a reinforcement learning (RL) perspective, and draw connections between RL and affordances. The technical details of each category are discussed and their limitations identified. We further summarise them and identify future challenges from the aspects of observations, actions, affordance representation, data-collection and real-world deployment. A final remark is given at the end to propose a promising future direction of the RL-based affordance definition to include the predictions of arbitrary action consequences.
翻訳日:2023-03-10 14:12:31 公開日:2023-03-09
# 触覚予測を用いたイチゴクラスタ操作の深い機能予測制御

Deep Functional Predictive Control for Strawberry Cluster Manipulation using Tactile Prediction ( http://arxiv.org/abs/2303.05393v1 )

ライセンス: Link先を確認
Kiyanoush Nazari, Gabriele Gandolfi, Zeynab Talebpour, Vishnu Rajendran, Paolo Rocco, Amir Ghalamzan E.(参考訳) 本稿では,ロボットプッシュ作業中のロボットインタラクション(pri)問題に対処するための新しいアプローチを提案する。 このアプローチでは、触覚予測に基づくデータ駆動のフォワードモデルを使用して、ロボットの触覚指を使用して、イチゴの茎のような物体の将来の動きをコントローラに知らせる。 このモデルは深部機能予測制御(d-FPC)システムに統合され、押下時の触覚指の茎の変位を制御する。 ロボットの指で目的の軌道に沿って3Dで物体を押すことは、特に物体が安定して把握されていない場合、非常に非線形で複雑な物理的ロボットの相互作用である。 提案手法は, 予測地平線における触覚指の軸運動を制御する。 提案するFPCの有効性は,実ロボットがクラスタ内でイチゴを押すという一連のテストで実証された。 その結果,イチゴ以外のロボット操作作業において,D-FPCコントローラがPRIを制御できることが示唆された。 提案手法はロボット操作タスクにおけるPRI問題に対処するための有望な方向を提供する。 今後の作業は、他のオブジェクトやタスクへのアプローチの一般化を探求する。

This paper introduces a novel approach to address the problem of Physical Robot Interaction (PRI) during robot pushing tasks. The approach uses a data-driven forward model based on tactile predictions to inform the controller about potential future movements of the object being pushed, such as a strawberry stem, using a robot tactile finger. The model is integrated into a Deep Functional Predictive Control (d-FPC) system to control the displacement of the stem on the tactile finger during pushes. Pushing an object with a robot finger along a desired trajectory in 3D is a highly nonlinear and complex physical robot interaction, especially when the object is not stably grasped. The proposed approach controls the stem movements on the tactile finger in a prediction horizon. The effectiveness of the proposed FPC is demonstrated in a series of tests involving a real robot pushing a strawberry in a cluster. The results indicate that the d-FPC controller can successfully control PRI in robotic manipulation tasks beyond the handling of strawberries. The proposed approach offers a promising direction for addressing the challenging PRI problem in robotic manipulation tasks. Future work will explore the generalisation of the approach to other objects and tasks.
翻訳日:2023-03-10 14:06:07 公開日:2023-03-09
# グリーンで強力 - 量子化による大規模コード生成モデルの開発

Greener yet Powerful: Taming Large Code Generation Models with Quantization ( http://arxiv.org/abs/2303.05378v1 )

ライセンス: Link先を確認
Xiaokai Wei, Sujan Gonugondla, Wasi Ahmad, Shiqi Wang, Baishakhi Ray, Haifeng Qian, Xiaopeng Li, Varun Kumar, Zijian Wang, Yuchen Tian, Qing Sun, Ben Athiwaratkun, Mingyue Shang, Murali Krishna Ramanathan, Parminder Bhatia, Bing Xiang(参考訳) mlを活用したコード生成は、開発者が自然言語プロンプトに基づいてインテリジェントにコードブロックを生成することで、より生産的なコードを書くことを支援することを目的としている。 近年,事前学習された大規模ディープラーニングモデルがコード生成の境界を大きく押し上げ,印象的なパフォーマンスを実現している。 その大きな力にもかかわらず、多数のモデルパラメータは、開発者が標準のラップトップや中規模のサーバーを使ってコードを開発できる通常のソフトウェア開発環境において、それらを適用するという重大な脅威を生じさせます。 このような大きなモデルは、炭素フットプリントだけでなく、(メモリ、レイテンシ、ドルといった面で)重要なリソース使用量を生み出します。 モデル圧縮はこれらの課題に対処するための有望なアプローチである。 視覚データやテキストデータに使用される大規模な事前学習モデルを圧縮する手法が提案されている。 利用可能な多くの圧縮技術のうち、量子化はコード生成タスクにほとんど適用可能であることが判明した。 量子化は低ビット整数を持つモデルパラメータ(例: int8)を表すため、モデルのサイズと実行遅延はいずれもそのようなint表現の恩恵を受ける。 異なる次元にわたるコード生成タスクに対する量子化モデルの影響を幅広く研究する。 (i)資源使用量及び炭素フットプリント (ii)精度、及び (iii)堅牢性。 この目的のために、体系的な実験を通じて、通常のラップトップで6億ドルのモデルでも、かなりの精度や堅牢さの低下なしに実行できる量子化手法のレシピを見つけました。 さらに、このレシピはコード要約タスクにも容易に適用できることがわかった。

ML-powered code generation aims to assist developers to write code in a more productive manner, by intelligently generating code blocks based on natural language prompts. Recently, large pretrained deep learning models have substantially pushed the boundary of code generation and achieved impressive performance. Despite their great power, the huge number of model parameters poses a significant threat to adapting them in a regular software development environment, where a developer might use a standard laptop or mid-size server to develop her code. Such large models incur significant resource usage (in terms of memory, latency, and dollars) as well as carbon footprint. Model compression is a promising approach to address these challenges. Several techniques are proposed to compress large pretrained models typically used for vision or textual data. Out of many available compression techniques, we identified that quantization is mostly applicable for code generation task as it does not require significant retraining cost. As quantization represents model parameters with lower-bit integer (e.g., int8), the model size and runtime latency would both benefit from such int representation. We extensively study the impact of quantized model on code generation tasks across different dimension: (i) resource usage and carbon footprint, (ii) accuracy, and (iii) robustness. To this end, through systematic experiments we find a recipe of quantization technique that could run even a $6$B model in a regular laptop without significant accuracy or robustness degradation. We further found the recipe is readily applicable to code summarization task as well.
翻訳日:2023-03-10 14:03:28 公開日:2023-03-09
# PC-JeDi:高エネルギー物理における粒子雲生成のための拡散

PC-JeDi: Diffusion for Particle Cloud Generation in High Energy Physics ( http://arxiv.org/abs/2303.05376v1 )

ライセンス: Link先を確認
Matthew Leigh, Debajyoti Sengupta, Guillaume Qu\'etant, John Andrew Raine, Knut Zoch, and Tobias Golling(参考訳) 本稿では,PC-JeDiと呼ばれる高エネルギー物理学においてジェットを効率よく生成する手法を提案する。 本手法は, 変圧器と組み合わさったスコアベース拡散モデルを利用して, ジェットを粒子雲として生成する作業に適している。 PC-JeDiは、発生したジェットの質を評価するいくつかの指標にわたる現在の最先端手法との競合性能を達成する。 他のモデルよりも遅いが、拡散モデルに必要な多くの前方通過のため、従来の詳細なシミュレーションよりもかなり高速である。 さらに、PC-JeDiは条件生成を用いて、2つの異なる粒子、トップクォークとグルーオンに対して所望の質量と横運動量を持つジェットを生成する。

In this paper, we present a new method to efficiently generate jets in High Energy Physics called PC-JeDi. This method utilises score-based diffusion models in conjunction with transformers which are well suited to the task of generating jets as particle clouds due to their permutation equivariance. PC-JeDi achieves competitive performance with current state-of-the-art methods across several metrics that evaluate the quality of the generated jets. Although slower than other models, due to the large number of forward passes required by diffusion models, it is still substantially faster than traditional detailed simulation. Furthermore, PC-JeDi uses conditional generation to produce jets with a desired mass and transverse momentum for two different particles, top quarks and gluons.
翻訳日:2023-03-10 14:03:02 公開日:2023-03-09
# 非線形近似に対する量子スプライン

Quantum Splines for Non-Linear Approximations ( http://arxiv.org/abs/2303.05428v1 )

ライセンス: Link先を確認
Antonio Macaluso, Luca Clissa, Stefano Lodi, Claudio Sartori(参考訳) 量子コンピューティングは効率的なコンピューティングのための新しいパラダイムを提供し、多くのaiアプリケーションがパフォーマンス向上の恩恵を受ける可能性がある。 しかし、主な制限は、データ内の複雑な関係の表現を阻害する線形操作への制約である。 本研究では非線形近似のための量子スプラインの効率的な実装を提案する。 特に,考えられるパラメータをまず議論し,HHLアルゴリズムを利用してスプライン係数の推定値を得るのに最も便利な方法を選択する。 次に,MLで採用されている最も一般的なアクティベーション機能の評価ルーチンとして,QSplineの性能について検討する。 最後に、HHLの古典的な代替品との詳細な比較を示す。

Quantum Computing offers a new paradigm for efficient computing and many AI applications could benefit from its potential boost in performance. However, the main limitation is the constraint to linear operations that hampers the representation of complex relationships in data. In this work, we propose an efficient implementation of quantum splines for non-linear approximation. In particular, we first discuss possible parametrisations, and select the most convenient for exploiting the HHL algorithm to obtain the estimates of spline coefficients. Then, we investigate QSpline performance as an evaluation routine for some of the most popular activation functions adopted in ML. Finally, a detailed comparison with classical alternatives to the HHL is also presented.
翻訳日:2023-03-10 13:56:30 公開日:2023-03-09
# 無限幅ニューラルネットワークを用いた数百万例のカーネル回帰

Kernel Regression with Infinite-Width Neural Networks on Millions of Examples ( http://arxiv.org/abs/2303.05420v1 )

ライセンス: Link先を確認
Ben Adlam, Jaehoon Lee, Shreyas Padhy, Zachary Nado, and Jasper Snoek(参考訳) ニューラルカーネルは、多様で非標準なデータモダリティのパフォーマンスを劇的に向上させたが、以前はより小さなデータセットに制限されていた、はるかに多くの計算を必要とする。 本研究では,多くのGPUで計算処理を並列化することでこの問題に対処する。 これを分散された条件付き共役勾配アルゴリズムと組み合わせて、カーネルの大規模な回帰を可能にする(最大500万の例)。 このアプローチを用いて,CIFAR-5mデータセットにおいて,数桁のニューラルネットワークのスケーリング法則について検討した。 CIFAR-10トレーニングデータセットを20倍に拡張するためにデータ拡張を用いることで、テスト精度は91.2\%となる(純粋なカーネル法ではSotA)。 さらに、他のデータモダリティに基づく神経核を探索し、soma法と競合するタンパク質および小分子予測タスクの結果を得た。

Neural kernels have drastically increased performance on diverse and nonstandard data modalities but require significantly more compute, which previously limited their application to smaller datasets. In this work, we address this by massively parallelizing their computation across many GPUs. We combine this with a distributed, preconditioned conjugate gradients algorithm to enable kernel regression at a large scale (i.e. up to five million examples). Using this approach, we study scaling laws of several neural kernels across many orders of magnitude for the CIFAR-5m dataset. Using data augmentation to expand the original CIFAR-10 training dataset by a factor of 20, we obtain a test accuracy of 91.2\% (SotA for a pure kernel method). Moreover, we explore neural kernels on other data modalities, obtaining results on protein and small molecule prediction tasks that are competitive with SotA methods.
翻訳日:2023-03-10 13:56:21 公開日:2023-03-09
# FaceXHuBERT:自己監督型音声表現学習を用いたテキストレス音声駆動E(X)抑圧型3次元顔アニメーション合成

FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation Synthesis Using Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2303.05416v1 )

ライセンス: Link先を確認
Kazi Injamamul Haque and Zerrin Yumak(参考訳) 本稿では, 音声のパーソナライズされた微妙な手がかり(アイデンティティ, 感情, ためらいなど)をキャプチャできる, テキストレス音声駆動3次元顔画像生成手法FaceXHuBERTを提案する。 また、背景雑音に対して非常に頑丈で、様々な状況(例えば複数の人)で録音された音声を処理できる。 近年のアプローチでは、音声とテキストの両方を入力として、エンドツーエンドのディープラーニングを採用し、顔全体の顔アニメーションを生成する。 しかし、表現力のある音声3d顔アニメーションデータセットの不足が大きなボトルネックとなっている。 結果のアニメーションには、正確なリップシンク、表現性、個人固有の情報、一般化性に関する問題がまだ残っている。 大語彙を使わずに音声に語彙情報と非語彙情報の両方を組み込む訓練プロセスにおいて,自己教師付き事前学習型ヒューバートモデルを効果的に採用した。 さらに、二元的感情条件と話者識別によるトレーニングの指導は、最も微妙な顔の動きを区別する。 基礎構造と最先端技術と比較し, 客観的, 主観的評価を行った。 知覚的ユーザ調査の結果,本手法がアニメーションの現実性に対して,最新技術と比較して78%の時間に優れた結果をもたらすことが示された。 さらに,変換器などの複雑なシーケンシャルモデルを用いることをなくすために,本手法は4倍高速である。 論文を読む前に補足ビデオを見ることを強く推奨する。 また、GitHubリポジトリリンクによる実装と評価コードも提供します。

This paper presents FaceXHuBERT, a text-less speech-driven 3D facial animation generation method that allows to capture personalized and subtle cues in speech (e.g. identity, emotion and hesitation). It is also very robust to background noise and can handle audio recorded in a variety of situations (e.g. multiple people speaking). Recent approaches employ end-to-end deep learning taking into account both audio and text as input to generate facial animation for the whole face. However, scarcity of publicly available expressive audio-3D facial animation datasets poses a major bottleneck. The resulting animations still have issues regarding accurate lip-synching, expressivity, person-specific information and generalizability. We effectively employ self-supervised pretrained HuBERT model in the training process that allows us to incorporate both lexical and non-lexical information in the audio without using a large lexicon. Additionally, guiding the training with a binary emotion condition and speaker identity distinguishes the tiniest subtle facial motion. We carried out extensive objective and subjective evaluation in comparison to ground-truth and state-of-the-art work. A perceptual user study demonstrates that our approach produces superior results with respect to the realism of the animation 78% of the time in comparison to the state-of-the-art. In addition, our method is 4 times faster eliminating the use of complex sequential models such as transformers. We strongly recommend watching the supplementary video before reading the paper. We also provide the implementation and evaluation codes with a GitHub repository link.
翻訳日:2023-03-10 13:56:00 公開日:2023-03-09
# 適合度テストとしてのデータ品質モニタリングのための高速カーネル手法

Fast kernel methods for Data Quality Monitoring as a goodness-of-fit test ( http://arxiv.org/abs/2303.05413v1 )

ライセンス: Link先を確認
Gaia Grosso, Nicol\`o Lai, Marco Letizia, Jacopo Pazzini, Marco Rando, Lorenzo Rosasco, Andrea Wulzer, Marco Zanetti(参考訳) 本稿では,粒子検出器のリアルタイム監視のための機械学習手法を提案する。 目的は、確率比仮説テストにより、正常な状況下でのデータ挙動を特徴付ける、参照データセットによる入ってくる実験データの互換性を評価することである。 このモデルはカーネルメソッドの現代的な実装に基づいており、十分なデータを与えられた連続関数を学習できる非パラメトリックアルゴリズムである。 結果として得られるアプローチは、データに存在する可能性のある異常の種類に非依存で効率的である。 本研究はドリフト管室ミューオン検出器の多変量データに対する本手法の有効性を示す。

We here propose a machine learning approach for monitoring particle detectors in real-time. The goal is to assess the compatibility of incoming experimental data with a reference dataset, characterising the data behaviour under normal circumstances, via a likelihood-ratio hypothesis test. The model is based on a modern implementation of kernel methods, nonparametric algorithms that can learn any continuous function given enough data. The resulting approach is efficient and agnostic to the type of anomaly that may be present in the data. Our study demonstrates the effectiveness of this strategy on multivariate data from drift tube chamber muon detectors.
翻訳日:2023-03-10 13:55:36 公開日:2023-03-09
# 漸近量子多体傷

Asymptotic Quantum Many-Body Scars ( http://arxiv.org/abs/2303.05407v1 )

ライセンス: Link先を確認
Lorenzo Gotta, Sanjay Moudgalya, Leonardo Mazza(参考訳) 量子多体散乱 (QMBS) として知られる, 有限サイズでの絡み合いの低い固有状態の正準粒子塔を特徴とする量子格子スピンモデルを考える。 エネルギースペクトルの近傍にある状態は、格子サイズが大きくなるにつれてエネルギーの差が漸近的にゼロに減少する低絡状態の族全体の構成に重畳されることを示す。 結果として、それらは熱力学的極限に発散する緩和時間を持ち、したがって、有限サイズのハミルトンの固有状態ではないにもかかわらず、正確な qmb の典型的な挙動を示す。 このような状態を、textit{asymptotic} QMBS と呼ぶ。 これらの状態は任意の有限サイズの任意のqmbと直交しており、それらの存在は、正確なqmbの存在がスペクトルの残りの部分において非熱性の重要なシグネチャを残していることを示している。 我々は、QMBSのパラダイムモデルであるSpin-1 XYモデルにおける数値シミュレーションを用いて研究を支援し、漸近的なQMBSを維持しながら正確なQMBSを破壊するモデルの弱い摂動を提示することで結論付ける。

We consider a quantum lattice spin model featuring exact quasiparticle towers of eigenstates with low entanglement at finite size, known as quantum many-body scars (QMBS). We show that the states in the neighboring part of the energy spectrum can be superposed to construct entire families of low-entanglement states whose energy variance decreases asymptotically to zero as the lattice size is increased. As a consequence, they have a relaxation time that diverges in the thermodynamic limit, and therefore exhibit the typical behavior of exact QMBS although they are not exact eigenstates of the Hamiltonian for any finite size. We refer to such states as \textit{asymptotic} QMBS. These states are orthogonal to any exact QMBS at any finite size, and their existence shows that the presence of an exact QMBS leaves important signatures of non-thermalness in the rest of the spectrum; therefore, QMBS-like phenomena can hide in what is typically considered the thermal part of the spectrum. We support our study using numerical simulations in the spin-1 XY model, a paradigmatic model for QMBS, and we conclude by presenting a weak perturbation of the model that destroys the exact QMBS while keeping the asymptotic QMBS.
翻訳日:2023-03-10 13:55:28 公開日:2023-03-09
# Spawrious:Spurious correlation Biasesの微妙な制御のためのベンチマーク

Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases ( http://arxiv.org/abs/2303.05470v1 )

ライセンス: Link先を確認
Aengus Lynch, Gb\`etondji J-S Dovonon, Jean Kaddour, Ricardo Silva(参考訳) スプリアス相関(英語版) (SC) の問題は、分類器がトレーニングデータのラベルと相関する非予測的特徴に依存するときに生じる。 例えば、分類器は、犬の画像の背景に基づいて犬種を誤分類することができる。 これは、バックグラウンドがトレーニングデータ内の他の品種と相関している場合に起こり、テスト時間中に誤分類が発生する。 以前のベンチマークデータセットでは、オーバー飽和や1対1(O2O)のSCのみを含むようなさまざまな問題に悩まされていたが、スプリアス属性とクラスのグループ間で発生する多対多(M2M)のSCは存在しない。 本稿では,異なる犬種と背景位置の急激な相関関係を含む画像分類ベンチマークスイートであるSpawrious-{O2O, M2M}-{Easy, Medium, Hard}を提案する。 このデータセットを作成するために,写真実写画像を生成するためのテキスト・ツー・イメージモデルと,不適切な画像をフィルタする画像キャプションモデルを用いる。 その結果得られたデータセットは、約152,000の画像を含む高品質である。 実験の結果,<60\%$精度のハードスリットにおいて,最先端の群ロバストネス法が耐久性に支障をきたすことがわかった。 モデルの誤分類を調べることで、スプリアスな背景に依存することを検出し、データセットが将来の研究を進める上で大きな課題となることを実証します。

The problem of spurious correlations (SCs) arises when a classifier relies on non-predictive features that happen to be correlated with the labels in the training data. For example, a classifier may misclassify dog breeds based on the background of dog images. This happens when the backgrounds are correlated with other breeds in the training data, leading to misclassifications during test time. Previous SC benchmark datasets suffer from varying issues, e.g., over-saturation or only containing one-to-one (O2O) SCs, but no many-to-many (M2M) SCs arising between groups of spurious attributes and classes. In this paper, we present Spawrious-{O2O, M2M}-{Easy, Medium, Hard}, an image classification benchmark suite containing spurious correlations among different dog breeds and background locations. To create this dataset, we employ a text-to-image model to generate photo-realistic images, and an image captioning model to filter out unsuitable ones. The resulting dataset is of high quality, containing approximately 152,000 images. Our experimental results demonstrate that state-of-the-art group robustness methods struggle with Spawrious, most notably on the Hard-splits with $<60\%$ accuracy. By examining model misclassifications, we detect reliances on spurious backgrounds, demonstrating that our dataset provides a significant challenge to drive future research.
翻訳日:2023-03-10 13:47:46 公開日:2023-03-09
# トレーニングデータ分散設計による機械学習による定量的MRIモデル縮退の解消

Resolving quantitative MRI model degeneracy with machine learning via training data distribution design ( http://arxiv.org/abs/2303.05464v1 )

ライセンス: Link先を確認
Michele Guerreri, Sean Epstein, Hojjat Azadbakht, Hui Zhang(参考訳) 定量的MRI(qMRI)は、これらの未知量と測定されたMRI信号とを関連付けるモデルを介して、組織特性を非侵襲的にマッピングすることを目的としている。 従来モデル適合性が必要だったこれらの未知を推定する – 反復的な手順が、ワンショット機械学習(ml)アプローチで可能になった。 このようなパラメータ推定は、固有のqMRI信号モデルデジェネシーによって複雑になる可能性がある: 組織特性の異なる組み合わせは同じ信号を生成する。 多くの利点にもかかわらず、MLアプローチがこの問題を解決できるかどうかは不明だ。 実験的な証拠の増加は、mlアプローチがモデル変性の影響を受けやすいことを示唆している。 ここでは、MLがこの問題に対処できる適切な状況下で実証する。 mlに基づくパラメータ推定におけるトレーニングデータ分布の影響に関する最近の研究に触発されて,トレーニングデータ分布の設計によるモデル縮退の解消を提案する。 我々は,モデルのデジェネラシーの分類を行い,提案する攻撃に適応可能な1種類のデジェネラシーを同定した。 この戦略は,標準的なマルチシェル拡散MRIデータを用いた修正NODDIモデルを用いて実証された。 以上の結果から,MLを用いた組織特性の正確な評価が可能なトレーニングセット設計の重要性が示唆された。

Quantitative MRI (qMRI) aims to map tissue properties non-invasively via models that relate these unknown quantities to measured MRI signals. Estimating these unknowns, which has traditionally required model fitting - an often iterative procedure, can now be done with one-shot machine learning (ML) approaches. Such parameter estimation may be complicated by intrinsic qMRI signal model degeneracy: different combinations of tissue properties produce the same signal. Despite their many advantages, it remains unclear whether ML approaches can resolve this issue. Growing empirical evidence appears to suggest ML approaches remain susceptible to model degeneracy. Here we demonstrate under the right circumstances ML can address this issue. Inspired by recent works on the impact of training data distributions on ML-based parameter estimation, we propose to resolve model degeneracy by designing training data distributions. We put forward a classification of model degeneracies and identify one particular kind of degeneracies amenable to the proposed attack. The strategy is demonstrated successfully using the Revised NODDI model with standard multi-shell diffusion MRI data as an exemplar. Our results illustrate the importance of training set design which has the potential to allow accurate estimation of tissue properties with ML.
翻訳日:2023-03-10 13:47:21 公開日:2023-03-09
# Pose-based Anomaly Detection の課題と可能性

Understanding the Challenges and Opportunities of Pose-based Anomaly Detection ( http://arxiv.org/abs/2303.05463v1 )

ライセンス: Link先を確認
Ghazal Alinezhad Noghre, Armin Danesh Pazho, Vinit Katariya, Hamed Tabkhi(参考訳) ポーズに基づく異常検出(英: pose-based anomaly detection)は、映像フレームから抽出された人間のポーズを調べることで異常事象や行動を検出するビデオ解析技術である。 ポーズデータを利用することで、プライバシーや倫理的な問題を軽減できる。 また、計算面では、ポーズベースのモデルの複雑さはピクセルベースのアプローチよりも低い。 しかし、騒がしいスケルトンデータ、重要なピクセル情報を失うこと、機能が不十分なことなど、より多くの課題が導入されている。 これらの問題は、現実世界のシナリオを十分に代表する異常検出データセットの欠如によって悪化する。 本研究では,2つの既知のビデオ異常データセットの特徴を分析し,その特徴を定量化し,ポーズに基づく異常検出の難しさをよりよく理解する。 我々は、ビデオ異常検出のためのポーズと軌跡の識別力とその文脈に基づく有効性について、一歩前進する。 これらの実験は、ポーズベースの異常検出と現在利用可能なデータセットをより理解する上で有益であると考えています。 これは、よりルーシッドな視点で異常検出のタスクに取り組む研究者の助けとなり、より優れたパフォーマンスでロバストなモデルの開発を加速する。

Pose-based anomaly detection is a video-analysis technique for detecting anomalous events or behaviors by examining human pose extracted from the video frames. Utilizing pose data alleviates privacy and ethical issues. Also, computation-wise, the complexity of pose-based models is lower than pixel-based approaches. However, it introduces more challenges, such as noisy skeleton data, losing important pixel information, and not having enriched enough features. These problems are exacerbated by a lack of anomaly detection datasets that are good enough representatives of real-world scenarios. In this work, we analyze and quantify the characteristics of two well-known video anomaly datasets to better understand the difficulties of pose-based anomaly detection. We take a step forward, exploring the discriminating power of pose and trajectory for video anomaly detection and their effectiveness based on context. We believe these experiments are beneficial for a better comprehension of pose-based anomaly detection and the datasets currently available. This will aid researchers in tackling the task of anomaly detection with a more lucid perspective, accelerating the development of robust models with better performance.
翻訳日:2023-03-10 13:47:02 公開日:2023-03-09
# 非接触指紋システムのためのcnnモデルを用いたプレゼンテーションアタック検出

Presentation Attack Detection with Advanced CNN Models for Noncontact-based Fingerprint Systems ( http://arxiv.org/abs/2303.05459v1 )

ライセンス: Link先を確認
Sandip Purnapatra, Conor Miller-Lynch, Stephen Miner, Yu Liu, Keivan Bahmani, Soumyabrata Dey, Stephanie Schuckers(参考訳) タッチベースの指紋生体計測は、いくつかの分野で応用される最も一般的な生体計測の1つである。 同じ表面に触れた多くの人々が非接触型ソリューションを探す動機となったため、潜伏指紋の存在や衛生問題といったタッチベースの技術に関連する問題があった。 ここ数年、コンタクトレスの指紋認証システムは、カメラを搭載したあらゆるデバイスを指紋リーダーに変える能力によって、増加と需要が高まっている。 しかし、非接触ベースの方法の利点を十分に活用する前に、バイオメトリックスコミュニティは、プレゼンテーション攻撃に対するシステムのレジリエンスなど、いくつかの懸念を解決する必要がある。 主な障害の1つは、不適切なspoofとライブデータを持つ限られた公開データセットである。 本研究では,7500点以上の4指画像と14,000点以上の手動分割単指画像と1万点以上の合成指先(ディープフェイク)からなる提示攻撃検出データセットを開発した。 パッドデータセットは、fidoプロトコルに従って、3つの異なる難易度レベルの6つの異なるプレゼンテーションアタックインスツルメンツ(pai)から5種類のpai素材と、手動焦点の異なるスマートフォンカメラから収集された。 我々は,DenseNet-121モデルとNasNetMobileモデルを用いてPADアルゴリズムを開発し,攻撃提示分類誤り率(APCER)0.14\%,Bonafide提示分類誤差率(BPCER)0.18\%のPAD精度を実現した。 また,不確定な実世界のテストシナリオを再現するために,未発見のspoof型に対するモデルのテスト結果も報告した。

Touch-based fingerprint biometrics is one of the most popular biometric modalities with applications in several fields. Problems associated with touch-based techniques such as the presence of latent fingerprints and hygiene issues due to many people touching the same surface motivated the community to look for non-contact-based solutions. For the last few years, contactless fingerprint systems are on the rise and in demand because of the ability to turn any device with a camera into a fingerprint reader. Yet, before we can fully utilize the benefit of noncontact-based methods, the biometric community needs to resolve a few concerns such as the resiliency of the system against presentation attacks. One of the major obstacles is the limited publicly available data sets with inadequate spoof and live data. In this publication, we have developed a Presentation attack detection (PAD) dataset of more than 7500 four-finger images and more than 14,000 manually segmented single-fingertip images, and 10,000 synthetic fingertips (deepfakes). The PAD dataset was collected from six different Presentation Attack Instruments (PAI) of three different difficulty levels according to FIDO protocols, with five different types of PAI materials, and different smartphone cameras with manual focusing. We have utilized DenseNet-121 and NasNetMobile models and our proposed dataset to develop PAD algorithms and achieved PAD accuracy of Attack presentation classification error rate (APCER) 0.14\% and Bonafide presentation classification error rate (BPCER) 0.18\%. We have also reported the test results of the models against unseen spoof types to replicate uncertain real-world testing scenarios.
翻訳日:2023-03-10 13:46:45 公開日:2023-03-09
# 強化学習における瞬時依存の注意

Beware of Instantaneous Dependence in Reinforcement Learning ( http://arxiv.org/abs/2303.05458v1 )

ライセンス: Link先を確認
Zhengmao Zhu, Yuren Liu, Honglong Tian, Yang Yu, Kun Zhang(参考訳) モデルベース強化学習(MBRL)において重要な役割を果たす環境モデルは、過去に基づく将来の状態を予測することを目的としている。 既存の著作物は通常、状態の瞬時依存、すなわち将来の状態変数が過去の状態から条件付き独立であると仮定して無視する。 しかし、多くのRL環境では瞬時依存が一般的である。 例えば、株式市場では、1株の変動がもう1株に素早く影響を与え、価格変動の解決が効果のそれよりも低いため、2株の間に即時依存が存在する可能性がある。 本稿では, 例外が少なく, 瞬時依存を無視した場合, MBRLにおける準最適政策学習がもたらされることを示す。 そこで本研究では,既存のMBRLアルゴリズムを瞬時依存性を考慮した簡易なプラグアンドプレイ手法を提案する。 2つのベンチマークを用いて,(1)可視化による即時依存の存在を確認し,(2)瞬時依存を無視した理論的知見が最適下限政策につながることを検証し,(3)即時依存による強化学習を効果的に実現し,政策性能を向上させることを検証する。

Playing an important role in Model-Based Reinforcement Learning (MBRL), environment models aim to predict future states based on the past. Existing works usually ignore instantaneous dependence in the state, that is, assuming that the future state variables are conditionally independent given the past states. However, instantaneous dependence is prevalent in many RL environments. For instance, in the stock market, instantaneous dependence can exist between two stocks because the fluctuation of one stock can quickly affect the other and the resolution of price change is lower than that of the effect. In this paper, we prove that with few exceptions, ignoring instantaneous dependence can result in suboptimal policy learning in MBRL. To address the suboptimality problem, we propose a simple plug-and-play method to enable existing MBRL algorithms to take instantaneous dependence into account. Through experiments on two benchmarks, we (1) confirm the existence of instantaneous dependence with visualization; (2) validate our theoretical findings that ignoring instantaneous dependence leads to suboptimal policy; (3) verify that our method effectively enables reinforcement learning with instantaneous dependence and improves policy performance.
翻訳日:2023-03-10 13:46:18 公開日:2023-03-09
# 境界内のパーソナライゼーション:大規模言語モデルとパーソナライズされたフィードバックのアライメントのためのリスク分類と政策枠組み

Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback ( http://arxiv.org/abs/2303.05453v1 )

ライセンス: Link先を確認
Hannah Rose Kirk, Bertie Vidgen, Paul R\"ottger, Scott A. Hale(参考訳) 大規模な言語モデル(llm)は、幅広いタスク用のコンテンツを生成するために使われており、chatgptのような製品インターフェースやbingのような検索エンジンとの統合により、今後数年間で利用者が増加するだろう。 これにより、モデルが人間の好みと一致し、安全で不正確な、有害なアウトプットを生成しないことを保証する必要性が高まる。 強化学習と人的フィードバック(rlhf)やレッドチーム化のようなアライメント技術は、いくつかの安全性の懸念を緩和し、モデル能力を向上させることができるが、総合的な微調整プロセスがユーザーの好みと価値の全範囲を適切に表現できる可能性は低い。 異なる人々は、言語や会話規範に対する好みや、コミュニケーションを導く価値やイデオロギーについて、正当な意見を異にすることがある。 マイクロレベルの嗜好学習プロセスを通じてLLMをパーソナライズすると、各ユーザとの整合性がよいモデルが得られる。 しかし、社会的に受け入れられ、安全なパーソナライゼーションの限界を定義するための規範的な課題はいくつかある。 本稿では,LLMをどうパーソナライズするか,どのようにしてパーソナライズすべきかを問う。 まず,llmと人的フィードバックを連携させる現在のパラダイムに関する文献をレビューし,その問題点について考察する。 (i)アライメントの意味に関する明快さの欠如 二 技術提供者が本質的に主観的嗜好及び価値観の定義を規定する傾向 (三)「クラウドワーカーの暴行」は、私たちが本当に同調しているドキュメントの欠如によって悪化します。 第2に、個人化されたLSMに関連する利益とリスクの分類を、個人や社会全体に対して提示する。 最後に,ユーザが個人化されたアライメントのメリットを享受できるとともに,国家的および組織的境界内で,安全で望ましくないllm-behavioursを抑制する3層ポリシフレームワークを提案する。

Large language models (LLMs) are used to generate content for a wide range of tasks, and are set to reach a growing audience in coming years due to integration in product interfaces like ChatGPT or search engines like Bing. This intensifies the need to ensure that models are aligned with human preferences and do not produce unsafe, inaccurate or toxic outputs. While alignment techniques like reinforcement learning with human feedback (RLHF) and red-teaming can mitigate some safety concerns and improve model capabilities, it is unlikely that an aggregate fine-tuning process can adequately represent the full range of users' preferences and values. Different people may legitimately disagree on their preferences for language and conversational norms, as well as on values or ideologies which guide their communication. Personalising LLMs through micro-level preference learning processes may result in models that are better aligned with each user. However, there are several normative challenges in defining the bounds of a societally-acceptable and safe degree of personalisation. In this paper, we ask how, and in what ways, LLMs should be personalised. First, we review literature on current paradigms for aligning LLMs with human feedback, and identify issues including (i) a lack of clarity regarding what alignment means; (ii) a tendency of technology providers to prescribe definitions of inherently subjective preferences and values; and (iii) a 'tyranny of the crowdworker', exacerbated by a lack of documentation in who we are really aligning to. Second, we present a taxonomy of benefits and risks associated with personalised LLMs, for individuals and society at large. Finally, we propose a three-tiered policy framework that allows users to experience the benefits of personalised alignment, while restraining unsafe and undesirable LLM-behaviours within (supra-)national and organisational bounds.
翻訳日:2023-03-10 13:45:57 公開日:2023-03-09
# VLCに基づくUDNの電力・干渉制御:強化学習アプローチ

Power and Interference Control for VLC-Based UDN: A Reinforcement Learning Approach ( http://arxiv.org/abs/2303.05448v1 )

ライセンス: Link先を確認
Xiao Tang, Sicong Liu(参考訳) 可視光通信(vlc)は、現代の短距離通信の有望なソリューションとして広く利用されている。 VLCネットワークにおけるLEDアレイの展開に関して、新たな超高密度ネットワーク(UDN)技術が採用され、VLCネットワークの容量が拡大する。 しかしながら、VLCベースのUDNにおける細胞間干渉(ICI)の軽減と効率的な電力制御の問題は依然として重要な課題である。 そこで本研究では,強化学習(RL)に基づくVLC UDNアーキテクチャを考案した。 細胞の配置は、ICIを緩和するために空間的再利用によって最適化される。 RLに基づくアルゴリズムは、複雑でダイナミックな環境でのシステムユーティリティを最大化し、電力と干渉制御のポリシーを動的に最適化する。 シミュレーションの結果,提案方式の優位性を実証し,エネルギー消費量とICIを削減しつつ,システムの有用性とデータレートを向上し,ベンチマーク方式より優れていた。

Visible light communication (VLC) has been widely applied as a promising solution for modern short range communication. When it comes to the deployment of LED arrays in VLC networks, the emerging ultra-dense network (UDN) technology can be adopted to expand the VLC network's capacity. However, the problem of inter-cell interference (ICI) mitigation and efficient power control in the VLC-based UDN is still a critical challenge. To this end, a reinforcement learning (RL) based VLC UDN architecture is devised in this paper. The deployment of the cells is optimized via spatial reuse to mitigate ICI. An RL-based algorithm is proposed to dynamically optimize the policy of power and interference control, maximizing the system utility in the complicated and dynamic environment. Simulation results demonstrate the superiority of the proposed scheme, it increase the system utility and achievable data rate while reducing the energy consumption and ICI, which outperforms the benchmark scheme.
翻訳日:2023-03-10 13:45:23 公開日:2023-03-09
# ネットワークにおける通信効率の高い協調的異種バンドイット

Communication-Efficient Collaborative Heterogeneous Bandits in Networks ( http://arxiv.org/abs/2303.05445v1 )

ライセンス: Link先を確認
Junghyun Lee, Laura Schmid, Se-Young Yun(参考訳) マルチエージェントのマルチアームドバンディット問題は、オンラインレコメンデーションシステムやワイヤレスネットワークなど、多くの現実のアプリケーションで広く使われているため、広く研究されている。 我々は、エージェントが与えられたグラフ上でコミュニケーションプロトコルを介してコラボレーションしながらグループ後悔を最小限にし、それぞれのエージェントが異なるアームセットを与えられるような設定を考える。 同一のアームセットを持つエージェントが汎用グラフ上で通信するか、異なるアームセットを持つエージェントが完全に連結されたグラフ上で通信するかである。 本研究では,所望の機能をすべて包含する,より一般的な問題設定を導入する。 本稿では,本手法とucbポリシーを併用したフラッディングプロトコルについて,まず,厳格な後悔の分析を行う。 そして,洪水による通信コストの低減を図るため,Flooding with absorption (FWA)と呼ばれる新しいプロトコルを提案する。 洪水に対するfwaの利用の利点について, 後悔と直観の理論的分析を行った。 最後に,fwaの使用による通信コストの低下は,洪水による性能低下を最小限に抑えつつも有意に低いことを実証的に検証した。

The multi-agent multi-armed bandit problem has been studied extensively due to its ubiquity in many real-life applications, such as online recommendation systems and wireless networking. We consider the setting where agents should minimize their group regret while collaborating over a given graph via some communication protocol and where each agent is given a different set of arms. Previous literature on this problem only considered one of the two desired features separately: agents with the same arm set communicate over a general graph, or agents with different arm sets communicate over a fully connected graph. In this work, we introduce a more general problem setting that encompasses all the desired features. For this novel setting, we first provide a rigorous regret analysis for the standard flooding protocol combined with the UCB policy. Then, to mitigate the issue of high communication costs incurred by flooding, we propose a new protocol called Flooding with Absorption (FWA). We provide a theoretical analysis of the regret bound and intuitions on the advantages of using FWA over flooding. Lastly, we verify empirically that using FWA leads to significantly lower communication costs despite minimal regret performance loss compared to flooding.
翻訳日:2023-03-10 13:45:07 公開日:2023-03-09
# エントロピー関数の臨界点としての共形場理論基底状態

Conformal Field Theory Ground States as Critical Points of an Entropy Function ( http://arxiv.org/abs/2303.05444v1 )

ライセンス: Link先を確認
Ting-Chun Lin, John McGreevy(参考訳) 1+1D共形場理論の基底状態で満たされるエントロピー式を導出する。 この公式は基底状態がエントロピー関数の臨界点であることを示している。 この公式は、従来の代数的定義とは異なる共形場理論の情報理論的基準として機能する可能性がある。 これらの発見に加えて、同じ証明法を用いて共形場理論の6つの大域共形生成体を基底状態から抽出する。 我々は、異なる臨界格子モデル上で、優れた一致でテストすることで結果を検証する。

We derive an entropy formula satisfied by the ground states of 1+1D conformal field theories. The formula implies that the ground state is the critical point of an entropy function. We conjecture that this formula may serve as an information-theoretic criterion for conformal field theories, which differs from the conventional algebraic definition. In addition to these findings, we use the same proof method to extract the six global conformal generators of the conformal field theory from its ground state. We validate our results by testing them on different critical lattice models with excellent agreement.
翻訳日:2023-03-10 13:44:48 公開日:2023-03-09
# Mark My Words: ImageNetのウォーターマーク画像の危険性

Mark My Words: Dangers of Watermarked Images in ImageNet ( http://arxiv.org/abs/2303.05498v1 )

ライセンス: Link先を確認
Kirill Bykov, Klaus-Robert M\"uller, Marina M.-C. H\"ohne(参考訳) トレーニング済みネットワーク、特にImageNetでトレーニングされたネットワークの利用は、コンピュータビジョンにおいて一般的な実践となっている。 しかし、以前の研究では、ImageNetデータセットのかなりの数の画像が透かしを含んでいることが示されており、トレーニング済みのネットワークは潜伏空間内の透かしパターンなどのアーティファクトの学習に影響を受けやすい。 本稿では,一般的な事前学習済みアーキテクチャがどのような振る舞いを示すかを評価し,どのクラスが最も影響を受けるかを決定することを目的とする。 さらに,抽出された特徴に対する透かしの影響について検討する。 中国式電子透かしが「カートン」クラスのみに影響を与えるという通説とは対照的に、「監視」、「法廷」、「アプロン」、「安全」といった様々なイメージネットクラスが散発的な相関に依存していることを分析により明らかにしている。 最後に,インプリントに最も敏感なImageNet事前学習ネットワークの特徴抽出層からの符号化を無視することで,微調整ネットワークにおけるこの問題を軽減するための簡単なアプローチを提案する。

The utilization of pre-trained networks, especially those trained on ImageNet, has become a common practice in Computer Vision. However, prior research has indicated that a significant number of images in the ImageNet dataset contain watermarks, making pre-trained networks susceptible to learning artifacts such as watermark patterns within their latent spaces. In this paper, we aim to assess the extent to which popular pre-trained architectures display such behavior and to determine which classes are most affected. Additionally, we examine the impact of watermarks on the extracted features. Contrary to the popular belief that the Chinese logographic watermarks impact the "carton" class only, our analysis reveals that a variety of ImageNet classes, such as "monitor", "broom", "apron" and "safe" rely on spurious correlations. Finally, we propose a simple approach to mitigate this issue in fine-tuned networks by ignoring the encodings from the feature-extractor layer of ImageNet pre-trained networks that are most susceptible to watermark imprints.
翻訳日:2023-03-10 13:39:27 公開日:2023-03-09
# コントラスト調整による定常マルコフ過程の学習

Learning Stationary Markov Processes with Contrastive Adjustment ( http://arxiv.org/abs/2303.05497v1 )

ライセンス: Link先を確認
Ludvig Bergenstr{\aa}hle, Jens Lagergren, Joakim Lundeberg(参考訳) 定常分布がデータ分布と一致するマルコフ遷移核を学習するための新しい最適化アルゴリズムである \emph{contrastive adjustment} を導入する。 コントラスト調整は特定の遷移分布の族に限らず、連続状態空間と離散状態空間の両方でデータをモデル化するのに使うことができる。 ノイズアンネールサンプリングに関する最近の研究に触発されて、サンプル忠実度と混合速度を交換できる特定の遷移演算子である \emph{noise kernel} を提案する。 学習されたマルコフ連鎖の定常性はデータ多様体の局所的な探索を可能にし、人間のフィードバックによって出力を反復的に洗練することができる。 コントラスト調整で訓練したノイズカーネルの性能を,現在の最先端生成モデルと比較し,様々な画像合成タスクにおける有望な結果を示す。

We introduce a new optimization algorithm, termed \emph{contrastive adjustment}, for learning Markov transition kernels whose stationary distribution matches the data distribution. Contrastive adjustment is not restricted to a particular family of transition distributions and can be used to model data in both continuous and discrete state spaces. Inspired by recent work on noise-annealed sampling, we propose a particular transition operator, the \emph{noise kernel}, that can trade mixing speed for sample fidelity. We show that contrastive adjustment is highly valuable in human-computer design processes, as the stationarity of the learned Markov chain enables local exploration of the data manifold and makes it possible to iteratively refine outputs by human feedback. We compare the performance of noise kernels trained with contrastive adjustment to current state-of-the-art generative models and demonstrate promising results on a variety of image synthesis tasks.
翻訳日:2023-03-10 13:39:09 公開日:2023-03-09
# ハイパーグラフ推論のためのスパースとローカルネットワーク

Sparse and Local Networks for Hypergraph Reasoning ( http://arxiv.org/abs/2303.05496v1 )

ライセンス: Link先を確認
Guangxuan Xiao, Leslie Pack Kaelbling, Jiajun Wu, Jiayuan Mao(参考訳) 入力事実(例えばariがcharlieの祖父母であるかどうか)からエンティティ間の関係を推論するには、一般的にクエリで言及されていない他のエンティティ(例えばcharlieの親)の明示的な考慮が必要である。 本稿では,sparse and local hypergraph neural networks (spaloc) を用いて,実世界の大規模領域でこの問題を解くための学習手法を提案する。 spalocは、伝統的な論理に基づく推論からの2つの観察によって動機づけられている: 関係推論は通常、局所的に適用される(つまり、少数の個人のみを含む)。 これらの特性を利用して,(1)ハイパーグラフニューラルネットワークのスパーステンソル表現を用いて学習と推論を効率化し,(2)スパース表現を奨励するためにトレーニング中にスパース化損失を適用し,(3)トレーニング中の新しい情報飽和度に基づくサンプリングプロセスに基づいてサブサンプリングを行う。 SpaLocは、いくつかの実世界の大規模知識グラフ推論ベンチマークで最先端のパフォーマンスを実現し、10kノード以上の実世界の知識グラフにハイパーグラフニューラルネットワークを適用するための最初のフレームワークである。

Reasoning about the relationships between entities from input facts (e.g., whether Ari is a grandparent of Charlie) generally requires explicit consideration of other entities that are not mentioned in the query (e.g., the parents of Charlie). In this paper, we present an approach for learning to solve problems of this kind in large, real-world domains, using sparse and local hypergraph neural networks (SpaLoc). SpaLoc is motivated by two observations from traditional logic-based reasoning: relational inferences usually apply locally (i.e., involve only a small number of individuals), and relations are usually sparse (i.e., only hold for a small percentage of tuples in a domain). We exploit these properties to make learning and inference efficient in very large domains by (1) using a sparse tensor representation for hypergraph neural networks, (2) applying a sparsification loss during training to encourage sparse representations, and (3) subsampling based on a novel information sufficiency-based sampling process during training. SpaLoc achieves state-of-the-art performance on several real-world, large-scale knowledge graph reasoning benchmarks, and is the first framework for applying hypergraph neural networks on real-world knowledge graphs with more than 10k nodes.
翻訳日:2023-03-10 13:38:52 公開日:2023-03-09
# ハイパーグラフニューラルネットワークの表現性と一般化について

On the Expressiveness and Generalization of Hypergraph Neural Networks ( http://arxiv.org/abs/2303.05490v1 )

ライセンス: Link先を確認
Zhezheng Luo, Jiayuan Mao, Joshua B. Tenenbaum, Leslie Pack Kaelbling(参考訳) この拡張抽象化はハイパーグラフニューラルネットワーク(HyperGNN)の表現性、学習、および(構造的な)一般化を分析するためのフレームワークを記述する。 具体的には、HyperGNNが有限データセットからどのように学習し、任意の入力サイズのグラフ推論問題に構造的に一般化するかに焦点を当てる。 私たちの最初の貢献は、ハイパーgnnの表現力、すなわち彼らが実現できる関数の集合の詳細な分析です。 我々の結果はそれらが解決できる問題の階層であり、深さやエッジアリティといった様々なハイパーパラメータで定義される。 次に、これらのニューラルネットワークの学習特性を解析し、特に、有限個の小さなグラフでトレーニングし、より大きなグラフに一般化する方法に注目し、構造一般化と呼ぶ。 我々の理論的結果は経験的結果によってさらに支持される。

This extended abstract describes a framework for analyzing the expressiveness, learning, and (structural) generalization of hypergraph neural networks (HyperGNNs). Specifically, we focus on how HyperGNNs can learn from finite datasets and generalize structurally to graph reasoning problems of arbitrary input sizes. Our first contribution is a fine-grained analysis of the expressiveness of HyperGNNs, that is, the set of functions that they can realize. Our result is a hierarchy of problems they can solve, defined in terms of various hyperparameters such as depths and edge arities. Next, we analyze the learning properties of these neural networks, especially focusing on how they can be trained on a finite set of small graphs and generalize to larger graphs, which we term structural generalization. Our theoretical results are further supported by the empirical results.
翻訳日:2023-03-10 13:38:29 公開日:2023-03-09
# 非線形およびカオス時系列予測のための量子ノイズ誘起貯留層計算の最適化

Optimizing Quantum Noise-induced Reservoir Computing for Nonlinear and Chaotic Time Series Prediction ( http://arxiv.org/abs/2303.05488v1 )

ライセンス: Link先を確認
Daniel Fry, Amol Deshmukh, Samuel Yen-Chi Chen, Vladimir Rastunkov, Vanio Markov(参考訳) 量子機械学習(QML)における時系列予測手法として,量子貯水池計算(QRC)が強く取り上げられている。 この研究は、時系列予測を効果的に改善するために、量子貯水池のリソースノイズに最適化を適用する最初のものである。 そこで本研究では,量子回路最適化の新しい手法を提案する。 我々は,量子ノイズ誘導型貯水池(QNIR)コンピュータにおいて,量子ハードウェアノイズを必須資源として利用して非自明な出力シーケンスを生成するスズキらの研究に基づき,人工ノイズチャネルをパラメータ化する新しい最適化QNIRを実現する。 パラメータ化リソースノイズの最適化には,デュアルアニーリングと進化的最適化を用いる。 このアプローチのもうひとつの重要な要素は、人工ノイズモデル数、量子ビット数、絡み合いスキームの複雑さ、回路深度における量子リソースの削減です。 主要な結果は、一般的なマルチコンポーネントノイズモデルから単一リセットノイズモデルへの還元である。 貯留層コンピュータは非線形力学系のモデリングに特に適している。 本稿では,貯水池コンピュータとリカレントニューラルネットワークのための一変量時系列ベンチマークである NARMA と Mackey-Glass システムについて考察する。 最近、QRCは少数の量子ビットで優れた予測能力を示した。 最適化手法に基づくQNIRシミュレーションは、12量子ビット貯水池と1つのノイズモデルのみを用いて、NARMAベンチマークで高い性能を示す。 マッキーグラスシステムの100ステップ以上の予測性能がカオスシステムで実証されている。 さらに、これらの結果はQNIRのリソースノイズ要求に関する貴重な洞察を提供する。

Quantum reservoir computing (QRC) has been strongly emerging as a time series prediction approach in quantum machine learning (QML). This work is the first to apply optimization to resource noise in a quantum reservoir to effectively improve time series prediction. Based on this development, we propose a new approach to quantum circuit optimization. We build on the work of Suzuki et al., who used quantum hardware noise as an essential resource in quantum noise-induced reservoir (QNIR) computer for generating non-trivial output sequences, and we achieve a novel, optimized QNIR, in which the artificial noise channels are parameterized. To optimize the parameterized resource noise, we use dual annealing and evolutionary optimization. Another essential component of our approach is reducing quantum resources in the number of artificial noise models, number of qubits, entanglement scheme complexity, and circuit depth. A key result is the reduction from a general multi-component noise model to a single reset noise model. Reservoir computers are especially well-suited for modelling nonlinear dynamical systems. In this paper we consider NARMA and Mackey-Glass systems, which are common univariate time series benchmarks for reservoir computers and recurrent neural networks. Recently QRCs have demonstrated good prediction capability with small numbers of qubits. QNIR simulations based on our optimization approach demonstrate high performance on NARMA benchmarks while using only a 12-qubit reservoir and a single noise model. Good prediction performances over 100 timesteps ahead for the Mackey-Glass system are demonstrated in the chaotic regime. In addition, these results provide valuable insight into resource noise requirements for the QNIR.
翻訳日:2023-03-10 13:38:15 公開日:2023-03-09
# 実証と指導から合理的サブゴールを学ぶ

Learning Rational Subgoals from Demonstrations and Instructions ( http://arxiv.org/abs/2303.05487v1 )

ライセンス: Link先を確認
Zhezheng Luo, Jiayuan Mao, Jiajun Wu, Tom\'as Lozano-P\'erez, Joshua B. Tenenbaum, Leslie Pack Kaelbling(参考訳) 本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。 我々のフレームワークの中核は合理的サブゴール(RSG)の集合であり、基本的には環境状態上のバイナリ分類器である。 RSGは弱いアノテートされたデータから学習することができ、抽象的なタスク記述と組み合わせて、当初エージェントに未知の用語(例えば、収集木(英語版)、工船(英語版)、そして船(英語版)を横断する)で表される。 我々のフレームワークは、例えばタスク収集木はタスククラフトボートの補助的なサブゴールであるなど、RSG間の依存関係も発見します。 目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTのような既成の計画アルゴリズムを促進し、有用なサブゴールをプランナーの経路ポイントとして設定することで、パフォーマンス時間効率を大幅に改善する。

We present a framework for learning useful subgoals that support efficient long-term planning to achieve novel goals. At the core of our framework is a collection of rational subgoals (RSGs), which are essentially binary classifiers over the environmental states. RSGs can be learned from weakly-annotated data, in the form of unsegmented demonstration trajectories, paired with abstract task descriptions, which are composed of terms initially unknown to the agent (e.g., collect-wood then craft-boat then go-across-river). Our framework also discovers dependencies between RSGs, e.g., the task collect-wood is a helpful subgoal for the task craft-boat. Given a goal description, the learned subgoals and the derived dependencies facilitate off-the-shelf planning algorithms, such as A* and RRT, by setting helpful subgoals as waypoints to the planner, which significantly improves performance-time efficiency.
翻訳日:2023-03-10 13:37:51 公開日:2023-03-09
# 逆ラベル雑音をもつハーフスペースの効率的なテスト可能学習

Efficient Testable Learning of Halfspaces with Adversarial Label Noise ( http://arxiv.org/abs/2303.05485v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Vasilis Kontonis, Sihan Liu, Nikos Zarifis(参考訳) ガウス分布下での逆ラベル雑音の存在下での半空間の検証可能な学習に対して,最初の多項式時間アルゴリズムを与える。 最近導入されたテスト可能な学習モデルでは、データがテスタを通過すると、データに対する堅牢な学習者の出力を信頼するように、テスタ-ラーナーを作成する必要がある。 私たちのtester-learnerは$\poly(d/\eps)$で実行し、ミスクラス化エラーである$o(\opt)+\eps$でハーフスペースを出力する。 技術的レベルでは,データ分布がガウスと十分に類似していることを保証するために,適切なテスタによって拡張された反復的ソフトローカライズ手法を用いる。

We give the first polynomial-time algorithm for the testable learning of halfspaces in the presence of adversarial label noise under the Gaussian distribution. In the recently introduced testable learning model, one is required to produce a tester-learner such that if the data passes the tester, then one can trust the output of the robust learner on the data. Our tester-learner runs in time $\poly(d/\eps)$ and outputs a halfspace with misclassification error $O(\opt)+\eps$, where $\opt$ is the 0-1 error of the best fitting halfspace. At a technical level, our algorithm employs an iterative soft localization technique enhanced with appropriate testers to ensure that the data distribution is sufficiently similar to a Gaussian.
翻訳日:2023-03-10 13:37:32 公開日:2023-03-09
# Cal-QL: 効率的なオンラインファインチューニングのためのオフラインRL事前トレーニング

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning ( http://arxiv.org/abs/2303.05479v1 )

ライセンス: Link先を確認
Mitsuhiko Nakamoto, Yuexiang Zhai, Anikait Singh, Max Sobol Mark, Yi Ma, Chelsea Finn, Aviral Kumar, Sergey Levine(参考訳) オフライン強化学習(rl)の説得力のあるユースケースは、既存のデータセットからポリシー初期化を得ることである。 しかし、いくつかの既存のオフラインRL手法は、オンラインの微調整性能が劣る傾向にある。 一方、オンラインRL手法はオンラインインタラクションを通じて効果的に学習することができるが、オフラインデータを組み込むことに苦慮しているため、探索が困難な設定や事前学習が必要な設定では極めて遅くなる可能性がある。 本稿では,オフラインデータから効果的な初期化を学習する手法を考案し,高速なオンライン微調整機能を実現する。 我々の手法である校正Q-ラーニング(Cal-QL)は、オフラインデータから学習ポリシーの価値を過小評価する保守的値関数の初期化を学習し、学習Q-値が妥当なスケールであるという意味で校正する。 この性質をキャリブレーション(キャリブレーション)と呼び、学習されたポリシーの真値関数に対する下限と、単に振舞いポリシーであるかもしれない他の(最適でない)参照ポリシーの値に対する上限を正式に定義する。 このような校正値関数を学習するオフラインRLアルゴリズムは、オンラインの微調整を効果的に行うことができ、オンラインの微調整におけるオフライン初期化の利点を享受できることを示す。 実際には、Cal-QLは1行のコード変更でオフラインRLのための既存の保守的なメソッド上に実装できる。 実証的に、Cal-QLは、我々が本論文で研究した10/11の微調整ベンチマークタスクにおいて、最先端の手法よりも優れています。

A compelling use case of offline reinforcement learning (RL) is to obtain a policy initialization from existing datasets, which allows efficient fine-tuning with limited amounts of active online interaction. However, several existing offline RL methods tend to exhibit poor online fine-tuning performance. On the other hand, online RL methods can learn effectively through online interaction, but struggle to incorporate offline data, which can make them very slow in settings where exploration is challenging or pre-training is necessary. In this paper, we devise an approach for learning an effective initialization from offline data that also enables fast online fine-tuning capabilities. Our approach, calibrated Q-learning (Cal-QL) accomplishes this by learning a conservative value function initialization that underestimates the value of the learned policy from offline data, while also being calibrated, in the sense that the learned Q-values are at a reasonable scale. We refer to this property as calibration, and define it formally as providing a lower bound on the true value function of the learned policy and an upper bound on the value of some other (suboptimal) reference policy, which may simply be the behavior policy. We show that offline RL algorithms that learn such calibrated value functions lead to effective online fine-tuning, enabling us to take the benefits of offline initializations in online fine-tuning. In practice, Cal-QL can be implemented on top of existing conservative methods for offline RL within a one-line code change. Empirically, Cal-QL outperforms state-of-the-art methods on 10/11 fine-tuning benchmark tasks that we study in this paper.
翻訳日:2023-03-10 13:37:12 公開日:2023-03-09
# 再構築前のミス: 機能ミスによるマスクオートエンコーダの強化

Mimic before Reconstruct: Enhancing Masked Autoencoders with Feature Mimicking ( http://arxiv.org/abs/2303.05475v1 )

ライセンス: Link先を確認
Peng Gao, Renrui Zhang, Rongyao Fang, Ziyi Lin, Hongyang Li, Hongsheng Li, Qiao Yu(参考訳) Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして人気がある。 しかし、maeはデコーダの後に低レベルなrgb信号のみを再構成し、エンコーダの高レベルセマンティクスの監督を欠いているため、低レベルな学習表現と長い事前学習期間に苦しむ。 これを軽減するために、従来の手法は、事前訓練された画像イメージ(DINO)や画像言語(CLIP)のコントラスト学習の特徴を符号化することで、75%のマスク付きトークンの画素再構成ターゲットを置き換える。 これらの取り組みと異なり,mr-maeと呼ばれるマスク付きオートエンコーダでは,事前学習時に干渉なくハイレベル表現と低レベル表現を同時に学習する。 高レベルのセマンティクスでは、MR-MAEは、CLIPとDINOで符号化されたトレーニング済みのパターンをキャプチャするために、エンコーダから25%以上の可視トークンを模倣する。 低レベルの構造では、maeの再構成損失を継承し、デコーダの後に75%のマスキングトークンのrgbピクセル値を予測する。 MR-MAEは、それぞれ異なるパーティションに高レベルと低レベルのターゲットを適用するため、それらの間の学習競合は自然に克服され、様々な下流タスクにおいて優れた視覚表現に寄与する。 ImageNet-1Kでは、400エポックで事前訓練されたMR-MAEベースは、微調整後に85.8%の精度で、1600エポックのMAEベースを+2.2%、最先端のBEiT V2ベースを+0.3%上回る。 コードと事前トレーニングされたモデルはhttps://github.com/Alpha-VL/ConvMAE.comでリリースされる。

Masked Autoencoders (MAE) have been popular paradigms for large-scale vision representation pre-training. However, MAE solely reconstructs the low-level RGB signals after the decoder and lacks supervision upon high-level semantics for the encoder, thus suffering from sub-optimal learned representations and long pre-training epochs. To alleviate this, previous methods simply replace the pixel reconstruction targets of 75% masked tokens by encoded features from pre-trained image-image (DINO) or image-language (CLIP) contrastive learning. Different from those efforts, we propose to Mimic before Reconstruct for Masked Autoencoders, named as MR-MAE, which jointly learns high-level and low-level representations without interference during pre-training. For high-level semantics, MR-MAE employs a mimic loss over 25% visible tokens from the encoder to capture the pre-trained patterns encoded in CLIP and DINO. For low-level structures, we inherit the reconstruction loss in MAE to predict RGB pixel values for 75% masked tokens after the decoder. As MR-MAE applies high-level and low-level targets respectively at different partitions, the learning conflicts between them can be naturally overcome and contribute to superior visual representations for various downstream tasks. On ImageNet-1K, the MR-MAE base pre-trained for only 400 epochs achieves 85.8% top-1 accuracy after fine-tuning, surpassing the 1600-epoch MAE base by +2.2% and the previous state-of-the-art BEiT V2 base by +0.3%. Code and pre-trained models will be released at https://github.com/Alpha-VL/ConvMAE.
翻訳日:2023-03-10 13:36:40 公開日:2023-03-09
# PAC-NeRF:物理増進連続神経放射場を用いた幾何学的システム同定

PAC-NeRF: Physics Augmented Continuum Neural Radiance Fields for Geometry-Agnostic System Identification ( http://arxiv.org/abs/2303.05512v1 )

ライセンス: Link先を確認
Xuan Li, Yi-Ling Qiao, Peter Yichen Chen, Krishna Murthy Jatavallabhula, Ming Lin, Chenfanfu Jiang, Chuang Gan(参考訳) ビデオからのシステム同定(オブジェクトの物理的パラメータを推定する)への既存のアプローチは、既知のオブジェクトジオメトリを仮定する。 これにより、オブジェクトのジオメトリーが複雑または未知のシーンの大部分で適用が不可能になる。 本研究では,オブジェクト形状やトポロジを仮定することなく,多視点ビデオの集合から物理系を特徴付けるパラメータを同定することを目的とする。 そこで本研究では,高ダイナミックな物体の未知の形状と物理パラメータをマルチビュービデオから推定する"physics augmented continuum neural radiance fields"(pac-nerf)を提案する。 PAC-NeRFは、連続体力学の保存則に従うように神経放射場を強制することによって、物理的に可塑性な状態しか生成しないように設計されている。 そこで我々は,ニューラルラグランジアン粒子によるニューラルラグランジアン・ラグランジアンのハイブリッド表現,すなわち,ニューラルラグランジアン粒子によるニューラルラグランジアン場を回避しつつ,ニューラルラグランジアン密度と色場に対するユーレリア格子表現を設計する。 このハイブリッドユーレリア・ラグランジアン表現は、堅牢な微分可能な物理シミュレーションのための材料点法(MPM)と効率的なニューラルレンダリングをシームレスにブレンドする。 提案手法は, 弾性体, 可塑性体, 砂, ニュートン流体, 非ニュートン流体など幅広い材料において, 幾何および物理パラメータ推定における有効性を検証し, ほとんどのタスクにおいて有意な性能向上を示す。

Existing approaches to system identification (estimating the physical parameters of an object) from videos assume known object geometries. This precludes their applicability in a vast majority of scenes where object geometries are complex or unknown. In this work, we aim to identify parameters characterizing a physical system from a set of multi-view videos without any assumption on object geometry or topology. To this end, we propose "Physics Augmented Continuum Neural Radiance Fields" (PAC-NeRF), to estimate both the unknown geometry and physical parameters of highly dynamic objects from multi-view videos. We design PAC-NeRF to only ever produce physically plausible states by enforcing the neural radiance field to follow the conservation laws of continuum mechanics. For this, we design a hybrid Eulerian-Lagrangian representation of the neural radiance field, i.e., we use the Eulerian grid representation for NeRF density and color fields, while advecting the neural radiance fields via Lagrangian particles. This hybrid Eulerian-Lagrangian representation seamlessly blends efficient neural rendering with the material point method (MPM) for robust differentiable physics simulation. We validate the effectiveness of our proposed framework on geometry and physical parameter estimation over a vast range of materials, including elastic bodies, plasticine, sand, Newtonian and non-Newtonian fluids, and demonstrate significant performance gain on most tasks.
翻訳日:2023-03-10 13:29:37 公開日:2023-03-09
# テキスト・画像合成のためのGANのスケールアップ

Scaling up GANs for Text-to-Image Synthesis ( http://arxiv.org/abs/2303.05511v1 )

ライセンス: Link先を確認
Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park(参考訳) テキストから画像への合成が最近成功したことで、世界は嵐にさらされ、一般大衆の想像力を捉えた。 技術的な観点から言えば、生成的イメージモデルを設計するために好まれるアーキテクチャが劇的に変化した。 GANはかつて、StyleGANのようなテクニックを使って、事実上の選択肢でした。 dall-e 2では、自動回帰拡散モデルが大規模な生成モデルの新しい標準となった。 LAIONのような大規模なデータセットの恩恵を受けるために、GANをスケールアップできるだろうか? そこで我々は,StyleGAN アーキテクチャのキャパシティの増大が急速に不安定になることを発見した。 我々は,この限界を超える新しいGANアーキテクチャであるGigaGANを紹介し,GANをテキスト・画像合成の実行可能な選択肢として示す。 GigaGANには3つの大きな利点がある。 第一に、512px画像の合成にはわずか0.13秒しかかからない。 第二に、16メガピクセルの高解像度画像を3.66秒で合成できる。 最後に、GigaGANは潜時補間、スタイルミキシング、ベクトル演算などの様々な潜時空間編集アプリケーションをサポートしている。

The recent success of text-to-image synthesis has taken the world by storm and captured the general public's imagination. From a technical standpoint, it also marked a drastic change in the favored architecture to design generative image models. GANs used to be the de facto choice, with techniques like StyleGAN. With DALL-E 2, auto-regressive and diffusion models became the new standard for large-scale generative models overnight. This rapid shift raises a fundamental question: can we scale up GANs to benefit from large datasets like LAION? We find that na\"Ively increasing the capacity of the StyleGAN architecture quickly becomes unstable. We introduce GigaGAN, a new GAN architecture that far exceeds this limit, demonstrating GANs as a viable option for text-to-image synthesis. GigaGAN offers three major advantages. First, it is orders of magnitude faster at inference time, taking only 0.13 seconds to synthesize a 512px image. Second, it can synthesize high-resolution images, for example, 16-megapixel pixels in 3.66 seconds. Finally, GigaGAN supports various latent space editing applications such as latent interpolation, style mixing, and vector arithmetic operations.
翻訳日:2023-03-10 13:29:08 公開日:2023-03-09
# コード生成のための大規模言語モデルによる計画

Planning with Large Language Models for Code Generation ( http://arxiv.org/abs/2303.05510v1 )

ライセンス: Link先を確認
Shun Zhang, Zhenfang Chen, Yikang Shen, Mingyu Ding, Joshua B. Tenenbaum, Chuang Gan(参考訳) 既存の大規模言語モデルベースのコード生成パイプラインでは、通常、デコードプロセス中にビーム検索やサンプリングアルゴリズムを使用する。 彼らが生成するプログラムは高いトークンマッチングベースのスコアを達成するが、しばしば不正な出力のコンパイルや生成に失敗する。 主な理由は、従来のトランスフォーマー復号アルゴリズムがコード生成に最適な選択肢ではない可能性があるためである。 そこで本研究では,計画アルゴリズムを用いてルックアヘッド探索を行い,トランスフォーマーを誘導してより良いプログラムを生成する,新しいトランスフォーマー復号法,計画誘導型トランスフォーマー復号法(pg-td)を提案する。 具体的には、生成されたシーケンスの可能性を単に最適化するのではなく、プランナーを使用して候補プログラムを生成し、公開テストケースでテストする。 したがってTransformerは、より情報的な決定を行い、最終的に高品質なプログラムにつながるトークンを生成することができる。 また、トランスフォーマーとプランナーの間で情報を共有する機構を設計し、アルゴリズムを計算効率良くする。 公開コーディングチャレンジベンチマークのバックボーンとして,いくつかの大規模言語モデルを用いて,我々のフレームワークを実証的に評価した。 1) 競合するベースラインメソッドと比較して、一貫して高いパフォーマンスを達成するプログラムを生成できる。 2) 修正対象を最適化することにより,簡潔なコードや高出力コードなどの制御可能なコード生成を可能にする。

Existing large language model-based code generation pipelines typically use beam search or sampling algorithms during the decoding process. Although the programs they generate achieve high token-matching-based scores, they often fail to compile or generate incorrect outputs. The main reason is that conventional Transformer decoding algorithms may not be the best choice for code generation. In this work, we propose a novel Transformer decoding algorithm, Planning-Guided Transformer Decoding (PG-TD), that uses a planning algorithm to do lookahead search and guide the Transformer to generate better programs. Specifically, instead of simply optimizing the likelihood of the generated sequences, the Transformer makes use of a planner to generate candidate programs and test them on public test cases. The Transformer can therefore make more informed decisions and generate tokens that will eventually lead to higher-quality programs. We also design a mechanism that shares information between the Transformer and the planner to make our algorithm computationally efficient. We empirically evaluate our framework with several large language models as backbones on public coding challenge benchmarks, showing that 1) it can generate programs that consistently achieve higher performance compared with competing baseline methods; 2) it enables controllable code generation, such as concise codes and highly-commented codes by optimizing modified objective.
翻訳日:2023-03-10 13:28:50 公開日:2023-03-09
# 最適化問題に対する量子強化グリーディソルバー

Quantum Enhanced Greedy Solver for Optimization Problems ( http://arxiv.org/abs/2303.05509v1 )

ライセンス: Link先を確認
Maxime Dupont, Bram Evert, Mark J. Hodson, Bhuvanesh Sundar, Stephen Jeffrey, Yuki Yamaguchi, Dennis Feng, Filip B. Maciejewski, Stuart Hadfield, M. Sohaib Alam, Zhihui Wang, Shon Grabbe, P. Aaron Lott, Eleanor G. Rieffel, Davide Venturelli, Matthew J. Reagor(参考訳) 組合せ最適化は潜在的な量子アドバンテージにとって広く魅力的な分野だが、量子アルゴリズムがまだ飛躍を遂げていない。 量子ハードウェアのノイズは依然として課題であり、より洗練された量子古典アルゴリズムは性能保証を強化するために必要である。 本稿では,古典的グリードアルゴリズムと等価な非分極量子雑音の存在下で,平均最悪の性能を有する反復型量子ヒューリスティック最適化アルゴリズムを提案する。 このアルゴリズムを最大72量子ビットを用いてプログラム可能な超伝導量子システム上で実装し、シェリントン・カークパトリックのスピンガラス問題を解く。 量子古典アルゴリズムはその古典的なアルゴリズムを体系的に上回っており、その保証された出力品質に関して量子拡張を示唆している。 さらに,最先端半確定プログラミング手法の保証に匹敵する絶対性能を観測する。 このアルゴリズムの古典的なシミュレーションは、量子優位に達するための重要な課題が量子デバイス特性の改善であることを示している。

Combinatorial optimization is a broadly attractive area for potential quantum advantage, but no quantum algorithm has yet made the leap. Noise in quantum hardware remains a challenge, and more sophisticated quantum-classical algorithms are required to bolster performance guarantees. Here, we introduce an iterative quantum heuristic optimization algorithm with an average worst-case performance, in the presence of depolarizing quantum noise, equivalent to that of a classical greedy algorithm. We implement this algorithm on a programmable superconducting quantum system using up to 72 qubits for solving paradigmatic Sherrington-Kirkpatrick Ising spin glass problems. The quantum-classical algorithm systematically outperforms its classical counterpart, signaling a quantum enhancement with respect to its guaranteed output quality. Moreover, we observe an absolute performance comparable with the guarantees for a state-of-the-art semi-definite programming method. Classical simulations of the algorithm illustrate that a key challenge to reaching quantum advantage remains improving the quantum device characteristics.
翻訳日:2023-03-10 13:28:29 公開日:2023-03-09
# TANGOS: 勾配直交と特殊化によるタブラルニューラルネットワークの正規化

TANGOS: Regularizing Tabular Neural Networks through Gradient Orthogonalization and Specialization ( http://arxiv.org/abs/2303.05506v1 )

ライセンス: Link先を確認
Alan Jeffares, Tennison Liu, Jonathan Crabb\'e, Fergus Imrie, Mihaela van der Schaar(参考訳) 構造化されていないデータで成功したにもかかわらず、ディープニューラルネットワークはまだ構造化された表データのためのパナセアではない。 表状領域では、それらの効率性は、オーバーフィッティングを防止し、強力な一般化性能を提供するために、様々な正規化の形式に依存する。 既存の正規化技術には、アーキテクチャの選択、損失関数、最適化メソッドなどの幅広いモデリング決定が含まれる。 本稿では,潜在単位属性上に構築された表層設定を正規化するための新しいフレームワークであるTANGOS(Tabular Neural Gradient Orthogonalization and Specialization)を紹介する。 特定の入力特徴に対する活性化の勾配帰属は、ニューロンがその特徴にどのように関与するかを示し、深層ネットワークの予測を解釈するためにしばしば用いられる。 TANGOSでは、ニューロン属性をトレーニングに直接組み込んで、完全接続ネットワークにおける潜在属性の直交化と特殊化を促進する。 我々の正則化器は、神経細胞が疎結合で重複しない入力特徴に集中するよう促し、その結果、多種多様で特殊な潜伏単位が生まれる。 表領域では,本手法が,他の一般的な正規化手法よりも優れ,サンプル外一般化性能の向上につながることを示す。 そこで本研究では,TANGOSが既存の手法と併用して,より優れた一般化性能を実現することができることを示す。

Despite their success with unstructured data, deep neural networks are not yet a panacea for structured tabular data. In the tabular domain, their efficiency crucially relies on various forms of regularization to prevent overfitting and provide strong generalization performance. Existing regularization techniques include broad modelling decisions such as choice of architecture, loss functions, and optimization methods. In this work, we introduce Tabular Neural Gradient Orthogonalization and Specialization (TANGOS), a novel framework for regularization in the tabular setting built on latent unit attributions. The gradient attribution of an activation with respect to a given input feature suggests how the neuron attends to that feature, and is often employed to interpret the predictions of deep networks. In TANGOS, we take a different approach and incorporate neuron attributions directly into training to encourage orthogonalization and specialization of latent attributions in a fully-connected network. Our regularizer encourages neurons to focus on sparse, non-overlapping input features and results in a set of diverse and specialized latent units. In the tabular domain, we demonstrate that our approach can lead to improved out-of-sample generalization performance, outperforming other popular regularization methods. We provide insight into why our regularizer is effective and demonstrate that TANGOS can be applied jointly with existing methods to achieve even greater generalization performance.
翻訳日:2023-03-10 13:28:12 公開日:2023-03-09
# 集中治療室における脳機能変化を特徴付ける計算可能な現象

Computable Phenotypes to Characterize Changing Patient Brain Dysfunction in the Intensive Care Unit ( http://arxiv.org/abs/2303.05504v1 )

ライセンス: Link先を確認
Yuanfang Ren (1 and 2), Tyler J. Loftus (1 and 3), Ziyuan Guan (1 and 2), Rayon Uddin (1), Benjamin Shickel (1 and 2), Carolina B. Maciel (4), Katharina Busl (4), Parisa Rashidi (1 and 5), Azra Bihorac (1 and 2), and Tezcan Ozrazgat-Baslanti (1 and 2) ((1) Intelligent Critical Care Center, University of Florida, Gainesville, FL, (2) Department of Medicine, College of Medicine, University of Florida, Gainesville, FL, (3) Department of Surgery, College of Medicine, University of Florida, Gainesville, FL, (4) Department of Neurology, Neurocritical Care Division, College of Medicine, University of Florida, Gainesville, FL, (5) Crayton Pruitt Family Department of Biomedical Engineering, University of Florida, Gainesville, FL)(参考訳) 米国では、毎年500万人以上の患者がICUに入院しており、ICUの死亡率は10%-29%、費用は820億ドルである。 急性脳機能障害状態(delirium)はしばしば過小診断または過小評価される。 本研究の目的は、急性脳機能障害状態に対する自動計算可能な表現型を開発し、脳機能障害状態間の遷移を記述し、ICU患者の臨床的軌跡を説明することである。 UFH Gainesville (GNV) と Jacksonville (JAX) でICUを施行した成人48,817名を対象に, 単中心縦型EHRデータセットを作成した。 急性脳機能障害とk-meansクラスタリング法を用いて,ICU入院12時間間隔でコマ,デリリウム,正常,死亡などの急性脳機能障害を定量化し,急性脳機能障害の表現型を同定するアルゴリズムを開発した。 UFH GNVデータセットでは37,835人に対して49,770人,UFH JAXデータセットでは10,982人に対して18,472人であった。 合計して18%の患者が脳機能障害の最悪の状態であり、12時間毎に4%-7%がデリリウムに移行し、22%-25%が回復し、3%-4%が失効し、67%-68%がICUのコマに留まった。 さらに、7%の患者がデリリウムを脳機能障害の最悪の状態としており、6%-7%がコマに移行し、40%-42%がデリリウムを無くし、1%が失効し、51%-52%がICUに残っていた。 持続性coma/delirium,持続性正常,coma/deliriumから正常への移行の3つの表現型は,icu導入後48時間以内にほぼ排他的に認められた。 ICU入院中,12時間毎に急性脳機能障害を判定する表現型採点アルゴリズムを開発した。 このアプローチは、患者や臨床医のリソース使用やケアのエスカレーションに関する意思決定を支援する、予後および意思決定支援ツールの開発に有用である。

In the United States, more than 5 million patients are admitted annually to ICUs, with ICU mortality of 10%-29% and costs over $82 billion. Acute brain dysfunction status, delirium, is often underdiagnosed or undervalued. This study's objective was to develop automated computable phenotypes for acute brain dysfunction states and describe transitions among brain dysfunction states to illustrate the clinical trajectories of ICU patients. We created two single-center, longitudinal EHR datasets for 48,817 adult patients admitted to an ICU at UFH Gainesville (GNV) and Jacksonville (JAX). We developed algorithms to quantify acute brain dysfunction status including coma, delirium, normal, or death at 12-hour intervals of each ICU admission and to identify acute brain dysfunction phenotypes using continuous acute brain dysfunction status and k-means clustering approach. There were 49,770 admissions for 37,835 patients in UFH GNV dataset and 18,472 admissions for 10,982 patients in UFH JAX dataset. In total, 18% of patients had coma as the worst brain dysfunction status; every 12 hours, around 4%-7% would transit to delirium, 22%-25% would recover, 3%-4% would expire, and 67%-68% would remain in a coma in the ICU. Additionally, 7% of patients had delirium as the worst brain dysfunction status; around 6%-7% would transit to coma, 40%-42% would be no delirium, 1% would expire, and 51%-52% would remain delirium in the ICU. There were three phenotypes: persistent coma/delirium, persistently normal, and transition from coma/delirium to normal almost exclusively in first 48 hours after ICU admission. We developed phenotyping scoring algorithms that determined acute brain dysfunction status every 12 hours while admitted to the ICU. This approach may be useful in developing prognostic and decision-support tools to aid patients and clinicians in decision-making on resource use and escalation of care.
翻訳日:2023-03-10 13:27:48 公開日:2023-03-09
# open-world instance segmentation - ボトムアップによるトップダウン学習

Open-world Instance Segmentation: Top-down Learning with Bottom-up Supervision ( http://arxiv.org/abs/2303.05503v1 )

ライセンス: Link先を確認
Tarun Kalluri, Weiyao Wang, Heng Wang, Manmohan Chandraker, Lorenzo Torresani, Du Tran(参考訳) 例えばセグメンテーションのようなトップダウンアーキテクチャの多くは、事前定義されたクローズドワールド分類法でトレーニングとテストを行う際に大きな成功を収める。 しかし、オープン世界にデプロイすると、目に見えるクラスに対する顕著なバイアスを示し、大幅なパフォーマンス低下に苦しむ。 本研究では,従来のボトムアップセグメンテーションアルゴリズムをトップダウン学習フレームワークに組み込んだボトムアップおよびトップダウンオープンワールドセグメンテーション(UDOS)という,オープンワールドインスタンスセグメンテーションの新しいアプローチを提案する。 UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使ってオブジェクトの一部を予測する。 ボトムアップのセグメンテーションはクラス非依存であり、特定の分類体系に過度に適合しない。 パートマスクは、堅牢なインスタンスレベルのセグメンテーションを予測するために、アフィニティベースのグルーピングおよびリファインメントモジュールに入力される。 UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監督からカテゴリを見落とせる一般化能力の両方を享受している。 MS-COCO, LVIS, ADE20k, UVO, OpenImages を含む5つの課題データセットから, 複数カテゴリ間での UDOS の強み, およびデータセット間の転送タスクを検証する。 私たちのコードとモデルは、プロジェクトのページで利用可能です。

Many top-down architectures for instance segmentation achieve significant success when trained and tested on pre-defined closed-world taxonomy. However, when deployed in the open world, they exhibit notable bias towards seen classes and suffer from significant performance drop. In this work, we propose a novel approach for open world instance segmentation called bottom-Up and top-Down Open-world Segmentation (UDOS) that combines classical bottom-up segmentation algorithms within a top-down learning framework. UDOS first predicts parts of objects using a top-down network trained with weak supervision from bottom-up segmentations. The bottom-up segmentations are class-agnostic and do not overfit to specific taxonomies. The part-masks are then fed into affinity-based grouping and refinement modules to predict robust instance-level segmentations. UDOS enjoys both the speed and efficiency from the top-down architectures and the generalization ability to unseen categories from bottom-up supervision. We validate the strengths of UDOS on multiple cross-category as well as cross-dataset transfer tasks from 5 challenging datasets including MS-COCO, LVIS, ADE20k, UVO and OpenImages, achieving significant improvements over state-of-the-art across the board. Our code and models are available on our project page.
翻訳日:2023-03-10 13:27:06 公開日:2023-03-09
# pdsketch: 計画型ドメインプログラミングと学習の統合

PDSketch: Integrated Planning Domain Programming and Learning ( http://arxiv.org/abs/2303.05501v1 )

ライセンス: Link先を確認
Jiayuan Mao, Tom\'as Lozano-P\'erez, Joshua B. Tenenbaum, Leslie Pack Kaelbling(参考訳) 本稿では,柔軟で汎用的なロボット構築に向けたモデル学習とオンライン計画手法について検討する。 具体的には,基盤となる環境遷移モデルにおける局所性とスパーシティ構造をどのように活用し,モデル一般化,データ効率,ランタイム効率を向上させるかを検討する。 我々は PDSketch という新しいドメイン定義言語を提案する。 ユーザは、tensorflowやpytorchを使って畳み込みニューラルネットワークのカーネルサイズと隠れた寸法を指定するのと同じような方法で、オブジェクトや機能依存といった移行モデルにおいて、柔軟にハイレベルな構造を定義することができる。 移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。 定義された構造と学習パラメータに基づいて、PDSketchは追加のトレーニングなしでドメインに依存しない計画ヒューリスティックを自動的に生成する。 派生したヒューリスティックは、新しい目標のためのパフォーマンスタイムプランニングを加速する。

This paper studies a model learning and online planning approach towards building flexible and general robots. Specifically, we investigate how to exploit the locality and sparsity structures in the underlying environmental transition model to improve model generalization, data-efficiency, and runtime-efficiency. We present a new domain definition language, named PDSketch. It allows users to flexibly define high-level structures in the transition models, such as object and feature dependencies, in a way similar to how programmers use TensorFlow or PyTorch to specify kernel sizes and hidden dimensions of a convolutional neural network. The details of the transition model will be filled in by trainable neural networks. Based on the defined structures and learned parameters, PDSketch automatically generates domain-independent planning heuristics without additional training. The derived heuristics accelerate the performance-time planning for novel goals.
翻訳日:2023-03-10 13:26:40 公開日:2023-03-09
# ユーザーはAIの透明性のためのノーススター

Users are the North Star for AI Transparency ( http://arxiv.org/abs/2303.05500v1 )

ライセンス: Link先を確認
Alex Mei, Michael Saxon, Shiyu Chang, Zachary C. Lipton, William Yang Wang(参考訳) 透明な人工知能システムを求める声が広まってはいるが、この用語には明確な政策目標や具体的な研究方針を示すために、さまざまな意味がある。 その結果、ステークホルダーは互いに話し合うことが多く、政策立案者はあいまいな要求を表明し、実践者は根底にある懸念に対処しないソリューションを考案する。 このことが起こる理由の1つは、AI透明性の明確な理想が、この仕事の体で実現されないことである。 このようなノーススターを明示的に命名します -- 透過性はユーザ中心で、ユーザ向きで、正直です。 私たちは幅広い文献調査を行い、同様の透明性の概念の集合を多数特定し、それらを北の星に結び付けて、理想的なAI透明性の目標をどう進めるか、あるいは妨げるかを分析します。 すべてのクラスタにわたる共通スレッドに関する議論を締めくくり、政策立案者、利害関係者、実践者が具体的な要求を伝え、適切なソリューションを提供できるより明確な共通言語を提供する。 AIの透明性に関する今後の取り組みは、信頼性とユーザ利益の目標をさらに進め、規制当局や開発者にも明確性を提供することを期待しています。

Despite widespread calls for transparent artificial intelligence systems, the term is too overburdened with disparate meanings to express precise policy aims or to orient concrete lines of research. Consequently, stakeholders often talk past each other, with policymakers expressing vague demands and practitioners devising solutions that may not address the underlying concerns. Part of why this happens is that a clear ideal of AI transparency goes unsaid in this body of work. We explicitly name such a north star -- transparency that is user-centered, user-appropriate, and honest. We conduct a broad literature survey, identifying many clusters of similar conceptions of transparency, tying each back to our north star with analysis of how it furthers or hinders our ideal AI transparency goals. We conclude with a discussion on common threads across all the clusters, to provide clearer common language whereby policymakers, stakeholders, and practitioners can communicate concrete demands and deliver appropriate solutions. We hope for future work on AI transparency that further advances confident, user-beneficial goals and provides clarity to regulators and developers alike.
翻訳日:2023-03-10 13:26:27 公開日:2023-03-09
# grounding dino: オープンセット物体検出のための grounded pre-training と dino の結婚

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection ( http://arxiv.org/abs/2303.05499v1 )

ライセンス: Link先を確認
Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang(参考訳) そこで本稿では,TransformerをベースとしたDINOと事前学習を併用し,カテゴリ名や参照表現などの入力によって任意の物体を検出可能な,Grounding DINOと呼ばれるオープンセットオブジェクト検出器を提案する。 オープンセットオブジェクト検出の重要な解決策は、オープンセット概念一般化のためのクローズドセット検出器に言語を導入することである。 言語と視覚のモダリティを効果的に融合するために,概念的にクローズドセット検出器を3つのフェーズに分け,特徴エンハンサー,言語案内クエリ選択,クロスモダリティ融合のためのクロスモダリティデコーダを含む密接な融合ソリューションを提案する。 先行研究は,新しいカテゴリのオープンセット物体検出を主に評価する一方で,属性で指定された対象に対する参照表現理解の評価も行う。 DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。 グラウンディングDINOはCOCO検出ゼロショット転送ベンチマーク(つまりCOCOからのトレーニングデータなしで)で52.5ドルのAPを達成している。 odinw zero-shotベンチマークに26.1$ apという新記録を樹立した。 コードは \url{https://github.com/IDEA-Research/GroundingDINO} で入手できる。

In this paper, we present an open-set object detector, called Grounding DINO, by marrying Transformer-based detector DINO with grounded pre-training, which can detect arbitrary objects with human inputs such as category names or referring expressions. The key solution of open-set object detection is introducing language to a closed-set detector for open-set concept generalization. To effectively fuse language and vision modalities, we conceptually divide a closed-set detector into three phases and propose a tight fusion solution, which includes a feature enhancer, a language-guided query selection, and a cross-modality decoder for cross-modality fusion. While previous works mainly evaluate open-set object detection on novel categories, we propose to also perform evaluations on referring expression comprehension for objects specified with attributes. Grounding DINO performs remarkably well on all three settings, including benchmarks on COCO, LVIS, ODinW, and RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection zero-shot transfer benchmark, i.e., without any training data from COCO. It sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.
翻訳日:2023-03-10 13:26:06 公開日:2023-03-09
# 低リソース学習のためのベンチマーク

A Challenging Benchmark for Low-Resource Learning ( http://arxiv.org/abs/2303.03840v2 )

ライセンス: Link先を確認
Yudong Wang, Chang Ma, Qingxiu Dong, Lingpeng Kong, Jingjing Xu(参考訳) 高度なニューラルネットワーク(BigBench、SuperGLUEなど)の学習能力を評価するための低リソースデータセットは、高リソース環境では期待できるほど飽和している。 一部のモデルは、ベンチマークテストの結果で人間を超えている。 しかし、ニューラルネットワークに挑戦するが、十分に評価されていない低リソース環境では、過度に見積もられたパフォーマンスを引き起こす厳しい例がいくつか存在する。 まず,低リソース学習の難しさをもたらす要因を理論的に分析する。 これは3つのコンピュータビジョン(cv)データセットと8つの自然言語プロセス(nlp)データセットを含む11のデータセットをカバーする。 幅広いモデルの実験により、ニューラルネットワークは、事前訓練された言語モデルでさえ、我々のベンチマークで急激な性能低下を示し、ニューラルネットワークの弱点を評価する効果を実証した。 NLPタスクでは、従来の低リソースのベンチマーク、トレーニング済みのネットワークでより良い結果が得られても、ベンチマークのパフォーマンスは向上しない。 これらの結果は、既存のモデルと人間レベルのパフォーマンスの間にはまだ大きな堅牢性ギャップがあることを示しています。

With promising yet saturated results in high-resource settings, low-resource datasets have gradually become popular benchmarks for evaluating the learning ability of advanced neural networks (e.g., BigBench, superGLUE). Some models even surpass humans according to benchmark test results. However, we find that there exists a set of hard examples in low-resource settings that challenge neural networks but are not well evaluated, which causes over-estimated performance. We first give a theoretical analysis on which factors bring the difficulty of low-resource learning. It then motivate us to propose a challenging benchmark hardBench to better evaluate the learning ability, which covers 11 datasets, including 3 computer vision (CV) datasets and 8 natural language process (NLP) datasets. Experiments on a wide range of models show that neural networks, even pre-trained language models, have sharp performance drops on our benchmark, demonstrating the effectiveness on evaluating the weaknesses of neural networks. On NLP tasks, we surprisingly find that despite better results on traditional low-resource benchmarks, pre-trained networks, does not show performance improvements on our benchmarks. These results demonstrate that there are still a large robustness gap between existing models and human-level performance.
翻訳日:2023-03-10 11:32:35 公開日:2023-03-09
# イベント抽出におけるChatGPTの可能性を探る

Exploring the Feasibility of ChatGPT for Event Extraction ( http://arxiv.org/abs/2303.03836v2 )

ライセンス: Link先を確認
Jun Gao, Huan Zhao, Changlong Yu, Ruifeng Xu(参考訳) イベント抽出は自然言語処理における基本的なタスクであり、テキストで言及されるイベントに関する情報を識別し抽出する。 しかし、注釈付きデータがないため、高価で入手に時間がかかるため、これは難しい課題である。 ChatGPTのような大規模言語モデル(LLM)の出現は、タスク固有のデータセットや微調整を必要とせずに、単純なプロンプトで言語タスクを解決する機会を提供する。 ChatGPTは、機械翻訳、テキスト要約、質問応答などのタスクにおいて印象的な結果を示しているが、イベント抽出のような複雑なタスクに使用する場合、課題が提示される。 他のタスクとは異なり、イベント抽出は、すべてのイベントタイプとそのスキーマを定義する複雑な命令セットを提供する必要がある。 イベント抽出におけるChatGPTの有効性と課題を探るため,我々は一連の実験を行った。 以上の結果から,ChatGPTは脳波や複雑なシナリオにおけるタスク固有モデルの性能の51.04%に過ぎなかった。 ユーザビリティテストの実験では、ChatGPTは十分に堅牢ではないことが示され、プロンプトの継続的な改善は安定したパフォーマンス改善には至らず、結果としてユーザエクスペリエンスが低下する可能性がある。 加えて、ChatGPTは異なるプロンプトスタイルに非常に敏感である。

Event extraction is a fundamental task in natural language processing that involves identifying and extracting information about events mentioned in text. However, it is a challenging task due to the lack of annotated data, which is expensive and time-consuming to obtain. The emergence of large language models (LLMs) such as ChatGPT provides an opportunity to solve language tasks with simple prompts without the need for task-specific datasets and fine-tuning. While ChatGPT has demonstrated impressive results in tasks like machine translation, text summarization, and question answering, it presents challenges when used for complex tasks like event extraction. Unlike other tasks, event extraction requires the model to be provided with a complex set of instructions defining all event types and their schemas. To explore the feasibility of ChatGPT for event extraction and the challenges it poses, we conducted a series of experiments. Our results show that ChatGPT has, on average, only 51.04% of the performance of a task-specific model such as EEQA in long-tail and complex scenarios. Our usability testing experiments indicate that ChatGPT is not robust enough, and continuous refinement of the prompt does not lead to stable performance improvements, which can result in a poor user experience. Besides, ChatGPT is highly sensitive to different prompt styles.
翻訳日:2023-03-10 11:32:14 公開日:2023-03-09
# ブートストラップ the original latent: ブラックボックスモデルからプライベートモデルを学ぶ

Bootstrap The Original Latent: Learning a Private Model from a Black-box Model ( http://arxiv.org/abs/2303.03709v2 )

ライセンス: Link先を確認
Shuai Wang, Daoan Zhang, Jianguo Zhang, Weiwei Zhang, and Rui Li(参考訳) 本稿では,モデル所有者とユーザニーズのデータ/モデルプライバシのバランスを考慮し,ブラックボックス基盤/ソースモデルのバックプロパゲーション結果のガイダンスを用いて,ユーザがプライベートモデルをより良いトレーニングを行うためのBack-Propagated Black-Box Adaptation (BPBA)を提案する。 私たちの設定は、ファンデーション/ソースモデルの使用を容易にし、ファンデーション/ソースモデルの漏洩や誤用を防ぎます。 さらに,基盤/ソースモデルを完全に活用するためのBootstrap The Original Latent(BTOL)という新たなトレーニング戦略を提案する。 当社の戦略はドメインアダプタとフリーズ・アンド・ザウ戦略で構成されています。 3つのデータセットに対してBPBAとBlack-box UDA設定でBTOLを適用します。 実験の結果,手作業による拡張を伴わずに,戦略が効率的かつ堅牢であることが確認された。

In this paper, considering the balance of data/model privacy of model owners and user needs, we propose a new setting called Back-Propagated Black-Box Adaptation (BPBA) for users to better train their private models via the guidance of the back-propagated results of a Black-box foundation/source model. Our setting can ease the usage of foundation/source models as well as prevent the leakage and misuse of foundation/source models. Moreover, we also propose a new training strategy called Bootstrap The Original Latent (BTOL) to fully utilize the foundation/source models. Our strategy consists of a domain adapter and a freeze-and-thaw strategy. We apply our BTOL under BPBA and Black-box UDA settings on three different datasets. Experiments show that our strategy is efficient and robust in various settings without manual augmentations.
翻訳日:2023-03-10 11:31:51 公開日:2023-03-09
# 視覚認識のためのモダリティを欠いたマルチモーダルプロンプト

Multimodal Prompting with Missing Modalities for Visual Recognition ( http://arxiv.org/abs/2303.03369v2 )

ライセンス: Link先を確認
Yi-Lun Lee, Yi-Hsuan Tsai, Wei-Chen Chiu, Chen-Yu Lee(参考訳) 本稿では,視覚認識のためのマルチモーダル学習における2つの課題に取り組む。 1) 現実の状況下で訓練中又は試験中にモダリティが欠落した場合 2) 重変圧器モデル上で計算資源が微調整できない場合。 そこで,本稿では,これら2つの課題を即時学習と緩和することを提案する。 具体的には、modality-missing-awareプロンプトをマルチモーダルトランスフォーマーに挿入して、一般的な欠落したモダリティケースを処理できますが、モデル全体のトレーニングと比較して学習可能なパラメータは1%未満です。 我々はさらに,異なるプロンプト構成の効果を探索し,欠落したモダリティに対するロバスト性を分析する。 重モデル再訓練の要件を緩和しつつ, 様々なモダリティケースにおいて, 性能向上を図りつつ, 即時学習フレームワークの有効性を示すため, 広範囲な実験を行った。 コードは利用可能。

In this paper, we tackle two challenges in multimodal learning for visual recognition: 1) when missing-modality occurs either during training or testing in real-world situations; and 2) when the computation resources are not available to finetune on heavy transformer models. To this end, we propose to utilize prompt learning and mitigate the above two challenges together. Specifically, our modality-missing-aware prompts can be plugged into multimodal transformers to handle general missing-modality cases, while only requiring less than 1% learnable parameters compared to training the entire model. We further explore the effect of different prompt configurations and analyze the robustness to missing modality. Extensive experiments are conducted to show the effectiveness of our prompt learning framework that improves the performance under various missing-modality cases, while alleviating the requirement of heavy model re-training. Code is available.
翻訳日:2023-03-10 11:31:35 公開日:2023-03-09
# 実用的な歩行認識のための深層モデル探索

Exploring Deep Models for Practical Gait Recognition ( http://arxiv.org/abs/2303.03301v2 )

ライセンス: Link先を確認
Chao Fan, Saihui Hou, Yongzhen Huang, and Shiqi Yu(参考訳) 歩行認識は、遠くから人物を識別するための急速に進歩する視覚技術である。 以前の研究では、比較的小さく浅いニューラルネットワークを使って微妙な歩行の特徴を抽出し、屋内環境では素晴らしい成功を収めた。 それにもかかわらず、これらの既存手法は、新たにリリースされた移動データに適用した場合、ほとんど満足のいく結果が得られないことが実験によって明らかになった。 本稿では,従来のCNNやTransformerベースのアーキテクチャを含む,最先端の屋外歩行認識のための深層モデルの構築方法について検討する。 そこで本研究では,適切なネットワーク容量,明示的な時間モデル,深層トランスフォーマ構造の重要性を強調する。 提案したCNNベースのDeepGaitV2シリーズとTransformerベースのSwinGaitシリーズは,挑戦的なGREWデータセットにおける多くの最先端手法と比較して,アウトドアシナリオにおいて,約+30\%のランク-1精度を示す。 この研究は歩行認識の研究と応用をさらに促進することが期待されている。 コードはhttps://github.com/shiqiyu/opengaitで入手できる。

Gait recognition is a rapidly advancing vision technique for person identification from a distance. Prior studies predominantly employed relatively small and shallow neural networks to extract subtle gait features, achieving impressive successes in indoor settings. Nevertheless, experiments revealed that these existing methods mostly produce unsatisfactory results when applied to newly released in-the-wild gait datasets. This paper presents a unified perspective to explore how to construct deep models for state-of-the-art outdoor gait recognition, including the classical CNN-based and emerging Transformer-based architectures. Consequently, we emphasize the importance of suitable network capacity, explicit temporal modeling, and deep transformer structure for discriminative gait representation learning. Our proposed CNN-based DeepGaitV2 series and Transformer-based SwinGait series exhibit significant performance gains in outdoor scenarios, \textit{e.g.}, about +30\% rank-1 accuracy compared with many state-of-the-art methods on the challenging GREW dataset. This work is expected to further boost the research and application of gait recognition. Code will be available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2023-03-10 11:31:18 公開日:2023-03-09
# 超伝導量子プロセッサ上の分数量子ホール準ホールのブレイディング

Braiding fractional quantum Hall quasiholes on a superconducting quantum processor ( http://arxiv.org/abs/2303.04806v2 )

ライセンス: Link先を確認
Ammar Kirmani, Derek S. Wang, Pouyan Ghaemi, Armin Rahmani(参考訳) 励起と波動関数位相の測定による分数量子ホール系における陽電子交換統計の直接的実験的検出は大きな課題である。 ここでは,小型でノイズの多い量子コンピュータを用いて,シンシリンダ形状に適用可能な簡易モデルの枠組み内で直接ブレイディングをエミュレートし,位相位相を計測する。 アルゴリズムはまず2つの準ホールで基底状態を作成する。 すると、アンシラによって制御されるユニタリ操作が適用され、一方が他方の準ホールを取る断熱的な進化の列に対応する。 最後に, 複合誤差緩和戦略を用いて, 陰茎計測から波動関数の位相を抽出する。 我々の結果は分数ホール状態におけるブレイディング統計を研究するための新しい道を開く。

Direct experimental detection of anyonic exchange statistics in fractional quantum Hall systems by braiding the excitations and measuring the wave-function phase is an enormous challenge. Here, we use a small, noisy quantum computer to emulate direct braiding within the framework of a simplified model applicable to a thin cylinder geometry and measure the topological phase. Our algorithm first prepares the ground state with two quasiholes. It then applies a unitary operation controlled by an ancilla, corresponding to a sequence of adiabatic evolutions that takes one quasihole around the other. We finally extract the phase of the wave function from measuring the ancilla with a compound error mitigation strategy. Our results open a new avenue for studying braiding statistics in fractional Hall states.
翻訳日:2023-03-10 11:24:11 公開日:2023-03-09
# x-avatar (複数形 x-avatars)

X-Avatar: Expressive Human Avatars ( http://arxiv.org/abs/2303.04805v2 )

ライセンス: Link先を確認
Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges(参考訳) x-avatarは、デジタル人間の完全な表現性を捉え、テレプレゼンスやar/vrなどのライフライクな体験をもたらす新しいアバターモデルだ。 本手法は,体,手,表情,外観を包括的にモデル化し,フル3DスキャンまたはRGB-Dデータから学習することができる。 そこで本研究では,SMPL-Xのパラメータ空間によって駆動され,X-アバターの表現的アニメーションを可能にする,学習した前方スキンモジュールを提案する。 ニューラル形状と変形場を効率的に学習するために,新しい部分認識サンプリングと初期化戦略を提案する。 これにより、関節骨の数が増えるにもかかわらず、特に小さな身体部位では高い忠実性が得られ、効率的な訓練が維持される。 本研究では,アバターの外観を高周波で捉えるために,ポーズ,表情,形状,変形面の正常さを条件としたテクスチャネットワークを用いて形状と変形場を拡張した。 本手法は, アニメーション処理において, 定量的および定性的に両方のデータ領域において, 強いベースラインを上回っていることを実験的に示す。 表現力のあるアバターの今後の研究を容易にするために、20人の参加者から233の高品質なテクスチャスキャンを含む、X-Humansと呼ばれる新しいデータセットをコントリビュートする。

We present X-Avatar, a novel avatar model that captures the full expressiveness of digital humans to bring about life-like experiences in telepresence, AR/VR and beyond. Our method models bodies, hands, facial expressions and appearance in a holistic fashion and can be learned from either full 3D scans or RGB-D data. To achieve this, we propose a part-aware learned forward skinning module that can be driven by the parameter space of SMPL-X, allowing for expressive animation of X-Avatars. To efficiently learn the neural shape and deformation fields, we propose novel part-aware sampling and initialization strategies. This leads to higher fidelity results, especially for smaller body parts while maintaining efficient training despite increased number of articulated bones. To capture the appearance of the avatar with high-frequency details, we extend the geometry and deformation fields with a texture network that is conditioned on pose, facial expression, geometry and the normals of the deformed surface. We show experimentally that our method outperforms strong baselines in both data domains both quantitatively and qualitatively on the animation task. To facilitate future research on expressive avatars we contribute a new dataset, called X-Humans, containing 233 sequences of high-quality textured scans from 20 participants, totalling 35,500 data frames.
翻訳日:2023-03-10 11:23:58 公開日:2023-03-09
# テキストと画像の拡散モデルを用いたオープンボキャブラリパノプティックセグメンテーション

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.04803v2 )

ライセンス: Link先を確認
Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello(参考訳) 本稿では,事前学習されたテキスト画像拡散と識別モデルを統合し,オープンボカブラリのパンオプティカルセグメンテーションを行うオープンボカブラリ拡散ベースのパンオプティカルセグメンテーションを提案する。 テキストから画像への拡散モデルは、多様なボキャブラリー言語記述を持つ高品質な画像を生成する素晴らしい能力を示している。 このことは、それらの内部表現空間が実世界の開概念と強く相関していることを示している。 一方、CLIPのようなテキスト画像識別モデルは、画像のオープン語彙ラベルへの分類に長けている。 両モデルの凍結表現を活用して,野生の任意のカテゴリーの汎視的セグメンテーションを実行することを提案する。 オープン・ボキャブラリ・パノプティクスとセマンティック・セグメンテーションの両タスクにおいて,従来の技術状況よりも優れていた。 特に、COCOトレーニングのみの場合、ADE20Kデータセット上で23.4 PQと30.0 mIoUを達成し、8.3 PQと7.9 mIoUを従来よりも絶対的に改善した。 プロジェクトページはhttps://jerryxu.net/ODISE で公開されている。

We present ODISE: Open-vocabulary DIffusion-based panoptic SEgmentation, which unifies pre-trained text-image diffusion and discriminative models to perform open-vocabulary panoptic segmentation. Text-to-image diffusion models have shown the remarkable capability of generating high-quality images with diverse open-vocabulary language descriptions. This demonstrates that their internal representation space is highly correlated with open concepts in the real world. Text-image discriminative models like CLIP, on the other hand, are good at classifying images into open-vocabulary labels. We propose to leverage the frozen representation of both these models to perform panoptic segmentation of any category in the wild. Our approach outperforms the previous state of the art by significant margins on both open-vocabulary panoptic and semantic segmentation tasks. In particular, with COCO training only, our method achieves 23.4 PQ and 30.0 mIoU on the ADE20K dataset, with 8.3 PQ and 7.9 mIoU absolute improvement over the previous state-of-the-art. Project page is available at https://jerryxu.net/ODISE .
翻訳日:2023-03-10 11:23:33 公開日:2023-03-09
# 言語モデルの復号アルゴリズムをステーリングするリスクについて

On the Risks of Stealing the Decoding Algorithms of Language Models ( http://arxiv.org/abs/2303.04729v2 )

ライセンス: Link先を確認
Ali Naseh, Kalpesh Krishna, Mohit Iyyer, Amir Houmansadr(参考訳) 現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。 これらのアルゴリズムは、LMによって生成される内部確率分布からテキストを生成する方法を決定する。 復号アルゴリズムを選択してハイパーパラメータをチューニングするプロセスには、かなりの時間、手作業、計算が必要であり、人的評価も必要である。 したがって、そのような復号アルゴリズムのアイデンティティとハイパーパラメータは、所有者にとって極めて貴重であると考えられる。 この研究で、我々は、lmに典型的なapiアクセスを持つ敵が、非常に低い金銭的コストでデコードアルゴリズムのタイプとハイパーパラメータを盗むことができることを初めて示す。 我々の攻撃は、GPT-2やGPT-3を含むテキスト生成APIで使われる一般的なLMに対して効果的である。 GPT-3の4つのバージョンでは、$$$0.8$、$$$1$、$$$4$、$$$40$などである。

A key component of generating text from modern language models (LM) is the selection and tuning of decoding algorithms. These algorithms determine how to generate text from the internal probability distribution generated by the LM. The process of choosing a decoding algorithm and tuning its hyperparameters takes significant time, manual effort, and computation, and it also requires extensive human evaluation. Therefore, the identity and hyperparameters of such decoding algorithms are considered to be extremely valuable to their owners. In this work, we show, for the first time, that an adversary with typical API access to an LM can steal the type and hyperparameters of its decoding algorithms at very low monetary costs. Our attack is effective against popular LMs used in text generation APIs, including GPT-2 and GPT-3. We demonstrate the feasibility of stealing such information with only a few dollars, e.g., $\$0.8$, $\$1$, $\$4$, and $\$40$ for the four versions of GPT-3.
翻訳日:2023-03-10 11:22:55 公開日:2023-03-09
# 移動スレッショルド推定と漸進アライメントによる不均衡開集合領域適応

Imbalanced Open Set Domain Adaptation via Moving-threshold Estimation and Gradual Alignment ( http://arxiv.org/abs/2303.04393v2 )

ライセンス: Link先を確認
Jinghan Ru and Jun Tian and Zhekai Du and Chengwei Xiao and Jingjing Li and Heng Tao Shen(参考訳) マルチメディアアプリケーションはドメイン間の知識伝達と関連付けられ、Unsupervised Domain Adaptation (UDA) はドメインシフトを減らすために使用できる。 Open Set Domain Adaptation (OSDA) は、対象ドメインが未知のクラスを含むという仮定のもと、よくラベル付けされたソースドメインから未ラベルのターゲットドメインに知識を転送することを目的としている。 既存のosda法は共変量シフトに一貫してストレスを与え、潜在的なラベルシフト問題を無視している。 OSDA法の性能はドメイン内クラス不均衡とドメイン間ラベルシフトで大幅に低下する。 しかし、コミュニティではこの問題にはほとんど注意が払われていない。 本稿では,共変量シフト,ラベルシフト,カテゴリミスマッチを同時に有する不均衡開集合領域適応(iosda)について検討する。 OSDAにおけるラベルシフトによる負の効果を軽減するため、クラス不均衡データに対する既存のOSDAメソッドを改善する新しいアーキテクチャである、オープンセット移動閾値推定とグラデーショナルアライメント(OMEGA)を提案する。 具体的には、ラベルシフトとドメイン内クラス不均衡の負の効果を低減するために、ターゲットドメインに厳密なクラスタを形成する新しい未知のターゲットクラスタリング手法を提案する。 さらに、移動スレッショルド推定は、すべてのサンプルに使用するのではなく、対象サンプルごとに特定のしきい値を生成するように設計されている。 IOSDA, OSDA および OPDA ベンチマークの大規模な実験により,本手法が既存の最先端技術を大きく上回ることを示した。 コードとデータはhttps://github.com/mendicant04/OMEGAで公開されている。

Multimedia applications are often associated with cross-domain knowledge transfer, where Unsupervised Domain Adaptation (UDA) can be used to reduce the domain shifts. Open Set Domain Adaptation (OSDA) aims to transfer knowledge from a well-labeled source domain to an unlabeled target domain under the assumption that the target domain contains unknown classes. Existing OSDA methods consistently lay stress on the covariate shift, ignoring the potential label shift problem. The performance of OSDA methods degrades drastically under intra-domain class imbalance and inter-domain label shift. However, little attention has been paid to this issue in the community. In this paper, the Imbalanced Open Set Domain Adaptation (IOSDA) is explored where the covariate shift, label shift and category mismatch exist simultaneously. To alleviate the negative effects raised by label shift in OSDA, we propose Open-set Moving-threshold Estimation and Gradual Alignment (OMEGA) - a novel architecture that improves existing OSDA methods on class-imbalanced data. Specifically, a novel unknown-aware target clustering scheme is proposed to form tight clusters in the target domain to reduce the negative effects of label shift and intra-domain class imbalance. Furthermore, moving-threshold estimation is designed to generate specific thresholds for each target sample rather than using one for all. Extensive experiments on IOSDA, OSDA and OPDA benchmarks demonstrate that our method could significantly outperform existing state-of-the-arts. Code and data are available at https://github.com/mendicant04/OMEGA.
翻訳日:2023-03-10 11:22:38 公開日:2023-03-09
# 可視性のパッチ:オブジェクト検出器に対する自然なブラックボックス攻撃

Patch of Invisibility: Naturalistic Black-Box Adversarial Attacks on Object Detectors ( http://arxiv.org/abs/2303.04238v2 )

ライセンス: Link先を確認
Raz Lapid and Moshe Sipper(参考訳) 近年,ディープラーニングモデルに対する敵意攻撃が注目されている。 この領域での作業は、主に勾配に基づく手法、いわゆるホワイトボックス攻撃に焦点を当てており、攻撃者はターゲットモデルの内部パラメータにアクセスすることができる。 さらに、一部の攻撃はピクセル空間全体を使って特定のモデルを騙すが、実用的でも物理的でもない(実世界)。 一方,本研究では,GAN(Pretrained Generative Adversarial Network, GAN)の学習画像多様体を用いて,対象検出器の自然な物理逆パッチを生成する勾配のない手法を提案する。 提案手法はデジタルと物理の両方で動作することを示す。

Adversarial attacks on deep-learning models have been receiving increased attention in recent years. Work in this area has mostly focused on gradient-based techniques, so-called white-box attacks, wherein the attacker has access to the targeted model's internal parameters; such an assumption is usually unrealistic in the real world. Some attacks additionally use the entire pixel space to fool a given model, which is neither practical nor physical (i.e., real-world). On the contrary, we propose herein a gradient-free method that uses the learned image manifold of a pretrained generative adversarial network (GAN) to generate naturalistic physical adversarial patches for object detectors. We show that our proposed method works both digitally and physically.
翻訳日:2023-03-10 11:22:12 公開日:2023-03-09
# 機械学習を用いた病院デジタル双生児の検証

Validation of a Hospital Digital Twin with Machine Learning ( http://arxiv.org/abs/2303.04117v2 )

ライセンス: Link先を確認
Muhammad Aurangzeb Ahmad, Vijay Chickarmane, Farinaz Sabz Ali Pour, Nima Shariari, Taposh Dutta Roy(参考訳) 最近、ボトルネックや改善の領域をよりよく理解するために、医療におけるプロセスフローのDigital Twins開発への関心が高まっている。 重要な課題は、検証プロセスです。 本研究は,院内患者の寝返り時間を決定するためのエージェントベースシミュレーションモデルを用いたデジタル双生児の作業について述べる。 モデル検証と感度分析の実装に機械学習を用いた戦略を用いる。

Recently there has been a surge of interest in developing Digital Twins of process flows in healthcare to better understand bottlenecks and areas of improvement. A key challenge is in the validation process. We describe a work in progress for a digital twin using an agent based simulation model for determining bed turnaround time for patients in hospitals. We employ a strategy using machine learning for validating the model and implementing sensitivity analysis.
翻訳日:2023-03-10 11:21:59 公開日:2023-03-09
# 汎用オブジェクト操作のためのロボット制御からのスキル学習の分離

Decoupling Skill Learning from Robotic Control for Generalizable Object Manipulation ( http://arxiv.org/abs/2303.04016v2 )

ライセンス: Link先を確認
Kai Lu, Bo Yang, Bing Wang, Andrew Markham(参考訳) 強化学習(RL)や模倣学習(IL)によるロボット操作の最近の研究は、例えば引き出しや食器棚を開くといった様々なタスクに取り組む可能性を示している。 しかし、これらの手法は目に見えない物体にはあまり一般化しない。 これはジョイント制御のための高次元作用空間によるものであると推測する。 本稿では,「何をするか」を「どのように行うか」から学習するタスク,すなわち全身制御を分離する手法を提案する。 我々は,人工関節と相互作用する仮想マニピュレータのスキルダイナミクス決定の一手法としてrl問題を提案する。 全身ロボット運動制御は、作業空間の目標を達成するために高次元関節運動を実行するように最適化される。 ロボット特異点とキネマティック制約を持つ二次プログラミング(QP)モデルを解くことで実現している。 複雑な調音物体の操作に関する実験により,提案手法はクラス内変動が大きい物体に対してより一般化可能であることを示す。 評価の結果,提案手法はより協調的なロボット動作を生成し,タスク成功率の純粋rlおよびilベースラインを上回った。 追加情報とビデオはhttps://kl-research.github.io/decoupskillで入手できる。

Recent works in robotic manipulation through reinforcement learning (RL) or imitation learning (IL) have shown potential for tackling a range of tasks e.g., opening a drawer or a cupboard. However, these techniques generalize poorly to unseen objects. We conjecture that this is due to the high-dimensional action space for joint control. In this paper, we take an alternative approach and separate the task of learning 'what to do' from 'how to do it' i.e., whole-body control. We pose the RL problem as one of determining the skill dynamics for a disembodied virtual manipulator interacting with articulated objects. The whole-body robotic kinematic control is optimized to execute the high-dimensional joint motion to reach the goals in the workspace. It does so by solving a quadratic programming (QP) model with robotic singularity and kinematic constraints. Our experiments on manipulating complex articulated objects show that the proposed approach is more generalizable to unseen objects with large intra-class variations, outperforming previous approaches. The evaluation results indicate that our approach generates more compliant robotic motion and outperforms the pure RL and IL baselines in task success rates. Additional information and videos are available at https://kl-research.github.io/decoupskill
翻訳日:2023-03-10 11:21:53 公開日:2023-03-09
# ELODIN: 埋め込みスペースにおけるナーミングの概念

ELODIN: Naming Concepts in Embedding Spaces ( http://arxiv.org/abs/2303.04001v2 )

ライセンス: Link先を確認
Rodrigo Mello, Filipe Calegario, Geber Ramalho(参考訳) 最近の進歩にもかかわらず、テキストから画像への合成の分野は、まだ細かな制御の欠如に苦しんでいる。 テキストのみを使用することで、概念コヒーレンスや概念汚染といった問題に対処することは依然として困難である。 本稿では,複数の画像にまたがって再利用可能な特定の概念を生成し,画家のパレットによく似た新しい単語で自然言語を効果的に拡張することで,制御性を高める手法を提案する。 従来のコントリビューションとは異なり,本手法は入力データから視覚情報をコピーせず,テキストだけで概念を生成できる。 我々は,テキストのみのプロンプトよりも大幅に改善されることを示す比較を行う。

Despite recent advancements, the field of text-to-image synthesis still suffers from lack of fine-grained control. Using only text, it remains challenging to deal with issues such as concept coherence and concept contamination. We propose a method to enhance control by generating specific concepts that can be reused throughout multiple images, effectively expanding natural language with new words that can be combined much like a painter's palette. Unlike previous contributions, our method does not copy visuals from input data and can generate concepts through text alone. We perform a set of comparisons that finds our method to be a significant improvement over text-only prompts.
翻訳日:2023-03-10 11:21:30 公開日:2023-03-09
# 文脈強化学習のための構造化状態空間モデル

Structured State Space Models for In-Context Reinforcement Learning ( http://arxiv.org/abs/2303.03982v2 )

ライセンス: Link先を確認
Chris Lu, Yannick Schroecker, Albert Gu, Emilio Parisotto, Jakob Foerster, Satinder Singh, Feryal Behbahani(参考訳) structured state space sequence (s4)モデルは最近、長距離シーケンスモデリングタスクで最先端のパフォーマンスを達成している。 これらのモデルは高速な推論速度と並列トレーニングも備えており、多くの強化学習環境で有用である可能性がある。 本研究では,隠れた状態を並列に初期化,リセットすることが可能なS4の変種を改良し,強化学習タスクに取り組むことを提案する。 変更したアーキテクチャはトランスフォーマーよりも漸近的に高速に動作し、単純なメモリベースのタスクでLSTMモデルよりも優れた性能を発揮する。 そして,モデルが長距離シーケンスを処理できる能力を活用することで,エージェントがランダムにサンプリングされた連続的な制御環境と,ランダムにサンプリングされた環境の観察と行動の線形投影を併用した,挑戦的なメタ学習タスクにおいて,高い性能を達成する。 さらに,結果モデルが分散処理に適応できることを示す。 全体として,本論文で示した結果は,s4モデルがコンテキスト内強化学習に使用されるデフォルトアーキテクチャの強力な候補であることを示唆している。

Structured state space sequence (S4) models have recently achieved state-of-the-art performance on long-range sequence modeling tasks. These models also have fast inference speeds and parallelisable training, making them potentially useful in many reinforcement learning settings. We propose a modification to a variant of S4 that enables us to initialise and reset the hidden state in parallel, allowing us to tackle reinforcement learning tasks. We show that our modified architecture runs asymptotically faster than Transformers and performs better than LSTM models on a simple memory-based task. Then, by leveraging the model's ability to handle long-range sequences, we achieve strong performance on a challenging meta-learning task in which the agent is given a randomly-sampled continuous control environment, combined with a randomly-sampled linear projection of the environment's observations and actions. Furthermore, we show the resulting model can adapt to out-of-distribution held-out tasks. Overall, the results presented in this paper suggest that the S4 models are a strong contender for the default architecture used for in-context reinforcement learning
翻訳日:2023-03-10 11:21:18 公開日:2023-03-09