このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221123となっている論文です。

PDF登録状況(公開日: 20221123)

TitleAuthorsAbstract論文公表日・翻訳日
# リソース制約エッジデバイスによるイベントトリガー型分散フェデレーション学習

Event-Triggered Decentralized Federated Learning over Resource-Constrained Edge Devices ( http://arxiv.org/abs/2211.12640v1 )

ライセンス: Link先を確認
Shahryar Zehtabi, Seyyedali Hosseinalipour, Christopher G. Brinton(参考訳) Federated Learning(FL)は、エッジデバイスが個々のデータセット上でローカルモデルトレーニングを行う、分散機械学習(ML)のテクニックである。 従来のFLアルゴリズムでは、エッジで訓練されたモデルを中央サーバに定期的に送信し、基礎となる通信グラフとして星のトポロジーを利用する。 しかし、例えばアドホックな無線ネットワークの設定では、中央コーディネータへのアクセスを仮定することは必ずしも実用的ではない。 本稿では,分散化flのための新しい手法を開発し,ローカルトレーニングに加えて,分散基盤物理ネットワーク上の1ホップ近傍との協調コンセンサス形成を通じて,デバイスがモデルアグリゲーションを行う。 さらに、デバイス間で非同期なイベントトリガー通信を導入することで、タイミングコーディネータの必要性を解消する。 そこで,FLにおける資源の不均一性の課題を考慮し,各機器におけるローカルモデルパラメータの変化を考慮に入れた個別の通信トリガ条件を定義した。 我々は,分散学習とコンセンサス文学における標準的な仮定の下で,この方法論が大域的最適学習モデルに$O{(\frac{\ln{k}}{\sqrt{k}})$で収束することを理論的に実証した。 その後の数値評価により,既存の分散flベースラインと比較して,収束速度および/または通信節約の大幅な改善が得られた。

Federated learning (FL) is a technique for distributed machine learning (ML), in which edge devices carry out local model training on their individual datasets. In traditional FL algorithms, trained models at the edge are periodically sent to a central server for aggregation, utilizing a star topology as the underlying communication graph. However, assuming access to a central coordinator is not always practical, e.g., in ad hoc wireless network settings. In this paper, we develop a novel methodology for fully decentralized FL, where in addition to local training, devices conduct model aggregation via cooperative consensus formation with their one-hop neighbors over the decentralized underlying physical network. We further eliminate the need for a timing coordinator by introducing asynchronous, event-triggered communications among the devices. In doing so, to account for the inherent resource heterogeneity challenges in FL, we define personalized communication triggering conditions at each device that weigh the change in local model parameters against the available local resources. We theoretically demonstrate that our methodology converges to the globally optimal learning model at a $O{(\frac{\ln{k}}{\sqrt{k}})}$ rate under standard assumptions in distributed learning and consensus literature. Our subsequent numerical evaluations demonstrate that our methodology obtains substantial improvements in convergence speed and/or communication savings compared with existing decentralized FL baselines.
翻訳日:2022-11-24 16:35:57 公開日:2022-11-23
# 大規模にロバストな量子機械学習のベンチマーク

Benchmarking Adversarially Robust Quantum Machine Learning at Scale ( http://arxiv.org/abs/2211.12681v1 )

ライセンス: Link先を確認
Maxwell T. West, Sarah M. Erfani, Christopher Leckie, Martin Sevior, Lloyd C.L. Hollenberg, Muhammad Usman(参考訳) 人工知能などの機械学習(ML)手法は、現代科学、技術、産業において急速に普及している。 その正確さと高度さにもかかわらず、ニューラルネットワークは敵攻撃として知られる慎重に設計された悪意のある入力によって簡単に騙される。 このような脆弱性は、古典的ニューラルネットワークにとって依然として深刻な課題であるが、量子ml設定ではその存在範囲が完全には理解されていない。 本研究では,量子変分分類器(QVC)などの量子MLネットワークのロバスト性を,単純かつ複雑な画像データセットと多種多様なハイエンド攻撃による厳密なトレーニングによって評価する。 この結果から,QVCは古典的ニューラルネットワークでは検出されない特徴を学習することで,古典的敵攻撃に対する顕著な堅牢性を示し,MLタスクの量子的優位性を示している。 対照的に、そして驚くべきことに、量子ネットワークに対する攻撃は古典的なニューラルネットワークを欺くことができる。 量子と古典的ネットワークの結果を組み合わせることで,新たな敵攻撃検出技術を提案する。 従来のMLシステムの量子優位性は、精度の向上やアルゴリズムのスピードアップを通じて求められてきましたが、我々の研究は、自動運転車、サイバーセキュリティ、監視ロボットシステムなど、無数のアプリケーションで採用されているMLアルゴリズムの深刻なセキュリティ上の問題と信頼性の問題に対処する、MLモデルの優れた堅牢性を通じて、新しい種類の量子優位性の可能性を明らかにしました。

Machine learning (ML) methods such as artificial neural networks are rapidly becoming ubiquitous in modern science, technology and industry. Despite their accuracy and sophistication, neural networks can be easily fooled by carefully designed malicious inputs known as adversarial attacks. While such vulnerabilities remain a serious challenge for classical neural networks, the extent of their existence is not fully understood in the quantum ML setting. In this work, we benchmark the robustness of quantum ML networks, such as quantum variational classifiers (QVC), at scale by performing rigorous training for both simple and complex image datasets and through a variety of high-end adversarial attacks. Our results show that QVCs offer a notably enhanced robustness against classical adversarial attacks by learning features which are not detected by the classical neural networks, indicating a possible quantum advantage for ML tasks. Contrarily, and remarkably, the converse is not true, with attacks on quantum networks also capable of deceiving classical neural networks. By combining quantum and classical network outcomes, we propose a novel adversarial attack detection technology. Traditionally quantum advantage in ML systems has been sought through increased accuracy or algorithmic speed-up, but our work has revealed the potential for a new kind of quantum advantage through superior robustness of ML models, whose practical realisation will address serious security concerns and reliability issues of ML algorithms employed in a myriad of applications including autonomous vehicles, cybersecurity, and surveillance robotic systems.
翻訳日:2022-11-24 16:35:33 公開日:2022-11-23
# SAH: 逆$k$-maximum内積探索のためのシフト対応非対称ハッシュ

SAH: Shifting-aware Asymmetric Hashing for Reverse $k$-Maximum Inner Product Search ( http://arxiv.org/abs/2211.12751v1 )

ライセンス: Link先を確認
Qiang Huang, Yanhao Wang, Anthony K. H. Tung(参考訳) 本稿では,Reverse $k$-Maximum inner Product Search (R$k$MIPS) と呼ばれる新たな課題について検討する。 クエリ(item)ベクター、アイテムベクターの集合、およびユーザベクターの集合が与えられたとき、r$k$mipsの問題は、クエリベクターを持つ内積がクエリベクターとアイテムベクターのうち最大の$k$の1つであるユーザベクターの集合を見つけることである。 我々は、R$k$MIPS問題に対処するために、第1の準四進時間アルゴリズム、すなわちシフト対応非対称ハッシュ(SAH)を提案する。 項目ベクトル上での最大内積探索(MIPS)を高速化するために、シフト不変な非対称変換を設計し、新しいサブ線形時間シフト型非対称局所性感性ハッシュ(SA-ALSH)方式を開発する。 さらに,conan-treeに基づく新たなブロッキング戦略を考案し,(バッチ内で)ユーザベクトルを効果的にプルーピングする。 RMIPS問題を解くための理論的保証をSAHが達成していることを示す。 5つの実世界のデータセットの実験結果から、SAHはR$k$MIPSの最先端メソッドよりも高速に4$\sim$8$\times$を実行し、F1スコアの90%以上を達成した。 コードは \url{https://github.com/huangqiang/sah} で入手できる。

This paper investigates a new yet challenging problem called Reverse $k$-Maximum Inner Product Search (R$k$MIPS). Given a query (item) vector, a set of item vectors, and a set of user vectors, the problem of R$k$MIPS aims to find a set of user vectors whose inner products with the query vector are one of the $k$ largest among the query and item vectors. We propose the first subquadratic-time algorithm, i.e., Shifting-aware Asymmetric Hashing (SAH), to tackle the R$k$MIPS problem. To speed up the Maximum Inner Product Search (MIPS) on item vectors, we design a shifting-invariant asymmetric transformation and develop a novel sublinear-time Shifting-Aware Asymmetric Locality Sensitive Hashing (SA-ALSH) scheme. Furthermore, we devise a new blocking strategy based on the Cone-Tree to effectively prune user vectors (in a batch). We prove that SAH achieves a theoretical guarantee for solving the RMIPS problem. Experimental results on five real-world datasets show that SAH runs 4$\sim$8$\times$ faster than the state-of-the-art methods for R$k$MIPS while achieving F1-scores of over 90\%. The code is available at \url{https://github.com/HuangQiang/SAH}.
翻訳日:2022-11-24 16:35:08 公開日:2022-11-23
# 分子予測のための正規化位置符号化の学習

Learning Regularized Positional Encoding for Molecular Prediction ( http://arxiv.org/abs/2211.12773v1 )

ライセンス: Link先を確認
Xiang Gao, Weihao Gao, Wenzhi Xiao, Zhirui Wang, Chong Wang, Liang Xiang(参考訳) 機械学習は分子モデリングに有望なアプローチになっている。 原子間距離や結合角などの位置的量は分子物理学において重要な役割を果たす。 既存の作品は、その表現の注意深い手動設計に依存している。 よりエンドツーエンドなアプローチで分子特性を予測する際に、複雑な非線形性をモデル化するために、連続的かつ微分可能な埋め込みを用いて位置量のエンコードを提案する。 物理次元に沿って滑らかな埋め込みを促すために正規化手法が用いられる。 我々は様々な分子特性と力場予測タスクを実験した。 提案手法を組み込んだ3種類のモデルアーキテクチャに対して, 改良された性能を示す。 さらに、学習された位置符号化により、物理に基づく解釈が容易になる。 同様の物理のタスクは、同様の学習された位置エンコーディングを持つ。

Machine learning has become a promising approach for molecular modeling. Positional quantities, such as interatomic distances and bond angles, play a crucial role in molecule physics. The existing works rely on careful manual design of their representation. To model the complex nonlinearity in predicting molecular properties in an more end-to-end approach, we propose to encode the positional quantities with a learnable embedding that is continuous and differentiable. A regularization technique is employed to encourage embedding smoothness along the physical dimension. We experiment with a variety of molecular property and force field prediction tasks. Improved performance is observed for three different model architectures after plugging in the proposed positional encoding method. In addition, the learned positional encoding allows easier physics-based interpretation. We observe that tasks of similar physics have the similar learned positional encoding.
翻訳日:2022-11-24 16:34:39 公開日:2022-11-23
# 協調データ駆動モデリング

Cooperative data-driven modeling ( http://arxiv.org/abs/2211.12971v1 )

ライセンス: Link先を確認
Aleksandr Dekhovich, O. Taylan Turan, Jiaxiang Yi, Miguel A. Bessa(参考訳) メカニクスにおけるデータ駆動モデリングは、最近の機械学習の進歩、特に人工ニューラルネットワークに基づいて急速に進化している。 この分野が成熟するにつれて、異なるグループが作成した新しいデータとモデルが利用可能になり、協調モデリングの可能性が開けた。 しかし、ニューラルネットワークは破滅的な忘れ、すなわち新しいタスクでトレーニングされたときに古いタスクを実行する方法を忘れてしまう。 これは、新しいタスクに既存のモデルを適用することが、他の人が訓練した前のタスクのパフォーマンスに影響するため、協力を妨げる。 著者らはこの問題に対処する継続的学習法を開発し、固体力学に初めて適用した。 特に、この方法は、他のアーキテクチャ(フィードフォワード、畳み込みなど)で使用でき、他の現象を予測するために、履歴に依存した塑性挙動を予測するために、繰り返しニューラルネットワークに適用される。 本研究は, 機械工学コミュニティ間の協調戦略を育成し, ますます困難な課題を解決しようとする, 継続的な学習の今後の発展をめざすものである。 選択した連続学習戦略は、モデルを忘れずに連続的にいくつかの構成法則を学習できることを示し、少ないデータを用いて1モデル当たりの標準法則と同じ誤差を達成する。

Data-driven modeling in mechanics is evolving rapidly based on recent machine learning advances, especially on artificial neural networks. As the field matures, new data and models created by different groups become available, opening possibilities for cooperative modeling. However, artificial neural networks suffer from catastrophic forgetting, i.e. they forget how to perform an old task when trained on a new one. This hinders cooperation because adapting an existing model for a new task affects the performance on a previous task trained by someone else. The authors developed a continual learning method that addresses this issue, applying it here for the first time to solid mechanics. In particular, the method is applied to recurrent neural networks to predict history-dependent plasticity behavior, although it can be used on any other architecture (feedforward, convolutional, etc.) and to predict other phenomena. This work intends to spawn future developments on continual learning that will foster cooperative strategies among the mechanics community to solve increasingly challenging problems. We show that the chosen continual learning strategy can sequentially learn several constitutive laws without forgetting them, using less data to achieve the same error as standard training of one law per model.
翻訳日:2022-11-24 16:34:01 公開日:2022-11-23
# 木の上で成長するサブグループロバストネス:実証的ベースライン調査

Subgroup Robustness Grows On Trees: An Empirical Baseline Investigation ( http://arxiv.org/abs/2211.12703v1 )

ライセンス: Link先を確認
Josh Gardner, Zoran Popovi\'c, Ludwig Schmidt(参考訳) 研究者は、公平で堅牢な機械学習のための多くの方法を提案してきたが、そのサブグループの堅牢性に関する包括的な実証的な評価は欠如している。 本研究では, 感性部分群が明確に定義され, 現実の公正性問題が多く, 先行研究は, 最先端のツリーベースモデルをベースラインとして比較しないことが多い, 表層データにおけるこのギャップに対処する。 我々は,最先端ツリーベース手法と他のベースラインと並行して,公正かつ堅牢な学習のためのいくつかの手法を実証的に比較する。 8つのデータセット上での340{,}000ドル以上のモデル構成を用いた実験により、木に基づく手法はロバストネスおよびフェアネスエンハンシング手法と比較して強いサブグループロバスト性を有することを示した。 さらに、最良のツリーベースモデルは様々なメトリクスよりも優れたパフォーマンスを示す傾向がありますが、ロバストモデルやグループフェアモデルは不安定性を示し、固定されたモデルで異なるメトリクス間で大きなパフォーマンスの差があります。 また,木ベースのモデルではハイパーパラメータの設定に対する感度が低く,トレーニングコストも低いことを実証した。 本研究は,木に基づくアンサンブルモデルが表データに対して有効なベースラインとなることを示唆する。 関連コードと詳細な結果については、https://github.com/jpgard/subgroup-robustness-grows-on-treesを参照。

Researchers have proposed many methods for fair and robust machine learning, but comprehensive empirical evaluation of their subgroup robustness is lacking. In this work, we address this gap in the context of tabular data, where sensitive subgroups are clearly-defined, real-world fairness problems abound, and prior works often do not compare to state-of-the-art tree-based models as baselines. We conduct an empirical comparison of several previously-proposed methods for fair and robust learning alongside state-of-the-art tree-based methods and other baselines. Via experiments with more than $340{,}000$ model configurations on eight datasets, we show that tree-based methods have strong subgroup robustness, even when compared to robustness- and fairness-enhancing methods. Moreover, the best tree-based models tend to show good performance over a range of metrics, while robust or group-fair models can show brittleness, with significant performance differences across different metrics for a fixed model. We also demonstrate that tree-based models show less sensitivity to hyperparameter configurations, and are less costly to train. Our work suggests that tree-based ensemble models make an effective baseline for tabular data, and are a sensible default when subgroup robustness is desired. For associated code and detailed results, see https://github.com/jpgard/subgroup-robustness-grows-on-trees .
翻訳日:2022-11-24 16:29:10 公開日:2022-11-23
# OGB大規模チャレンジ@NeurIPS 2022におけるVisNet, Transformer-M, および分子特性予測のための事前学習モデル

An ensemble of VisNet, Transformer-M, and pretraining models for molecular property prediction in OGB Large-Scale Challenge @ NeurIPS 2022 ( http://arxiv.org/abs/2211.12791v1 )

ライセンス: Link先を確認
Yusong Wang, Shaoning Li, Tong Wang, Zun Wang, Xinheng He, Bin Shao and Tie-Yan Liu(参考訳) 技術的レポートでは、OGB-LSC 2022 Graph Regression Taskに対するソリューションを提供する。 このタスクの目的は、pcqm4mv2データセット上の任意の分子の量子化学的性質、ホモルーモギャップを予測することである。 コンペティションでは,完全連結なグラフグラフのための幾何強化グラフニューラルネットワークであるTransformer-M-ViSNetと,最適化された構造から測地情報を抽出して事前学習したViSNetであるPretrained-3D-ViSNetの2種類のモデルを構築した。 22モデルのアンサンブルにより、ViSNet Teamはテストチェレンジセットで0.0723 eVのMAEを達成し、昨年のベストメソッドと比較してエラーを39.75%削減した。

In the technical report, we provide our solution for OGB-LSC 2022 Graph Regression Task. The target of this task is to predict the quantum chemical property, HOMO-LUMO gap for a given molecule on PCQM4Mv2 dataset. In the competition, we designed two kinds of models: Transformer-M-ViSNet which is an geometry-enhanced graph neural network for fully connected molecular graphs and Pretrained-3D-ViSNet which is a pretrained ViSNet by distilling geomeotric information from optimized structures. With an ensemble of 22 models, ViSNet Team achieved the MAE of 0.0723 eV on the test-challenge set, dramatically reducing the error by 39.75% compared with the best method in the last year competition.
翻訳日:2022-11-24 16:28:28 公開日:2022-11-23
# 対比較による完全サンプリング

Perfect Sampling from Pairwise Comparisons ( http://arxiv.org/abs/2211.12868v1 )

ライセンス: Link先を確認
Dimitris Fotakis, Alkis Kalavasis, Christos Tzamos(参考訳) そこで本研究では, 離散分布$\mathcal{D}$ から完全標本を効率よく取得する方法を, サポート対象要素のペア比較に限定して検討する。 具体的には、$(x, s)$ が$\mathcal{q}$ (比較される要素を示す) 上の分布から$s$ が引き出され、$x$ が条件付き分布 $\mathcal{d}_s$ (比較の勝者を示す) から引き出され、$\mathcal{d}$ に従って分散されたクリーンサンプル $y$ が出力される。 主に、すべての集合 S$ がサイズ 2 を持つペアワイズ比較の場合に焦点を当てる。 固定分布が$\mathcal{D}$と一致するマルコフ連鎖を設計し、過去からの結合技術を用いて正確なサンプルを得るアルゴリズムを提供する。 しかし、このアルゴリズムのサンプルの複雑さは分布 $\mathcal{D}$ の構造に依存し、多くの自然シナリオにおいて$\mathcal{D}$ のサポートにおいて指数関数的である。 我々の主な貢献は、$\mathcal{D}$の構造に依存しない効率的な正確なサンプリングアルゴリズムを提供することである。 この目的のために、静止分布のよい近似を考えるとかなり高速に混合するパラメトリックマルコフ連鎖を与える。 このような近似は対比較アルゴリズム(shah et al., jmlr 17, 2016)から効率的な学習を用いて得られる。 定常分布が大まかに知られているマルコフ鎖からのサンプリングを高速化する手法は単純で、汎用的で、おそらくは独立した関心事である。

In this work, we study how to efficiently obtain perfect samples from a discrete distribution $\mathcal{D}$ given access only to pairwise comparisons of elements of its support. Specifically, we assume access to samples $(x, S)$, where $S$ is drawn from a distribution over sets $\mathcal{Q}$ (indicating the elements being compared), and $x$ is drawn from the conditional distribution $\mathcal{D}_S$ (indicating the winner of the comparison) and aim to output a clean sample $y$ distributed according to $\mathcal{D}$. We mainly focus on the case of pairwise comparisons where all sets $S$ have size 2. We design a Markov chain whose stationary distribution coincides with $\mathcal{D}$ and give an algorithm to obtain exact samples using the technique of Coupling from the Past. However, the sample complexity of this algorithm depends on the structure of the distribution $\mathcal{D}$ and can be even exponential in the support of $\mathcal{D}$ in many natural scenarios. Our main contribution is to provide an efficient exact sampling algorithm whose complexity does not depend on the structure of $\mathcal{D}$. To this end, we give a parametric Markov chain that mixes significantly faster given a good approximation to the stationary distribution. We can obtain such an approximation using an efficient learning from pairwise comparisons algorithm (Shah et al., JMLR 17, 2016). Our technique for speeding up sampling from a Markov chain whose stationary distribution is approximately known is simple, general and possibly of independent interest.
翻訳日:2022-11-24 16:28:02 公開日:2022-11-23
# Android マルウェア分類のための動的重み付きフェデレーション学習

A Dynamic Weighted Federated Learning for Android Malware Classification ( http://arxiv.org/abs/2211.12874v1 )

ライセンス: Link先を確認
Ayushi Chaudhuri and Arijit Nandi and Buddhadeb Pradhan(参考訳) Androidのマルウェア攻撃は毎日増えており、Androidのユーザはサイバー攻撃に弱い。 研究者はアンドロイドマルウェアの攻撃を検出し軽減するために、多くの機械学習/ディープラーニング(DL)技術を開発した。 しかし、技術の進歩により、androidのモバイルデバイスは増加している。 さらに、デバイスは地理的に分散し、分散データを生成する。 このようなシナリオでは、従来のML/DL技術は、すべてのアプローチが中央システムにデータを保持する必要があるため、実現不可能である。 また、従来のML/DLベースのアンドロイドマルウェア分類技術はスケーラブルではない。 研究者らは、高い分類性能でプライバシー保護とスケーラビリティを解決するために、FLベースのアンドロイドマルウェア分類システムを提案した。 従来のFLでは、フェデレート平均化(FedAvg)を利用して各ラウンドのグローバルモデルを構築し、FLに参加した全顧客から得られるすべてのローカルモデルを統合する。 しかし、従来のFedAvgには欠点があり、各ラウンドのグローバルモデル開発に1つの貧弱なローカルモデルが組み込まれれば、パフォーマンスの低いグローバルモデルになる可能性がある。 FedAvgは平均的にすべてのローカルモデルを好むからです。 この問題に対処するため、本研究の目的は、クライアントの性能に応じて各ローカルモデルの重みが自動的に更新される動的重み付き平均化(dw-fedavg)戦略を設計することである。 DW-FedAvgは4つの人気のあるベンチマークデータセット、Melgenome、Drebin、Kronodroid、Tuandromdを使って評価されている。

Android malware attacks are increasing daily at a tremendous volume, making Android users more vulnerable to cyber-attacks. Researchers have developed many machine learning (ML)/ deep learning (DL) techniques to detect and mitigate android malware attacks. However, due to technological advancement, there is a rise in android mobile devices. Furthermore, the devices are geographically dispersed, resulting in distributed data. In such scenario, traditional ML/DL techniques are infeasible since all of these approaches require the data to be kept in a central system; this may provide a problem for user privacy because of the massive proliferation of Android mobile devices; putting the data in a central system creates an overhead. Also, the traditional ML/DL-based android malware classification techniques are not scalable. Researchers have proposed federated learning (FL) based android malware classification system to solve the privacy preservation and scalability with high classification performance. In traditional FL, Federated Averaging (FedAvg) is utilized to construct the global model at each round by merging all of the local models obtained from all of the customers that participated in the FL. However, the conventional FedAvg has a disadvantage: if one poor-performing local model is included in global model development for each round, it may result in an under-performing global model. Because FedAvg favors all local models equally when averaging. To address this issue, our main objective in this work is to design a dynamic weighted federated averaging (DW-FedAvg) strategy in which the weights for each local model are automatically updated based on their performance at the client. The DW-FedAvg is evaluated using four popular benchmark datasets, Melgenome, Drebin, Kronodroid and Tuandromd used in android malware classification research.
翻訳日:2022-11-24 16:27:32 公開日:2022-11-23
# 対人攻撃は驚くべきほど強力なメタラーナーの攻撃

Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning Few-Shot Meta-Learners ( http://arxiv.org/abs/2211.12990v1 )

ライセンス: Link先を確認
Elre T. Oldewage, John Bronskill, Richard E. Turner(参考訳) 本稿では,展開された数発のメタラーニングシステムの頑健性について検討する。 トレーニングデータとして使用すると、システムの学習アルゴリズムを騙すように調整された、衝突する一連の入力を作成できる。 共作の逆入力は、分類器を相乗的に操作することが期待され、検出が難しい非常に強力なデータポゾン攻撃が可能となる。 ホワイトボックスの設定では、これらの攻撃は非常に成功し、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示します。 しかし、一般に敵の例のよく知られた転送可能性とは対照的に、コルーディング集合は異なる分類器にうまく転送されない。 我々は,攻撃による「過度」と,攻撃が生成されるモデルと攻撃が伝達されるモデルとのミスマッチという2つの仮説を考察する。 これらの仮説によって示唆される緩和戦略にかかわらず、共役入力は通常の方法で独立に生成される逆入力よりも転送される。

This paper examines the robustness of deployed few-shot meta-learning systems when they are fed an imperceptibly perturbed few-shot dataset. We attack amortized meta-learners, which allows us to craft colluding sets of inputs that are tailored to fool the system's learning algorithm when used as training data. Jointly crafted adversarial inputs might be expected to synergistically manipulate a classifier, allowing for very strong data-poisoning attacks that would be hard to detect. We show that in a white box setting, these attacks are very successful and can cause the target model's predictions to become worse than chance. However, in opposition to the well-known transferability of adversarial examples in general, the colluding sets do not transfer well to different classifiers. We explore two hypotheses to explain this: 'overfitting' by the attack, and mismatch between the model on which the attack is generated and that to which the attack is transferred. Regardless of the mitigation strategies suggested by these hypotheses, the colluding inputs transfer no better than adversarial inputs that are generated independently in the usual way.
翻訳日:2022-11-24 16:27:04 公開日:2022-11-23
# 4DVarNetによる衛星SST-SSHシナジーからの海面電流のインバージョン

Inversion of sea surface currents from satellite-derived SST-SSH synergies with 4DVarNets ( http://arxiv.org/abs/2211.13059v1 )

ライセンス: Link先を確認
Ronan Fablet, Bertrand Chapron, Julien Le Sommer, Florian S\'evellec(参考訳) 衛星高度計は、海面のダイナミクスを直接観測するためのユニークな方法である。 しかし、これは海面速度の表面に拘束された地動学的成分に限定されている。 しかし、高齢化のダイナミクスは、100km以下の水平スケールと10日以下のタイムスケールで重要と期待されている。 海洋一般循環モデルの同化は、おそらくこの老朽化した成分のごく一部しか示さない。 そこで我々は,観測された海面トレーサ,特に海面高度(SSH)と海面温度(SST)の相乗効果をよりよく活用し,海面電流をよりよく知るための学習的手法を探る。 具体的には、4DVarNetスキームを開発し、トレーニング可能な観測と事前条件による変動データ同化の定式化を利用する。 ガルフストリームの地域にある観測システムシミュレーション実験 (OSSE) では、SST-SSHのシナジーにより、2.5-3.0日の時間スケールと0.5$^\circ$-0.7$^\circ$の水平スケールの海面速度が明らかになると示唆している。 異なる観測データ、すなわち、沿線高度計、広帯域SWOT高度計およびSSTデータの寄与の分析は、水平空間スケールでの再構成におけるSSTの特徴の重要性を強調している。

Satellite altimetry is a unique way for direct observations of sea surface dynamics. This is however limited to the surface-constrained geostrophic component of sea surface velocities. Ageostrophic dynamics are however expected to be significant for horizontal scales below 100~km and time scale below 10~days. The assimilation of ocean general circulation models likely reveals only a fraction of this ageostrophic component. Here, we explore a learning-based scheme to better exploit the synergies between the observed sea surface tracers, especially sea surface height (SSH) and sea surface temperature (SST), to better inform sea surface currents. More specifically, we develop a 4DVarNet scheme which exploits a variational data assimilation formulation with trainable observations and {\em a priori} terms. An Observing System Simulation Experiment (OSSE) in a region of the Gulf Stream suggests that SST-SSH synergies could reveal sea surface velocities for time scales of 2.5-3.0 days and horizontal scales of 0.5$^\circ$-0.7$^\circ$, including a significant fraction of the ageostrophic dynamics ($\approx$ 47\%). The analysis of the contribution of different observation data, namely nadir along-track altimetry, wide-swath SWOT altimetry and SST data, emphasizes the role of SST features for the reconstruction at horizontal spatial scales ranging from \nicefrac{1}{20}$^\circ$ to \nicefrac{1}{4}$^\circ$.
翻訳日:2022-11-24 16:26:25 公開日:2022-11-23
# ASiT:一般的な音声表現のためのオーディオスペクトログラムvIsion変換器

ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation ( http://arxiv.org/abs/2211.13189v1 )

ライセンス: Link先を確認
Sara Atito, Muhammad Awais, Wenwu Wang, Mark D Plumbley, Josef Kittler(参考訳) 元々自然言語処理用に開発されたビジョントランスフォーマーは、長距離関係の学習に柔軟性があることから、コンピュータビジョンとオーディオコミュニティに大きな関心を集めている。 トランスフォーマーと制限付きデータによって制限される オーディオタスク用のトランスフォーマーベースのほとんどのモデルは、自然画像ドメインとオーディオドメインの間に大きなギャップがあるにもかかわらず、imagenetプリトレーニングされたモデルから微調整される。 これは、オーディオトランスフォーマの自己教師あり事前学習の研究の動機となり、大量のラベル付きデータへの依存を減らし、オーディオスペクトログラムの簡潔な表現の抽出に焦点を当てた。 本稿では,グループマスキングモデル学習と自己蒸留を用いた局所的・グローバルな文脈情報をキャプチャする汎用音声表現用自己教師型トランスフォーマであるASiTを提案する。 我々は,音声イベント分類,キーワードスポッティング,話者識別を含む音声と音声の分類タスクにおいて,事前学習したモデルを評価する。 我々はさらに,様々な事前訓練戦略の評価を含む包括的アブレーション研究を行う。 提案したASiTフレームワークは、すべてのタスクのパフォーマンスを大幅に向上させ、5つのオーディオおよび音声分類タスクに新しい最先端のパフォーマンスを設定し、事前トレーニングに追加データセットを使用するアプローチを含む最近の手法より優れている。 コードと事前訓練された重量は、科学コミュニティ向けに公開されます。

Vision transformers, which were originally developed for natural language processing, have recently generated significant interest in the computer vision and audio communities due to their flexibility in learning long-range relationships. Constrained by data hungry nature of transformers and limited labelled data most transformer-based models for audio tasks are finetuned from ImageNet pretrained models, despite the huge gap between the natural images domain and audio domain. This has motivated the research in self-supervised pretraining of audio transformers, which reduces the dependency on large amounts of labeled data and focuses on extracting concise representation of the audio spectrograms. In this paper, we propose ASiT, a novel self-supervised transformer for general audio representations that captures local and global contextual information employing group masked model learning and self-distillation. We evaluate our pretrained models on both audio and speech classification tasks including audio event classification, keyword spotting, and speaker identification. We further conduct comprehensive ablation studies, including evaluations of different pretraining strategies. The proposed ASiT framework significantly boosts the performance on all tasks and sets a new state-of-the-art performance on five audio and speech classification tasks, outperforming recent methods, including the approaches that use additional datasets for pretraining. The code and pretrained weights will be made publicly available for the scientific community.
翻訳日:2022-11-24 16:25:11 公開日:2022-11-23
# 制限付きマルチウィンナー選挙におけるかなりユーティリティーの割当

Fairly Allocating Utility in Constrained Multiwinner Elections ( http://arxiv.org/abs/2211.12820v1 )

ライセンス: Link先を確認
Kunal Relia(参考訳) マルチウィンナー選挙の公平性は様々な状況で研究されている。 例えば、候補者の多様性と有権者の表現はどちらもフェアと呼ばれる。 すべてのコンテキストにおいて公平性を保証する共通の分母は制約の使用である。 しかし、これらの文脈において、与えられた制約を満たすために選ばれた候補者は、歴史的に不公平な有権者に対して、不公平な結果をもたらす可能性がある。 そこで我々は, 投票者間の制約を公平に満たす候補を選択するモデルを構築した。 そのために、制約付きマルチウィンナー選挙問題を、かなり分けられない商品を割り当てる問題にマップする。 我々は,このモデルの3つの変種,すなわちグローバル,ローカライズ,セクション間を提案する。 次に、モデルの計算複雑性を解析し、3つの変種にわたるモデルの様々な設定におけるユーティリティトレードオフの実証分析を行い、シンプソンのパラドックスの影響について、合成データセットと国連における投票データセットを用いて議論する。 最後に、AIと機械学習の研究、特に公正性を保証するために制約を使用する研究の意義について論じる。

Fairness in multiwinner elections is studied in varying contexts. For instance, diversity of candidates and representation of voters are both separately termed as being fair. A common denominator to ensure fairness across all such contexts is the use of constraints. However, across these contexts, the candidates selected to satisfy the given constraints may systematically lead to unfair outcomes for historically disadvantaged voter populations as the cost of fairness may be borne unequally. Hence, we develop a model to select candidates that satisfy the constraints fairly across voter populations. To do so, the model maps the constrained multiwinner election problem to a problem of fairly allocating indivisible goods. We propose three variants of the model, namely, global, localized, and inter-sectional. Next, we analyze the model's computational complexity, and we present an empirical analysis of the utility traded-off across various settings of our model across the three variants and discuss the impact of Simpson's paradox using synthetic datasets and a dataset of voting at the United Nations. Finally, we discuss the implications of our work for AI and machine learning, especially for studies that use constraints to guarantee fairness.
翻訳日:2022-11-24 16:18:53 公開日:2022-11-23
# 多目的衝突探索のためのコスト分割

Cost Splitting for Multi-Objective Conflict-Based Search ( http://arxiv.org/abs/2211.12885v1 )

ライセンス: Link先を確認
Cheng Ge, Han Zhang, Jiaoyang Li, Sven Koenig(参考訳) 多目的多目的経路探索(MO-MAPF)問題は、複数のコストメトリクスを最小化しながら、エージェントチームにとって衝突のない経路のパレート最適フロンティアを見つける問題である。 このようなコストメトリクスの例としては、到着時間、移動距離、エネルギー消費量などがある。本論文では、最先端のmo-mapfアルゴリズムである多目的コンフリクトベース探索(mo-cbs)アルゴリズムに焦点を当てる。 提案手法では,MO-CBSが使用する標準分割戦略が検索ノードの重複を招き,MO-CBSが行わなければならない探索作業を重複させる可能性があることを示す。 そこで本研究では,mo-cbのコスト分割とコスト分割という2つの新しい分割戦略を提案する。 この2つの新たな分割戦略を組み合わせれば,MO-CBSは完全性と最適性を保証する。 実験結果から,MO-CBSを最大2桁の速度で高速化し,様々な環境での成功率を大幅に向上させることが示唆された。

The Multi-Objective Multi-Agent Path Finding (MO-MAPF) problem is the problem of finding the Pareto-optimal frontier of collision-free paths for a team of agents while minimizing multiple cost metrics. Examples of such cost metrics include arrival times, travel distances, and energy consumption.In this paper, we focus on the Multi-Objective Conflict-Based Search (MO-CBS) algorithm, a state-of-the-art MO-MAPF algorithm. We show that the standard splitting strategy used by MO-CBS can lead to duplicate search nodes and hence can duplicate the search effort that MO-CBS needs to make. To address this issue, we propose two new splitting strategies for MO-CBS, namely cost splitting and disjoint cost splitting. Our theoretical results show that, when combined with either of these two new splitting strategies, MO-CBS maintains its completeness and optimality guarantees. Our experimental results show that disjoint cost splitting, our best splitting strategy, speeds up MO-CBS by up to two orders of magnitude and substantially improves its success rates in various settings.
翻訳日:2022-11-24 16:18:35 公開日:2022-11-23
# 音楽系列の典型性について

On the Typicality of Musical Sequences ( http://arxiv.org/abs/2211.13016v1 )

ライセンス: Link先を確認
Mathias Rose Bjare and Stefan Lattner(参考訳) 最近の出版物では、人為的な英語の単語は条件付きエントロピーに近い情報内容を持つ傾向があることが示されている。 本稿では,人間が生成する単音節音楽列のイベントについても,同じことが当てはまることを示す。 また,「典型的サンプリング」が単一事象やシーケンスのエントロピーに関する情報の分布にどのように影響するかを示す。

It has been shown in a recent publication that words in human-produced English language tend to have an information content close to the conditional entropy. In this paper, we show that the same is true for events in human-produced monophonic musical sequences. We also show how "typical sampling" influences the distribution of information around the entropy for single events and sequences.
翻訳日:2022-11-24 16:18:16 公開日:2022-11-23
# 実世界の人間ロボットコラボレーションにおけるトランスファーラーニングによるチームのパフォーマンス向上

Enhancing team performance with transfer-learning during real-world human-robot collaboration ( http://arxiv.org/abs/2211.13070v1 )

ライセンス: Link先を確認
Athanasios C. Tsitos and Maria Dagioglou(参考訳) 社会的に認識されたロボットは、解決のために相互依存のアクションを必要とするタスクにおいて、人間とロボットの融合を円滑に支援できるはずである。 相互性能の向上に向けて、協調ロボットは適応と学習能力を備えるべきである。 しかし、コラーニングは時間のかかる手順である。 そのため、専門家から知識を移すことで、チーム全体のパフォーマンスが向上する可能性がある。 本研究では,伝達学習を深層強化学習(dRL)エージェントに統合した。 リアルタイムおよび実世界のセットアップでは、参加者の2つのグループは、drlエージェントの2つの異なる条件下でコボットと協力しなければならなかった。 伝達学習(TL)には確率的政策再利用法が用いられた。 その結果、2つのグループの成績には有意差があり、tlは新たな参加者の訓練に要する時間を半減した。 さらに、TLはチームの主観的パフォーマンスにも影響を与え、知覚された流感を高めた。 最後に、多くの場合、客観的なパフォーマンス指標は、透明で説明可能なコボットの振る舞いの設計に関する興味深い洞察を提供する主観的な指標と相関しなかった。

Socially aware robots should be able, among others, to support fluent human-robot collaboration in tasks that require interdependent actions in order to be solved. Towards enhancing mutual performance, collaborative robots should be equipped with adaptation and learning capabilities. However, co-learning can be a time consuming procedure. For this reason, transferring knowledge from an expert could potentially boost the overall team performance. In the present study, transfer learning was integrated in a deep Reinforcement Learning (dRL) agent. In a real-time and real-world set-up, two groups of participants had to collaborate with a cobot under two different conditions of dRL agents; one that was transferring knowledge and one that did not. A probabilistic policy reuse method was used for the transfer learning (TL). The results showed that there was a significant difference between the performance of the two groups; TL halved the time needed for the training of new participants to the task. Moreover, TL also affected the subjective performance of the teams and enhanced the perceived fluency. Finally, in many cases the objective performance metrics did not correlate with the subjective ones providing interesting insights about the design of transparent and explainable cobot behaviour.
翻訳日:2022-11-24 16:18:09 公開日:2022-11-23
# モノトーン分離型多人数投票規則を用いた多人数代表委員会作成の複雑さについて

On the Complexity of Finding a Diverse and Representative Committee using a Monotone, Separable Positional Multiwinner Voting Rule ( http://arxiv.org/abs/2211.13217v1 )

ライセンス: Link先を確認
Kunal Relia(参考訳) マルチウィンター選挙における公正さは、計算社会選択における研究の行数の増加であり、公正性を確保するために制約を使用することを主に懸念している。 最近の研究は、多種多様な \emph{and} 代表委員会を見つけるためのモデルを提案し、モデルの計算的側面を研究した。 しかし、この研究は候補者と有権者がどうグループ化されるかという大きな仮定の下で複雑な結果をもたらした。 ここでは、このギャップを埋めて、P$\neq$ NP という仮定に基づいて、単調で分離可能な位置多元投票規則を用いて、多様で代表的な委員会を見つける複雑さを分類する。

Fairness in multiwinner elections, a growing line of research in computational social choice, primarily concerns the use of constraints to ensure fairness. Recent work proposed a model to find a diverse \emph{and} representative committee and studied the model's computational aspects. However, the work gave complexity results under major assumptions on how the candidates and the voters are grouped. Here, we close this gap and classify the complexity of finding a diverse and representative committee using a monotone, separable positional multiwinner voting rule, conditioned \emph{only} on the assumption that P $\neq$ NP.
翻訳日:2022-11-24 16:17:32 公開日:2022-11-23
# H \rightarrow b\bar{b}$ jets 同定のための相互作用ネットワークの解釈可能性

Interpretability of an Interaction Network for identifying $H \rightarrow b\bar{b}$ jets ( http://arxiv.org/abs/2211.12770v1 )

ライセンス: Link先を確認
Avik Roy, Mark S. Neubauer(参考訳) 多変量技術と機械学習モデルは、長年にわたり高エネルギー物理学(HEP)研究に多くの応用を見出している。 近年、ディープニューラルネットワークに基づくAIモデルは、これらのアプリケーションの多くで人気が高まっている。 しかし、ニューラルネットワークはブラックボックスと見なされる -- その複雑さが高いため、ニューラルネットワークの出力を、扱いやすい入出力関係とディープネットワーク層を通じた情報伝達を確立することによって定量的に説明することが難しいことが多い。 近年、説明可能なAI(xAI)手法が普及してきているため、QCDの背景にある$H\to b\bar{b}$ジェットを識別するために設計されたインタラクションネットワーク(IN)モデルを調べ、AIモデルの解釈可能性を検討する。 分類器ネットワークが入力に基づいてどのように決定を下すか、この情報を用いてモデル作成をシンプルかつ等しく効果的に再最適化するかを示すために、異なる定量的手法を探索する。 さらに、INモデル内の隠れレイヤの活動を、ニューラルアクティベーションパターン(NAP)ダイアグラムとして記述する。 実験の結果,napダイアグラムは,深層モデルの隠れた層間での情報伝達方法に関する重要な情報を明らかにすることが示唆された。 これらの洞察は、効果的なモデル再最適化とハイパーパラメータチューニングに有用である。

Multivariate techniques and machine learning models have found numerous applications in High Energy Physics (HEP) research over many years. In recent times, AI models based on deep neural networks are becoming increasingly popular for many of these applications. However, neural networks are regarded as black boxes -- because of their high degree of complexity it is often quite difficult to quantitatively explain the output of a neural network by establishing a tractable input-output relationship and information propagation through the deep network layers. As explainable AI (xAI) methods are becoming more popular in recent years, we explore interpretability of AI models by examining an Interaction Network (IN) model designed to identify boosted $H\to b\bar{b}$ jets amid QCD background. We explore different quantitative methods to demonstrate how the classifier network makes its decision based on the inputs and how this information can be harnessed to reoptimize the model-making it simpler yet equally effective. We additionally illustrate the activity of hidden layers within the IN model as Neural Activation Pattern (NAP) diagrams. Our experiments suggest NAP diagrams reveal important information about how information is conveyed across the hidden layers of deep model. These insights can be useful to effective model reoptimization and hyperparameter tuning.
翻訳日:2022-11-24 16:17:17 公開日:2022-11-23
# 日内電力市場におけるシミュレーションに基づく予測:価格分布の位置, 形状, 規模をモデル化する

Simulation-based Forecasting for Intraday Power Markets: Modelling Fundamental Drivers for Location, Shape and Scale of the Price Distribution ( http://arxiv.org/abs/2211.13002v1 )

ライセンス: Link先を確認
Simon Hirsch, Florian Ziel(参考訳) 過去数年間、欧州の日内電力市場は、断続的な再生可能エネルギーの発生量の増加による予測エラーのバランスをとる上で重要になっている。 しかし、日頭市場と比較して、日内価格プロセスのドライバーはいまだに調査されていない。 本稿では,基本変数に基づく日内市場におけるリターン分布の位置,形状,スケールパラメータのモデル化手法を提案する。 我々は、風と太陽の予報と、その日内更新、停電、価格情報、およびスポットオークション曲線を説明変数として導出した、メリットオーダの形状の新しい尺度について考察する。 価格経路をシミュレートしてモデリングを検証するとともに、ドイツ市場を対象とした予測研究において、モデルの確率的予測性能をベンチマークモデルと比較した。 このアプローチは、特に分布の尾部において、予測性能に大きな改善をもたらす。 同時に、我々は駆動変数の寄与を導出することができる。 価格変更の最初のラグとは別に、私たちの基本的な変数は、日内リターンの期待値に関する説明力を持っていないことが分かりました。 これは、再生可能エネルギーの予測変更や停止情報が市場によって価格設定されているように見えるため、市場効率の低下を意味する。 ボラティリティーは、メリット秩序体制、納品時間、クロスボーダー注文帳の閉鎖によって引き起こされていることが分かりました。 流通の尾は、主に過去の価格差と取引活動に影響されている。 当社のアプローチは、ヨーロッパの他の日内市場に直接移行可能です。

During the last years, European intraday power markets have gained importance for balancing forecast errors due to the rising volumes of intermittent renewable generation. However, compared to day-ahead markets, the drivers for the intraday price process are still sparsely researched. In this paper, we propose a modelling strategy for the location, shape and scale parameters of the return distribution in intraday markets, based on fundamental variables. We consider wind and solar forecasts and their intraday updates, outages, price information and a novel measure for the shape of the merit-order, derived from spot auction curves as explanatory variables. We validate our modelling by simulating price paths and compare the probabilistic forecasting performance of our model to benchmark models in a forecasting study for the German market. The approach yields significant improvements in the forecasting performance, especially in the tails of the distribution. At the same time, we are able to derive the contribution of the driving variables. We find that, apart from the first lag of the price changes, none of our fundamental variables have explanatory power for the expected value of the intraday returns. This implies weak-form market efficiency as renewable forecast changes and outage information seems to be priced in by the market. We find that the volatility is driven by the merit-order regime, the time to delivery and the closure of cross-border order books. The tail of the distribution is mainly influenced by past price differences and trading activity. Our approach is directly transferable to other continuous intraday markets in Europe.
翻訳日:2022-11-24 16:16:56 公開日:2022-11-23
# 量子ニューラルネットワークの表現可能性向上戦略

Expressibility-Enhancing Strategies for Quantum Neural Networks ( http://arxiv.org/abs/2211.12670v1 )

ライセンス: Link先を確認
Yalin Liao, Junpeng Zhan(参考訳) パラメータ化された量子回路で表現される量子ニューラルネットワーク(QNN)は、入力データを予測にマッピングする教師あり学習のパラダイムで訓練することができる。 多くの研究はQNNの表現力を理論的に分析することに重点を置いている。 しかし、ほとんどすべての文献において、QNNの表現力は単純な単変量関数のみを用いて数値的に検証される。 高い表現力を持つ最先端QNNは,単純な正弦波関数でさえも近似性能が劣ることがわかった。 このギャップを埋めるために, 正弦波対応埋め込み, 冗長測定, 後測定機能, ランダムトレーニングデータという4つのQNNの表現可能性向上戦略を提案する。 複雑な正弦波関数の学習を含む数学的解析および/または数値研究を通じて,これらの戦略の有効性を分析する。 比較実験の結果,複素多変数関数近似におけるqnnの性能を著しく向上させ,必要な量子回路深度と量子ビットを低減できることを確認した。

Quantum neural networks (QNNs), represented by parameterized quantum circuits, can be trained in the paradigm of supervised learning to map input data to predictions. Much work has focused on theoretically analyzing the expressive power of QNNs. However, in almost all literature, QNNs' expressive power is numerically validated using only simple univariate functions. We surprisingly discover that state-of-the-art QNNs with strong expressive power can have poor performance in approximating even just a simple sinusoidal function. To fill the gap, we propose four expressibility-enhancing strategies for QNNs: Sinusoidal-friendly embedding, redundant measurement, post-measurement function, and random training data. We analyze the effectiveness of these strategies via mathematical analysis and/or numerical studies including learning complex sinusoidal-based functions. Our results from comparative experiments validate that the four strategies can significantly increase the QNNs' performance in approximating complex multivariable functions and reduce the quantum circuit depth and qubits required.
翻訳日:2022-11-24 16:16:14 公開日:2022-11-23
# FLAIR #1: セマンティックセグメンテーションとドメイン適応データセット

FLAIR #1: semantic segmentation and domain adaptation dataset ( http://arxiv.org/abs/2211.12979v1 )

ライセンス: Link先を確認
Anatol Garioud, St\'ephane Peillet, Eva Bookjans, S\'ebastien Giordano, Boris Wattrelos(参考訳) フランス国立地理学・森林情報研究所(IGN)は、フランス領の土地被覆を文書化し、測定する任務を持ち、高解像度の空中画像や地形地図を含む参照地理的データセットを提供している。 土地被覆のモニタリングは土地管理と計画のイニシアチブにおいて重要な役割を果たす。 リモートセンシング技術とともに、人工知能(ia)は、土地被覆とその進化を決定する強力なツールになることを約束する。 IGNは現在、高解像度の土地被覆地図の作成においてIAの可能性を探っている。 特に,空中画像のセマンティックセグメンテーションを得るために深層学習法が用いられている。 しかし、フランスのように広い領域は異質な文脈を暗示している: 風景の変化と画像の取得は、フランス全土で均一で信頼性が高く正確な結果を提供することを困難にしている。 FLAIR-oneデータセットは、現在IGNで使われているデータセットの一部であり、フランス国立土地被覆地図「Occupation du sol \`a grande \'echelle」(OCS-GE)の確立に使用されている。

The French National Institute of Geographical and Forest Information (IGN) has the mission to document and measure land-cover on French territory and provides referential geographical datasets, including high-resolution aerial images and topographic maps. The monitoring of land-cover plays a crucial role in land management and planning initiatives, which can have significant socio-economic and environmental impact. Together with remote sensing technologies, artificial intelligence (IA) promises to become a powerful tool in determining land-cover and its evolution. IGN is currently exploring the potential of IA in the production of high-resolution land cover maps. Notably, deep learning methods are employed to obtain a semantic segmentation of aerial images. However, territories as large as France imply heterogeneous contexts: variations in landscapes and image acquisition make it challenging to provide uniform, reliable and accurate results across all of France. The FLAIR-one dataset presented is part of the dataset currently used at IGN to establish the French national reference land cover map "Occupation du sol \`a grande \'echelle" (OCS- GE).
翻訳日:2022-11-24 16:10:00 公開日:2022-11-23
# Fusing Expert Features による視覚的テキスト知覚分析の改善

Improving Visual-textual Sentiment Analysis by Fusing Expert Features ( http://arxiv.org/abs/2211.12981v1 )

ライセンス: Link先を確認
Junyu Chen, Jie An, Hanjia Lyu, Jiebo Luo(参考訳) 視覚-テキスト感情分析は、画像とテキストのペア入力で感情を予測することを目的としている。 視覚的・テキスト的感情分析の主な課題は、入力画像が非常に多様なため、感情予測に効果的な視覚的特徴を学習する方法である。 この課題に対処するために,強力な視覚機能を導入することにより,視覚-文感情分析を改善する新しい手法を提案する。 提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)効果的な視覚特徴を抽出する訓練済みの「エキスパート」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合し感情予測を行うBERTまたはMLPに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。 3つのデータセットを広範囲に実験した結果,既存の手法よりも視覚的・テキスト的感情分析性能が向上した。

Visual-textual sentiment analysis aims to predict sentiment with the input of a pair of image and text. The main challenge of visual-textual sentiment analysis is how to learn effective visual features for sentiment prediction since input images are often very diverse. To address this challenge, we propose a new method that improves visual-textual sentiment analysis by introducing powerful expert visual features. The proposed method consists of four parts: (1) a visual-textual branch to learn features directly from data for sentiment analysis, (2) a visual expert branch with a set of pre-trained "expert" encoders to extract effective visual features, (3) a CLIP branch to implicitly model visual-textual correspondence, and (4) a multimodal feature fusion network based on either BERT or MLP to fuse multimodal features and make sentiment prediction. Extensive experiments on three datasets show that our method produces better visual-textual sentiment analysis performance than existing methods.
翻訳日:2022-11-24 16:09:39 公開日:2022-11-23
# 自律視覚に基づく高速空中把持

Autonomous Vision-based Rapid Aerial Grasping ( http://arxiv.org/abs/2211.13093v1 )

ライセンス: Link先を確認
Erik Bauer, Barnabas Gavin Cangan, Robert K. Katzschmann(参考訳) ロボットの未来において、視覚と空間の知覚はロボットシステムにとって最も重要である。 特に航空ロボットには、現実世界のシナリオに視覚知覚を利用する多くの応用がある。 ドローンによる空中の把握は、他のロボティクスソリューションよりも大きなモビリティを持つ高速なピック・アンド・プレイス・ソリューションを約束する。 本研究では,Mask R-CNNシーンセグメンテーション(detectron2)を用いて,物体の局所化のマーカーに頼らず,既知物体のサイズを必要としない自律的高速空中捕捉システムを提案する。 深度カメラからの空間情報を用いて検出対象の点雲を生成し,幾何学に基づく把握計画を行い,物体の把握点を決定する。 実世界実験では, 0.5mから2.5mの範囲の物体からの距離に対して, 平均誤差3cmで物体をローカライズできることを示した。 物体定位のためのモーションキャプチャを用いたシステムと比較して, 同様の把握の有効性が維持される。 本研究は,空飛ぶプラットフォームを用いた幾何学的把持技術の最初の使用例を示し,既存の航空操作プラットフォームの自律性向上を目標とし,倉庫等における実世界の応用に向けた。

In a future with autonomous robots, visual and spatial perception is of utmost importance for robotic systems. Particularly for aerial robotics, there are many applications where utilizing visual perception is necessary for any real-world scenarios. Robotic aerial grasping using drones promises fast pick-and-place solutions with a large increase in mobility over other robotic solutions. Utilizing Mask R-CNN scene segmentation (detectron2), we propose a vision-based system for autonomous rapid aerial grasping which does not rely on markers for object localization and does not require the size of the object to be previously known. With spatial information from a depth camera, we generate a point cloud of the detected objects and perform geometry-based grasp planning to determine grasping points on the objects. In real-world experiments, we show that our system can localize objects with a mean error of 3 cm compared to a motion capture ground truth for distances from the object ranging from 0.5 m to 2.5 m. Similar grasping efficacy is maintained compared to a system using motion capture for object localization in experiments. With our results, we show the first use of geometry-based grasping techniques with a flying platform and aim to increase the autonomy of existing aerial manipulation platforms, bringing them further towards real-world applications in warehouses and similar environments.
翻訳日:2022-11-24 16:09:17 公開日:2022-11-23
# 行動認識における効率的なクロスデータセット転送可能なブラックボックス攻撃

Query Efficient Cross-Dataset Transferable Black-Box Attack on Action Recognition ( http://arxiv.org/abs/2211.13171v1 )

ライセンス: Link先を確認
Rohit Gupta, Naveed Akhtar, Gaurav Kumar Nayak, Ajmal Mian and Mubarak Shah(参考訳) ブラックボックス攻撃は、アクション認識システムに現実的な脅威をもたらす。 既存のブラックボックス攻撃は、ターゲットモデルをクエリすることで攻撃を最適化するクエリベースのアプローチか、代替モデルを使用して攻撃を生成する転送ベースのアプローチのいずれかに従う。 これらの手法はまともな騙し率を達成することができるが、前者はクエリ非効率であり、後者はブラックボックスモデルのトレーニングデータの広範な知識を前提としている。 本稿では,事前訓練した代用モデルで学習した特徴を乱し,クエリ数を減らすことで,これらの欠点に対処する新たな行動認識攻撃を提案する。 提案手法は,ほぼ不規則なデータセットを用いて代替モデルをトレーニングすることにより,対象モデルと同じデータセットを用いて代用モデルをトレーニングすることの必要性を排除し,クエリベースの手法によって提供される不正率のメリットを維持するために,ターゲットモデルに対するクエリを利用する。 その結果、従来のブラックボックス攻撃よりも転送可能な攻撃が発生する。 広範な実験を通じて,提案フレームワークを用いたクエリ効率の高いブラックボックス攻撃を実証する。 提案手法は,最先端のクエリベースおよび転送ベースの攻撃と比較して,8%,12%高い遅延率を達成する。

Black-box adversarial attacks present a realistic threat to action recognition systems. Existing black-box attacks follow either a query-based approach where an attack is optimized by querying the target model, or a transfer-based approach where attacks are generated using a substitute model. While these methods can achieve decent fooling rates, the former tends to be highly query-inefficient while the latter assumes extensive knowledge of the black-box model's training data. In this paper, we propose a new attack on action recognition that addresses these shortcomings by generating perturbations to disrupt the features learned by a pre-trained substitute model to reduce the number of queries. By using a nearly disjoint dataset to train the substitute model, our method removes the requirement that the substitute model be trained using the same dataset as the target model, and leverages queries to the target model to retain the fooling rate benefits provided by query-based methods. This ultimately results in attacks which are more transferable than conventional black-box attacks. Through extensive experiments, we demonstrate highly query-efficient black-box attacks with the proposed framework. Our method achieves 8% and 12% higher deception rates compared to state-of-the-art query-based and transfer-based attacks, respectively.
翻訳日:2022-11-24 16:08:58 公開日:2022-11-23
# 拡散モデルによるインバージョンベース創造性伝達

Inversion-Based Creativity Transfer with Diffusion Models ( http://arxiv.org/abs/2211.13203v1 )

ライセンス: Link先を確認
Yuxin Zhang, Nisha Huang, Fan Tang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu(参考訳) 本稿では,Creativity Transferの課題について紹介する。 絵画における芸術的創造性は表現の手段であり、絵画の素材、色、ブラシストロークだけでなく、意味的要素、物体の形状などを含む高レベルな属性も含む。 以前の任意の例で指示された芸術的画像生成手法(例えば、スタイル転送)は、しばしば形状変化の制御や意味的要素の伝達に失敗する。 事前学習されたテキストから画像への合成拡散確率モデルは驚くべき品質を達成したが、それらはしばしば特定の絵画の属性を正確に描写するために広範なテキスト記述を必要とする。 アートワークの独特さは、通常の言語では十分に説明できないという事実に正確に関係していると考えています。 私たちの重要なアイデアは、単一の絵画から直接芸術的創造性を学び、複雑なテキスト記述を提供することなく合成を導くことです。 具体的には、創造性を絵画の学習可能なテキスト記述とみなす。 本稿では,画像の全体的かつ詳細な情報を効率よく,かつ正確に学習し,絵画の完全な芸術的創造性を捉える,注目に基づくインバージョン手法を提案する。 本手法の質と効率を,様々な芸術家や様式の多彩な絵画に示す。 コードとモデルはhttps://github.com/zyxelsa/creativity-transfer.comで入手できる。

In this paper, we introduce the task of "Creativity Transfer". The artistic creativity within a painting is the means of expression, which includes not only the painting material, colors, and brushstrokes, but also the high-level attributes including semantic elements, object shape, etc. Previous arbitrary example-guided artistic image generation methods (e.g., style transfer) often fail to control shape changes or convey semantic elements. The pre-trained text-to-image synthesis diffusion probabilistic models have achieved remarkable quality, but they often require extensive textual descriptions to accurately portray attributes of a particular painting. We believe that the uniqueness of an artwork lies precisely in the fact that it cannot be adequately explained with normal language. Our key idea is to learn artistic creativity directly from a single painting and then guide the synthesis without providing complex textual descriptions. Specifically, we assume creativity as a learnable textual description of a painting. We propose an attention-based inversion method, which can efficiently and accurately learn the holistic and detailed information of an image, thus capturing the complete artistic creativity of a painting. We demonstrate the quality and efficiency of our method on numerous paintings of various artists and styles. Code and models are available at https://github.com/zyxElsa/creativity-transfer.
翻訳日:2022-11-24 16:08:38 公開日:2022-11-23
# ClimateNeRF: 極端気候合成のための物理ベースニューラルレンダリング

ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis ( http://arxiv.org/abs/2211.13226v1 )

ライセンス: Link先を確認
Yuan Li, Zhi-Hao Lin, David Forsyth, Jia-Bin Huang, Shenlong Wang(参考訳) 物理シミュレーションは天気効果の予測に優れる。 神経放射場はSOTAシーンモデルを生成する。 本稿では,自然現象のリアルな映画を再現し,シーンのnerfモデルと物理シミュレーションを融合させる,新しいnerf編集手法について述べる。 私たちのアプリケーションであるClimate NeRFは、気候変動の結果が彼らに与える影響を可視化します。 ClimateNeRFを使えば、スモッグや雪、洪水など、現実的な気象効果を表現できます。 結果は水位のような物理的に有意義な変数で制御できる。 定性的および定量的研究により、我々のシミュレーション結果は最先端の2D画像編集や3D NeRFスタイリングよりもはるかに現実的であることが示された。

Physical simulations produce excellent predictions of weather effects. Neural radiance fields produce SOTA scene models. We describe a novel NeRF-editing procedure that can fuse physical simulations with NeRF models of scenes, producing realistic movies of physical phenomena inthose scenes. Our application -- Climate NeRF -- allows people to visualize what climate change outcomes will do to them. ClimateNeRF allows us to render realistic weather effects, including smog, snow, and flood. Results can be controlled with physically meaningful variables like water level. Qualitative and quantitative studies show that our simulated results are significantly more realistic than those from state-of-the-art 2D image editing and 3D NeRF stylization.
翻訳日:2022-11-24 16:08:17 公開日:2022-11-23
# 生成AIがビジュアルコンテンツマーケティングの将来に与える影響

The Impact of Generative AI on the Future of Visual Content Marketing ( http://arxiv.org/abs/2211.12660v1 )

ライセンス: Link先を確認
Shiva Mayahi, Marko Vidrih(参考訳) 今日のマーケティングの世界では、視覚的にアピールするコンテンツが必要である。 ビジュアル素材は、マスコミュニケーションのためのガジェットが広く普及し、視覚の進歩が拡大した結果、あらゆる企業にとって重要な分野となっている。 同様に、人工知能も台頭しており、これまでで最も革新的な技術進歩であることが証明されている。 ビジュアルコンテンツと人工知能の統合は、忠実な顧客の獲得と維持の鍵であり、あらゆるプロダクションの包括的なマーケティング戦略が欠如していることは、最終的に同社の市場シェアを小さくする恐れがある。

In today's world of marketing, it is necessary to have visually appealing content. Visual material has become an essential area of focus for every company as a result of the widespread availability of gadgets for mass communication and extended visual advancements. Similarly, artificial intelligence is also gaining ground and it is proving to be the most revolutionary technological advancement thus far. The integration of visual content with artificial intelligence is the key to acquiring and retaining loyal customers; its absence from the overarching marketing strategy of any production raises a red flag that could ultimately result in a smaller market share for that company.
翻訳日:2022-11-24 16:07:58 公開日:2022-11-23
# SciAI4Industry -- ディープラーニングによる産業規模の問題解決

SciAI4Industry -- Solving PDEs for industry-scale problems with deep learning ( http://arxiv.org/abs/2211.12709v1 )

ライセンス: Link先を確認
Philipp A. Witte, Russell J. Hewett, Kumar Saurabh, AmirHossein Sojoodi, Ranveer Chandra(参考訳) 深層学習による偏微分方程式の解法により、シミュレーション時間を桁違いに減らし、最適化や不確実性定量化のような多くの逐次シミュレーションに依存する科学的手法を解くことができる。 産業問題設定に科学的aiを採用する上での最大の課題は、トレーニングデータセットを事前にシミュレートしなければならず、大規模pdesを解決するニューラルネットワークが現在のgpuのメモリ能力を超えていることだ。 我々はJulia言語に分散プログラミングAPIを導入し、クラウド上で並列にトレーニングデータをシミュレートし、ユーザが基盤となるHPCインフラストラクチャを管理する必要をなくした。 さらに,ドメイン分解に基づくモデル並列ディープラーニングによって,pdesを商業的な問題設定に拡張し,90%以上の並列効率を達成するために,ニューラルネットワークをスケールできることを示す。 データ生成とモデル並列ディープラーニングをトレーニングするクラウドapiを組み合わせることで,3次元navier-stokes方程式を解き,多孔質媒質中の3次元co2フローをシミュレートするために,大規模ニューラルネットワークをトレーニングする。 CO2の例では、商用の炭素捕獲・貯蔵(CCS)プロジェクトに基づくトレーニングデータセットをシミュレートし、従来の数値シミュレータよりも5桁高速で3200倍安い200万以上のセルを持つ3Dグリッド上で、CO2フローシミュレーションのためのニューラルネットワークをトレーニングする。

Solving partial differential equations with deep learning makes it possible to reduce simulation times by multiple orders of magnitude and unlock scientific methods that typically rely on large numbers of sequential simulations, such as optimization and uncertainty quantification. Two of the largest challenges of adopting scientific AI for industrial problem settings is that training datasets must be simulated in advance and that neural networks for solving large-scale PDEs exceed the memory capabilities of current GPUs. We introduce a distributed programming API in the Julia language for simulating training data in parallel on the cloud and without requiring users to manage the underlying HPC infrastructure. In addition, we show that model-parallel deep learning based on domain decomposition allows us to scale neural networks for solving PDEs to commercial-scale problem settings and achieve above 90% parallel efficiency. Combining our cloud API for training data generation and model-parallel deep learning, we train large-scale neural networks for solving the 3D Navier-Stokes equation and simulating 3D CO2 flow in porous media. For the CO2 example, we simulate a training dataset based on a commercial carbon capture and storage (CCS) project and train a neural network for CO2 flow simulation on a 3D grid with over 2 million cells that is 5 orders of magnitudes faster than a conventional numerical simulator and 3,200 times cheaper.
翻訳日:2022-11-24 16:07:49 公開日:2022-11-23
# リスクシナリオにおける個人化オンボード運転支援のためのオープンケースベース推論フレームワーク

An Open Case-based Reasoning Framework for Personalized On-board Driving Assistance in Risk Scenarios ( http://arxiv.org/abs/2211.12798v1 )

ライセンス: Link先を確認
Wenbin Gan, Minh-Son Dao, Koji Zettsu(参考訳) ドライバーの反応はリスクシナリオにおいて極めて重要である。 ドライバーは適切なクッションタイムで正確な回避操作をすることができるが、この反応プロセスは経験に依存しており、様々なレベルの運転スキルを必要とする。 運転安全性の向上と交通事故の回避には、すべての道路運転手に車載運転支援を提供する必要がある。 本研究は, 交通事例の定常的流れから人間運転経験の富を生かし, 衝突回避行動の選択とクッション時間に基づく推論のパラダイムとして, ケースベース推論(CBR)の妥当性を検討するものである。 そこで本稿では,パーソナライズされた車載運転支援を実現するためのオープンなフレームワークを提案する。 特に,交通イベントをモデル化し,ケースデータベースを構築するための高性能なFFMTEモデルを提案する。 実験は合理的な結果を示し、異なるシナリオにおける潜在的なクラッシュを避けるために、ドライバーに貴重な回避情報を提供します。

Driver reaction is of vital importance in risk scenarios. Drivers can take correct evasive maneuver at proper cushion time to avoid the potential traffic crashes, but this reaction process is highly experience-dependent and requires various levels of driving skills. To improve driving safety and avoid the traffic accidents, it is necessary to provide all road drivers with on-board driving assistance. This study explores the plausibility of case-based reasoning (CBR) as the inference paradigm underlying the choice of personalized crash evasive maneuvers and the cushion time, by leveraging the wealthy of human driving experience from the steady stream of traffic cases, which have been rarely explored in previous studies. To this end, in this paper, we propose an open evolving framework for generating personalized on-board driving assistance. In particular, we present the FFMTE model with high performance to model the traffic events and build the case database; A tailored CBR-based method is then proposed to retrieve, reuse and revise the existing cases to generate the assistance. We take the 100-Car Naturalistic Driving Study dataset as an example to build and test our framework; the experiments show reasonable results, providing the drivers with valuable evasive information to avoid the potential crashes in different scenarios.
翻訳日:2022-11-24 16:07:24 公開日:2022-11-23
# 一般構造をもつサンプル共分散行列の定量的決定論的等価性

Quantitative deterministic equivalent of sample covariance matrices with a general dependence structure ( http://arxiv.org/abs/2211.13044v1 )

ライセンス: Link先を確認
Cl\'ement Chouard (UT3)(参考訳) 矩形ランダム行列から生じるサンプル共分散行列を列を用いて検討した。 以前は、スペクトルパラメータが実軸から離れて有界であるとき、これらの行列の解法が決定論的同値を持つことが知られていた。 我々は、次元とスペクトルパラメータの両方を含む量的境界を証明し、特に実正の半直線に近づくことを可能にすることにより、この仕事を拡大する。 応用として、これらの一般モデルの経験的スペクトル分布のコルモゴロフ距離における収束の新しい境界を得る。 また,ガウス仮説を伴わない機械学習におけるランダム特徴モデルの正規化問題にもフレームワークを適用した。

We study sample covariance matrices arising from rectangular random matrices with i.i.d. columns. It was previously known that the resolvent of these matrices admits a deterministic equivalent when the spectral parameter stays bounded away from the real axis. We extend this work by proving quantitative bounds involving both the dimensions and the spectral parameter, in particular allowing it to get closer to the real positive semi-line. As applications, we obtain a new bound for the convergence in Kolmogorov distance of the empirical spectral distributions of these general models. We also apply our framework to the problem of regularization of Random Features models in Machine Learning without Gaussian hypothesis.
翻訳日:2022-11-24 16:01:08 公開日:2022-11-23
# ニューラル超統計:認知の動的モデル推定のためのベイズ的手法

Neural Superstatistics: A Bayesian Method for Estimating Dynamic Models of Cognition ( http://arxiv.org/abs/2211.13165v1 )

ライセンス: Link先を確認
Lukas Schumacher, Paul-Christian B\"urkner, Andreas Voss, Ullrich K\"othe, Stefan T. Radev(参考訳) 認知の数学的モデルは、しばしば記憶がなく、パラメータの潜在的な揺らぎを無視する。 しかしながら、人間の認知は基準時間スケールに関係なく本質的に動的である。 そこで本稿では,時間次元の機械的認知モデルを拡張し,超統計学の観点から結果のダイナミクスを推定する。 最も単純な形式では、そのようなモデルは低レベルの観測モデルと高レベルの遷移モデルの間の階層を含む。 観測モデルはシステムの局所挙動を記述し、遷移モデルは観察モデルのパラメータが時間とともにどのように進化するかを特定する。 超統計モデルの複雑さから生じる推定課題を克服するため、ベイズ推論のシミュレーションに基づくディープラーニング手法を開発し、検証し、時間変化パラメータと時間不変パラメータの両方を復元する。 まず,提案手法を時間変動パラメータを推定可能な2つの既存フレームワークに対してベンチマークした。 次に,拡散決定モデルの動的バージョンをヒトの応答時間の時系列データに適用する手法を提案する。 その結果、ディープラーニングアプローチはモデルの時間的ダイナミクスを捉えるのに非常に効率的であることがわかった。 さらに,静的パラメータや均質パラメータの誤った仮定が重要な時間情報を隠蔽することを示す。

Mathematical models of cognition are often memoryless and ignore potential fluctuations of their parameters. However, human cognition is inherently dynamic, regardless of the reference time scale. Thus, we propose to augment mechanistic cognitive models with a temporal dimension and estimate the resulting dynamics from a superstatistics perspective. In its simplest form, such a model entails a hierarchy between a low-level observation model and a high-level transition model. The observation model describes the local behavior of a system, and the transition model specifies how the parameters of the observation model evolve over time. To overcome the estimation challenges resulting from the complexity of superstatistical models, we develop and validate a simulation-based deep learning method for Bayesian inference, which can recover both time-varying and time-invariant parameters. We first benchmark our method against two existing frameworks capable of estimating time-varying parameters. We then apply our method to fit a dynamic version of the diffusion decision model to long time series of human response times data. Our results show that the deep learning approach is very efficient in capturing the temporal dynamics of the model. Furthermore, we show that the erroneous assumption of static or homogeneous parameters will hide important temporal information.
翻訳日:2022-11-24 16:00:59 公開日:2022-11-23
# imasc -- icfoss malayalam音声コーパス

IMaSC -- ICFOSS Malayalam Speech Corpus ( http://arxiv.org/abs/2211.12796v1 )

ライセンス: Link先を確認
Deepa P Gopinath, Thennal D K, Vrinda V Nair, Swaraj K S, Sachin G(参考訳) 現代のテキスト音声合成システム(TTS)は、人間の品質に近づきつつある音声を深層学習で合成するが、訓練には高品質な音声テキスト文ペアのデータベースが必要である。 インド・ケララ州の公用語であるマラヤラムは、3500万人以上の人々が話しており、TSシステムのコーパスとして利用できる低資源言語である。 本稿では,約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。 8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。 我々は,最新のディープラーニングアーキテクチャに基づいて,話者毎のTSモデルをトレーニングするためにデータベースを評価した。 主観的評価により,我々のモデルは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であり,合成された音声は人的品質に近いことを示す。

Modern text-to-speech (TTS) systems use deep learning to synthesize speech increasingly approaching human quality, but they require a database of high quality audio-text sentence pairs for training. Malayalam, the official language of the Indian state of Kerala and spoken by 35+ million people, is a low resource language in terms of available corpora for TTS systems. In this paper, we present IMaSC, a Malayalam text and speech corpora containing approximately 50 hours of recorded speech. With 8 speakers and a total of 34,473 text-audio pairs, IMaSC is larger than every other publicly available alternative. We evaluated the database by using it to train TTS models for each speaker based on a modern deep learning architecture. Via subjective evaluation, we show that our models perform significantly better in terms of naturalness compared to previous studies and publicly available models, with an average mean opinion score of 4.50, indicating that the synthesized speech is close to human quality.
翻訳日:2022-11-24 16:00:41 公開日:2022-11-23
# 未探索環境における視覚ナビゲーションのためのトポロジマップの予測

Predicting Topological Maps for Visual Navigation in Unexplored Environments ( http://arxiv.org/abs/2211.12649v1 )

ライセンス: Link先を確認
Huangying Zhan, Hamid Rezatofighi, Ian Reid(参考訳) 本研究では,未探索環境における自律探索とナビゲーションのためのロボット学習システムを提案する。 私たちは、目に見えない環境でさえ、同様の環境での経験から慣れているかもしれないという考えに動機づけられている。 そこで本手法のコアとなるのは,目標に基づく視覚ナビゲーションを支援するための確率的レイアウトグラフの構築,予測,利用である。 レイアウト予測を用いて高水準の目標(例えば「キッチンに行く」など)を満たすナビゲーションシステムについて,先行技術よりも迅速かつ正確に記述する。 提案するナビゲーションフレームワークは,(1)知覚とマッピング:多レベル3dシーングラフの構築,(2)予測:未探索環境における確率的3dシーングラフの予測,(3)ナビゲーション:グラフによるナビゲーション支援,の3段階からなる。 我々はMatterport3Dで我々のフレームワークをテストし、目に見えない環境でより成功し、効率的なナビゲーションを示す。

We propose a robotic learning system for autonomous exploration and navigation in unexplored environments. We are motivated by the idea that even an unseen environment may be familiar from previous experiences in similar environments. The core of our method, therefore, is a process for building, predicting, and using probabilistic layout graphs for assisting goal-based visual navigation. We describe a navigation system that uses the layout predictions to satisfy high-level goals (e.g. "go to the kitchen") more rapidly and accurately than the prior art. Our proposed navigation framework comprises three stages: (1) Perception and Mapping: building a multi-level 3D scene graph; (2) Prediction: predicting probabilistic 3D scene graph for the unexplored environment; (3) Navigation: assisting navigation with the graphs. We test our framework in Matterport3D and show more success and efficient navigation in unseen environments.
翻訳日:2022-11-24 16:00:00 公開日:2022-11-23
# ActiveRMAP: アクティブマッピングと計画のための放射場

ActiveRMAP: Radiance Field for Active Mapping And Planning ( http://arxiv.org/abs/2211.12656v1 )

ライセンス: Link先を確認
Huangying Zhan, Jiyang Zheng, Yi Xu, Ian Reid, Hamid Rezatofighi(参考訳) 2d画像の集合からシーンの高品質な3d再構築は、オフライン/オンラインマッピングによって実現できる。 本稿では,最近様々なアプリケーションで説得力のある結果を生み出した暗黙表現の観点から,アクティブマッピングについて検討する。 もっとも一般的な暗黙的表現の1つ、Neural Radiance Field (NeRF)は、まず多層パーセプトロンを用いて光リアルなレンダリング結果を示し、放射場の副産物としてオフライン3D再構成を約束した。 最近では、この暗黙の表現をオンライン再構成とローカライゼーション(暗黙のSLAMシステム)にも適用している。 しかし、アクティブビジョンタスクに暗黙的表現を使用する研究は、まだ非常に限られている。 本稿では,能動系における密結合タスクであるアクティブマッピングと計画問題に対して,特にニューラル放射場の適用に関心がある。 我々は,RGBのみのアクティブビジョンフレームワークを,アクティブな3次元再構成と計画のための放射場表現を用いてオンライン的に提示した。 具体的には、この共同タスクを2段階の反復最適化問題として定式化し、ラミアンス場表現と経路計画に代えて最適化する。 実験結果から,提案手法は他のオフライン手法と比較し,nyrfsを用いた能動的再構成法を上回った。

A high-quality 3D reconstruction of a scene from a collection of 2D images can be achieved through offline/online mapping methods. In this paper, we explore active mapping from the perspective of implicit representations, which have recently produced compelling results in a variety of applications. One of the most popular implicit representations - Neural Radiance Field (NeRF), first demonstrated photorealistic rendering results using multi-layer perceptrons, with promising offline 3D reconstruction as a by-product of the radiance field. More recently, researchers also applied this implicit representation for online reconstruction and localization (i.e. implicit SLAM systems). However, the study on using implicit representation for active vision tasks is still very limited. In this paper, we are particularly interested in applying the neural radiance field for active mapping and planning problems, which are closely coupled tasks in an active system. We, for the first time, present an RGB-only active vision framework using radiance field representation for active 3D reconstruction and planning in an online manner. Specifically, we formulate this joint task as an iterative dual-stage optimization problem, where we alternatively optimize for the radiance field representation and path planning. Experimental results suggest that the proposed method achieves competitive results compared to other offline methods and outperforms active reconstruction methods using NeRFs.
翻訳日:2022-11-24 15:59:46 公開日:2022-11-23
# ハンズ・アバター:モノクラー・ビデオによる無料のハンドアニメーションとレンダリング

Hand Avatar: Free-Pose Hand Animation and Rendering from Monocular Video ( http://arxiv.org/abs/2211.12782v1 )

ライセンス: Link先を確認
Xingyu Chen, Baoyuan Wang, Heung-Yeung Shum(参考訳) 本稿では,手動アニメーションとレンダリングのための新しい表現であるHandAvatarについて述べる。 具体的には,まず,個人の手形に適合する高分解能メッシュトポロジとしてmano-hdモデルを開発した。 続いて、手動幾何学を骨ごとの剛性部分に分解し、ペア化された幾何符号化を再度分解して、一貫した占有場を導出する。 テクスチャモデリングでは,自己閉塞型シェーディングフィールド(SelF)を提案する。 SelFでは、乾燥可能なアンカーをMANO-HD表面に舗装し、さまざまな手ポーズの下でアルベド情報を記録する。 さらに, 姿勢非依存アルベドとポーズ依存イルミネーションのアンタングル化のための照明場を生成するために利用した光-表面関係を記述した。 モノクロビデオデータからトレーニングしたHandAvatarは、自由な手動アニメーションとレンダリングを同時に実現しつつ、優れた外観忠実性を実現します。 また,ハンダバタールが手外観編集の経路を提供することも実証した。 プロジェクトウェブサイト: https://seanchenxy.github.io/HandAvatarWeb

We present HandAvatar, a novel representation for hand animation and rendering, which can generate smoothly compositional geometry and self-occlusion-aware texture. Specifically, we first develop a MANO-HD model as a high-resolution mesh topology to fit personalized hand shapes. Sequentially, we decompose hand geometry into per-bone rigid parts, and then re-compose paired geometry encodings to derive an across-part consistent occupancy field. As for texture modeling, we propose a self-occlusion-aware shading field (SelF). In SelF, drivable anchors are paved on the MANO-HD surface to record albedo information under a wide variety of hand poses. Moreover, directed soft occupancy is designed to describe the ray-to-surface relation, which is leveraged to generate an illumination field for the disentanglement of pose-independent albedo and pose-dependent illumination. Trained from monocular video data, our HandAvatar can perform free-pose hand animation and rendering while at the same time achieving superior appearance fidelity. We also demonstrate that HandAvatar provides a route for hand appearance editing. Project website: https://seanchenxy.github.io/HandAvatarWeb.
翻訳日:2022-11-24 15:59:22 公開日:2022-11-23
# 非線形等変イメージング:圧縮的定量的MRIのための地中真実のないマルチパラメトリック組織マッピングの学習

Nonlinear Equivariant Imaging: Learning Multi-Parametric Tissue Mapping without Ground Truth for Compressive Quantitative MRI ( http://arxiv.org/abs/2211.12786v1 )

ライセンス: Link先を確認
Ketan Fatania, Kwai Y. Chau, Carolin M. Pirkl, Marion I. Menzel, Peter Hall and Mohammad Golbabaee(参考訳) 高速・圧縮・磁気共鳴フィンガープリンティング(mrf)による定量的組織マップの現在の再構築は、高忠実度な基底真理組織マップトレーニングデータを必要とするという欠点を伴い、教師付き深層学習を用いる。 本稿では,深部MRF画像再構成における基底真理の不要な自己教師型学習手法であるNonLinear Equivariant Imaging (NLEI)を提案する。 NLEI は最近の等変イメージングフレームワークを MRF などの非線形逆問題に拡張する。 高速で圧縮されたMRFスキャンのみが訓練に使用される。 NLEIは時空間前駆体を用いて組織マッピングを学習する:空間前駆体はMDFデータの幾何学的画像変換群への不変性から得られ、時間前駆体は事前学習されたニューラルネットワークによって近似された非線形ブロッホ応答モデルから得られる。 NLEI(self-supervised learning, 自己教師学習)は, 学習中に基礎的真理を使わずとも, 教師あり学習のパフォーマンスに近づきつつある。

Current state-of-the-art reconstruction for quantitative tissue maps from fast, compressive, Magnetic Resonance Fingerprinting (MRF), use supervised deep learning, with the drawback of requiring high-fidelity ground truth tissue map training data which is limited. This paper proposes NonLinear Equivariant Imaging (NLEI), a self-supervised learning approach to eliminate the need for ground truth for deep MRF image reconstruction. NLEI extends the recent Equivariant Imaging framework to nonlinear inverse problems such as MRF. Only fast, compressed-sampled MRF scans are used for training. NLEI learns tissue mapping using spatiotemporal priors: spatial priors are obtained from the invariance of MRF data to a group of geometric image transformations, while temporal priors are obtained from a nonlinear Bloch response model approximated by a pre-trained neural network. Tested retrospectively on two acquisition settings, we observe that NLEI (self-supervised learning) closely approaches the performance of supervised learning, despite not using ground truth during training.
翻訳日:2022-11-24 15:59:00 公開日:2022-11-23
# レンズレス分類のためのプライバシエンハンシング光学埋め込み

Privacy-Enhancing Optical Embeddings for Lensless Classification ( http://arxiv.org/abs/2211.12864v1 )

ライセンス: Link先を確認
Eric Bezzam, Martin Vetterli, Matthieu Simeoni(参考訳) レンズレスイメージングは、その測定の高度に多重化された特性のために、視覚プライバシを提供することができる。 しかし、このようなカメラの1対多のシーンマッピングを逆転するように様々な敵攻撃を設計できるため、これはセキュリティの弱い形態である。 本研究では,(1)センサでのダウンサンプリング,(2)光エンコーダとして可変パターンのプログラム可能なマスクを用いて,レンズレス撮像によるプライバシー向上を図る。 私たちは、低価格のLCDとRaspberry Piコンポーネントからプロトタイプを作り、合計で約100USDのコストで開発しています。 この非常に低い価格設定により、私たちのシステムは広範囲のアプリケーションにデプロイされ、活用できます。 本実験では,MNIST, CelebA(顔属性), CIFAR10 といった様々な分類タスクに適用することで, システムの可視性と再構成性を示す。 マスクパターンとデジタル分類器をエンドツーエンドで共同最適化することにより、センサに直接低次元のプライバシー強調埋め込みを学習する。 第2に,提案システムでは,変動マスクパターンを介して,(1)平文攻撃や(2)カメラパラメータのリーク時にシステムに逆戻りしようとする敵を阻止する方法について述べる。 我々は,モデルに基づく凸最適化と生成ニューラルネットワークに基づく攻撃に対して,画像品質指標の55%と26%の低下という,両リスクに対するシステムの防御効果を示す。 我々は、エンドツーエンドの最適化に必要な波動伝搬とカメラシミュレータ、トレーニングソフトウェア、カメラと対話するためのライブラリをオープンソース化した。

Lensless imaging can provide visual privacy due to the highly multiplexed characteristic of its measurements. However, this alone is a weak form of security, as various adversarial attacks can be designed to invert the one-to-many scene mapping of such cameras. In this work, we enhance the privacy provided by lensless imaging by (1) downsampling at the sensor and (2) using a programmable mask with variable patterns as our optical encoder. We build a prototype from a low-cost LCD and Raspberry Pi components, for a total cost of around 100 USD. This very low price point allows our system to be deployed and leveraged in a broad range of applications. In our experiments, we first demonstrate the viability and reconfigurability of our system by applying it to various classification tasks: MNIST, CelebA (face attributes), and CIFAR10. By jointly optimizing the mask pattern and a digital classifier in an end-to-end fashion, low-dimensional, privacy-enhancing embeddings are learned directly at the sensor. Secondly, we show how the proposed system, through variable mask patterns, can thwart adversaries that attempt to invert the system (1) via plaintext attacks or (2) in the event of camera parameters leaks. We demonstrate the defense of our system to both risks, with 55% and 26% drops in image quality metrics for attacks based on model-based convex optimization and generative neural networks respectively. We open-source a wave propagation and camera simulator needed for end-to-end optimization, the training software, and a library for interfacing with the camera.
翻訳日:2022-11-24 15:58:38 公開日:2022-11-23
# SS-CXR:胸部X線による自己監督型事前訓練によるマルチタスク表現学習

SS-CXR: Multitask Representation Learning using Self Supervised Pre-training from Chest X-Rays ( http://arxiv.org/abs/2211.12944v1 )

ライセンス: Link先を確認
Syed Muhammad Anwar, Abhijeet Parida, Sara Atito, Muhammad Awais, Gustavo Nino, Josef Kitler, Marius George Linguraru(参考訳) 胸部X線(CXR)は肺疾患の診断と予後のための画像モダリティとして広く用いられている。 画像解析のタスクは様々です。 例えば、病理診断や肺分画がある。 機械学習アルゴリズムが特定のタスクのために開発される大規模な作業がある。 最近の顕著な例は、CXRデータを用いたコロナウイルス(covid-19)の検出である。 しかしながら、教師付き学習に基づく従来の診断ツール設計手法は、より良い臨床結果を得るために良質なトレーニングデータアノテーションの必要性によって負担されている。 本稿では,cxrsの汎用表現をグループマスク型自己教師付きフレームワークを用いて学習する,新しい自己教師付きパラダイムを提案する。 事前訓練されたモデルは、コビッド19、肺炎の検出、一般的な健康スクリーニングといったドメイン固有のタスクのために微調整される。 肺の分節作業には,同じ事前訓練が有効であることを示す。 提案手法は,複数のダウンストリームタスクにおいて,事前学習の成功を示すロバストな性能を示す。 さらに、テスト期間中に大きなドリフトを持つデータ上での事前学習モデルの性能は、より汎用的な表現を学ぶことを証明している。 これらの方法は、ユニークな小規模の小児用データセットにおいて、covid-19検出によってさらに検証される。 教師付き変圧器方式と比較すると, 精度 (~25\%) は有意であった。 これは、提案するフレームワークの強度と信頼性と事前学習戦略に信頼性を与えます。

Chest X-rays (CXRs) are a widely used imaging modality for the diagnosis and prognosis of lung disease. The image analysis tasks vary. Examples include pathology detection and lung segmentation. There is a large body of work where machine learning algorithms are developed for specific tasks. A significant recent example is Coronavirus disease (covid-19) detection using CXR data. However, the traditional diagnostic tool design methods based on supervised learning are burdened by the need to provide training data annotation, which should be of good quality for better clinical outcomes. Here, we propose an alternative solution, a new self-supervised paradigm, where a general representation from CXRs is learned using a group-masked self-supervised framework. The pre-trained model is then fine-tuned for domain-specific tasks such as covid-19, pneumonia detection, and general health screening. We show that the same pre-training can be used for the lung segmentation task. Our proposed paradigm shows robust performance in multiple downstream tasks which demonstrates the success of the pre-training. Moreover, the performance of the pre-trained models on data with significant drift during test time proves the learning of a better generic representation. The methods are further validated by covid-19 detection in a unique small-scale pediatric data set. The performance gain in accuracy (~25\%) is significant when compared to a supervised transformer-based method. This adds credence to the strength and reliability of our proposed framework and pre-training strategy.
翻訳日:2022-11-24 15:58:11 公開日:2022-11-23
# MECCH:メタパスコンテキスト畳み込みに基づく異種グラフニューラルネットワーク

MECCH: Metapath Context Convolution-based Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2211.12792v1 )

ライセンス: Link先を確認
Xinyu Fu, Irwin King(参考訳) 複数のノードとエッジを持つ構造データによる表現学習のために,ヘテロジニアスグラフニューラルネットワーク(hgnns)が提案されている。 関係性に基づくHGNNの過度に平滑な問題に対処するメタパスベースのHGNNを開発した。 しかし、既存のメタパスベースのモデルは情報損失または高い計算コストに悩まされている。 これらの問題に対処するために、メタパスコンテキスト畳み込みに基づく異種グラフニューラルネットワーク(MECCH)を設計する。 具体的には,(1)メタパスコンテクスト構成,(2)メタパスコンテクストエンコーダ,(3)畳み込みメタパス融合の3つの特徴前処理により,入力グラフから包括的情報を効率的に抽出する。 ノード分類とリンク予測のための5つの実世界の異種グラフデータセットの実験により、MECCHは計算効率を向上した最先端のベースラインと比較して予測精度が優れていることが示された。

Heterogeneous graph neural networks (HGNNs) were proposed for representation learning on structural data with multiple types of nodes and edges. Researchers have developed metapath-based HGNNs to deal with the over-smoothing problem of relation-based HGNNs. However, existing metapath-based models suffer from either information loss or high computation costs. To address these problems, we design a new Metapath Context Convolution-based Heterogeneous Graph Neural Network (MECCH). Specifically, MECCH applies three novel components after feature preprocessing to extract comprehensive information from the input graph efficiently: (1) metapath context construction, (2) metapath context encoder, and (3) convolutional metapath fusion. Experiments on five real-world heterogeneous graph datasets for node classification and link prediction show that MECCH achieves superior prediction accuracy compared with state-of-the-art baselines with improved computational efficiency.
翻訳日:2022-11-24 15:52:29 公開日:2022-11-23
# タスクの接ベクトル場に沿った積分連続学習

Integral Continual Learning Along the Tangent Vector Field of Tasks ( http://arxiv.org/abs/2211.13108v1 )

ライセンス: Link先を確認
Tian Yu Liu, Aditya Golatkar, Stefano Soatto, Alessandro Achille(参考訳) 本稿では,「ジェネラリスト」モデルのベクトル場に沿って,特殊データセットからの情報を漸進的に組み込む連続学習手法を提案する。 スペシャリストモデルに対する接地平面は、一般のガイドとして機能し、接地平面における最適化景観の凸性を活用しながら、破滅的な忘れ込みにつながる過度な適合を避ける。 それは小さな固定サイズのメモリバッファを維持し、ソースデータセットの0.4%まで低く、単純な再サンプリングによって更新される。 提案手法は,異なるデータセットに対して,様々なバッファサイズにまたがる最先端を実現する。 具体的には、Seq-CIFAR-10 と Seq-TinyImageNet でそれぞれ 26.24% と 28.48% の既存手法を上回ります。 本手法は既存のリプレイ型連続学習手法と容易に組み合わせることができる。 メモリバッファの制約を緩和してロジットなどのメタデータを保存すると,Seq-CIFAR-10のパラゴン性能に対して36%の誤差で最先端の精度が得られる。

We propose a continual learning method which incorporates information from specialized datasets incrementally, by integrating it along the vector field of "generalist" models. The tangent plane to the specialist model acts as a generalist guide and avoids the kind of over-fitting that leads to catastrophic forgetting, while exploiting the convexity of the optimization landscape in the tangent plane. It maintains a small fixed-size memory buffer, as low as 0.4% of the source datasets, which is updated by simple resampling. Our method achieves state-of-the-art across various buffer sizes for different datasets. Specifically, in the class-incremental setting we outperform the existing methods by an average of 26.24% and 28.48%, for Seq-CIFAR-10 and Seq-TinyImageNet respectively. Our method can easily be combined with existing replay-based continual learning methods. When memory buffer constraints are relaxed to allow storage of other metadata such as logits, we attain state-of-the-art accuracy with an error reduction of 36% towards the paragon performance on Seq-CIFAR-10.
翻訳日:2022-11-24 15:51:56 公開日:2022-11-23
# 線形関数近似を用いたオフライン強化学習のためのインスタンス依存境界について

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2211.13208v1 )

ライセンス: Link先を確認
Thanh Nguyen-Tang, Ming Yin, Sunil Gupta, Svetha Venkatesh, Raman Arora(参考訳) 線形関数近似を用いたサンプル効率オフライン強化学習(RL)が最近広く研究されている。 以前の作業の多くでは、$\tilde{\mathcal{O}}(\frac{1}{\sqrt{K}})$のminimax-Optimal境界が得られており、オフラインデータでは$K$がエピソード数である。 本研究では,関数近似を用いたオフラインRLのインスタンス依存境界を理解する。 本稿では,データのブートストラップと制約付き最適化を利用したbcp-vi(bootstrapped and restricteded pessimistic value iteration)というアルゴリズムを提案する。 提案手法は,部分的データカバレッジ仮定の下では,最適方針に関して \emph{concentrability} を仮定すると,オフラインデータが適応的に収集された場合でも,最適なq値関数に正のギャップがある場合に,オフラインrlに対して$\tilde{\mathcal{o}}(\frac{1}{k})$ の高速率が得られることを示す。 さらに、最適ポリシーによって到達可能な状態の最適動作の線形的特徴が行動ポリシーによって到達可能な状態にまたがり、最適動作が一意である場合、オフラインRLは、(有限)インスタンス依存しきい値を超える場合、絶対ゼロの最適誤差を達成する。 我々の知る限りでは、これらは最初の$\tilde{\mathcal{o}}(\frac{1}{k})$boundと絶対零のサブオプティリティをそれぞれオフラインrlにバインドし、部分カバレッジを持つ適応データから線形関数近似する。 また、上界を補完するために、インスタンスに依存しない情報理論的下界も提供する。

Sample-efficient offline reinforcement learning (RL) with linear function approximation has recently been studied extensively. Much of prior work has yielded the minimax-optimal bound of $\tilde{\mathcal{O}}(\frac{1}{\sqrt{K}})$, with $K$ being the number of episodes in the offline data. In this work, we seek to understand instance-dependent bounds for offline RL with function approximation. We present an algorithm called Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI), which leverages data bootstrapping and constrained optimization on top of pessimism. We show that under a partial data coverage assumption, that of \emph{concentrability} with respect to an optimal policy, the proposed algorithm yields a fast rate of $\tilde{\mathcal{O}}(\frac{1}{K})$ for offline RL when there is a positive gap in the optimal Q-value functions, even when the offline data were adaptively collected. Moreover, when the linear features of the optimal actions in the states reachable by an optimal policy span those reachable by the behavior policy and the optimal actions are unique, offline RL achieves absolute zero sub-optimality error when $K$ exceeds a (finite) instance-dependent threshold. To the best of our knowledge, these are the first $\tilde{\mathcal{O}}(\frac{1}{K})$ bound and absolute zero sub-optimality bound respectively for offline RL with linear function approximation from adaptive data with partial coverage. We also provide instance-agnostic and instance-dependent information-theoretical lower bounds to complement our upper bounds.
翻訳日:2022-11-24 15:51:36 公開日:2022-11-23
# モデル学習に基づく自律走行システムの安全性解析

Safety Analysis of Autonomous Driving Systems Based on Model Learning ( http://arxiv.org/abs/2211.12733v1 )

ライセンス: Link先を確認
Renjue Li, Tianhang Qin, Pengfei Yang, Cheng-Chao Huang, Youcheng Sun and Lijun Zhang(参考訳) 本稿では,自律運転システム(ADS)の安全性解析のための実用的検証手法を提案する。 主なアイデアは、指定されたトラフィックシナリオにおけるADSの振る舞いを定量的に描写する代理モデルを構築することである。 結果として得られたサロゲートモデルで証明された安全性特性は、確率論的保証を持つ元のADSに適用される。 さらに,運転危険時の交通シナリオの安全及び安全でないパラメータ空間について検討する。 文献における最先端のADSの安全性特性を,様々なシミュレートされた交通シナリオを用いて評価することにより,提案手法の有用性を実証する。

We present a practical verification method for safety analysis of the autonomous driving system (ADS). The main idea is to build a surrogate model that quantitatively depicts the behaviour of an ADS in the specified traffic scenario. The safety properties proved in the resulting surrogate model apply to the original ADS with a probabilistic guarantee. Furthermore, we explore the safe and the unsafe parameter space of the traffic scenario for driving hazards. We demonstrate the utility of the proposed approach by evaluating safety properties on the state-of-the-art ADS in literature, with a variety of simulated traffic scenarios.
翻訳日:2022-11-24 15:51:03 公開日:2022-11-23
# 長期ライフログによる睡眠状態のモニタリングと改善

Monitoring and Improving Personalized Sleep Quality from Long-Term Lifelogs ( http://arxiv.org/abs/2211.12778v1 )

ライセンス: Link先を確認
Wenbin Gan, Minh-Son Dao and Koji Zettsu(参考訳) 睡眠は、身体的、認知的、心理的健康に重要な役割を果たす。 その重要性にもかかわらず、現実の文脈におけるパーソナライズされた睡眠品質(SQ)の長期的なモニタリングは依然として困難である。 多くの睡眠研究はいまだに臨床的に発展しており、一般市民にはアクセスできない。 幸いなことに、ウェアラブルとIoTデバイスは、マルチモーダルデータから睡眠洞察を探索する可能性を提供し、いくつかのSQ研究で使用されている。 しかし、これらの研究の多くは睡眠関連データを分析し、その結果を遅延的に提示する(すなわち、昨夜のデータから得られたSQ)。 そこで本稿では,複数ソースからの目的データと主観データの両方に基づいて個別のsqを監視する計算フレームワークを提案し,sqをデータ駆動方式で改善するためのパーソナライズされたフィードバックの提供に向けて一歩前進する。 このフィードバックは、ライフイベントと異なるレベルのSQの間の発見パターンに基づいて、PMDataデータセットからの洞察を参照することによって実現される。 長期不均質データを使用し、キャリーオーバー効果を考慮したディープラーニングベースのパーソナルsqモデル(persq)は、ベースラインモデルよりも高い予測性能を達成する。 ケーススタディでは、個人が将来SQを監視し改善する上で妥当な結果も示している。

Sleep plays a vital role in our physical, cognitive, and psychological well-being. Despite its importance, long-term monitoring of personalized sleep quality (SQ) in real-world contexts is still challenging. Many sleep researches are still developing clinically and far from accessible to the general public. Fortunately, wearables and IoT devices provide the potential to explore the sleep insights from multimodal data, and have been used in some SQ researches. However, most of these studies analyze the sleep related data and present the results in a delayed manner (i.e., today's SQ obtained from last night's data), it is sill difficult for individuals to know how their sleep will be before they go to bed and how they can proactively improve it. To this end, this paper proposes a computational framework to monitor the individual SQ based on both the objective and subjective data from multiple sources, and moves a step further towards providing the personalized feedback to improve the SQ in a data-driven manner. The feedback is implemented by referring the insights from the PMData dataset based on the discovered patterns between life events and different levels of SQ. The deep learning based personal SQ model (PerSQ), using the long-term heterogeneous data and considering the carry-over effect, achieves higher prediction performance compared with baseline models. A case study also shows reasonable results for an individual to monitor and improve the SQ in the future.
翻訳日:2022-11-24 15:50:55 公開日:2022-11-23
# DGEKT:知識追跡のためのデュアルグラフアンサンブル学習法

DGEKT: A Dual Graph Ensemble Learning Method for Knowledge Tracing ( http://arxiv.org/abs/2211.12881v1 )

ライセンス: Link先を確認
Chaoran Cui, Yumo Yao, Chunyun Zhang, Hebo Ma, Yuling Ma, Zhaochun Ren, Chen Zhang, James Ko(参考訳) 知識追跡は、学生の発達する知識状態を、概念に関連した演習で予測することによって追跡することを目的としている。 近年,知識追跡を改善するためにエクササイズ間の関係を取り入れたグラフベースモデルが開発されているが,一般的には1種類の関係情報のみを探索している。 本稿では,学生の学習インタラクションの双対グラフ構造を確立し,ハイパーグラフモデリングと有向グラフモデリングによる不均質な運動概念関係と相互作用遷移を捉えた,知識トレースのための双対グラフアンサンブル学習手法(dgekt)を提案する。 双対グラフモデルを合理化するために,オンライン知識蒸留の手法を導入する。知識追跡モデルは,異なる概念に関連した演習に対する学生の反応を予測することが期待されているが,各ステップにおける1回の運動における予測精度に対してのみ最適化されている。 オンライン知識蒸留では、二重グラフモデルは適応的に結合され、より強力な教師モデルを形成する。 実験では、DGEKTを3つのベンチマークデータセット上の8つの知識トレースベースラインと比較し、DGEKTが最先端の性能を達成することを示す。

Knowledge tracing aims to trace students' evolving knowledge states by predicting their future performance on concept-related exercises. Recently, some graph-based models have been developed to incorporate the relationships between exercises to improve knowledge tracing, but only a single type of relationship information is generally explored. In this paper, we present a novel Dual Graph Ensemble learning method for Knowledge Tracing (DGEKT), which establishes a dual graph structure of students' learning interactions to capture the heterogeneous exercise-concept associations and interaction transitions by hypergraph modeling and directed graph modeling, respectively. To ensemble the dual graph models, we introduce the technique of online knowledge distillation, due to the fact that although the knowledge tracing model is expected to predict students' responses to the exercises related to different concepts, it is optimized merely with respect to the prediction accuracy on a single exercise at each step. With online knowledge distillation, the dual graph models are adaptively combined to form a stronger teacher model, which in turn provides its predictions on all exercises as extra supervision for better modeling ability. In the experiments, we compare DGEKT against eight knowledge tracing baselines on three benchmark datasets, and the results demonstrate that DGEKT achieves state-of-the-art performance.
翻訳日:2022-11-24 15:50:33 公開日:2022-11-23
# 老年病院における患者の長期管理の質評価システムの実装と評価

Implementation and Evaluation of a System for Assessment of The Quality of Long-Term Management of Patients at a Geriatric Hospital ( http://arxiv.org/abs/2211.12904v1 )

ライセンス: Link先を確認
Erez Shalom, Ayelet Goldstein, Roni Wais, Maya Slivanova, Nogah Melamed Cohen and Yuval Shahar(参考訳) 背景 コンピュータ化された臨床ガイドライン(GL)に基づくケアの質を評価するための臨床意思決定支援システムの使用は、ケアを改善し、コストを削減し、時間を節約し、スタッフの能力を高める可能性がある。 目的は、GLに対する職員のコンプライアンスのレベルを調べることにより、圧力潰瘍の管理領域におけるケアの質を評価するシステムの実装と評価である。 局所emrシステムから100名の無作為患者を対象にしたデータを用いた評価を行い, 適用性とユーザビリティを検証し, 続いて, 医療スタッフのプロトコル遵守に与えた品質指標を検査するシステムの性能評価を行った。 システム支援時の看護師の得点と,システム支援のない看護師の得点と,システムによる得点とを比較した。 また,システム支援の有無に関わらず,評価を行うのに要する時間を測定した。 結果, 看護婦が与える得点は, 制度が与える得点と比較すると有意な差は認められなかった。 また,サポートのない看護師が与える品質指標の値と,支援のある看護師が与える価値との間に有意な差は認められなかった。 しかし,このシステムを用いることで看護婦の平均評価時間が大幅に短縮された。 結論 自動品質評価システムを用いて、高齢者看護師が介護の質を迅速かつ正確に評価することができる。 その精度に加えて、様々な品質対策を評価するのに要する時間を大幅に短縮する。

Background The use of a clinical decision support system for assessing the quality of care, based on computerized clinical guidelines (GLs), is likely to improve care, reduce costs, save time, and enhance the staff's capabilities. Objectives Implement and evaluate a system for assessment of the quality of the care, in the domain of management of pressure ulcers, by investigating the level of compliance of the staff to the GLs. Methods Using data for 100 random patients from the local EMR system we performed a technical evaluation, checking the applicability and usability, followed by a functional evaluation of the system investigating the quality metrics given to the compliance of the medical's staff to the protocol. We compared the scores given by the nurse when supported by the system, to the scores given by the nurse without the system's support, and to the scores given by the system. We also measured the time taken to perform the assessment with and without the system's support. Results There were no significant differences in the scores of most measures given by the nurse using the system, compared to the scores given by the system. There were also no significant differences across the values of most quality measures given by the nurse without support compared to the values given by the nurse with support. Using the system, however, significantly reduced the nurse's average assessment time. Conclusions Using an automated quality-assessment system, may enable a senior nurse, to quickly and accurately assess the quality of care. In addition to its accuracy, the system considerably reduces the time taken to assess the various quality measures.
翻訳日:2022-11-24 15:50:08 公開日:2022-11-23
# エピソード・非エピソードシナリオにおけるイントロスペクションに基づく説明可能な強化学習

Introspection-based Explainable Reinforcement Learning in Episodic and Non-episodic Scenarios ( http://arxiv.org/abs/2211.12930v1 )

ライセンス: Link先を確認
Niclas Schroeter, Francisco Cruz, Stefan Wermter(参考訳) 現代社会におけるロボットシステムや人間ロボット環境の存在の増加に伴い、ロボットによる行動の背後にある理由を理解することがますます重要になっている。 この理解を深めるために、ユーザーは、なぜ特定のアクションが取られたのかの説明を提供する。 これらの説明は、ロボットパートナーのユーザの信頼度を向上させる。 これらの説明を作成するための選択肢の1つは、イントロスペクションに基づくアプローチであり、これは強化学習エージェントと組み合わせて、成功の確率を提供するために使用できる。 これらは、人間が理解可能な方法でエージェントが取る行為を推論するために使用できる。 本研究は, エピソディクスと非エピソジックロボットシミュレーションタスクに基づいて, このイントロスペクションに基づくアプローチを開発し, さらなる評価を行う。 さらに,負および相対的に小さいq値に対するイントロスペクションベースアプローチの利用を可能にする,q値に対する追加正規化ステップを提案する。 その結果, エピソジックロボットの課題に対するイントロスペクションの有効性が示され, また, イントロスペクションに基づくアプローチは, 非エピソジックロボット環境における行動の説明も生成できることがわかった。

With the increasing presence of robotic systems and human-robot environments in today's society, understanding the reasoning behind actions taken by a robot is becoming more important. To increase this understanding, users are provided with explanations as to why a specific action was taken. Among other effects, these explanations improve the trust of users in their robotic partners. One option for creating these explanations is an introspection-based approach which can be used in conjunction with reinforcement learning agents to provide probabilities of success. These can in turn be used to reason about the actions taken by the agent in a human-understandable fashion. In this work, this introspection-based approach is developed and evaluated further on the basis of an episodic and a non-episodic robotics simulation task. Furthermore, an additional normalization step to the Q-values is proposed, which enables the usage of the introspection-based approach on negative and comparatively small Q-values. Results obtained show the viability of introspection for episodic robotics tasks and, additionally, that the introspection-based approach can be used to generate explanations for the actions taken in a non-episodic robotics environment as well.
翻訳日:2022-11-24 15:49:45 公開日:2022-11-23
# インドの商用トラックのナンバープレート検出と計量橋の自動化

Indian Commercial Truck License Plate Detection and Recognition for Weighbridge Automation ( http://arxiv.org/abs/2211.13194v1 )

ライセンス: Link先を確認
Siddharth Agrawal and Keyur D. Joshi(参考訳) ウェイトブリッジサービスの自動化には,ライセンスプレートの検出と認識が重要である。 多くの大きなデータベースがラテン文字と中国語の英数字のライセンスプレートで利用可能であるが、インド・ライセンスプレートのデータは不十分である。 特に、インドの商用トラックナンバープレートのデータベースは、商用車両ナンバープレートの認識が物流管理やウェイトブリッジの自動化において重要な役割を果たすにもかかわらず、不十分である。 さらに、ライセンスプレートを認識するモデルは、その困難な性質と手書きのライセンスプレートの多さのため、そのようなデータに対して効果的に一般化できないため、多様なフォントスタイルが使用されることになる。 したがって、このようなライセンスプレートを認識・検出するためのデータベースと有効なモデルが不可欠である。 本稿では、商用トラックのライセンスプレートに関するデータベースを提供し、リアルタイムオブジェクト検出における最先端モデルの使用: You Only Look Once Version 7 and SceneText Recognition: Permuted Autoregressive Sequence Modelsでは、得られた最大精度が90%未満である他、提案した挑戦的なライセンスプレートデータセット上でアルゴリズムの実装において95.82%の精度を実現している。 指標項 - 自動ライセンスプレート認識、文字認識、ライセンスプレート検出、視覚変換器。

Detection and recognition of a licence plate is important when automating weighbridge services. While many large databases are available for Latin and Chinese alphanumeric license plates, data for Indian License Plates is inadequate. In particular, databases of Indian commercial truck license plates are inadequate, despite the fact that commercial vehicle license plate recognition plays a profound role in terms of logistics management and weighbridge automation. Moreover, models to recognise license plates are not effectively able to generalise to such data due to its challenging nature, and due to the abundant frequency of handwritten license plates, leading to the usage of diverse font styles. Thus, a database and effective models to recognise and detect such license plates are crucial. This paper provides a database on commercial truck license plates, and using state-of-the-art models in real-time object Detection: You Only Look Once Version 7, and SceneText Recognition: Permuted Autoregressive Sequence Models, our method outperforms the other cited references where the maximum accuracy obtained was less than 90%, while we have achieved 95.82% accuracy in our algorithm implementation on the presented challenging license plate dataset. Index Terms- Automatic License Plate Recognition, character recognition, license plate detection, vision transformer.
翻訳日:2022-11-24 15:43:40 公開日:2022-11-23
# lite-mono: 自己教師付き単眼深度推定のための軽量cnnおよびトランスフォーマーアーキテクチャ

Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2211.13202v1 )

ライセンス: Link先を確認
Ning Zhang, Francesco Nex, George Vosselman, Norman Kerle(参考訳) 近年,地道な訓練を必要としない自己監督型単眼深度推定が注目されている。 エッジデバイスにデプロイできるように、軽量で効果的なモデルを設計することは、非常に興味深いことです。 多くの既存アーキテクチャは、モデルサイズを犠牲にして重いバックボーンを使用することで恩恵を受ける。 本稿では,軽量アーキテクチャと同等の結果を得る。 具体的には,CNNとトランスフォーマーの効率的な組み合わせについて検討し,ハイブリッドアーキテクチャLite-Monoを設計する。 連続拡張畳み込み(cdc)モジュールと局所グローバル特徴相互作用(lgfi)モジュールを提案する。 前者はリッチなマルチスケールな局所特徴抽出に用いられ、後者は長距離グローバル情報をその特徴にエンコードする自己認識機構を利用する。 実験では、トレーニング可能なパラメータが約80%減少し、Monodepth2の精度に大きな差があることが示されている。

Self-supervised monocular depth estimation that does not require ground-truth for training has attracted attention in recent years. It is of high interest to design lightweight but effective models, so that they can be deployed on edge devices. Many existing architectures benefit from using heavier backbones at the expense of model sizes. In this paper we achieve comparable results with a lightweight architecture. Specifically, we investigate the efficient combination of CNNs and Transformers, and design a hybrid architecture Lite-Mono. A Consecutive Dilated Convolutions (CDC) module and a Local-Global Features Interaction (LGFI) module are proposed. The former is used to extract rich multi-scale local features, and the latter takes advantage of the self-attention mechanism to encode long-range global information into the features. Experiments demonstrate that our full model outperforms Monodepth2 by a large margin in accuracy, with about 80% fewer trainable parameters.
翻訳日:2022-11-24 15:43:17 公開日:2022-11-23
# manvatar : モーションアウェアニューラルボクセルを用いた高速3次元頭部アバター再構成

ManVatar : Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels ( http://arxiv.org/abs/2211.13206v1 )

ライセンス: Link先を確認
Yuelang Xu, Lizhen Wang, Xiaochen Zhao, Hongwen Zhang, Yebin Liu(参考訳) 顔の再現に広く利用されているNeRFでは、最近の方法は単眼ビデオから写実的な3D頭部アバターを回収することができる。 残念なことに、NeRFベースの手法のトレーニングプロセスは非常に時間がかかり、NeRFベースの手法で使用されるMPPは非効率であり、収束するにはイテレーションが多すぎる。 この問題を解決するために,モーションアウェアニューラルボクセルを用いた高速3次元頭部アバター再構成法manvatarを提案する。 ManVatarは、頭アバターの標準外見から初めて発現運動を分離し、ニューラルボクセルによる発現運動をモデル化した。 特に、複数の4次元テンソルの重み付け連結から運動認識型ニューラルボクセルが生成される。 4Dテンソルは意味的に3DMM式ベースと1対1に対応し、3DMM式係数と同じ重みを共有する。 提案したManVatarは、私たちの新しい表現に相応しく、写真リアルな頭部アバターを5分で回収できる(純粋なPyTorchで実装されている)。

With NeRF widely used for facial reenactment, recent methods can recover photo-realistic 3D head avatar from just a monocular video. Unfortunately, the training process of the NeRF-based methods is quite time-consuming, as MLP used in the NeRF-based methods is inefficient and requires too many iterations to converge. To overcome this problem, we propose ManVatar, a fast 3D head avatar reconstruction method using Motion-Aware Neural Voxels. ManVatar is the first to decouple expression motion from canonical appearance for head avatar, and model the expression motion by neural voxels. In particular, the motion-aware neural voxels is generated from the weighted concatenation of multiple 4D tensors. The 4D tensors semantically correspond one-to-one with 3DMM expression bases and share the same weights as 3DMM expression coefficients. Benefiting from our novel representation, the proposed ManVatar can recover photo-realistic head avatars in just 5 minutes (implemented with pure PyTorch), which is significantly faster than the state-of-the-art facial reenactment methods.
翻訳日:2022-11-24 15:43:05 公開日:2022-11-23
# SVFormer:アクション認識のための半教師付きビデオトランス

SVFormer: Semi-supervised Video Transformer for Action Recognition ( http://arxiv.org/abs/2211.13222v1 )

ライセンス: Link先を確認
Zhen Xing and Qi Dai and Han Hu and Jingjing Chen and Zuxuan Wu and Yu-Gang Jiang(参考訳) 半教師付き動作認識はビデオアノテーションのコストが高いため、難しいが重要な課題である。 既存のアプローチは主に畳み込みニューラルネットワークを使用しているが、現在の革命的ビジョントランスフォーマーモデルはあまり研究されていない。 本稿では,SSL設定下でのトランスフォーマーモデルを用いた動作認識について検討する。 この目的のために、SVFormerを導入し、静的な擬似ラベルフレームワーク(EMA-Teacher)を用いて、未ラベルのビデオサンプルに対処する。 半教師付き画像分類には幅広いデータ拡張が有効であることが示されているが、一般的にはビデオ認識の限られた結果が得られる。 そこで本研究では,ビデオクリップをテンポラリ軸上に一貫したマスクトークンを持つマスクで混合した映像データに対して,新たな拡張戦略である tube tokenmix を導入する。 さらに,ビデオの複雑な時間変動をカバーし,選択したフレームをクリップ内の様々な時間的持続時間に拡張する時間的ワープ拡張を提案する。 Kinetics-400, UCF-101, HMDB-51の3つのデータセットに対する大規模な実験はSVFormerの利点を検証する。 特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回る。 提案手法は強力なベンチマークとして機能し,Transformer ネットワークを用いた半教師付き行動認識の検索を促進できる。

Semi-supervised action recognition is a challenging but critical task due to the high cost of video annotations. Existing approaches mainly use convolutional neural networks, yet current revolutionary vision transformer models have been less explored. In this paper, we investigate the use of transformer models under the SSL setting for action recognition. To this end, we introduce SVFormer, which adopts a steady pseudo-labeling framework (ie, EMA-Teacher) to cope with unlabeled video samples. While a wide range of data augmentations have been shown effective for semi-supervised image classification, they generally produce limited results for video recognition. We therefore introduce a novel augmentation strategy, Tube TokenMix, tailored for video data where video clips are mixed via a mask with consistent masked tokens over the temporal axis. In addition, we propose a temporal warping augmentation to cover the complex temporal variation in videos, which stretches selected frames to various temporal durations in the clip. Extensive experiments on three datasets Kinetics-400, UCF-101, and HMDB-51 verify the advantage of SVFormer. In particular, SVFormer outperforms the state-of-the-art by 31.5% with fewer training epochs under the 1% labeling rate of Kinetics-400. Our method can hopefully serve as a strong benchmark and encourage future search on semi-supervised action recognition with Transformer networks.
翻訳日:2022-11-24 15:42:43 公開日:2022-11-23
# 例によるペイント:拡散モデルを用いたexemplarベースの画像編集

Paint by Example: Exemplar-based Image Editing with Diffusion Models ( http://arxiv.org/abs/2211.13227v1 )

ライセンス: Link先を確認
Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen and Fang Wen(参考訳) 言語誘導画像編集は近年大きな成功を収めている。 本稿では,より正確な制御のために,例示ガイド画像編集について初めて検討する。 我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタを再編成する。 しかし、ナイーブなアプローチは明らかな融合アーティファクトを引き起こす。 画像を直接コピー&ペーストする自明な解決策を避けるため、慎重に分析し、情報ボトルネックと強力な拡張を提案する。 一方、編集プロセスの制御性を確保するため、画像の任意の形状マスクをデザインし、分類器フリーのガイダンスを利用して画像の類似度を高める。 フレームワーク全体は、反復的な最適化なしに拡散モデルの単一の前方を含む。 提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。

Language-guided image editing has achieved great success recently. In this paper, for the first time, we investigate exemplar-guided image editing for more precise control. We achieve this goal by leveraging self-supervised training to disentangle and re-organize the source image and the exemplar. However, the naive approach will cause obvious fusing artifacts. We carefully analyze it and propose an information bottleneck and strong augmentations to avoid the trivial solution of directly copying and pasting the exemplar image. Meanwhile, to ensure the controllability of the editing process, we design an arbitrary shape mask for the exemplar image and leverage the classifier-free guidance to increase the similarity to the exemplar image. The whole framework involves a single forward of the diffusion model without any iterative optimization. We demonstrate that our method achieves an impressive performance and enables controllable editing on in-the-wild images with high fidelity.
翻訳日:2022-11-24 15:42:23 公開日:2022-11-23
# 外部知識を効果的に活用できるオープンドメインQAリーダー

Can Open-Domain QA Reader Utilize External Knowledge Efficiently like Humans? ( http://arxiv.org/abs/2211.12707v1 )

ライセンス: Link先を確認
Neeraj Varshney, Man Luo, Chitta Baral(参考訳) 最近の最先端のオープンドメインqaモデルは、一般的には2段階のレトリバー-リーダーアプローチに基づいており、レトリバーはまず関連する知識/パスを見つけ、その後読者はそれを利用して回答を予測する。 以前の研究によると、読者のパフォーマンスは通常、これらのパスの数が増えるにつれて改善する傾向にある。 したがって、最先端のモデルは推論に多くの節(例えば100)を使用する。 このアプローチの読者は高い予測性能を達成するが、推論は非常に高価である。 第一に、私たちが既に獲得した知識を使って自信を持って質問に答えることができれば、外部の知識は使わず、外部の知識が必要な場合、その知識全体を一度に読めず、その答えを見つけるのに十分な知識しか読めません。 そこで我々は,「オープンドメインのQA読者は,予測性能を犠牲にすることなく,人間のような外部知識を効率的に活用できるのか?」という研究課題を問う。この課題に乗じて,「クローズドブック」と「オープンブック」推論(外部知識を平均化する)の両方を活用するアプローチを探る。 さらに,オープンブック推論に多くの固定された節を用いる代わりに,複数の「知識イテレーション」で外部知識を動的に読み取る。 nqおよびtriviaqaデータセットに関する包括的実験を通じて,この動的読解手法が,読者の「参照効率」と「予測精度」の両方を改善することを実証する。 fid readerと比較すると、このアプローチは、そのリーダー推論コストの18.32%を活用し、nq openで最大55.10%の精度を達成することで、その精度を上回っている。

Recent state-of-the-art open-domain QA models are typically based on a two stage retriever-reader approach in which the retriever first finds the relevant knowledge/passages and the reader then leverages that to predict the answer. Prior work has shown that the performance of the reader usually tends to improve with the increase in the number of these passages. Thus, state-of-the-art models use a large number of passages (e.g. 100) for inference. While the reader in this approach achieves high prediction performance, its inference is computationally very expensive. We humans, on the other hand, use a more efficient strategy while answering: firstly, if we can confidently answer the question using our already acquired knowledge then we do not even use the external knowledge, and in the case when we do require external knowledge, we don't read the entire knowledge at once, instead, we only read that much knowledge that is sufficient to find the answer. Motivated by this procedure, we ask a research question "Can the open-domain QA reader utilize external knowledge efficiently like humans without sacrificing the prediction performance?" Driven by this question, we explore an approach that utilizes both 'closed-book' (leveraging knowledge already present in the model parameters) and 'open-book' inference (leveraging external knowledge). Furthermore, instead of using a large fixed number of passages for open-book inference, we dynamically read the external knowledge in multiple 'knowledge iterations'. Through comprehensive experiments on NQ and TriviaQA datasets, we demonstrate that this dynamic reading approach improves both the 'inference efficiency' and the 'prediction accuracy' of the reader. Comparing with the FiD reader, this approach matches its accuracy by utilizing just 18.32% of its reader inference cost and also outperforms it by achieving up to 55.10% accuracy on NQ Open.
翻訳日:2022-11-24 15:42:08 公開日:2022-11-23
# 高次元モデルに基づく強化学習のための原型的文脈認識ダイナミクス一般化

Prototypical context-aware dynamics generalization for high-dimensional model-based reinforcement learning ( http://arxiv.org/abs/2211.12774v1 )

ライセンス: Link先を確認
Junjie Wang, Yao Mu, Dong Li, Qichao Zhang, Dongbin Zhao, Yuzheng Zhuang, Ping Luo, Bin Wang, Jianye Hao(参考訳) 潜在世界モデルは、高次元の観察を伴うタスクのためにコンパクトな潜在空間でポリシーを学ぶ有望な方法を提供するが、未知のダイナミクスを持つ多様な環境にまたがる一般化は依然として困難である。 現在の進歩で利用される再帰構造は局所力学を捉えるのに役立つが、環境コンテキストを明示的に理解せずに状態遷移のみをモデル化することは、力学モデルの一般化能力を制限している。 この問題に対処するために,我々は,時間的一貫性のある潜在コンテキストによって局所的なダイナミクスを捉え,高次元制御タスクにおけるダイナミクスの一般化を可能にするprotocadモデルを提案する。 protocadは、バッチ上にクラスタ化されたプロトタイプの助けを借りて、有用なコンテキスト情報を抽出する。 1) 時間的に整合性のある原型正規化器を利用することにより,同一の潜航路の異なる時間部分に発生する原型割り当てを,特徴を比較せずに時間的に整合性にする。 2) 潜在状態の投影埋め込みと集約プロトタイプの両方を組み合わせたコンテキスト表現が設計され, ダイナミックス一般化能力が大幅に向上する。 拡張実験により,ProtoCADは動的一般化の点で既存の手法を超越していることがわかった。 反復型モデルRSSMと比較すると、ProtoCADはすべての動的一般化タスクにおいて平均と中央値のパフォーマンスが13.2%と26.7%向上している。

The latent world model provides a promising way to learn policies in a compact latent space for tasks with high-dimensional observations, however, its generalization across diverse environments with unseen dynamics remains challenging. Although the recurrent structure utilized in current advances helps to capture local dynamics, modeling only state transitions without an explicit understanding of environmental context limits the generalization ability of the dynamics model. To address this issue, we propose a Prototypical Context-Aware Dynamics (ProtoCAD) model, which captures the local dynamics by time consistent latent context and enables dynamics generalization in high-dimensional control tasks. ProtoCAD extracts useful contextual information with the help of the prototypes clustered over batch and benefits model-based RL in two folds: 1) It utilizes a temporally consistent prototypical regularizer that encourages the prototype assignments produced for different time parts of the same latent trajectory to be temporally consistent instead of comparing the features; 2) A context representation is designed which combines both the projection embedding of latent states and aggregated prototypes and can significantly improve the dynamics generalization ability. Extensive experiments show that ProtoCAD surpasses existing methods in terms of dynamics generalization. Compared with the recurrent-based model RSSM, ProtoCAD delivers 13.2% and 26.7% better mean and median performance across all dynamics generalization tasks.
翻訳日:2022-11-24 15:40:50 公開日:2022-11-23
# ghostnetv2: 長距離注意による安価操作の強化

GhostNetV2: Enhance Cheap Operation with Long-Range Attention ( http://arxiv.org/abs/2211.12905v1 )

ライセンス: Link先を確認
Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Chao Xu, Yunhe Wang(参考訳) 軽量畳み込みニューラルネットワーク(CNN)は、高速な推論速度を持つモバイルデバイス上のアプリケーション用に特別に設計されている。 畳み込み操作は、ウィンドウ領域内のローカル情報のみをキャプチャできるため、パフォーマンスがさらに向上することがない。 畳み込みに自己注意を導入することは、グローバルな情報をうまく捉えることができる。 本稿では,ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーションのための新しいGhostNetV2アーキテクチャを提案する。 提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。 我々はさらに,これまでのghostnetにおける表現性ボトルネックを再検討し,dfc注目による安価操作による拡張機能を拡張し,ghostnetv2ブロックがローカル情報と長距離情報を同時に集約できるようにする。 広範な実験により、ghostnetv2が既存のアーキテクチャよりも優れていることが示されている。 例えば、ImageNetで167MのFLOPで75.3%の精度を実現し、同様の計算コストでGhostNetV1 (74.5%) を大幅に抑制した。 ソースコードはhttps://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorchとhttps://gitee.com/mindspore/models/tree/master/research/cv/ghostnetv2で入手できる。

Light-weight convolutional neural networks (CNNs) are specially designed for applications on mobile devices with faster inference speed. The convolutional operation can only capture local information in a window region, which prevents performance from being further improved. Introducing self-attention into convolution can capture global information well, but it will largely encumber the actual speed. In this paper, we propose a hardware-friendly attention mechanism (dubbed DFC attention) and then present a new GhostNetV2 architecture for mobile applications. The proposed DFC attention is constructed based on fully-connected layers, which can not only execute fast on common hardware but also capture the dependence between long-range pixels. We further revisit the expressiveness bottleneck in previous GhostNet and propose to enhance expanded features produced by cheap operations with DFC attention, so that a GhostNetV2 block can aggregate local and long-range information simultaneously. Extensive experiments demonstrate the superiority of GhostNetV2 over existing architectures. For example, it achieves 75.3% top-1 accuracy on ImageNet with 167M FLOPs, significantly suppressing GhostNetV1 (74.5%) with a similar computational cost. The source code will be available at https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch and https://gitee.com/mindspore/models/tree/master/research/cv/ghostnetv2.
翻訳日:2022-11-24 15:34:57 公開日:2022-11-23
# 胸部x線に対する自己教師付き事前訓練は可能か?

Can we Adopt Self-supervised Pretraining for Chest X-Rays? ( http://arxiv.org/abs/2211.12931v1 )

ライセンス: Link先を確認
Arsh Verma, Makarand Tapaswi(参考訳) 胸部X線 (Chest X-Ray, CXR) は、世界中の放射線技師が心臓や肺の状態を診断するために用いられる、一般的な医用画像モダリティである。 過去10年間、CNN(Convolutional Neural Networks)は、CXR画像の病理を識別することに成功した。 通常、これらのCNNは標準のImageNet分類タスクで事前トレーニングされるが、これは大規模な注釈付きデータセットが利用できることを前提としている。 本研究では,ラベルのないImageNetやChest X-Ray(CXR)データセットの事前トレーニングの有用性を,さまざまなアルゴリズムと複数の設定を用いて分析する。 私たちの研究のいくつかの発見は (i)ラベル付きimagenetによる教師付きトレーニングは、打ち負かすのが難しい強い表現を学ぶ。 (ii)imagenet(~1m画像)における自己教師付きプリトレーニングは、cxrデータセット(~10k画像)上での自己教師付きプリトレーニングと同様のパフォーマンスを示し、 (iii) 教師付きImageNetでトレーニングされたCNNは、特にダウンストリームデータセットが数千のイメージの順にある場合、改善につながる自己教師付きCXRイメージでさらに訓練することができる。

Chest radiograph (or Chest X-Ray, CXR) is a popular medical imaging modality that is used by radiologists across the world to diagnose heart or lung conditions. Over the last decade, Convolutional Neural Networks (CNN), have seen success in identifying pathologies in CXR images. Typically, these CNNs are pretrained on the standard ImageNet classification task, but this assumes availability of large-scale annotated datasets. In this work, we analyze the utility of pretraining on unlabeled ImageNet or Chest X-Ray (CXR) datasets using various algorithms and in multiple settings. Some findings of our work include: (i) supervised training with labeled ImageNet learns strong representations that are hard to beat; (ii) self-supervised pretraining on ImageNet (~1M images) shows performance similar to self-supervised pretraining on a CXR dataset (~100K images); and (iii) the CNN trained on supervised ImageNet can be trained further with self-supervised CXR images leading to improvements, especially when the downstream dataset is on the order of a few thousand images.
翻訳日:2022-11-24 15:34:31 公開日:2022-11-23
# Look, Read and Ask: 画像中のテキストを読んで質問する学習

Look, Read and Ask: Learning to Ask Questions by Reading Text in Images ( http://arxiv.org/abs/2211.12950v1 )

ライセンス: Link先を確認
Soumya Jahagirdar, Shankar Gangisetty, Anand Mishra(参考訳) テキストベースの視覚的質問生成(TextVQG)という新しい問題を提案する。 テキスト理解と会話型人工知能(例えばテキストベースの視覚的質問応答)を組み合わせることに対する文書画像分析コミュニティの関心が最近高まり、TextVQGは重要なタスクとなっている。 TextVQGは、与えられた入力画像とOCRトークンとして知られる自動抽出されたテキストに対して、OCRトークンが生成された質問に対する回答であるように自然言語質問を生成することを目的としている。 TextVQGは会話エージェントにとって不可欠な機能である。 しかし、シーンの深い理解と、画像に存在するテキストで視覚的コンテンツを意味的にブリッジする能力が必要であるため、これは難しい。 テキストVQGに対処するために,OCRの一貫性のある視覚的質問生成モデルを提案する。 提案したモデルをOLRAと呼ぶ。 2つの公開ベンチマークでOLRAを広範囲に評価し、ベースラインと比較する。 我々のモデルOLRAは、手動で編集した公開テキストベースの視覚的質問応答データセットに似た質問を自動的に生成する。 また,テキスト生成文学で広く用いられている性能尺度において,ベースラインアプローチを有意に上回っている。

We present a novel problem of text-based visual question generation or TextVQG in short. Given the recent growing interest of the document image analysis community in combining text understanding with conversational artificial intelligence, e.g., text-based visual question answering, TextVQG becomes an important task. TextVQG aims to generate a natural language question for a given input image and an automatically extracted text also known as OCR token from it such that the OCR token is an answer to the generated question. TextVQG is an essential ability for a conversational agent. However, it is challenging as it requires an in-depth understanding of the scene and the ability to semantically bridge the visual content with the text present in the image. To address TextVQG, we present an OCR consistent visual question generation model that Looks into the visual content, Reads the scene text, and Asks a relevant and meaningful natural language question. We refer to our proposed model as OLRA. We perform an extensive evaluation of OLRA on two public benchmarks and compare them against baselines. Our model OLRA automatically generates questions similar to the public text-based visual question answering datasets that were curated manually. Moreover, we significantly outperform baseline approaches on the performance measures popularly used in text generation literature.
翻訳日:2022-11-24 15:34:11 公開日:2022-11-23
# 顔生成のためのセマンティクス保存型スケッチ埋め込み

Semantics-Preserving Sketch Embedding for Face Generation ( http://arxiv.org/abs/2211.13015v1 )

ライセンス: Link先を確認
Binxin Yang, Xuejin Chen, Chaoqun Wang, Chi Zhang, Zihan Chen and Xiaoyan Sun(参考訳) 画像から画像への翻訳タスクの最近の進歩により、スケッチから顔画像を生成するのに顕著な進歩が見られた。 しかし、既存の手法では、特に様々な装飾ストロークを描く場合に、入力スケッチと意味的に幾何学的に一致する詳細画像を生成することがしばしば発生する。 この問題に対処するために、W+空間の高表現力とW+空間のセマンティック制御性を利用する新しいW-W+エンコーダアーキテクチャを提案する。 スケッチセマンティック埋め込みのための明示的な中間表現を導入する。 効果的な意味的監督のために失われる意味的特徴により、我々のスケッチ埋め込みは、入力されたスケッチのセマンティクスを合成画像に正確に伝達する。 さらに、ベクトル化されたスケッチから意味を自動的に抽出する新しいスケッチ意味解釈手法が設計されている。 本研究では,合成スケッチと手書きスケッチの両方について広範な実験を行い,セマンティクス保存と一般化の両面で既存の手法よりも優れた方法を示す。

With recent advances in image-to-image translation tasks, remarkable progress has been witnessed in generating face images from sketches. However, existing methods frequently fail to generate images with details that are semantically and geometrically consistent with the input sketch, especially when various decoration strokes are drawn. To address this issue, we introduce a novel W-W+ encoder architecture to take advantage of the high expressive power of W+ space and semantic controllability of W space. We introduce an explicit intermediate representation for sketch semantic embedding. With a semantic feature matching loss for effective semantic supervision, our sketch embedding precisely conveys the semantics in the input sketches to the synthesized images. Moreover, a novel sketch semantic interpretation approach is designed to automatically extract semantics from vectorized sketches. We conduct extensive experiments on both synthesized sketches and hand-drawn sketches, and the results demonstrate the superiority of our method over existing approaches on both semantics-preserving and generalization ability.
翻訳日:2022-11-24 15:33:52 公開日:2022-11-23
# マスク付き顔分類ベンチマーク

A Masked Face Classification Benchmark ( http://arxiv.org/abs/2211.13061v1 )

ライセンス: Link先を確認
Federico Cunico, Andrea Toaiari and Marco Cristani(参考訳) マスク分類のためにマスクを被った小さな顔に焦点をあてた新しい画像データセットである small face mask (sf-mask) を提案する。これは7 x 7から64 x 64ピクセルの解像度まで、多種多様なデータセットからエクスポートされた20kの低解像度画像から成る。 このコレクションの正確な視覚化は、グリッドを数えることで、歩行者の頭部が想定するさまざまなポーズのギャップを強調することができる。 特に、非常に高いカメラで撮影された顔は、顔の特徴が強く歪んでいるように見える。 この構造的欠陥に対処するため,我々は一連の合成画像を作成し,クラス内分散を良好にカバーした。 さらに1701枚の小さなサブサンプルには、摩耗の悪いフェイスマスクが含まれており、多種分類の課題に直面している。 SF-MASKの実験は、複数の分類器を用いたマスク分類に焦点を当てている。 その結果,SF-MASK(実画像+合成画像)の豊かさは,テスト対象の分類器を,固定された1077枚の画像検定セット上で比較マスクデータセットの活用よりも優れていることがわかった。 データセットと評価コードはここで公開されている。 https://github.com/humaticslab/sf-mask

We propose a novel image dataset focused on tiny faces wearing face masks for mask classification purposes, dubbed Small Face MASK (SF-MASK), composed of a collection made from 20k low-resolution images exported from diverse and heterogeneous datasets, ranging from 7 x 7 to 64 x 64 pixel resolution. An accurate visualization of this collection, through counting grids, made it possible to highlight gaps in the variety of poses assumed by the heads of the pedestrians. In particular, faces filmed by very high cameras, in which the facial features appear strongly skewed, are absent. To address this structural deficiency, we produced a set of synthetic images which resulted in a satisfactory covering of the intra-class variance. Furthermore, a small subsample of 1701 images contains badly worn face masks, opening to multi-class classification challenges. Experiments on SF-MASK focus on face mask classification using several classifiers. Results show that the richness of SF-MASK (real + synthetic images) leads all of the tested classifiers to perform better than exploiting comparative face mask datasets, on a fixed 1077 images testing set. Dataset and evaluation code are publicly available here: https://github.com/HumaticsLAB/sf-mask
翻訳日:2022-11-24 15:33:34 公開日:2022-11-23
# Sparse2Dense: 3Dオブジェクト検出のための3D特徴の密度化学習

Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection ( http://arxiv.org/abs/2211.13067v1 )

ライセンス: Link先を確認
Tianyu Wang, Xiaowei Hu, Zhengzhe Liu, Chi-Wing Fu(参考訳) LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。 しかし、小さくて遠くて不完全で、点がほとんどないし少ないオブジェクトは、しばしば検出が難しい。 Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。 具体的には,まず,高密度点雲を入力とする高密度点3d検出器(ddet)を訓練し,正規点雲を入力とするスパース点3d検出器(sdet)を設計する。 重要なことは、SDetの軽量プラグインS2Dモジュールとポイントクラウド再構築モジュールを定式化し、3D特徴を密度化し、3D特徴をDDetの高密度な3D特徴に従うようにSDetを訓練する。 したがって、SDetは高密度入力を必要とせず、通常の(スパース)ポイントクラウド入力から高密度な3D特徴をシミュレートすることができる。 本稿では,waymo open datasetとwaymo domain adaptation datasetを用いた大規模データセットの手法を評価し,その性能と効率性を示す。

LiDAR-produced point clouds are the major source for most state-of-the-art 3D object detectors. Yet, small, distant, and incomplete objects with sparse or few points are often hard to detect. We present Sparse2Dense, a new framework to efficiently boost 3D detection performance by learning to densify point clouds in latent space. Specifically, we first train a dense point 3D detector (DDet) with a dense point cloud as input and design a sparse point 3D detector (SDet) with a regular point cloud as input. Importantly, we formulate the lightweight plug-in S2D module and the point cloud reconstruction module in SDet to densify 3D features and train SDet to produce 3D features, following the dense 3D features in DDet. So, in inference, SDet can simulate dense 3D features from regular (sparse) point cloud inputs without requiring dense inputs. We evaluate our method on the large-scale Waymo Open Dataset and the Waymo Domain Adaptation Dataset, showing its high performance and efficiency over the state of the arts.
翻訳日:2022-11-24 15:33:11 公開日:2022-11-23
# 連続的および段階的テスト時間適応のためのロバスト平均教師

Robust Mean Teacher for Continual and Gradual Test-Time Adaptation ( http://arxiv.org/abs/2211.13081v1 )

ライセンス: Link先を確認
Mario D\"obler, Robert A. Marsden, Bin Yang(参考訳) テスト時のドメインシフトを実際に経験することは避けられないので、TTA(Test-time Adaption)はデプロイ中にモデルを適応し続けます。 近年,TTA (Continuous and gradual test-time adapt) が出現している。 標準的なTTAとは対照的に、連続的なTTAは単一のドメインシフトだけでなく、一連のシフトも考慮している。 経時変化TTAは、時間とともに徐々に変化していく性質をさらに活用する。 どちらの設定にも長いテストシーケンスが存在するため、自己学習に依存するメソッドではエラーの蓄積に対処する必要がある。 本稿では,ttaの設定において,対称クロスエントロピーが一般的なクロスエントロピーと比較して,平均教師の一貫性損失として適していることを示す。 これは(対称)クロスエントロピーの勾配特性に関する解析によって正当化される。 事前学習されたモデルがよく提示されているソース領域にテスト特徴空間を近づけるには、コントラスト学習を利用する。 アプリケーションは要件が異なるため、ソースデータが利用可能であることと、より困難なソースフリー設定に対処します。 提案手法がCIFAR10C, CIFAR100C, Imagenet-Cの連続的, 段階的な汚職ベンチマークに与える影響を実証した。 我々はさらにimagenet-rを検討し、新しいcontinual domainnet-126ベンチマークを提案する。 最先端の結果はすべてのベンチマークで達成される。

Since experiencing domain shifts during test-time is inevitable in practice, test-time adaption (TTA) continues to adapt the model during deployment. Recently, the area of continual and gradual test-time adaptation (TTA) emerged. In contrast to standard TTA, continual TTA considers not only a single domain shift, but a sequence of shifts. Gradual TTA further exploits the property that some shifts evolve gradually over time. Since in both settings long test sequences are present, error accumulation needs to be addressed for methods relying on self-training. In this work, we propose and show that in the setting of TTA, the symmetric cross-entropy is better suited as a consistency loss for mean teachers compared to the commonly used cross-entropy. This is justified by our analysis with respect to the (symmetric) cross-entropy's gradient properties. To pull the test feature space closer to the source domain, where the pre-trained model is well posed, contrastive learning is leveraged. Since applications differ in their requirements, we address different settings, namely having source data available and the more challenging source-free setting. We demonstrate the effectiveness of our proposed method 'robust mean teacher' (RMT) on the continual and gradual corruption benchmarks CIFAR10C, CIFAR100C, and Imagenet-C. We further consider ImageNet-R and propose a new continual DomainNet-126 benchmark. State-of-the-art results are achieved on all benchmarks.
翻訳日:2022-11-24 15:32:50 公開日:2022-11-23
# TransVCL:フレキシブル・スーパービジョンによる注意力強化ビデオコピー・ローカライゼーション・ネットワーク

TransVCL: Attention-enhanced Video Copy Localization Network with Flexible Supervision ( http://arxiv.org/abs/2211.13090v1 )

ライセンス: Link先を確認
Sifeng He, Yue He, Minlong Lu, Chen Jiang, Xudong Yang, Feng Qian, Xiaobo Zhang, Lei Yang, Jiandong Zhang(参考訳) ビデオコピーのローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、一対の未トリミングビデオに正確にローカライズすることを目的としている。 従来の手法は、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まり、時間的制約の下で類似性行列上のコピーセグメントの境界を検出して洗練する。 本稿では,初期フレームレベルの特徴から直接最適化され,特徴強化のためのカスタマイズされたトランスフォーマー,類似度行列生成のための相関・ソフトマックス層,コピーセグメントローカライズのための時間的アライメントモジュールの3つの主要コンポーネントを備えた,注目度の高いビデオコピーローカライゼーションネットワークであるTransVCLを提案する。 従来の手作り類似性行列要求手法とは対照的に,TransVCLでは,自己注意層と横断注意層を用いた特徴系列ペア間の長距離時間情報を組み込んでいる。 3つのコンポーネントの合同設計と最適化により、類似性マトリックスはより識別可能なコピーパターンを示し、セグメントレベルのラベル付きデータセット(vcslとvcdb)の以前の方法を大きく改善した。 完全に教師された環境での最先端のパフォーマンスに加えて、アテンションアーキテクチャはTransVCLにラベルなしまたは単にビデオレベルのラベル付きデータをさらに活用させる。 SVDやFIVRなど、ビデオレベルのラベル付きデータセットを補完する追加実験は、TransVCLの完全な監督から半監督(ビデオレベルのアノテーションの有無に関わらず)への高い柔軟性を明らかにしている。 コードはhttps://github.com/transvcl/TransVCLで公開されている。

Video copy localization aims to precisely localize all the copied segments within a pair of untrimmed videos in video retrieval applications. Previous methods typically start from frame-to-frame similarity matrix generated by cosine similarity between frame-level features of the input video pair, and then detect and refine the boundaries of copied segments on similarity matrix under temporal constraints. In this paper, we propose TransVCL: an attention-enhanced video copy localization network, which is optimized directly from initial frame-level features and trained end-to-end with three main components: a customized Transformer for feature enhancement, a correlation and softmax layer for similarity matrix generation, and a temporal alignment module for copied segments localization. In contrast to previous methods demanding the handcrafted similarity matrix, TransVCL incorporates long-range temporal information between feature sequence pair using self- and cross- attention layers. With the joint design and optimization of three components, the similarity matrix can be learned to present more discriminative copied patterns, leading to significant improvements over previous methods on segment-level labeled datasets (VCSL and VCDB). Besides the state-of-the-art performance in fully supervised setting, the attention architecture facilitates TransVCL to further exploit unlabeled or simply video-level labeled data. Additional experiments of supplementing video-level labeled datasets including SVD and FIVR reveal the high flexibility of TransVCL from full supervision to semi-supervision (with or without video-level annotation). Code is publicly available at https://github.com/transvcl/TransVCL.
翻訳日:2022-11-24 15:32:28 公開日:2022-11-23
# コンピュータビジョンのためのプルーニング軽量エンコーダ

Pruned Lightweight Encoders for Computer Vision ( http://arxiv.org/abs/2211.13137v1 )

ライセンス: Link先を確認
Jakub \v{Z}\'adn\'ik, Markku M\"akitalo, Pekka J\"a\"askel\"ainen(参考訳) 自律運転やドローン制御などの遅延クリティカルなコンピュータビジョンシステムは、ニューラルネットワーク推論をリモートコンピュータにオフロードする場合、高速画像やビデオ圧縮を必要とする。 近接センサエッジデバイスにおいて低レイテンシを確保するため,ビットレートとプルーニングされた符号化構成,すなわちASTCとJPEG XSを用いた軽量エンコーダを提案する。 Pruningは、圧縮後の圧縮データでニューラルネットワークを再トレーニングすることで、回復できる重要な歪みをもたらす。 このようなアプローチは、ネットワークアーキテクチャを変更したり、コーディングフォーマットを変更したりしない。 圧縮データセットをリトレーニングすることにより,astc圧縮による分類精度と分節平均交点を,それぞれ4.9-5.0点 (pp) と4.4-4.0pp に削減した。 同じ方法で、JPEG XS圧縮で失われたmIoUは2.7-2.3 ppに復元された。 符号化速度に関しては、ASTCエンコーダの実装はJPEGよりも2.3倍高速です。 JPEG XS参照エンコーダは低レイテンシを実現するために最適化を必要とするが、無効な重要フラグ符号化では、再トレーニング後の0.4~0.3 mIoUのコストで符号化時間を22~23%節約できることを示した。

Latency-critical computer vision systems, such as autonomous driving or drone control, require fast image or video compression when offloading neural network inference to a remote computer. To ensure low latency on a near-sensor edge device, we propose the use of lightweight encoders with constant bitrate and pruned encoding configurations, namely, ASTC and JPEG XS. Pruning introduces significant distortion which we show can be recovered by retraining the neural network with compressed data after decompression. Such an approach does not modify the network architecture or require coding format modifications. By retraining with compressed datasets, we reduced the classification accuracy and segmentation mean intersection over union (mIoU) degradation due to ASTC compression to 4.9-5.0 percentage points (pp) and 4.4-4.0 pp, respectively. With the same method, the mIoU lost due to JPEG XS compression at the main profile was restored to 2.7-2.3 pp. In terms of encoding speed, our ASTC encoder implementation is 2.3x faster than JPEG. Even though the JPEG XS reference encoder requires optimizations to reach low latency, we showed that disabling significance flag coding saves 22-23% of encoding time at the cost of 0.4-0.3 mIoU after retraining.
翻訳日:2022-11-24 15:31:56 公開日:2022-11-23
# BaRe-ESA: 登録されていない人体形状のためのリーマン的フレームワーク

BaRe-ESA: A Riemannian Framework for Unregistered Human Body Shapes ( http://arxiv.org/abs/2211.13185v1 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson, Martin Bauer, Nicolas Charon, Mohamed Daoudi(参考訳) 本研究では,人体スキャン,補間,外挿のための新しいリーマン的枠組みであるBaRe-ESAを提案する。 bare-esaは、未登録のメッシュ、すなわち、事前のポイントからポイント対応、あるいは一貫性のあるメッシュ構造を前提として、直接動作する。 この方法は、曲面の空間上の不変高階計量に付随するリーマン計量(非ユークリッド)を備える潜在空間表現に依存する。 FAUSTおよびDFAUSTデータセットの実験結果から、BaRe-ESAは、形状登録、補間、外挿の点で、以前のソリューションに関して大幅に改善されている。 モデルの有効性と強度は, 動き伝達やランダムな身体形状の生成, ポーズなどの応用でさらに実証される。

We present BaRe-ESA, a novel Riemannian framework for human body scan representation, interpolation and extrapolation. BaRe-ESA operates directly on unregistered meshes, i.e., without the need to establish prior point to point correspondences or to assume a consistent mesh structure. Our method relies on a latent space representation, which is equipped with a Riemannian (non-Euclidean) metric associated to an invariant higher-order metric on the space of surfaces. Experimental results on the FAUST and DFAUST datasets show that BaRe-ESA brings significant improvements with respect to previous solutions in terms of shape registration, interpolation and extrapolation. The efficiency and strength of our model is further demonstrated in applications such as motion transfer and random generation of body shape and pose.
翻訳日:2022-11-24 15:31:31 公開日:2022-11-23
# 目標追跡における深層学習に基づくデータ融合アルゴリズムの研究

Research on Data Fusion Algorithm Based on Deep Learning in Target Tracking ( http://arxiv.org/abs/2211.12776v1 )

ライセンス: Link先を確認
Huihui Wu(参考訳) Aiming at the limitation that deep long and short-term memory network(DLSTM) algorithm cannot perform parallel computing and cannot obtain global information, in this paper, feature extraction and feature processing are firstly carried out according to the characteristics of eye movement data and tracking data, then by introducing a convolutional neural network (CNN) into a deep long and short-term memory network, developed a new network structure and designed a fusion strategy, an eye tracking data fusion algorithm based on long and short-term memory network is proposed. 実験の結果, 深層学習に基づく2つの融合アルゴリズムと比較して, 本論文では, 融合品質の点で良好な性能を示した。

Aiming at the limitation that deep long and short-term memory network(DLSTM) algorithm cannot perform parallel computing and cannot obtain global information, in this paper, feature extraction and feature processing are firstly carried out according to the characteristics of eye movement data and tracking data, then by introducing a convolutional neural network (CNN) into a deep long and short-term memory network, developed a new network structure and designed a fusion strategy, an eye tracking data fusion algorithm based on long and short-term memory network is proposed. The experimental results show that compared with the two fusion algorithms based on deep learning, the algorithm proposed in this paper performs well in terms of fusion quality.
翻訳日:2022-11-24 15:25:26 公開日:2022-11-23
# リード・orthogonal attentionとecg分類のためのメタ情報を有するデュアルスケールリードセパレートトランス

A Dual-scale Lead-seperated Transformer With Lead-orthogonal Attention And Meta-information For Ecg Classification ( http://arxiv.org/abs/2211.12777v1 )

ライセンス: Link先を確認
Yang Li, Guijin Wang, Zhourui Xia, Wenming Yang, Li Sun(参考訳) 12誘導心電図(ECG)を用いて心電気生理学的状態の補助診断を行うことができる。 本研究は、この課題に対処するための新しいアプローチとして、鉛直交の注意とメタ情報(DLTM-ECG)を用いたデュアルスケールリード分離変換器を提案する。 各リードのECGセグメントは独立パッチとして解釈され、縮小次元信号と共に二重スケールの表現を形成する。 相関の低いセグメントからの干渉を低減する方法として、2つのグループアテンション機構がリードインターナルとクロスリードの両方のアテンションを実行する。 従来廃棄されていたメタ情報の付加が可能であり,臨床情報の利用性がさらに向上する。 実験の結果,我々のDLTM-ECGは,2つのベンチマークデータセット上での最先端(SOTA)深層学習手法よりも,他のトランスフォーマーベースモデルよりもはるかに優れた分類スコアが得られることがわかった。 本研究は,同様の生体電気信号処理と生理的マルチモーダルタスクの可能性を秘めている。

Auxiliary diagnosis of cardiac electrophysiological status can be obtained through the analysis of 12-lead electrocardiograms (ECGs). This work proposes a dual-scale lead-separated transformer with lead-orthogonal attention and meta-information (DLTM-ECG) as a novel approach to address this challenge. ECG segments of each lead are interpreted as independent patches, and together with the reduced dimension signal, they form a dual-scale representation. As a method to reduce interference from segments with low correlation, two group attention mechanisms perform both lead-internal and cross-lead attention. Our method allows for the addition of previously discarded meta-information, further improving the utilization of clinical information. Experimental results show that our DLTM-ECG yields significantly better classification scores than other transformer-based models,matching or performing better than state-of-the-art (SOTA) deep learning methods on two benchmark datasets. Our work has the potential for similar multichannel bioelectrical signal processing and physiological multimodal tasks.
翻訳日:2022-11-24 15:25:17 公開日:2022-11-23
# イベントカメラのためのデータ駆動型特徴追跡

Data-driven Feature Tracking for Event Cameras ( http://arxiv.org/abs/2211.12826v1 )

ライセンス: Link先を確認
Nico Messikommer, Carter Fang, Mathias Gehrig, Davide Scaramuzza(参考訳) 高時間分解能、動きのぼかしに対するレジリエンスの増大、そして非常に少ない出力のため、イベントカメラは挑戦的なシナリオであっても低レイテンシで低帯域幅の特徴追跡に最適であることが示されている。 既存のイベントカメラの特徴追跡手法は手作りか第一原理から派生しているが、広範なパラメータチューニングが必要であり、ノイズに敏感であり、非モデル化効果のために異なるシナリオに一般化しない。 これらの欠陥に対処するために、グレースケールフレームで検出された特徴を追跡するために、低レイテンシイベントを活用するイベントカメラ用の最初のデータ駆動機能トラッカーを導入する。 特徴トラック間で情報を共有する新しいフレームアテンションモジュールにより,ロバストな性能を実現する。 合成データから実データに直接ゼロショットを転送することで、データ駆動型トラッカーは、相対的な機能年齢における既存のアプローチを最大120パーセント上回り、最も低いレイテンシを達成します。 このパフォーマンスギャップは,新たな自己スーパービジョン戦略によって,トラッカを実データに適用することで,さらに130パーセントまで向上します。

Because of their high temporal resolution, increased resilience to motion blur, and very sparse output, event cameras have been shown to be ideal for low-latency and low-bandwidth feature tracking, even in challenging scenarios. Existing feature tracking methods for event cameras are either handcrafted or derived from first principles but require extensive parameter tuning, are sensitive to noise, and do not generalize to different scenarios due to unmodeled effects. To tackle these deficiencies, we introduce the first data-driven feature tracker for event cameras, which leverages low-latency events to track features detected in a grayscale frame. We achieve robust performance via a novel frame attention module, which shares information across feature tracks. By directly transferring zero-shot from synthetic to real data, our data-driven tracker outperforms existing approaches in relative feature age by up to 120 % while also achieving the lowest latency. This performance gap is further increased to 130 % by adapting our tracker to real data with a novel self-supervision strategy.
翻訳日:2022-11-24 15:24:58 公開日:2022-11-23
# ビデオインスタンスシャドー検出

Video Instance Shadow Detection ( http://arxiv.org/abs/2211.12827v1 )

ライセンス: Link先を確認
Zhenghao Xing, Tianyu Wang, Xiaowei Hu, Haoran Wu, Chi-Wing Fu, Pheng-Ann Heng(参考訳) ビデオインスタンスシャドー検出は、ビデオ中の対のシャドーオブジェクト関連を同時に検出、セグメンテーション、アソシエイト、追跡することを目的としている。 この仕事には3つの重要な貢献がある。 まずSSIS-Trackを設計する。これは、ビデオ内の影オブジェクト関連を、カテゴリー仕様なしで抽出する新しいフレームワークであり、特に、オブジェクトやシャドウが一時的にいくつかのフレームに隠されている場合でも、ペアトラッキングを維持するために努力する。 第2に,ラベル付き画像とラベル付きビデオの両方を利用し,連想サイクル一貫性損失による追跡能力の向上による時間的コヒーレンスを探索し,ssis-trackの性能を最適化する。 最後に、$\textit{soba-vid}$を構築します。新しいデータセットには、トレーニング用の${5,863}$ framesとテスト用の${1,182}$ framesというラベル付きビデオがあります。 SSIS-TrackはSOTAビデオトラッキングとインスタンスシャドウ検出法で構築したベースラインを大きなマージンで上回ることを示す実験結果を得た。 最後に、ビデオレベルのアプリケーションをいくつか紹介する。

Video instance shadow detection aims to simultaneously detect, segment, associate, and track paired shadow-object associations in videos. This work has three key contributions to the task. First, we design SSIS-Track, a new framework to extract shadow-object associations in videos with paired tracking and without category specification; especially, we strive to maintain paired tracking even the objects/shadows are temporarily occluded for several frames. Second, we leverage both labeled images and unlabeled videos, and explore temporal coherence by augmenting the tracking ability via an association cycle consistency loss to optimize SSIS-Track's performance. Last, we build $\textit{SOBA-VID}$, a new dataset with 232 unlabeled videos of ${5,863}$ frames for training and 60 labeled videos of ${1,182}$ frames for testing. Experimental results show that SSIS-Track surpasses baselines built from SOTA video tracking and instance-shadow-detection methods by a large margin. In the end, we showcase several video-level applications.
翻訳日:2022-11-24 15:24:39 公開日:2022-11-23
# BAD-NeRF: 結合調整デブレアニューラル放射場

BAD-NeRF: Bundle Adjusted Deblur Neural Radiance Fields ( http://arxiv.org/abs/2211.12853v1 )

ライセンス: Link先を確認
Peng Wang, Lingzhe Zhao, Ruijie Ma, Peidong Liu(参考訳) ニューラル・レージアンス・フィールズ(NeRF)は、カメラ画像のセットから、フォトリアリスティックな3D再構成と新しいビュー合成の優れた能力により、近年大きな注目を集めている。 初期の作業は通常、入力画像の品質がよいと仮定する。 しかし、画像の劣化(例えば低照度での動画像のぼやけ)は現実世界のシナリオで容易に起こり、nerfのレンダリング品質にさらに影響を及ぼす。 本稿では,重度動きのぼやけた画像や不正確なカメラポーズに対して頑丈な,新しいバンドル調整型デブルーニューラルレージアンス場(BAD-NeRF)を提案する。 提案手法は、動きのぼやけた画像の物理的画像形成過程をモデル化し、nerfのパラメータを共同学習し、露光時間中にカメラの動き軌跡を復元する。 実験では,実際の画像形成過程を直接モデル化することにより,bad-nerfが合成データと実データの両方の先行処理よりも優れた性能を実現することを示す。

Neural Radiance Fields (NeRF) have received considerable attention recently, due to its impressive capability in photo-realistic 3D reconstruction and novel view synthesis, given a set of posed camera images. Earlier work usually assumes the input images are in good quality. However, image degradation (e.g. image motion blur in low-light conditions) can easily happen in real-world scenarios, which would further affect the rendering quality of NeRF. In this paper, we present a novel bundle adjusted deblur Neural Radiance Fields (BAD-NeRF), which can be robust to severe motion blurred images and inaccurate camera poses. Our approach models the physical image formation process of a motion blurred image, and jointly learns the parameters of NeRF and recovers the camera motion trajectories during exposure time. In experiments, we show that by directly modeling the real physical image formation process, BAD-NeRF achieves superior performance over prior works on both synthetic and real datasets.
翻訳日:2022-11-24 15:24:17 公開日:2022-11-23
# ActMAD: テスト時間トレーニングのためのアラインディストリビューションへのアクティベーションマッチング

ActMAD: Activation Matching to Align Distributions for Test-Time-Training ( http://arxiv.org/abs/2211.12870v1 )

ライセンス: Link先を確認
Muhammad Jehanzeb Mirza, Pol Jan\'e Soneira, Wei Lin, Mateusz Kozinski, Horst Possegger, Horst Bischof(参考訳) TTT(Test-Time-Training)は、テスト時に発生する分散シフトにトレーニングされたモデルを適用することで、アウト・オブ・ディストリビューション(OOD)データに対処するアプローチである。 そこで本研究では,モデルのアクティベーションマッチング(actmad)を用いて,モデルのアクティベーションを分析し,oodテストデータのアクティベーション統計をトレーニングデータと整合させる手法を提案する。 特徴抽出器の終端層におけるチャネル全体の分布をモデル化する既存の手法とは対照的に,ネットワーク上の複数の層における各特徴の分布をモデル化する。 これにより、よりきめ細かい監督が可能となり、ActMADはCIFAR-100CおよびImagenet-C上でのアートパフォーマンスの状態を達成できる。 ActMADはまた、アーキテクチャとタスクに依存しないので、画像分類を超えて、KITTI-Fog上でKITTIで訓練されたオブジェクト検出器を評価する際に、以前のアプローチよりも15.4%改善できる。 実験の結果、ActMADは現実的なシナリオにおけるオンライン適応に適用可能であり、完全なパフォーマンスを得るためにはほとんどデータを必要としないことがわかった。

Test-Time-Training (TTT) is an approach to cope with out-of-distribution (OOD) data by adapting a trained model to distribution shifts occurring at test-time. We propose to perform this adaptation via Activation Matching (ActMAD): We analyze activations of the model and align activation statistics of the OOD test data to those of the training data. In contrast to existing methods, which model the distribution of entire channels in the ultimate layer of the feature extractor, we model the distribution of each feature in multiple layers across the network. This results in a more fine-grained supervision and makes ActMAD attain state of the art performance on CIFAR-100C and Imagenet-C. ActMAD is also architecture- and task-agnostic, which lets us go beyond image classification, and score 15.4% improvement over previous approaches when evaluating a KITTI-trained object detector on KITTI-Fog. Our experiments highlight that ActMAD can be applied to online adaptation in realistic scenarios, requiring little data to attain its full performance.
翻訳日:2022-11-24 15:23:05 公開日:2022-11-23
# 微細画像分類のためのデータ拡張ビジョン変換器

Data Augmentation Vision Transformer for Fine-grained Image Classification ( http://arxiv.org/abs/2211.12879v1 )

ライセンス: Link先を確認
Chao Hu, Liqiang Zhu, Weibin Qiu, and Weijie Wu(参考訳) 近年、視覚変換器(ViT)は画像認識において画期的な進歩を遂げている。 その自己認識機構(MSA)は、異なる画素ブロックの識別ラベル情報を抽出し、画像分類精度を向上させる。 しかし、その深層における分類マークは、層間の局所的な特徴を無視する傾向がある。 さらに、埋め込み層は固定サイズのピクセルブロックになる。 入力ネットワーク 必然的に画像ノイズを導入する。 そこで本研究では,データ増補に基づくデータ増補視覚トランスフォーマ(davt)について検討し,注意重みを画像の収穫ガイドとして活用し,ネットワークが重要な特徴を学習する能力を向上させるアテンショントリッピングのためのデータ増補手法を提案する。 次に,階層的注意選択(has)手法を提案する。この手法は,レベル間のラベルをフィルタリングし,融合することにより,学習レベル間の識別マーカーの能力を向上させる。 実験の結果,CUB-200-2011とStanford Dogsの2つの一般的なデータセットの精度は従来の主流手法よりも優れており,その精度は元のViTよりも1.4\%,1.6\%高いことがわかった。

Recently, the vision transformer (ViT) has made breakthroughs in image recognition. Its self-attention mechanism (MSA) can extract discriminative labeling information of different pixel blocks to improve image classification accuracy. However, the classification marks in their deep layers tend to ignore local features between layers. In addition, the embedding layer will be fixed-size pixel blocks. Input network Inevitably introduces additional image noise. To this end, this paper studies a data augmentation vision transformer (DAVT) based on data augmentation and proposes a data augmentation method for attention cropping, which uses attention weights as the guide to crop images and improve the ability of the network to learn critical features. Secondly, this paper also proposes a hierarchical attention selection (HAS) method, which improves the ability of discriminative markers between levels of learning by filtering and fusing labels between levels. Experimental results show that the accuracy of this method on the two general datasets, CUB-200-2011, and Stanford Dogs, is better than the existing mainstream methods, and its accuracy is 1.4\% and 1.6\% higher than the original ViT, respectively.
翻訳日:2022-11-24 15:22:43 公開日:2022-11-23
# 背景と前景における行動表現の静的バイアスの評価と軽減

Evaluating and Mitigating Static Bias of Action Representations in the Background and the Foreground ( http://arxiv.org/abs/2211.12883v1 )

ライセンス: Link先を確認
Haoxin Li, Yue Wu, Yuan Liu, Hanwang Zhang, Boyang Li(参考訳) ビデオアクション認識のためのディープニューラルネットワークは、モーション機能の代わりに背景やオブジェクトなどのショートカット静的機能を利用するように簡単に学習する。 この結果、(サッカー場の代わりに)コンクリート表面で遊ぶサッカーのような非定型ビデオへの一般化が不十分になる。 しかし,out-of-distribution (ood) データの希薄さから,静的バイアスの定量的評価はいまだに難しい課題である。 本稿では,背景の静的なキューに対するSCUBや前景の静的なキューに対するSCUFなど,アクション表現の静的なバイアスを評価するための新しいベンチマークセットを合成する。 さらに, バイアスを誘発するビデオフレームを自動的に識別する, 単純かつ効果的なビデオデータ拡張手法であるStillMixを提案する。 広範囲な実験により,既存の行動認識モデルを定量的に比較分析し,その特徴を明らかにする。 StillMix の有効性を検証するとともに, SCUB の OOD 動作認識における TSM (Lin, Gan, Han 2021) と Video Swin Transformer (Liu et al. 2021) の精度を 10% 以上向上することを示した。

Deep neural networks for video action recognition easily learn to utilize shortcut static features, such as background and objects instead of motion features. This results in poor generalization to atypical videos such as soccer playing on concrete surfaces (instead of soccer fields). However, due to the rarity of out-of-distribution (OOD) data, quantitative evaluation of static bias remains a difficult task. In this paper, we synthesize new sets of benchmarks to evaluate static bias of action representations, including SCUB for static cues in the background, and SCUF for static cues in the foreground. Further, we propose a simple yet effective video data augmentation technique, StillMix, that automatically identifies bias-inducing video frames; unlike similar augmentation techniques, StillMix does not need to enumerate or precisely segment biased content. With extensive experiments, we quantitatively compare and analyze existing action recognition models on the created benchmarks to reveal their characteristics. We validate the effectiveness of StillMix and show that it improves TSM (Lin, Gan, and Han 2021) and Video Swin Transformer (Liu et al. 2021) by more than 10% of accuracy on SCUB for OOD action recognition.
翻訳日:2022-11-24 15:22:23 公開日:2022-11-23
# one class one click: アクティブラーニングによる準シーンレベル弱教師付きポイントクラウド意味セグメンテーション

One Class One Click: Quasi Scene-level Weakly Supervised Point Cloud Semantic Segmentation with Active Learning ( http://arxiv.org/abs/2211.12657v1 )

ライセンス: Link先を確認
Puzuo Wang, Wei Yao, Jie Shao(参考訳) リーディングパフォーマンスを達成するために巨大なアノテーションに依存することは、大規模ポイントクラウドセマンティクスセグメンテーションの実用性を厳しく制限する。 データアノテーションコストを削減するため、効果的なラベリング方式を開発し、弱い監督戦略の下での競争結果の達成に寄与する。 現在の弱いラベル形式を再検討し、ポイントレベルのアノテーションとシーンレベルのアノテーションをカプセル化した、低コストで情報のある準シーンレベルのラベルであるOne Class One Click (OCOC)を導入する。 グローバルおよびローカルな視点からの弱い監督を伴って、希少なラベルを活用するために、アクティブな弱教師付きフレームワークが提案されている。 文脈制約は、グローバル特徴埋め込みと、ococラベルのみにモデル予測を制限するポイントワイズ予測アグリゲーションに基づいて、補助シーン分類タスクによって課される。 さらに,ポイントレベルの監視信号を効果的に補う,コンテキスト対応の擬似ラベリング戦略を設計する。 最後に、不確実な時間的出力不一致を伴うアクティブラーニングスキームを統合して、情報的サンプルを調べ、より望ましいOCOCアノテーションを迅速に取得し、ラベリングコストを極端に低めることができるサブクラウドクエリーに関するガイダンスを提供する。 航空機, 移動機, 地上プラットフォームから収集した3つのlidarベンチマークを用いた大規模実験により, 提案手法は非常に有望な結果が得られることを示した。 実際のシーンレベルの弱い監督手法を平均F1スコアで最大25倍に上回り、完全な監督スキームに対する競争結果を得る。 約2\textpertenthousand{}のラベルを用いた地球上のLiDARデータセット-Semantics3Dでは,ベースラインモデルと比較して平均F1スコアが85.2\%増加し,11.58\%上昇する。

Reliance on vast annotations to achieve leading performance severely restricts the practicality of large-scale point cloud semantic segmentation. For the purpose of reducing data annotation costs, effective labeling schemes are developed and contribute to attaining competitive results under weak supervision strategy. Revisiting current weak label forms, we introduce One Class One Click (OCOC), a low cost yet informative quasi scene-level label, which encapsulates point-level and scene-level annotations. An active weakly supervised framework is proposed to leverage scarce labels by involving weak supervision from global and local perspectives. Contextual constraints are imposed by an auxiliary scene classification task, respectively based on global feature embedding and point-wise prediction aggregation, which restricts the model prediction merely to OCOC labels. Furthermore, we design a context-aware pseudo labeling strategy, which effectively supplement point-level supervisory signals. Finally, an active learning scheme with a uncertainty measure - temporal output discrepancy is integrated to examine informative samples and provides guidance on sub-clouds query, which is conducive to quickly attaining desirable OCOC annotations and reduces the labeling cost to an extremely low extent. Extensive experimental analysis using three LiDAR benchmarks collected from airborne, mobile and ground platforms demonstrates that our proposed method achieves very promising results though subject to scarce labels. It considerably outperforms genuine scene-level weakly supervised methods by up to 25\% in terms of average F1 score and achieves competitive results against full supervision schemes. On terrestrial LiDAR dataset - Semantics3D, using approximately 2\textpertenthousand{} of labels, our method achieves an average F1 score of 85.2\%, which increases by 11.58\% compared to the baseline model.
翻訳日:2022-11-24 15:16:14 公開日:2022-11-23
# ディエンス対応推定を用いた意味認識型ワンショット顔再現

Semantic-aware One-shot Face Re-enactment with Dense Correspondence Estimation ( http://arxiv.org/abs/2211.12674v1 )

ライセンス: Link先を確認
Yunfan Liu, Qi Li, Zhenan Sun, Tieniu Tan(参考訳) ワンショット顔の再現は、ソースと駆動面の同一性ミスマッチのため、難しい課題である。 具体的には、運転者の不整合性情報に対して、必然的に再現結果に干渉し、顔形状の歪みを引き起こす。 そこで本研究では,3次元モーフィブルモデル(3DMM)を明示的な顔のセマンティックな分解と識別の不整合に利用することを提案する。 再現性制御に3D係数のみを用いる代わりに、3DMMによるテクスチャ化された顔プロキシの描画能力を生かした。 これらのプロキシには、人間の顔の十分なコンパクトな幾何学的・意味的な情報が含まれており、密度の高い対応を推定することにより、音源と駆動画像の間の顔の動き場を計算することができる。 このようにして、モーションフィールドに応じてソースイメージをワープすることで、再現結果を近似することができ、また、ワープ結果の視覚的品質をさらに向上するために、ジェネレーティブ・ディバイザリアル・ネットワーク(GAN)が採用される。 各種データセットに対する広範囲な実験により,提案手法は,アイデンティティ保存と再現充足の両面において,既存の最先端ベンチマークよりも優れていることが示された。

One-shot face re-enactment is a challenging task due to the identity mismatch between source and driving faces. Specifically, the suboptimally disentangled identity information of driving subjects would inevitably interfere with the re-enactment results and lead to face shape distortion. To solve this problem, this paper proposes to use 3D Morphable Model (3DMM) for explicit facial semantic decomposition and identity disentanglement. Instead of using 3D coefficients alone for re-enactment control, we take the advantage of the generative ability of 3DMM to render textured face proxies. These proxies contain abundant yet compact geometric and semantic information of human faces, which enable us to compute the face motion field between source and driving images by estimating the dense correspondence. In this way, we could approximate re-enactment results by warping source images according to the motion field, and a Generative Adversarial Network (GAN) is adopted to further improve the visual quality of warping results. Extensive experiments on various datasets demonstrate the advantages of the proposed method over existing start-of-the-art benchmarks in both identity preservation and re-enactment fulfillment.
翻訳日:2022-11-24 15:15:40 公開日:2022-11-23
# 深部畳み込みニューラルネットワークのためのRega-Net:Retina Gaborアテンション

Rega-Net:Retina Gabor Attention for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2211.12698v1 )

ライセンス: Link先を確認
Chun Bao, Jie Cao, Yaqian Ning, Yang Cheng, Qun Hao(参考訳) 大規模な研究は、畳み込みニューラルネットワーク(CNN)の注意機構が効果的に精度を向上させることを示した。 しかし、大きな受容場を用いた注意機構の設計はほとんど行われない。 そこで本研究では,rega-netという新しい注意手法を提案する。 ヒト網膜のメカニズムにインスパイアされた我々は、ヒト網膜の非一様分布構造に類似した畳み込みカーネルを設計する。 次に、Gabor関数分布の変数分解能値をサンプリングし、これらの値を網膜様のカーネルで埋める。 この分布により、受容野の中心位置において重要な特徴がより見えるようになる。 さらに、これらの網膜様カーネルを含む注目モジュールを設計する。 実験により、Rega-NetはImageNet-1K分類で79.963\%、COCO2017オブジェクト検出で43.1\%mAPを達成した。 Rega-NetのmAPはベースラインネットワークに比べて3.5\%増加した。

Extensive research works demonstrate that the attention mechanism in convolutional neural networks (CNNs) effectively improves accuracy. But little works design attention mechanisms using large receptive fields. In this work, we propose a novel attention method named Rega-net to increase CNN accuracy by enlarging the receptive field. Inspired by the mechanism of the human retina, we design convolutional kernels to resemble the non-uniformly distributed structure of the human retina. Then, we sample variable-resolution values in the Gabor function distribution and fill these values in retina-like kernels. This distribution allows important features to be more visible in the center position of the receptive field. We further design an attention module including these retina-like kernels. Experiments demonstrate that our Rega-Net achieves 79.963\% top-1 accuracy on ImageNet-1K classification and 43.1\% mAP on COCO2017 object detection. The mAP of the Rega-Net increased by up to 3.5\% compared to baseline networks.
翻訳日:2022-11-24 15:15:19 公開日:2022-11-23
# Global Meets Local: Category-Aware Weak Supervisionによる効果的なマルチラベル画像分類

Global Meets Local: Effective Multi-Label Image Classification via Category-Aware Weak Supervision ( http://arxiv.org/abs/2211.12716v1 )

ライセンス: Link先を確認
Jiawei Zhan, Jun Liu, Wei Tang, Guannan Jiang, Xi Wang, Bin-Bin Gao, Tianliang Zhang, Wenlong Wu, Wei Zhang, Chengjie Wang, Yuan Xie(参考訳) ラベル依存と領域ベースの方法に分類できるマルチラベル画像分類は、複雑なオブジェクトレイアウトのために難しい問題である。 領域ベースの手法はラベル依存法よりもモデル一般化可能性の問題に遭遇する可能性は低いが、何百もの無意味または騒がしい提案を非識別情報で生成し、局所化された領域間の文脈依存はしばしば無視または単純化される。 本稿では,雑音抑圧を効果的に行うための統一フレームワークを構築し,ロバストな特徴学習のためのグローバル特徴とローカル特徴の相互作用について述べる。 具体的には,局所的特徴学習のための決定論的情報を提供するために,非存在カテゴリに集中するためのカテゴリ認識の弱い監督を提案する。 さらに,グローバル-ローカル間だけでなくローカル-ローカル間関係も含む高次特徴相関を構築できるグローバル-ローカル間の補完情報を探索するクロスグラニュラ性アテンションモジュールを開発した。 どちらのメリットも、ネットワーク全体のパフォーマンスの向上を保証します。 2つの大規模データセット(MS-COCOとVOC 2007)に対する大規模な実験により、我々のフレームワークは最先端の手法よりも優れた性能を達成できることを示した。

Multi-label image classification, which can be categorized into label-dependency and region-based methods, is a challenging problem due to the complex underlying object layouts. Although region-based methods are less likely to encounter issues with model generalizability than label-dependency methods, they often generate hundreds of meaningless or noisy proposals with non-discriminative information, and the contextual dependency among the localized regions is often ignored or over-simplified. This paper builds a unified framework to perform effective noisy-proposal suppression and to interact between global and local features for robust feature learning. Specifically, we propose category-aware weak supervision to concentrate on non-existent categories so as to provide deterministic information for local feature learning, restricting the local branch to focus on more high-quality regions of interest. Moreover, we develop a cross-granularity attention module to explore the complementary information between global and local features, which can build the high-order feature correlation containing not only global-to-local, but also local-to-local relations. Both advantages guarantee a boost in the performance of the whole network. Extensive experiments on two large-scale datasets (MS-COCO and VOC 2007) demonstrate that our framework achieves superior performance over state-of-the-art methods.
翻訳日:2022-11-24 15:15:05 公開日:2022-11-23
# マルチラベル画像認識のためのプロンプトチューニングにおける画像としてのテキスト

Texts as Images in Prompt Tuning for Multi-Label Image Recognition ( http://arxiv.org/abs/2211.12739v1 )

ライセンス: Link先を確認
Zixian Guo, Bowen Dong, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo(参考訳) プロンプトチューニングは、データ制限またはラベル制限設定の様々な下流タスクに、大きな視覚言語事前学習モデル(例えばクリップ)を適用する効率的な方法として採用されている。 それでも、ビジュアルデータ(例:画像)は、既存の方法での学習の前提条件である。 本稿では,この2つの様相(トレーニングクリップ)を整合させることで,画像-テキスト対比学習の有効性をさらに高め,即興チューニングのための画像としてテキストを扱いやすくし,taiプロンプトを導入することを提案する。 視覚的データとは対照的に、テキスト記述は収集が容易であり、クラスラベルを直接導出することができる。 特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。 さらに,多段認識性能向上のための粗粒度と細粒度の両方を抽出し,二重粒度プロンプトチューニング(tai-dpt)を行う。 実験の結果,提案したTaI-DPTは,MS-COCO,VOC2007,NAS-WIDEなど複数のベンチマークにおいてゼロショットCLIPよりも優れており,既存の画像からのプロンプト手法と組み合わせて認識性能を向上させることができることがわかった。 コードはhttps://github.com/guozix/TaI-DPTで公開されている。

Prompt tuning has been employed as an efficient way to adapt large vision-language pre-trained models (e.g. CLIP) to various downstream tasks in data-limited or label-limited settings. Nonetheless, visual data (e.g., images) is by default prerequisite for learning prompts in existing methods. In this work, we advocate that the effectiveness of image-text contrastive learning in aligning the two modalities (for training CLIP) further makes it feasible to treat texts as images for prompt tuning and introduce TaI prompting. In contrast to the visual data, text descriptions are easy to collect, and their class labels can be directly derived. Particularly, we apply TaI prompting to multi-label image recognition, where sentences in the wild serve as alternatives to images for prompt tuning. Moreover, with TaI, double-grained prompt tuning (TaI-DPT) is further presented to extract both coarse-grained and fine-grained embeddings for enhancing the multi-label recognition performance. Experimental results show that our proposed TaI-DPT outperforms zero-shot CLIP by a large margin on multiple benchmarks, e.g., MS-COCO, VOC2007, and NUS-WIDE, while it can be combined with existing methods of prompting from images to improve recognition performance further. Code is released at https://github.com/guozix/TaI-DPT.
翻訳日:2022-11-24 15:14:38 公開日:2022-11-23
# Wasserstein GAN と Transformers による少数点からの点雲の補完

Completing point cloud from few points by Wasserstein GAN and Transformers ( http://arxiv.org/abs/2211.12746v1 )

ライセンス: Link先を確認
Xianfeng Wu and Jinhui Qian and Qing Wei and Xianzu Wu and Xinyi Liu and Luxin Hu and Yanli Gong and Zhongyuan Lai and Libing Wu(参考訳) 多くのビジョンやロボット工学の応用において、捕獲された物体は非常に少ない点で表現されるのが一般的である。 既存の完了法のほとんどは、多くの点を持つ部分点雲のために設計されており、少数点の場合、性能が悪く、あるいは完全に失敗する。 しかし、詳細情報が不足しているため、少数のポイントからオブジェクトを完了させることは大きな課題に直面します。 画像ベース視覚タスクにおけるGANとTransformerの応用に触発されて、上記の問題に対処するためのGANとTransformer技術を導入する。 まず,Transformerを用いたエンドツーエンドエンコーダデコーダネットワークとTransformerを用いたWasserstein GANを事前トレーニングし,ネットワーク全体を微調整する。 ShapeNetデータセットの実験結果から,本手法は多数の入力点に対する完了性能を向上するだけでなく,少数の入力点に対して安定に維持できることが示唆された。 ソースコードはhttps://github.com/wxfqjh/stability-point-recovery.gitで入手できます。

In many vision and robotics applications, it is common that the captured objects are represented by very few points. Most of the existing completion methods are designed for partial point clouds with many points, and they perform poorly or even fail completely in the case of few points. However, due to the lack of detail information, completing objects from few points faces a huge challenge. Inspired by the successful applications of GAN and Transformers in the image-based vision task, we introduce GAN and Transformer techniques to address the above problem. Firstly, the end-to-end encoder-decoder network with Transformers and the Wasserstein GAN with Transformer are pre-trained, and then the overall network is fine-tuned. Experimental results on the ShapeNet dataset show that our method can not only improve the completion performance for many input points, but also keep stable for few input points. Our source code is available at https://github.com/WxfQjh/Stability-point-recovery.git.
翻訳日:2022-11-24 15:14:12 公開日:2022-11-23
# 動的外観:共同訓練による行動認識のための映像表現

Dynamic Appearance: A Video Representation for Action Recognition with Joint Training ( http://arxiv.org/abs/2211.12748v1 )

ライセンス: Link先を確認
Guoxi Huang, Adrian G. Bors(参考訳) ビデオの静的な出現は、ディープニューラルネットワークがビデオアクション認識の動作関連特徴を学習する能力を妨げる可能性がある。 本稿では,動画中の動きに関連する外観情報を要約し,動きに関係のないと考えられる静的情報をフィルタリングする動的外観(DA)という新しい概念を紹介する。 生のビデオデータからダイナミックな外観を蒸留して,映像理解の効率化を図る。 この目的のために,PWTP (Pixel-Wise Temporal Projection) を提案し,ビデオの静的な外観をベクトル空間内の部分空間に投影し,ダイナミックな外観を特殊な動きパターンを記述する投影残差に符号化する。 さらに,PWTPモジュールとCNNやTransformerをエンドツーエンドのトレーニングフレームワークに統合し,多目的最適化アルゴリズムを用いて最適化する。 Kinetics400, Something-Something V1, UCF101, HMDB51 の4つの行動認識ベンチマークについて実験を行った。

Static appearance of video may impede the ability of a deep neural network to learn motion-relevant features in video action recognition. In this paper, we introduce a new concept, Dynamic Appearance (DA), summarizing the appearance information relating to movement in a video while filtering out the static information considered unrelated to motion. We consider distilling the dynamic appearance from raw video data as a means of efficient video understanding. To this end, we propose the Pixel-Wise Temporal Projection (PWTP), which projects the static appearance of a video into a subspace within its original vector space, while the dynamic appearance is encoded in the projection residual describing a special motion pattern. Moreover, we integrate the PWTP module with a CNN or Transformer into an end-to-end training framework, which is optimized by utilizing multi-objective optimization algorithms. We provide extensive experimental results on four action recognition benchmarks: Kinetics400, Something-Something V1, UCF101 and HMDB51.
翻訳日:2022-11-24 15:13:52 公開日:2022-11-23
# panerf: 短時間入力に基づくニューラルラミアンスフィールドの改善のための擬似ビュー拡張

PANeRF: Pseudo-view Augmentation for Improved Neural Radiance Fields Based on Few-shot Inputs ( http://arxiv.org/abs/2211.12758v1 )

ライセンス: Link先を確認
Young Chun Ahn, Seokhwan Jang, Sungheon Park, Ji-Yeon Kim, Nahyup Kang(参考訳) 近年,ニューラルラジアンス場(NeRF)の手法が開発され,複雑なシーンの新たなビューの合成への応用が期待されている。 しかし、nerfは高品質な画像を生成するために、通常数百の入力ビューを必要とする。 入力ビュー数が減少するにつれて、見えない視点に対するNeRFのレンダリング品質は劇的に低下する傾向にある。 この課題を克服するために,数発の入力の幾何学を考慮した十分な量のデータ拡張方式であるNeRFの擬似ビュー拡張を提案する。 まず、拡張された擬似ビューを利用してNeRFネットワークを初期化した。 その後,正確な形状と色情報を含むスパースビュー入力を用いてネットワークの微調整を行った。 様々な環境下で実験を行い,本モデルが優れた品質の新規ビューイメージを忠実に合成し,既存のマルチビューデータセットの手法を上回ることを検証した。

The method of neural radiance fields (NeRF) has been developed in recent years, and this technology has promising applications for synthesizing novel views of complex scenes. However, NeRF requires dense input views, typically numbering in the hundreds, for generating high-quality images. With a decrease in the number of input views, the rendering quality of NeRF for unseen viewpoints tends to degenerate drastically. To overcome this challenge, we propose pseudo-view augmentation of NeRF, a scheme that expands a sufficient amount of data by considering the geometry of few-shot inputs. We first initialized the NeRF network by leveraging the expanded pseudo-views, which efficiently minimizes uncertainty when rendering unseen views. Subsequently, we fine-tuned the network by utilizing sparse-view inputs containing precise geometry and color information. Through experiments under various settings, we verified that our model faithfully synthesizes novel-view images of superior quality and outperforms existing methods for multi-view datasets.
翻訳日:2022-11-24 15:13:35 公開日:2022-11-23
# 言語モデリングのためのバイトからの単語レベル表現

Word-Level Representation From Bytes For Language Modeling ( http://arxiv.org/abs/2211.12677v1 )

ライセンス: Link先を確認
Chu-Tak Lee, Qipeng Guo, Xipeng Qiu(参考訳) 現代の言語モデルは、主にサブワードを入力として取り、語彙のサイズ、パラメータの数、パフォーマンスのトレードオフをバランスさせる設計である。 しかし、サブワードトークン化には、ノイズに対して堅牢で、新しい言語への一般化が難しいといった欠点がある。 また、モデルをスケールアップする現在のトレンドは、より大きなモデルにはより大きな埋め込みが必要だが、並列化を難しくすることを示している。 画像分類に関するこれまでの研究は、生の入力をチャックの列に分割することは、強いモデルに依存しない帰納バイアスであることを示した。 本研究は,文字レベルの入力を取り入れつつ,単語レベルのシーケンスモデリングと予測を行う既存の文字認識手法を再考する。 本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠れ状態に基づくサブワードレベルの予測を導入して,単語レベルの予測の時間と空間要件を回避する。 これら2つの改善を組み合わせることで、下流タスク用のスリムな入力埋め込みを備えたトークンフリーモデルが得られる。 提案手法はByte2Wordと命名し,言語モデリングとテキスト分類の評価を行う。 実験の結果、Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%に過ぎなかった。 さらに,合成雑音と言語間伝達に関する手法をテストした結果,両設定のベースライン法と比較した。

Modern language models mostly take sub-words as input, a design that balances the trade-off between vocabulary size, number of parameters, and performance. However, sub-word tokenization still has disadvantages like not being robust to noise and difficult to generalize to new languages. Also, the current trend of scaling up models reveals that larger models require larger embeddings but that makes parallelization hard. Previous work on image classification proves splitting raw input into a sequence of chucks is a strong, model-agnostic inductive bias. Based on this observation, we rethink the existing character-aware method that takes character-level inputs but makes word-level sequence modeling and prediction. We overhaul this method by introducing a cross-attention network that builds word-level representation directly from bytes, and a sub-word level prediction based on word-level hidden states to avoid the time and space requirement of word-level prediction. With these two improvements combined, we have a token free model with slim input embeddings for downstream tasks. We name our method Byte2Word and perform evaluations on language modeling and text classification. Experiments show that Byte2Word is on par with the strong sub-word baseline BERT but only takes up 10\% of embedding size. We further test our method on synthetic noise and cross-lingual transfer and find it competitive to baseline methods on both settings.
翻訳日:2022-11-24 15:07:22 公開日:2022-11-23
# 辞書スクリーニングを用いたテキスト分類のための埋め込み圧縮

Embedding Compression for Text Classification Using Dictionary Screening ( http://arxiv.org/abs/2211.12715v1 )

ライセンス: Link先を確認
Jing Zhou, Xinru Jing, Muyu Liu, Hansheng Wang(参考訳) 本稿では,テキスト分類タスクに圧縮を埋め込むための辞書スクリーニング手法を提案する。 本手法の主な目的は辞書における各キーワードの重要性を評価することである。 この目的のために、我々はまず、フル辞書を用いて、あらかじめ指定されたリカレントニューラルネットワークベースモデルを訓練する。 これはベンチマークモデルにつながり、データセット内の各サンプルの予測されたクラス確率を取得するために使用します。 次に,予測クラス確率に対する各キーワードの影響を評価するために,辞書における各キーワードの重要性を評価する新しい手法を開発した。 これにより、各キーワードを表示でき、最も重要なキーワードのみが予約される。 これらの画面付きキーワードにより、かなり小さいサイズの新しい辞書を構築することができる。 これにより、原文シーケンスを実質的に圧縮することができる。 提案手法は,パラメータ,平均テキストシーケンス,辞書サイズといった観点で有意な削減をもたらす。 一方、予測力はベンチマークモデルと比べて非常に競争力がある。 提案手法の実証性能を示すために, 大規模数値実験を行った。

In this paper, we propose a dictionary screening method for embedding compression in text classification tasks. The key purpose of this method is to evaluate the importance of each keyword in the dictionary. To this end, we first train a pre-specified recurrent neural network-based model using a full dictionary. This leads to a benchmark model, which we then use to obtain the predicted class probabilities for each sample in a dataset. Next, to evaluate the impact of each keyword in affecting the predicted class probabilities, we develop a novel method for assessing the importance of each keyword in a dictionary. Consequently, each keyword can be screened, and only the most important keywords are reserved. With these screened keywords, a new dictionary with a considerably reduced size can be constructed. Accordingly, the original text sequence can be substantially compressed. The proposed method leads to significant reductions in terms of parameters, average text sequence, and dictionary size. Meanwhile, the prediction power remains very competitive compared to the benchmark model. Extensive numerical studies are presented to demonstrate the empirical performance of the proposed method.
翻訳日:2022-11-24 15:06:59 公開日:2022-11-23
# 法的言語におけるエージェント特異的デオン性検出

Agent-Specific Deontic Modality Detection in Legal Language ( http://arxiv.org/abs/2211.12752v1 )

ライセンス: Link先を確認
Abhilasha Sancheti, Aparna Garimella, Balaji Vasan Srinivasan, Rachel Rudinger(参考訳) 法律文書は典型的には長く、法律で書かれるので、在職者が自分の権利や義務を理解することは特に困難である。 自然言語理解技術は、法的領域におけるそのような理解を支援する上で有用であるが、専門家を雇うコストとプライバシー問題のために、法律領域における非合法的なモダリティに注釈付けされたデータセットの限られた可用性はボトルネックである。 この目的のために,本論文では,契約者やエージェントに対して記述されたデオンモダリティを付加した英語契約のコーパスであるLEXDEMODを紹介する。 このデータセットを2つのタスクでベンチマークします。 (i)エージェント特異的マルチラベル・デオンティックモダリティ分類、及び (ii)トランスフォーマー(vaswani et al., 2017)言語モデルを用いたエージェント特異的デオン性およびトリガースパン検出 移動学習実験により,LEXDEMODにおけるモーダル表現の言語的多様性は,リースから雇用・賃貸契約まで合理的に一般化されることが示された。 LEXDEMODで訓練されたモデルは、高いリコールで赤い旗を検出することができる。 我々の研究は、法域におけるデオン的モダリティ検出のための新しい研究方向を提供すると考えている。

Legal documents are typically long and written in legalese, which makes it particularly difficult for laypeople to understand their rights and duties. While natural language understanding technologies can be valuable in supporting such understanding in the legal domain, the limited availability of datasets annotated for deontic modalities in the legal domain, due to the cost of hiring experts and privacy issues, is a bottleneck. To this end, we introduce, LEXDEMOD, a corpus of English contracts annotated with deontic modality expressed with respect to a contracting party or agent along with the modal triggers. We benchmark this dataset on two tasks: (i) agent-specific multi-label deontic modality classification, and (ii) agent-specific deontic modality and trigger span detection using Transformer-based (Vaswani et al., 2017) language models. Transfer learning experiments show that the linguistic diversity of modal expressions in LEXDEMOD generalizes reasonably from lease to employment and rental agreements. A small case study indicates that a model trained on LEXDEMOD can detect red flags with high recall. We believe our work offers a new research direction for deontic modality detection in the legal domain.
翻訳日:2022-11-24 15:06:46 公開日:2022-11-23
# トピック・セマンティクスコントラスト学習による短文トピックモデリングのためのデータスパーシティの軽減

Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic Contrastive Learning ( http://arxiv.org/abs/2211.12878v1 )

ライセンス: Link先を確認
Xiaobao Wu, Anh Tuan Luu, Xinshuai Dong(参考訳) 短文トピックモデリングにおけるデータの分散性問題を解決するため、既存の手法では、単語共起情報を導入するために、データ拡張や短文のデータ特性に依存している。 しかし、それらの多くは、拡張データやデータの特徴をフル活用していない。データ中のサンプル間の関係を不十分に学習し、意味的に類似したテキストペアの異なるトピック分布を生み出す。 データのスパース性を改善するため,本稿では,新しい短文トピックモデリングフレームワークであるトピック・セマンティクス・コントラスト・トピック・モデル(tsctm)を提案する。 サンプル間の関係を十分にモデル化するために,トピックセマンティクスに基づく効率的な正負のサンプリング戦略を用いたコントラスト学習手法を提案する。 この対照的な学習方法は表現を洗練させ、学習信号を豊かにし、余剰問題を緩和する。 総合的な実験結果から,TSCTMはデータ拡張の可利用性に関わらず,最先端のベースラインよりも優れ,高品質なトピックやトピックの分布が得られている。

To overcome the data sparsity issue in short text topic modeling, existing methods commonly rely on data augmentation or the data characteristic of short texts to introduce more word co-occurrence information. However, most of them do not make full use of the augmented data or the data characteristic: they insufficiently learn the relations among samples in data, leading to dissimilar topic distributions of semantically similar text pairs. To better address data sparsity, in this paper we propose a novel short text topic modeling framework, Topic-Semantic Contrastive Topic Model (TSCTM). To sufficiently model the relations among samples, we employ a new contrastive learning method with efficient positive and negative sampling strategies based on topic semantics. This contrastive learning method refines the representations, enriches the learning signals, and thus mitigates the sparsity issue. Extensive experimental results show that our TSCTM outperforms state-of-the-art baselines regardless of the data augmentation availability, producing high-quality topics and topic distributions.
翻訳日:2022-11-24 15:06:25 公開日:2022-11-23
# 半教師付き生涯言語学習

Semi-Supervised Lifelong Language Learning ( http://arxiv.org/abs/2211.13050v1 )

ライセンス: Link先を確認
Yingxiu Zhao, Yinhe Zheng, Bowen Yu, Zhiliang Tian, Dongkyu Lee, Jian Sun, Haiyang Yu, Yongbin Li, Nevin L. Zhang(参考訳) 生涯学習は、知識を蓄積し、タスクを逐次学習する際に破滅的な忘れを和らげることを目的としている。 しかし,既存の生涯学習手法は教師付き学習環境にのみ焦点をあてている。 現実世界のシナリオで簡単にアクセス可能なラベルのないデータは、未調査である。 本稿では,ラベル付きデータとラベルなしデータの両方を用いて,モデルが逐次到着する言語タスクを学習する,半教師付き生涯言語学習(SSLL)を提案する。 SSLLを探索するために、ラベルなしの生涯学習者を提案する。 特に,無ラベルデータを利用するために,壊滅的な忘れを緩和し,2つのモジュールを設計するタスク特化モジュールを考案する。(1)教師学習フレームワーク上に仮想監督強化タスクソルバを構築し,無ラベルデータから基礎となる知識を発掘し,(2)新しく到着した無ラベルデータから以前のタスクへの知識伝達を促すために,下位拡張学習器を構築した。 様々な言語タスクの実験結果から,新たなSSLLの下での競争ベースラインよりもモデルの有効性と優位性を示す。

Lifelong learning aims to accumulate knowledge and alleviate catastrophic forgetting when learning tasks sequentially. However, existing lifelong language learning methods only focus on the supervised learning setting. Unlabeled data, which can be easily accessed in real-world scenarios, are underexplored. In this paper, we explore a novel setting, semi-supervised lifelong language learning (SSLL), where a model learns sequentially arriving language tasks with both labeled and unlabeled data. We propose an unlabeled data enhanced lifelong learner to explore SSLL. Specially, we dedicate task-specific modules to alleviate catastrophic forgetting and design two modules to exploit unlabeled data: (1) a virtual supervision enhanced task solver is constructed on a teacher-student framework to mine the underlying knowledge from unlabeled data; and (2) a backward augmented learner is built to encourage knowledge transfer from newly arrived unlabeled data to previous tasks. Experimental results on various language tasks demonstrate our model's effectiveness and superiority over competitive baselines under the new setting SSLL.
翻訳日:2022-11-24 15:06:05 公開日:2022-11-23
# Schr\{o}dinger's Bat:拡散モデルが重ね合わせで多文語を生成することがある

Schr\"{o}dinger's Bat: Diffusion Models Sometimes Generate Polysemous Words in Superposition ( http://arxiv.org/abs/2211.13095v1 )

ライセンス: Link先を確認
Jennifer C. White, Ryan Cotterell(参考訳) 近年の研究では、DALL-E 2 (Ramesh et al., 2022) のようなテキストと画像の拡散モデルは印象的な機能にもかかわらず、プロンプトが複数の意味を持つ単語を含むと奇妙な振る舞いを示すことが示されている(Rassin et al., 2022)。 この研究で我々はこの現象の考えられる説明を試みている。 類似の安定拡散モデル(rombach et al., 2022)を用いて、2つの異なる単語のエンコーディングの和である入力が与えられると、モデルが2つの概念を合計で表現した画像を生成できることを示す。 次に,プロンプトを符号化するために使用されるクリップエンコーダ(radford et al., 2021)が意味の重ね合わせとして多義語を符号化し,線形代数的手法を用いてこれらの表現を編集して生成画像に表される感覚に影響を与えることができることを示す。 これらの2つの知見を組み合わせることで,Rassinらによる同名の重複現象(2022年)は,多文単語の符号化において重ね合わせに存在する意味の両方を表す画像を生成する拡散モデルによって引き起こされると考えられる。

Recent work has shown that despite their impressive capabilities, text-to-image diffusion models such as DALL-E 2 (Ramesh et al., 2022) can display strange behaviours when a prompt contains a word with multiple possible meanings, often generating images containing both senses of the word (Rassin et al., 2022). In this work we seek to put forward a possible explanation of this phenomenon. Using the similar Stable Diffusion model (Rombach et al., 2022), we first show that when given an input that is the sum of encodings of two distinct words, the model can produce an image containing both concepts represented in the sum. We then demonstrate that the CLIP encoder used to encode prompts (Radford et al., 2021) encodes polysemous words as a superposition of meanings, and that using linear algebraic techniques we can edit these representations to influence the senses represented in the generated images. Combining these two findings, we suggest that the homonym duplication phenomenon described by Rassin et al. (2022) is caused by diffusion models producing images representing both of the meanings that are present in superposition in the encoding of a polysemous word.
翻訳日:2022-11-24 15:05:46 公開日:2022-11-23
# ディジタル双中心状態型リアクタ電力予測のための物理式多段階ディープラーニングフレームワークの開発

Physics-Informed Multi-Stage Deep Learning Framework Development for Digital Twin-Centred State-Based Reactor Power Prediction ( http://arxiv.org/abs/2211.13157v1 )

ライセンス: Link先を確認
James Daniell, Kazuma Kobayashi, Dinesh Kumar, Souvik Chakraborty, Ayodeji Alajo, Ethan Taber, Joseph Graham, Syed Alam(参考訳) 計算効率が高く信頼性の高い機械学習アルゴリズムは、Digital Twin(DT)フレームワークの開発に必要である。 一般的に、DTエナリング技術は5つの主要コンポーネントから構成される。 (i)機械学習(ml)駆動予測アルゴリズム、 (ii)高度なセンサ・インスツルメンテーションを利用した物理とデジタル資産の時間同期 (iii)不確実性伝播、及び (iv)DTの運用フレームワーク。 残念ながら、これらの部品の開発には依然として大きなギャップがある。 このギャップに対処するため, 本研究は, 提案モデルの信頼性と有効性を評価しつつ, 「ML駆動予測アルゴリズム」を原子炉運転の有効成分として重視する。 そこで,本研究では, ニューラルネットワークを用いた2つのフィードフォワード深層学習(DNN)からなる多段階予測モデルを構築し, 原子炉・プラント用原子炉過渡電源の最終定常電力を決定する。 多段階モデルアーキテクチャの目標は、確率的分類を連続出力変数に変換し、信頼性と分析の容易性を向上させることである。 4つの回帰モデルを開発し、第1段階モデルから入力して原子炉出力を表す1つの値を予測する。 組み合わせモデルでは、第1段階の分類精度が96%、第2段階の絶対予測精度が92%となる。 開発手順は、一般的に類似システムに適用できるように議論されている。 同様のモデルがdtsで果たす役割の分析を行う。

Computationally efficient and trustworthy machine learning algorithms are necessary for Digital Twin (DT) framework development. Generally speaking, DT-enabling technologies consist of five major components: (i) Machine learning (ML)-driven prediction algorithm, (ii) Temporal synchronization between physics and digital assets utilizing advanced sensors/instrumentation, (iii) uncertainty propagation, and (iv) DT operational framework. Unfortunately, there is still a significant gap in developing those components for nuclear plant operation. In order to address this gap, this study specifically focuses on the "ML-driven prediction algorithms" as a viable component for the nuclear reactor operation while assessing the reliability and efficacy of the proposed model. Therefore, as a DT prediction component, this study develops a multi-stage predictive model consisting of two feedforward Deep Learning using Neural Networks (DNNs) to determine the final steady-state power of a reactor transient for a nuclear reactor/plant. The goal of the multi-stage model architecture is to convert probabilistic classification to continuous output variables to improve reliability and ease of analysis. Four regression models are developed and tested with input from the first stage model to predict a single value representing the reactor power output. The combined model yields 96% classification accuracy for the first stage and 92% absolute prediction accuracy for the second stage. The development procedure is discussed so that the method can be applied generally to similar systems. An analysis of the role similar models would fill in DTs is performed.
翻訳日:2022-11-24 14:58:19 公開日:2022-11-23
# 3次元形状生成のためのテトラダラル拡散モデル

Tetrahedral Diffusion Models for 3D Shape Generation ( http://arxiv.org/abs/2211.13220v1 )

ライセンス: Link先を確認
Nikolai Kalischek, Torben Peters, Jan D. Wegner, Konrad Schindler(参考訳) 近年,DDM(probabilistic denoising diffusion model)は,ニューラルネットワークの生成能力を大幅に向上させている。 非平衡熱力学にインスパイアされたddmは、2次元画像生成に使用されるだけでなく、3次元点雲にも容易に適用できる。 しかし、3次元形状を点雲として表すには多くの欠点があり、トポロジーや接続性の概念がないことは明らかである。 本稿では, ddmを3次元空間の四面体分割へ拡張した四面体拡散モデルを紹介する。 空間充填テトラヘドラによるより構造化された3次元表現により、拡散過程をガイドし、規則化し、それを着色資産に適用することができる。 提案手法を操作するために,四面体畳み込み,ダウンサンプリング,アップサンプリングカーネルを開発した。 これらの演算子では、3次元形状生成は四面体格子上の変位ベクトルと符号付き距離値の学習に等しい。 実験の結果, テトラドラル拡散は可塑性, 視覚的に快く, 多様な3次元形状をもたらし, 色などの表面特性を処理でき, 結果の形状を操作できることがわかった。

Recently, probabilistic denoising diffusion models (DDMs) have greatly advanced the generative power of neural networks. DDMs, inspired by non-equilibrium thermodynamics, have not only been used for 2D image generation, but can also readily be applied to 3D point clouds. However, representing 3D shapes as point clouds has a number of drawbacks, most obvious perhaps that they have no notion of topology or connectivity. Here, we explore an alternative route and introduce tetrahedral diffusion models, an extension of DDMs to tetrahedral partitions of 3D space. The much more structured 3D representation with space-filling tetrahedra makes it possible to guide and regularize the diffusion process and to apply it to colorized assets. To manipulate the proposed representation, we develop tetrahedral convolutions, down- and up-sampling kernels. With those operators, 3D shape generation amounts to learning displacement vectors and signed distance values on the tetrahedral grid. Our experiments confirm that Tetrahedral Diffusion yields plausible, visually pleasing and diverse 3D shapes, is able to handle surface attributes like color, and can be guided at test time to manipulate the resulting shapes.
翻訳日:2022-11-24 14:57:22 公開日:2022-11-23
# インターネットビデオからのオブジェクトインタラクションを模倣する学習

Learning to Imitate Object Interactions from Internet Videos ( http://arxiv.org/abs/2211.13225v1 )

ライセンス: Link先を確認
Austin Patel, Andrew Wang, Ilija Radosavovic, Jitendra Malik(参考訳) インターネットビデオからオブジェクトインタラクションを模倣する問題について検討する。 このためには、4d、空間的に3d、時間とともに手と物体の相互作用を理解する必要がある。 本稿では,(1)手と物体の4次元軌跡を2次元画像キューと時間的滑らか性制約を用いて再構成する新しい再構成手法RHOV(Reconstructing Hands and Objects from Videos),(2)強化学習を伴う物理シミュレータにおける物体の相互作用を模倣するシステムについて述べる。 再生技術は, 挑戦的なインターネットビデオ100本に応用する。 さらに,物理シミュレータで様々な物体の相互作用を模倣できることを示した。 私たちのオブジェクト中心のアプローチは、人間のようなエンドエフェクターに限らず、ロボットアームと平行な顎グリップのような異なる実施形態でオブジェクトの相互作用を模倣することを学ぶことができます。

We study the problem of imitating object interactions from Internet videos. This requires understanding the hand-object interactions in 4D, spatially in 3D and over time, which is challenging due to mutual hand-object occlusions. In this paper we make two main contributions: (1) a novel reconstruction technique RHOV (Reconstructing Hands and Objects from Videos), which reconstructs 4D trajectories of both the hand and the object using 2D image cues and temporal smoothness constraints; (2) a system for imitating object interactions in a physics simulator with reinforcement learning. We apply our reconstruction technique to 100 challenging Internet videos. We further show that we can successfully imitate a range of different object interactions in a physics simulator. Our object-centric approach is not limited to human-like end-effectors and can learn to imitate object interactions using different embodiments, like a robotic arm with a parallel jaw gripper.
翻訳日:2022-11-24 14:57:02 公開日:2022-11-23
# 相互学習型回帰器:学習型回帰システムの情報理論的視点

Mutual Information Learned Regressor: an Information-theoretic Viewpoint of Training Regression Systems ( http://arxiv.org/abs/2211.12685v1 )

ライセンス: Link先を確認
Jirong Yi, Qiaosheng Zhang, Zhen Chen, Qiao Liu, Wei Shao, Yusen He, Yaohua Wang(参考訳) 機械学習における中心的なタスクの1つとして、回帰は異なる分野における多くのアプリケーションを見つける。 回帰問題を解くための既存の慣習は、平均二乗誤差(MSE)最小化アプローチまたはモデルに関する事前知識を必要とする規則化された変種である。 近年Yiらは,事前知識を必要としないラベルエントロピー正規化を導入した相互情報に基づく教師付き学習フレームワークを提案している。 分類タスクに適用し、確率勾配勾配勾配(SGD)最適化アルゴリズムにより解いた場合、それらの手法は一般的に使用されるクロスエントロピー損失とその変種よりも大幅に改善された。 しかし、提案した定式化のためのSGDアルゴリズムの理論的収束解析は提供されなかった。 さらに、回帰タスクにフレームワークを適用することは、ラベルの無限のサポートセットのため、自明ではない。 本稿では,相互情報に基づく教師あり学習フレームワークにおける回帰について検討する。 まず,MSE最小化手法は条件付きエントロピー学習問題と等価であり,再パラメータ化手法を用いて回帰問題を解くための相互情報学習定式化を提案する。 提案手法では,sgdアルゴリズムの収束解析を行い,その解法を提案する。 最後に、基礎となるデータ分布に関連する相互情報の観点から、一般化性能の低い境界を導出する多出力回帰データモデルを考える。 その結果, 高次元性は, しきい値によって制御される呪いではなく祝福であることがわかった。 私たちの研究が、相互情報に基づく回帰に関するさらなる研究の出発点となることを願っています。

As one of the central tasks in machine learning, regression finds lots of applications in different fields. An existing common practice for solving regression problems is the mean square error (MSE) minimization approach or its regularized variants which require prior knowledge about the models. Recently, Yi et al., proposed a mutual information based supervised learning framework where they introduced a label entropy regularization which does not require any prior knowledge. When applied to classification tasks and solved via a stochastic gradient descent (SGD) optimization algorithm, their approach achieved significant improvement over the commonly used cross entropy loss and its variants. However, they did not provide a theoretical convergence analysis of the SGD algorithm for the proposed formulation. Besides, applying the framework to regression tasks is nontrivial due to the potentially infinite support set of the label. In this paper, we investigate the regression under the mutual information based supervised learning framework. We first argue that the MSE minimization approach is equivalent to a conditional entropy learning problem, and then propose a mutual information learning formulation for solving regression problems by using a reparameterization technique. For the proposed formulation, we give the convergence analysis of the SGD algorithm for solving it in practice. Finally, we consider a multi-output regression data model where we derive the generalization performance lower bound in terms of the mutual information associated with the underlying data distribution. The result shows that the high dimensionality can be a bless instead of a curse, which is controlled by a threshold. We hope our work will serve as a good starting point for further research on the mutual information based regression.
翻訳日:2022-11-24 14:56:42 公開日:2022-11-23
# 多変量極小に対するカーネルPCA

Kernel PCA for multivariate extremes ( http://arxiv.org/abs/2211.13172v1 )

ライセンス: Link先を確認
Marco Avella-Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極端の依存構造を解析する手法としてカーネルPCAを提案し、クラスタリングと次元減少のための強力なツールであることを示す。 我々の研究は、カーネルPCAによって得られた事前イメージに関する理論的知見を提供し、ある条件下では、データ内のクラスタを効果的に識別できることを実証する。 我々は、これらの新しい洞察に基づいて、極端サンプル、すなわち半径が大きなしきい値を超えるランダムベクトルの角部に基づいて、カーネルPCAの性能を厳密に特徴づける。 より具体的には、極値理論における角あるいはスペクトル測度によって特徴づけられる多変量極値の漸近依存に注目し、極値が線形因子モデルから生成される場合の注意深い解析を提供する。 カーネルPCAがそれらの漸近分布をデイビス・カハン摂動境界とともに活用することにより、そのような極端の予測性能を理論的に保証する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose kernel PCA as a method for analyzing the dependence structure of multivariate extremes and demonstrate that it can be a powerful tool for clustering and dimension reduction. Our work provides some theoretical insight into the preimages obtained by kernel PCA, demonstrating that under certain conditions they can effectively identify clusters in the data. We build on these new insights to characterize rigorously the performance of kernel PCA based on an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory and provide a careful analysis in the case where the extremes are generated from a linear factor model. We give theoretical guarantees on the performance of kernel PCA preimages of such extremes by leveraging their asymptotic distribution together with Davis-Kahan perturbation bounds. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2022-11-24 14:56:02 公開日:2022-11-23
# 置換対称性を持つ変分量子回路のベンチマーク

Benchmarking variational quantum circuits with permutation symmetry ( http://arxiv.org/abs/2211.12711v1 )

ライセンス: Link先を確認
Han Zheng, Gokul Subramanian Ravi, Hanrui Wang, Kanav Setia, Frederic T. Chong, Junyu Liu(参考訳) 本稿では,同変量子畳み込み回路のハードウェア効率の良い変分回路であるsncqaを提案し,量子ビット数n$の置換対称性と空間格子対称性について述べる。 多くの量子多体および量子化学問題に共通する格子ハミルトンのようなシステムの置換対称性を活用することで、我々の量子ニューラルネットワークは置換対称性が存在する機械学習問題の解決に適しており、計算コストの大幅な削減につながる可能性がある。 その理論的新奇性とは別に、量子計算化学における基底状態の学習の実践例においても、シミュレーションはうまく機能し、数十のパラメータを持つ従来の手法と同等のパフォーマンスを達成できた。 純粋なハードウェア効率のansatz (phea) のような他の伝統的な変分量子回路と比較すると、sncqaはよりスケーラブルで正確で、ノイズ耐性がある($3 \times 4$ square lattice では$20\times$、様々な格子サイズでは$200\% - 1000\%$ のリソース節約と層数、パラメータ数、時間といった重要な基準で収束する)。

We propose SnCQA, a set of hardware-efficient variational circuits of equivariant quantum convolutional circuits respective to permutation symmetries and spatial lattice symmetries with the number of qubits $n$. By exploiting permutation symmetries of the system, such as lattice Hamiltonians common to many quantum many-body and quantum chemistry problems, Our quantum neural networks are suitable for solving machine learning problems where permutation symmetries are present, which could lead to significant savings of computational costs. Aside from its theoretical novelty, we find our simulations perform well in practical instances of learning ground states in quantum computational chemistry, where we could achieve comparable performances to traditional methods with few tens of parameters. Compared to other traditional variational quantum circuits, such as the pure hardware-efficient ansatz (pHEA), we show that SnCQA is more scalable, accurate, and noise resilient (with $20\times$ better performance on $3 \times 4$ square lattice and $200\% - 1000\%$ resource savings in various lattice sizes and key criterions such as the number of layers, parameters, and times to converge in our cases), suggesting a potentially favorable experiment on near-time quantum devices.
翻訳日:2022-11-24 14:55:45 公開日:2022-11-23
# 構造的知識共有による非IIDグラフのフェデレーション学習

Federated Learning on Non-IID Graphs via Structural Knowledge Sharing ( http://arxiv.org/abs/2211.13009v1 )

ライセンス: Link先を確認
Yue Tan, Yixin Liu, Guodong Long, Jing Jiang, Qinghua Lu, Chengqi Zhang(参考訳) グラフニューラルネットワーク(gnns)は、グラフデータのモデリングにおいてその優位性を示している。 フェデレーション学習の利点により、フェデレーショングラフ学習(FGL)は、クライアントがプライベートデータを共有せずに、分散的に強力なGNNモデルをトレーニングすることができる。 連合系における中核的な課題は、実世界のグラフデータにも広く存在する非IID問題である。 例えば、クライアントのローカルデータは、さまざまなデータセットや、例えばソーシャルネットワークや分子といったドメインから来ることもあり、FGLメソッドが共通に共有される知識をキャプチャし、一般化されたエンコーダを学ぶのが困難になる。 実世界のグラフデータセットから、いくつかの構造的特性が様々な領域で共有され、FGLで構造的知識を共有する大きな可能性を示す。 そこで我々はFedStarを提案する。FedStarは、グラフ間フェデレーション学習タスクの共通基盤構造情報を抽出し、共有するFGLフレームワークである。 ノードの特徴とともにエンコードするのではなく、構造情報を明示的に抽出するために、構造埋め込みを定義し、独立した構造エンコーダでエンコードする。 次に、構造エンコーダをクライアント間で共有し、特徴ベースの知識をパーソナライズした方法で学習することにより、feedstarは構造ベースのドメイン不変情報をキャプチャし、特徴的不一致を回避することができる。 クロスデータセットとクロスドメイン非iidfgl設定の両方について広範な実験を行い、feedstarの優位性を実証した。

Graph neural networks (GNNs) have shown their superiority in modeling graph data. Owing to the advantages of federated learning, federated graph learning (FGL) enables clients to train strong GNN models in a distributed manner without sharing their private data. A core challenge in federated systems is the non-IID problem, which also widely exists in real-world graph data. For example, local data of clients may come from diverse datasets or even domains, e.g., social networks and molecules, increasing the difficulty for FGL methods to capture commonly shared knowledge and learn a generalized encoder. From real-world graph datasets, we observe that some structural properties are shared by various domains, presenting great potential for sharing structural knowledge in FGL. Inspired by this, we propose FedStar, an FGL framework that extracts and shares the common underlying structure information for inter-graph federated learning tasks. To explicitly extract the structure information rather than encoding them along with the node features, we define structure embeddings and encode them with an independent structure encoder. Then, the structure encoder is shared across clients while the feature-based knowledge is learned in a personalized way, making FedStar capable of capturing more structure-based domain-invariant information and avoiding feature misalignment issues. We perform extensive experiments over both cross-dataset and cross-domain non-IID FGL settings, demonstrating the superiority of FedStar.
翻訳日:2022-11-24 14:49:24 公開日:2022-11-23
# バッチを用いた効率的なリストデコジュアブル回帰

Efficient List-Decodable Regression using Batches ( http://arxiv.org/abs/2211.12743v1 )

ライセンス: Link先を確認
Abhimanyu Das, Ayush Jain, Weihao Kong and Rajat Sen(参考訳) バッチを用いたリスト復号化線形回帰の研究を始める。 この設定では、バッチの$\alpha \in (0,1]$ fractionのみが真である。 それぞれの真のバッチは、共通の未知の分布からの$\ge n$ i.d.サンプルを含み、残りのバッチは、任意の、あるいは、敵対的なサンプルを含む。 多項式時間アルゴリズムは任意の$n\ge \tilde \Omega(1/\alpha)$に対して$\mathcal O(1/\alpha^2)$を返し、リスト内の項目の1つが真の回帰パラメータに近くなる。 このアルゴリズムは$\tilde{\mathcal{O}}(d/\alpha^2)$真のバッチのみを必要とし、分布に関するかなり一般的な仮定の下で機能する。 この結果から,非バッチ設定に対するSQ下界 \cite{diakonikolas2021statistical} が提案したように,非バッチ設定では不可能な,リスト復号化可能な回帰に対する最初の多項式時間アルゴリズムを実現するバッチ構造の有用性が示された。

We begin the study of list-decodable linear regression using batches. In this setting only an $\alpha \in (0,1]$ fraction of the batches are genuine. Each genuine batch contains $\ge n$ i.i.d. samples from a common unknown distribution and the remaining batches may contain arbitrary or even adversarial samples. We derive a polynomial time algorithm that for any $n\ge \tilde \Omega(1/\alpha)$ returns a list of size $\mathcal O(1/\alpha^2)$ such that one of the items in the list is close to the true regression parameter. The algorithm requires only $\tilde{\mathcal{O}}(d/\alpha^2)$ genuine batches and works under fairly general assumptions on the distribution. The results demonstrate the utility of batch structure, which allows for the first polynomial time algorithm for list-decodable regression, which may be impossible for the non-batch setting, as suggested by a recent SQ lower bound \cite{diakonikolas2021statistical} for the non-batch setting.
翻訳日:2022-11-24 14:47:46 公開日:2022-11-23
# 最大相似量子状態トモグラフィの高速確率的一階法

Faster Stochastic First-Order Method for Maximum-Likelihood Quantum State Tomography ( http://arxiv.org/abs/2211.12880v1 )

ライセンス: Link先を確認
Chung-En Tsai and Hao-Chung Cheng and Yen-Huan Li(参考訳) 最大類似量子状態トモグラフィーでは、サンプルサイズと寸法は量子ビット数で指数関数的に増加する。 したがって、現代の機械学習における確率勾配勾配のように、確率的一階法を開発することが望ましい。 そこで本研究では,バーグエントロピーを用いた確率ミラー降下法を提案する。 期待された最適化誤差は$o ( \sqrt{ ( 1 / t ) d \log t } )$レートで消滅し、ここではそれぞれ、$d$と$t$が反復の次元と数を表す。 時間単位の複雑性はサンプルサイズに依存しない$O ( d^3 )$である。 我々の知る限りでは、これは最大類似量子状態トモグラフィの計算速度が最も速い確率的一階法である。

In maximum-likelihood quantum state tomography, both the sample size and dimension grow exponentially with the number of qubits. It is therefore desirable to develop a stochastic first-order method, just like stochastic gradient descent for modern machine learning, to compute the maximum-likelihood estimate. To this end, we propose an algorithm called stochastic mirror descent with the Burg entropy. Its expected optimization error vanishes at a $O ( \sqrt{ ( 1 / t ) d \log t } )$ rate, where $d$ and $t$ denote the dimension and number of iterations, respectively. Its per-iteration time complexity is $O ( d^3 )$, independent of the sample size. To the best of our knowledge, this is currently the computationally fastest stochastic first-order method for maximum-likelihood quantum state tomography.
翻訳日:2022-11-24 14:47:26 公開日:2022-11-23
# トップキャット治験の因果分析:心機能維持心不全に対するスピロノラクトン

Causal Analysis of the TOPCAT Trial: Spironolactone for Preserved Cardiac Function Heart Failure ( http://arxiv.org/abs/2211.12983v1 )

ライセンス: Link先を確認
Francesca E. D. Raimondi, Tadhg O'Keeffe, Hana Chockler, Andrew R. Lawrence, Tamara Stemberga, Andre Franca, Maksim Sipos, Javed Butler, Shlomo Ben-Haim(参考訳) 心機能心不全に対するアルドステロンアンタゴニスト(TOPCAT)による治療について,多施設臨床試験のデータに因果発見法を適用した結果について述べる。 裁判は決着が付かず、集団全体に明確な利益が示されなかった。 しかし,コホートの地理的サブグループに対する診断・治療プロトコルの信頼性には疑問があった。 医学的文脈をドメイン知識の形で包含することで、因果的発見は、地域的な相違を示し、結果の地域的輸送可能性の枠組みとなる。 さらに, 世界中で, 特に一部のサブグループにおいて, 治療は有意な因果効果を示し, 試験結果のより精査されたビューを提供する。

We describe the results of applying causal discovery methods on the data from a multi-site clinical trial, on the Treatment of Preserved Cardiac Function Heart Failure with an Aldosterone Antagonist (TOPCAT). The trial was inconclusive, with no clear benefits consistently shown for the whole cohort. However, there were questions regarding the reliability of the diagnosis and treatment protocol for a geographic subgroup of the cohort. With the inclusion of medical context in the form of domain knowledge, causal discovery is used to demonstrate regional discrepancies and to frame the regional transportability of the results. Furthermore, we show that, globally and especially for some subgroups, the treatment has significant causal effects, thus offering a more refined view of the trial results.
翻訳日:2022-11-24 14:47:13 公開日:2022-11-23
# 物理インフォームドニューラルネットワークによるパスロス予測

Physics-informed neural networks for pathloss prediction ( http://arxiv.org/abs/2211.12986v1 )

ライセンス: Link先を確認
Steffen Limmer, Alberto Martinez Alba, Nicola Michailow(参考訳) 本稿では,パスロス予測のための物理インフォームド機械学習手法を提案する。 これは同時にトレーニングフェーズを含めることで達成される。 一 空間損失場と空間損失場の物理的依存関係 (ii)フィールド内のパスロス値を測定した。 提案する学習問題の解法が,少数のニューラルネットワーク層とパラメータを用いて一般化と予測品質を向上させることを示した。 後者は、ローカライゼーションのような下流タスクに好適な、高速な推論時間をもたらす。 さらに、物理情報を用いた定式化により、少量のトレーニングデータによるトレーニングと予測が可能となり、幅広い実用的なパスロス予測シナリオにアピールすることができる。

This paper introduces a physics-informed machine learning approach for pathloss prediction. This is achieved by including in the training phase simultaneously (i) physical dependencies between spatial loss field and (ii) measured pathloss values in the field. It is shown that the solution to a proposed learning problem improves generalization and prediction quality with a small number of neural network layers and parameters. The latter leads to fast inference times which are favorable for downstream tasks such as localization. Moreover, the physics-informed formulation allows training and prediction with small amount of training data which makes it appealing for a wide range of practical pathloss prediction scenarios.
翻訳日:2022-11-24 14:47:00 公開日:2022-11-23
# ポーランド語のための包括的なnlpベンチマークlepiszczeの設計とコンパイル

This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish ( http://arxiv.org/abs/2211.13112v1 )

ライセンス: Link先を確認
{\L}ukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Szymczak, Marcin W\k{a}troba, Arkadiusz Janz, Piotr Szyma\'nski, Miko{\l}aj Morzy, Tomasz Kajdanowicz, Maciej Piasecki(参考訳) より大きな言語モデルをトレーニングするための計算とデータの可用性は、LMトレーニングの真の進歩をベンチマークする堅牢な方法の需要を増加させる。 近年、英語の標準ベンチマークが大幅に進歩した。 GLUE、SuperGLUE、KILTなどのベンチマークは、大規模な言語モデルを比較するための事実上の標準ツールになっている。 他の言語でGLUEを複製するトレンドに続いて、KLEJベンチマークがポーランドでリリースされた。 本稿では,低リソース言語におけるベンチマークの進歩を評価する。 このような包括的なベンチマークを持つ言語はごくわずかです。 また、資源豊富な英語/中国語のベンチマークによって評価されるタスクの数と、世界の他の地域とのギャップについても言及する。 本稿では,LEPISZCZE (ポーランド語: glew, 英語: glew, the Middle English predecessor of glue) を紹介する。 柔軟性を考慮してLEPISZCZEを設計する。 新しいモデル、データセット、タスクを含めることは、データバージョニングとモデルトラッキングを提供しながら、可能な限りシンプルである。 最初のベンチマークでは、ポーランドの5つの最新のLMに基づいて13の実験(タスクとデータセットペア)を行った。 ポーランドベンチマークの5つのデータセットを使用して、8つの新しいデータセットを追加します。 論文の主な貢献として、LEPISZCZEとは別に、ポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語向けの同様のベンチマークを設計する。

The availability of compute and data to train larger and larger language models increases the demand for robust methods of benchmarking the true progress of LM training. Recent years witnessed significant progress in standardized benchmarking for English. Benchmarks such as GLUE, SuperGLUE, or KILT have become de facto standard tools to compare large language models. Following the trend to replicate GLUE for other languages, the KLEJ benchmark has been released for Polish. In this paper, we evaluate the progress in benchmarking for low-resourced languages. We note that only a handful of languages have such comprehensive benchmarks. We also note the gap in the number of tasks being evaluated by benchmarks for resource-rich English/Chinese and the rest of the world. In this paper, we introduce LEPISZCZE (the Polish word for glew, the Middle English predecessor of glue), a new, comprehensive benchmark for Polish NLP with a large variety of tasks and high-quality operationalization of the benchmark. We design LEPISZCZE with flexibility in mind. Including new models, datasets, and tasks is as simple as possible while still offering data versioning and model tracking. In the first run of the benchmark, we test 13 experiments (task and dataset pairs) based on the five most recent LMs for Polish. We use five datasets from the Polish benchmark and add eight novel datasets. As the paper's main contribution, apart from LEPISZCZE, we provide insights and experiences learned while creating the benchmark for Polish as the blueprint to design similar benchmarks for other low-resourced languages.
翻訳日:2022-11-24 14:40:58 公開日:2022-11-23
# 確率容量アークルーティング問題

Stochastic Capacitated Arc Routing Problem ( http://arxiv.org/abs/2211.12728v1 )

ライセンス: Link先を確認
Fleury G\'erard, Lacomme Philippe, Christian Prins(参考訳) 本稿では,CARPのアークの量をランダム化したSCARP(Stochastic Capacitated Arc Routing Problem)について述べる。 SCARPの最適化問題は、その完全な結果を知ることなく行われる決定によって特徴づけられる。 実生活問題では、これらの量のランダム性のため、収集する量の変動に敏感な解を作ることが重要である。 効率的なロバストなソリューションは、費用のかかる車両のデポノードへの移動を避けるために必要である。 コストとロバスト性の両方を最適化する遺伝的アルゴリズムのSCARPと高度な概念をモデル化するための異なる基準を提案する。 この方法は、DeArmon、Eglese、Berenguerによって提案されたよく知られた例にベンチマークされる。 その結果,ソリューションコストを大幅に拡大することなく,ロバストなソリューションを得ることが可能となった。 これにより、産業目標や収集される量の変動に関連する制約を含むより現実的な問題を扱うことができる。

This paper deals with the Stochastic Capacitated Arc Routing Problem (SCARP), obtained by randomizing quantities on the arcs in the CARP. Optimization problems for the SCARP are characterized by decisions that are made without knowing their full consequences. For real-life problems, it is important to create solutions insensitive to variations of the quantities to collect because of the randomness of these quantities. Efficient robust solutions are required to avoid unprofitable costly moves of vehicles to the depot node. Different criteria are proposed to model the SCARP and advanced concepts of a genetic algorithm optimizing both cost and robustness are provided. The method is benchmarked on the well-known instances proposed by DeArmon, Eglese and Belenguer. The results prove it is possible to obtain robust solutions without any significant enlargement of the solution cost. This allows treating more realistic problems including industrial goals and constraints linked to variations in the quantities to be collected.
翻訳日:2022-11-24 14:40:35 公開日:2022-11-23
# 多目的連関ルールマイニングのためのカンブリア爆発アルゴリズム

Cambrian Explosion Algorithm for Multi-Objective Association Rules Mining ( http://arxiv.org/abs/2211.12767v1 )

ライセンス: Link先を確認
Th\'eophile Berteloot, Richard Khoury, Audrey Durand(参考訳) アソシエーション・ルール・マイニングは最も研究されているデータマイニングの研究分野の1つであり、食料品バスケットの問題から高度に説明可能な分類システムまで幅広い応用がある。 古典的なアソシエーションルールマイニングアルゴリズムは、特に実行時間、メモリ使用量、生成されるルールの数にいくつかの欠陥がある。 メタヒューリスティックス(Meta-heuristics)は、いくつかの最適化問題に使われている。 本論文には2つの目的がある。 まず,関連ルールマイニング問題における最先端メタヒューリスティックスの性能の比較を行った。 それらのアルゴリズムの多目的バージョンは、サポート、信頼、コサインを使って使用します。 第2に,カンブリア爆発の種多様性の爆発に類似した,多種多様な解を探索することにより,膨大なデータセットから効率的にルールをマイニングする新しいアルゴリズムを提案する。 本アルゴリズムを実世界の22のデータセット上で20のベンチマークアルゴリズムと比較し,そのアルゴリズムが優れた結果を示し,最先端アルゴリズムよりも優れていることを示す。

Association rule mining is one of the most studied research fields of data mining, with applications ranging from grocery basket problems to highly explainable classification systems. Classical association rule mining algorithms have several flaws especially with regards to their execution times, memory usage and number of rules produced. An alternative is the use of meta-heuristics, which have been used on several optimisation problems. This paper has two objectives. First, we provide a comparison of the performances of state-of-the-art meta-heuristics on the association rule mining problem. We use the multi-objective versions of those algorithms using support, confidence and cosine. Second, we propose a new algorithm designed to mine rules efficiently from massive datasets by exploring a large variety of solutions, akin to the explosion of species diversity of the Cambrian Explosion. We compare our algorithm to 20 benchmark algorithms on 22 real-world data-sets, and show that our algorithm present good results and outperform several state-of-the-art algorithms.
翻訳日:2022-11-24 14:40:22 公開日:2022-11-23
# MLOps設定における品質保証 : 産業的展望

Quality Assurance in MLOps Setting: An Industrial Perspective ( http://arxiv.org/abs/2211.12706v1 )

ライセンス: Link先を確認
Ayan Chatterjee, Bestoun S. Ahmed, Erik Hallin, Anton Engman(参考訳) 現在、機械学習(ML)は、産業においてプロダクションシステムのコア機能を提供するために広く使われている。 しかし、MLモデルに加えて、他のいくつかのコンポーネントで構成された大規模エンドツーエンドソフトウェアシステムの一部として、実運用システムではほぼ常に使用されている。 生産需要と時間の制約のため、自動化されたソフトウェアエンジニアリングプラクティスは極めて適用性が高い。 製造業やユーティリティなどの業界における自動MLソフトウェアエンジニアリングプラクティスの利用の増加には、MLソフトウェアの重要な部分として、自動品質保証(QA)アプローチが必要である。 ここでは、QAはソフトウェアタスクに対する客観的な視点を提供することでリスクを減らすのに役立ちます。 従来のソフトウェアエンジニアリングには、データ駆動型MLのためのQAデータ分析のための自動化ツールがあるが、ML運用(MLOps)におけるQAプラクティスの使用は不足している。 本稿では,産業MLOpsにおけるQA課題について検討し,データ整合性とデータ品質(DQ)を扱うためのモジュール戦略を概念化する。 この論文には、産業パートナーによる実際の産業利用事例が添付されている。 また,今後の研究の基盤となるいくつかの課題について述べる。

Today, machine learning (ML) is widely used in industry to provide the core functionality of production systems. However, it is practically always used in production systems as part of a larger end-to-end software system that is made up of several other components in addition to the ML model. Due to production demand and time constraints, automated software engineering practices are highly applicable. The increased use of automated ML software engineering practices in industries such as manufacturing and utilities requires an automated Quality Assurance (QA) approach as an integral part of ML software. Here, QA helps reduce risk by offering an objective perspective on the software task. Although conventional software engineering has automated tools for QA data analysis for data-driven ML, the use of QA practices for ML in operation (MLOps) is lacking. This paper examines the QA challenges that arise in industrial MLOps and conceptualizes modular strategies to deal with data integrity and Data Quality (DQ). The paper is accompanied by real industrial use-cases from industrial partners. The paper also presents several challenges that may serve as a basis for future studies.
翻訳日:2022-11-24 14:39:40 公開日:2022-11-23
# マルチエージェント値分解のためのコントラストid-aware learning

Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition ( http://arxiv.org/abs/2211.12712v1 )

ライセンス: Link先を確認
Shunyu Liu, Yihe Zhou, Jie Song, Tongya Zheng, Kaixuan Chen, Tongtian Zhu, Zunlei Feng, Mingli Song(参考訳) 価値分解(vd)は,グローバル報酬のみを前提とした分散政策へのエージェントの貢献を推測することを目的としており,近年,協調的マルチエージェント強化学習(marl)問題に取り組むための強力なクレジット割り当てパラダイムとして浮上している。 VDの主な課題の1つはエージェント間の多様な行動を促進することであるが、既存の手法は学習したエージェントネットワークの様々な戦略を直接的に促進する。 しかし,これらのエージェントネットワーク専用設計は,識別不能なvdネットワークによって制限されるため,同質的なエージェントの振る舞いが得られ,協調能力が低下する。 本稿では,vdネットワークのクレジットレベルの識別性を高め,マルチエージェント多様性のボトルネックを解消する新しいコントラストid-aware learning(cia)手法を提案する。 具体的には,コントラスト学習を活用し,時間的信用と異なるエージェントのアイデンティティ表現間の相互情報を最大化し,信用割当の完全な表現性と個性の出現を促進する。 提案したCIAモジュールのアルゴリズムの実装は単純だが有効であり、様々なVDアーキテクチャに容易に組み込むことができる。 SMACベンチマークと異なるVDバックボーンを用いた実験により、提案手法は最先端の手法よりも優れた結果が得られることを示した。 私たちのコードはhttps://github.com/liushunyu/ciaで利用可能です。

Value Decomposition (VD) aims to deduce the contributions of agents for decentralized policies in the presence of only global rewards, and has recently emerged as a powerful credit assignment paradigm for tackling cooperative Multi-Agent Reinforcement Learning (MARL) problems. One of the main challenges in VD is to promote diverse behaviors among agents, while existing methods directly encourage the diversity of learned agent networks with various strategies. However, we argue that these dedicated designs for agent networks are still limited by the indistinguishable VD network, leading to homogeneous agent behaviors and thus downgrading the cooperation capability. In this paper, we propose a novel Contrastive Identity-Aware learning (CIA) method, explicitly boosting the credit-level distinguishability of the VD network to break the bottleneck of multi-agent diversity. Specifically, our approach leverages contrastive learning to maximize the mutual information between the temporal credits and identity representations of different agents, encouraging the full expressiveness of credit assignment and further the emergence of individualities. The algorithm implementation of the proposed CIA module is simple yet effective that can be readily incorporated into various VD architectures. Experiments on the SMAC benchmarks and across different VD backbones demonstrate that the proposed method yields results superior to the state-of-the-art counterparts. Our code is available at https://github.com/liushunyu/CIA.
翻訳日:2022-11-24 14:39:25 公開日:2022-11-23
# mlcデータの公平化

FAIRification of MLC data ( http://arxiv.org/abs/2211.12757v1 )

ライセンス: Link先を確認
Ana Kostovska, Jasmin Bogatinovski, Andrej Treven, Sa\v{s}o D\v{z}eroski, Dragi Kocev, Pan\v{c}e Panov(参考訳) マルチラベル分類(MLC)タスクは、文献に現れる論文や方法の増加によって証明されるように、機械学習(ML)コミュニティからますます関心を集めている。 したがって、適切な、正しい、堅牢で信頼できるベンチマークは、この分野のさらなる発展にとって最も重要である。 これは、fair (findable, access, interoperaable, and reusable) や trust (transparency, responsibility, user focus, sustainability, and technology) といった最近登場したデータ管理標準に固執することで実現できると考えています。 MLCデータセットをFAIRifyするために、これらの原則に従うLCデータセットのオントロジーに基づくオンラインカタログを導入する。 このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。 MLCデータカタログは、最近のNature Scientific Reports, Kostovska & Bogatinovski et al.で広く説明されており、http://semantichub.ijs.si/MLCdatasets.comで公開されている。 さらに,総合的なMLCベンチマークから得られた性能/ベンチマークデータのアクセスとクエリを容易にするオントロジーに基づくシステムを提案する。 システムは以下の通りである。 http://semantichub.ijs.si/MLCbenchmark。

The multi-label classification (MLC) task has increasingly been receiving interest from the machine learning (ML) community, as evidenced by the growing number of papers and methods that appear in the literature. Hence, ensuring proper, correct, robust, and trustworthy benchmarking is of utmost importance for the further development of the field. We believe that this can be achieved by adhering to the recently emerged data management standards, such as the FAIR (Findable, Accessible, Interoperable, and Reusable) and TRUST (Transparency, Responsibility, User focus, Sustainability, and Technology) principles. To FAIRify the MLC datasets, we introduce an ontology-based online catalogue of MLC datasets that follow these principles. The catalogue extensively describes many MLC datasets with comprehensible meta-features, MLC-specific semantic descriptions, and different data provenance information. The MLC data catalogue is extensively described in our recent publication in Nature Scientific Reports, Kostovska & Bogatinovski et al., and available at: http://semantichub.ijs.si/MLCdatasets. In addition, we provide an ontology-based system for easy access and querying of performance/benchmark data obtained from a comprehensive MLC benchmark study. The system is available at: http://semantichub.ijs.si/MLCbenchmark.
翻訳日:2022-11-24 14:39:02 公開日:2022-11-23
# 垂直的フェデレーション学習

Vertical Federated Learning ( http://arxiv.org/abs/2211.12814v1 )

ライセンス: Link先を確認
Yang Liu, Yan Kang, Tianyuan Zou, Yanhong Pu, Yuanqin He, Xiaozhou Ye, Ye Ouyang, Ya-Qin Zhang and Qiang Yang(参考訳) Vertical Federated Learning(VFL)は、同じユーザのセットに関する異なる特徴を持つ複数のパーティが、生のデータやモデルのパラメータを公開せずに、共同で機械学習モデルをトレーニングする、フェデレーション付き学習環境である。 vfl研究と実世界のアプリケーションの急速な成長に動機づけられ、vflの概念とアルゴリズムの包括的なレビューと、有効性、効率性、プライバシなど、さまざまな面での現在の進歩と課題を提供する。 VFL設定とプライバシ保護プロトコルの徹底的な分類を行い、各プロトコルのプライバシ攻撃と防衛戦略を包括的に分析する。 最後に,コミュニケーションや計算,プライバシ,有効性といった制約の下でのvfl問題を考える,vflowと呼ばれる統一フレームワークを提案する。 最後に,産業応用の最新動向を概観し,vflの課題と今後の方向性について述べる。

Vertical Federated Learning (VFL) is a federated learning setting where multiple parties with different features about the same set of users jointly train machine learning models without exposing their raw data or model parameters. Motivated by the rapid growth in VFL research and real-world applications, we provide a comprehensive review of the concept and algorithms of VFL, as well as current advances and challenges in various aspects, including effectiveness, efficiency, and privacy. We provide an exhaustive categorization for VFL settings and privacy-preserving protocols and comprehensively analyze the privacy attacks and defense strategies for each protocol. In the end, we propose a unified framework, termed VFLow, which considers the VFL problem under communication, computation, privacy, and effectiveness constraints. Finally, we review the most recent advances in industrial applications, highlighting open challenges and future directions for VFL.
翻訳日:2022-11-24 14:38:33 公開日:2022-11-23
# ハイブリッド行動空間における交通信号制御のための強化学習

Reinforcement learning for traffic signal control in hybrid action space ( http://arxiv.org/abs/2211.12956v1 )

ライセンス: Link先を確認
Haoqing Luo, sheng jin(参考訳) 一般的な強化学習に基づくトラヒック信号制御手法は、通常、動作空間に応じてステージング最適化または持続時間最適化である。 本稿では,ハイブリッドな近位政策最適化に基づく新しい制御アーキテクチャtboを提案する。 我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。 離散的かつ連続的なアクション空間と比較して、ハイブリッドアクション空間は統合された検索空間であり、TBOは頻繁なスイッチングと不飽和なリリースの間のトレードオフをよりよく実装する。 TBOがキューの長さと遅延をそれぞれ、既存のベースラインと比較して平均で13.78%、14.08%削減することを示す実験が行われた。 さらに,TBOが効率を向上しながら公正性を損なわないことを示すために,右側のジーニ係数を計算する。

The prevailing reinforcement-learning-based traffic signal control methods are typically staging-optimizable or duration-optimizable, depending on the action spaces. In this paper, we propose a novel control architecture, TBO, which is based on hybrid proximal policy optimization. To the best of our knowledge, TBO is the first RL-based algorithm to implement synchronous optimization of the staging and duration. Compared to discrete and continuous action spaces, hybrid action space is a merged search space, in which TBO better implements the trade-off between frequent switching and unsaturated release. Experiments are given to demonstrate that TBO reduces the queue length and delay by 13.78% and 14.08% on average, respectively, compared to the existing baselines. Furthermore, we calculate the Gini coefficients of the right-of-way to indicate TBO does not harm fairness while improving efficiency.
翻訳日:2022-11-24 14:38:18 公開日:2022-11-23
# 帯域割当モデルを用いた強化学習エージェントの設計と最適化

Reinforcement Learning Agent Design and Optimization with Bandwidth Allocation Model ( http://arxiv.org/abs/2211.12987v1 )

ライセンス: Link先を確認
Rafael F. Reale, Joberto S. B. Martins(参考訳) 強化学習(rl)は現在、様々な現実のアプリケーションで使われている。 rlベースのソリューションは、ヒューリスティックやメタヒューリスティックで解決するのが難しい問題や、知的あるいは認知的なアプローチが必要な問題や問題など、問題を汎用的に解決する可能性を持っている。 しかし、強化学習エージェントは単純ではない設計が必要であり、重要な設計上の問題がある。 rlエージェントの設計問題には、ターゲット問題モデリング、状態空間爆発、トレーニングプロセス、エージェント効率などが含まれる。 研究は現在、RLの普及を促進するためにこれらの課題に対処している。 要約すると、BAMモデルはリソースをユーザと割り当て、共有する。 3つの基本的なBAMモデルと、ユーザ間でリソースの割り当てと共有方法が異なるいくつかのハイブリッドがある。 本稿ではRLエージェントの設計と効率の問題に対処する。 RLエージェントの目的は、ユーザ間でリソースを割り当て、共有することである。 本稿では,BAMモデルがRLエージェントの設計と効率にどのように貢献するかを検討する。 AllocTC-Sharing(ATCS)モデルは解析的に記述され、RLエージェントの動作をどのように模倣するか、そしてATCSがRLエージェントから計算タスクをオフロードするかを評価する。 RLエージェントの設計と操作を統合したアルゴリズムがエージェント設計を容易にし、その実行を最適化する可能性を秘めている。 ATCS分析モデルとシミュレーションは、BAMモデルがエージェントタスクをオフロードし、エージェントの設計と最適化を支援することを示した。

Reinforcement learning (RL) is currently used in various real-life applications. RL-based solutions have the potential to generically address problems, including the ones that are difficult to solve with heuristics and meta-heuristics and, in addition, the set of problems and issues where some intelligent or cognitive approach is required. However, reinforcement learning agents require a not straightforward design and have important design issues. RL agent design issues include the target problem modeling, state-space explosion, the training process, and agent efficiency. Research currently addresses these issues aiming to foster RL dissemination. A BAM model, in summary, allocates and shares resources with users. There are three basic BAM models and several hybrids that differ in how they allocate and share resources among users. This paper addresses the issue of an RL agent design and efficiency. The RL agent's objective is to allocate and share resources among users. The paper investigates how a BAM model can contribute to the RL agent design and efficiency. The AllocTC-Sharing (ATCS) model is analytically described and simulated to evaluate how it mimics the RL agent operation and how the ATCS can offload computational tasks from the RL agent. The essential argument researched is whether algorithms integrated with the RL agent design and operation have the potential to facilitate agent design and optimize its execution. The ATCS analytical model and simulation presented demonstrate that a BAM model offloads agent tasks and assists the agent's design and optimization.
翻訳日:2022-11-24 14:38:04 公開日:2022-11-23
# EurNet:空間的マルチリレーショナルデータの効率的なマルチレンジリレーショナルモデリング

EurNet: Efficient Multi-Range Relational Modeling of Spatial Multi-Relational Data ( http://arxiv.org/abs/2211.12941v1 )

ライセンス: Link先を確認
Minghao Xu, Yuanfan Guo, Yi Xu, Jian Tang, Xinlei Chen, Yuandong Tian(参考訳) データの空間的関係のモデル化は、画像分類、セマンティックセグメンテーション、タンパク質構造理解など、多くの異なるタスクにおいて重要なままである。 以前の作品では、相対的な位置符号化のような統一的なソリューションがしばしば用いられる。 しかし、短距離関係、中距離関係、長距離関係など様々な空間関係が存在し、それらをモデリングすることで、多範囲関係(例えば、短距離関係はインスタンスセグメンテーションにおいて重要であるが、長距離関係は意味的セグメンテーションのために重み付けされるべきである)に対する異なるタスクの焦点をよりよく捉えることができる。 本稿では,効率的なマルチレンジリレーショナルモデリングのためのEurNetを提案する。 EurNetは、各タイプのエッジが短距離または中距離の空間的相互作用に対応するマルチリレーショナルグラフを構築する。 構築されたグラフでは、eurnetはgated relational message passing(grmp)と呼ばれる新しいモデリング層を採用し、データをまたいで複数のリレーショナル情報を伝搬する。 GRMPは余分な計算コストでデータ内の複数の関係をキャプチャする。 画像およびタンパク質構造モデリングにおいて,EurNetsを2つの重要な領域で研究する。 ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションに関する大規模な実験は、以前のSoTA FocalNetよりもEurNetの利点を検証する。 ECおよびGOタンパク質関数予測ベンチマークでは、EurNetは以前のSoTA GearNetを一貫して上回っている。 本研究では,様々な領域の空間的マルチリレーショナルデータのモデリングにおけるEurNetsの強みを示す。 画像モデリングのためのEurNetの実装はhttps://github.com/hirl-team/EurNet-Image で公開されている。 他の適用ドメイン/タスクの実装はまもなくリリースされる。

Modeling spatial relationship in the data remains critical across many different tasks, such as image classification, semantic segmentation and protein structure understanding. Previous works often use a unified solution like relative positional encoding. However, there exists different kinds of spatial relations, including short-range, medium-range and long-range relations, and modeling them separately can better capture the focus of different tasks on the multi-range relations (e.g., short-range relations can be important in instance segmentation, while long-range relations should be upweighted for semantic segmentation). In this work, we introduce the EurNet for Efficient multi-range relational modeling. EurNet constructs the multi-relational graph, where each type of edge corresponds to short-, medium- or long-range spatial interactions. In the constructed graph, EurNet adopts a novel modeling layer, called gated relational message passing (GRMP), to propagate multi-relational information across the data. GRMP captures multiple relations within the data with little extra computational cost. We study EurNets in two important domains for image and protein structure modeling. Extensive experiments on ImageNet classification, COCO object detection and ADE20K semantic segmentation verify the gains of EurNet over the previous SoTA FocalNet. On the EC and GO protein function prediction benchmarks, EurNet consistently surpasses the previous SoTA GearNet. Our results demonstrate the strength of EurNets on modeling spatial multi-relational data from various domains. The implementations of EurNet for image modeling are available at https://github.com/hirl-team/EurNet-Image . The implementations for other applied domains/tasks will be released soon.
翻訳日:2022-11-24 14:32:19 公開日:2022-11-23
# 嘘は偽造できるのか? 機械学習の観点からの低テイクと高テイクのデセプションビデオデータセットの比較

Can lies be faked? Comparing low-stakes and high-stakes deception video datasets from a Machine Learning perspective ( http://arxiv.org/abs/2211.13035v1 )

ライセンス: Link先を確認
Mateus Karvat Camara, Adriana Postal, Tomas Henrique Maul, Gustavo Paetzold(参考訳) 人間の社会に重大な影響があるにもかかわらず、認識検出(DD)の精度は54%に過ぎず、自動DDを実行する機械学習システムは、データ不足による現実の環境での適切な適用には至っていない。 公開されているDDデータセットはほとんど存在せず、新しいデータセットの作成は、低テイクと高テイクの嘘の概念的な区別によって妨げられている。 理論的には、2つの種類の嘘は非常に異なるので、ある種類のデータセットは別の種類のアプリケーションでは使用できない。 制御された設定でシミュレート(フェイク)できるので、低盗難のデータを取得するのは容易であるが、これらの嘘は本物のハイテイクの嘘と同じ重要性や深さを持っていないため、自動化DDシステムの実用的関心を得るのは非常に困難である。 この区別が実際的な観点から真であるかどうかを調べるため,ビデオデータからのみ動作する深層学習分類器を用いて,高値ddデータセットと低値ddデータセットを比較したいくつかの実験を行った。 実験では,低テイクデータセットの強化戦略として低テイクデータを用いた場合,低テイクデータを用いた場合よりも,高テイクデータを識別するネットワークの精度が向上した。

Despite the great impact of lies in human societies and a meager 54% human accuracy for Deception Detection (DD), Machine Learning systems that perform automated DD are still not viable for proper application in real-life settings due to data scarcity. Few publicly available DD datasets exist and the creation of new datasets is hindered by the conceptual distinction between low-stakes and high-stakes lies. Theoretically, the two kinds of lies are so distinct that a dataset of one kind could not be used for applications for the other kind. Even though it is easier to acquire data on low-stakes deception since it can be simulated (faked) in controlled settings, these lies do not hold the same significance or depth as genuine high-stakes lies, which are much harder to obtain and hold the practical interest of automated DD systems. To investigate whether this distinction holds true from a practical perspective, we design several experiments comparing a high-stakes DD dataset and a low-stakes DD dataset evaluating their results on a Deep Learning classifier working exclusively from video data. In our experiments, a network trained in low-stakes lies had better accuracy classifying high-stakes deception than low-stakes, although using low-stakes lies as an augmentation strategy for the high-stakes dataset decreased its accuracy.
翻訳日:2022-11-24 14:31:52 公開日:2022-11-23
# BiasBed - 厳密なテクスチャバイアス評価

BiasBed -- Rigorous Texture Bias Evaluation ( http://arxiv.org/abs/2211.13190v1 )

ライセンス: Link先を確認
Nikolai Kalischek, Rodrigo C. Daudt, Torben Peters, Jan D. Wegner, Konrad Schindler(参考訳) 現代の畳み込みニューラルネットワークにおけるテクスチャバイアスの存在は、しばしば新しいドメインへの一般化を支援するために、シェイプキューに重点を置くアルゴリズムの多さにつながっている。 しかし、一般的なデータセット、ベンチマーク、一般的なモデル選択戦略は欠落しており、合意された厳密な評価プロトコルは存在しない。 本稿では,テクスチャバイアスを低減したトレーニングネットワークの困難さと限界について検討する。 特に,手法間の適切な評価と有意義な比較は自明ではないことを示す。 複数のデータセットや既存のアルゴリズムを含む、テクスチャとスタイルバイアスのトレーニングのためのテストベッドであるBiasBedを紹介します。 スタイルバイアス法のかなりのトレーニング不安定さにもかかわらず、結果の重要度を測定するための厳密な仮説検証を含む広範な評価プロトコルが付属している。 私たちの広範な実験は、慎重に統計的に確立されたスタイルバイアスの評価プロトコルの必要性に新たな光を当てました。 例えば、文献で提案されているいくつかのアルゴリズムは、スタイルバイアスの影響を全く軽減しない。 BiasBedのリリースにより、一貫した意味のある比較の共通理解が促進され、その結果、テクスチャバイアスのない学習方法へのさらなる進歩が期待できる。 コードはhttps://github.com/D1noFuzi/BiasBedで入手できる。

The well-documented presence of texture bias in modern convolutional neural networks has led to a plethora of algorithms that promote an emphasis on shape cues, often to support generalization to new domains. Yet, common datasets, benchmarks and general model selection strategies are missing, and there is no agreed, rigorous evaluation protocol. In this paper, we investigate difficulties and limitations when training networks with reduced texture bias. In particular, we also show that proper evaluation and meaningful comparisons between methods are not trivial. We introduce BiasBed, a testbed for texture- and style-biased training, including multiple datasets and a range of existing algorithms. It comes with an extensive evaluation protocol that includes rigorous hypothesis testing to gauge the significance of the results, despite the considerable training instability of some style bias methods. Our extensive experiments, shed new light on the need for careful, statistically founded evaluation protocols for style bias (and beyond). E.g., we find that some algorithms proposed in the literature do not significantly mitigate the impact of style bias at all. With the release of BiasBed, we hope to foster a common understanding of consistent and meaningful comparisons, and consequently faster progress towards learning methods free of texture bias. Code is available at https://github.com/D1noFuzi/BiasBed
翻訳日:2022-11-24 14:31:27 公開日:2022-11-23
# インスタンスパターン作曲家による一般化可能な暗黙的神経表現

Generalizable Implicit Neural Representations via Instance Pattern Composers ( http://arxiv.org/abs/2211.13223v1 )

ライセンス: Link先を確認
Chiheon Kim, Doyup Lee, Saehoon Kim, Minsu Cho, Wook-Shin Han(参考訳) 近年の暗黙的神経表現(INR)の進歩にもかかわらず、INRの座標ベースの多層パーセプトロン(MLP)が、データインスタンス間の共通表現を学習し、目に見えないインスタンスに対して一般化することは、依然として困難である。 本研究では,初期MLP層内の少量の重みだけをインスタンスパターンの合成として調整することにより,座標ベースのMLPが複雑なデータインスタンスを表現できる,一般化可能なINRのフレームワークを提案する。 我々の一般化可能なINRフレームワークは、既存のメタラーニングやハイパーネットワークと完全に互換性があり、未確認インスタンスの変調重量を予測することができる。 広範囲な実験により,音声,画像,3dオブジェクトなど幅広い領域において高い性能を得られたが,アブレーション実験では重みの変調が検証された。

Despite recent advances in implicit neural representations (INRs), it remains challenging for a coordinate-based multi-layer perceptron (MLP) of INRs to learn a common representation across data instances and generalize it for unseen instances. In this work, we introduce a simple yet effective framework for generalizable INRs that enables a coordinate-based MLP to represent complex data instances by modulating only a small set of weights in an early MLP layer as an instance pattern composer; the remaining MLP weights learn pattern composition rules for common representations across instances. Our generalizable INR framework is fully compatible with existing meta-learning and hypernetworks in learning to predict the modulated weight for unseen instances. Extensive experiments demonstrate that our method achieves high performance on a wide range of domains such as an audio, image, and 3D object, while the ablation study validates our weight modulation.
翻訳日:2022-11-24 14:31:05 公開日:2022-11-23
# 熱方程式に基づく自己教師付き学習

Self-Supervised Learning based on Heat Equation ( http://arxiv.org/abs/2211.13228v1 )

ライセンス: Link先を確認
Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu Yuan and Zicheng Liu and Youzuo Lin(参考訳) 本稿では,熱方程式を高次元特徴空間に拡張した自己教師あり学習の新しい視点を提案する。 特に、定常状態による時間依存を除去し、残りの2次元ラプラシアンを x-y 等方性から線形相関に拡張する。 さらに、x と y を2つの一階線型微分方程式として分割することで単純化する。 このような単純化は、水平方向と垂直方向の空間不変性を個別にモデル化し、画像ブロック間の予測をサポートする。 これはQB-Heatと呼ばれる非常に単純なマスク付き画像モデリング(MIM)手法を導入する。 QB-Heatは4分の1の大きさの1ブロックを残し、他の3つのマスク付きクォーターを直線的に外挿する。 MIMはベルやホイッスルを使わずにCNNに導入され、微調整なしで画像分類と物体検出の両方に適した軽量ネットワークの事前トレーニングにも有効だ。 MoCo-v2の5.8Mパラメータと285M FLOPの事前トレーニングと比較すると、QB-HeatはImageNet上の線形プローブでは同等だが、線形分類器(65.6%対52.9%)の前にトランスフォーマーブロックを追加する非線形プローブでは明らかに優れる。 凍結したバックボーンで物体検出に移行すると、QB-HeatはMoCo-v2より優れ、ImageNetの事前トレーニングを7.9 APと4.5 APで監督する。 この研究は、異なる形状とテクスチャに対する視覚的表現の不変性に関する洞察に富んだ仮説を提供する:水平微分と垂直微分の間の線形関係。 コードは公開される予定だ。

This paper presents a new perspective of self-supervised learning based on extending heat equation into high dimensional feature space. In particular, we remove time dependence by steady-state condition, and extend the remaining 2D Laplacian from x--y isotropic to linear correlated. Furthermore, we simplify it by splitting x and y axes as two first-order linear differential equations. Such simplification explicitly models the spatial invariance along horizontal and vertical directions separately, supporting prediction across image blocks. This introduces a very simple masked image modeling (MIM) method, named QB-Heat. QB-Heat leaves a single block with size of quarter image unmasked and extrapolates other three masked quarters linearly. It brings MIM to CNNs without bells and whistles, and even works well for pre-training light-weight networks that are suitable for both image classification and object detection without fine-tuning. Compared with MoCo-v2 on pre-training a Mobile-Former with 5.8M parameters and 285M FLOPs, QB-Heat is on par in linear probing on ImageNet, but clearly outperforms in non-linear probing that adds a transformer block before linear classifier (65.6% vs. 52.9%). When transferring to object detection with frozen backbone, QB-Heat outperforms MoCo-v2 and supervised pre-training on ImageNet by 7.9 and 4.5 AP respectively. This work provides an insightful hypothesis on the invariance within visual representation over different shapes and textures: the linear relationship between horizontal and vertical derivatives. The code will be publicly released.
翻訳日:2022-11-24 14:30:48 公開日:2022-11-23
# 心電図の特徴帰属法の評価

Evaluating Feature Attribution Methods for Electrocardiogram ( http://arxiv.org/abs/2211.12702v1 )

ライセンス: Link先を確認
Jangwon Suh, Jimyeong Kim, Euna Jung, Wonjong Rhee(参考訳) 心電図(ECG)を用いた心不整脈検出の性能は,ディープラーニングモデルの導入以降,大幅に改善されている。 実際には、ハイパフォーマンスだけでは不十分であり、適切な説明も必要である。 近年,この要件に対処する特徴属性法の採用が始まっているが,どの手法がECGに適しているのかは分かっていない。 本研究は,ECGの特徴に基づく特徴帰属手法の3つの評価指標(ローカライゼーションスコア,ポインティングゲーム,劣化スコア)を特定し,カスタマイズする。 3つの評価指標を用いて,11種類の機能帰属法を評価し分析した。 特徴帰属手法のいくつかはECGを説明するのに適しており、Grad-CAMは2番目に良い方法よりも大きなマージンで優れている。

The performance of cardiac arrhythmia detection with electrocardiograms(ECGs) has been considerably improved since the introduction of deep learning models. In practice, the high performance alone is not sufficient and a proper explanation is also required. Recently, researchers have started adopting feature attribution methods to address this requirement, but it has been unclear which of the methods are appropriate for ECG. In this work, we identify and customize three evaluation metrics for feature attribution methods based on the characteristics of ECG: localization score, pointing game, and degradation score. Using the three evaluation metrics, we evaluate and analyze eleven widely-used feature attribution methods. We find that some of the feature attribution methods are much more adequate for explaining ECG, where Grad-CAM outperforms the second-best method by a large margin.
翻訳日:2022-11-24 14:30:20 公開日:2022-11-23
# InDiReCT:画像のための言語誘導ゼロショット深度学習

InDiReCT: Language-Guided Zero-Shot Deep Metric Learning for Images ( http://arxiv.org/abs/2211.12760v1 )

ライセンス: Link先を確認
Konstantin Kobs, Michael Steininger, Andreas Hotho(参考訳) 共通ディープメトリックラーニング(dml)データセットは、cars196データセット内の2つのイメージが同じカーモデルを示す場合のように、類似性の1つの概念のみを指定する。 アプリケーションによって、画像検索システムの利用者は、可能な限り簡単に組み込むべき類似性の概念を異なっており、変化していると論じる。 そこで我々は,Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を,自然言語のみを用いて学習することなく,画像表現に重要なプロパティをユーザが制御できる新しいDML設定として提案する。 そこで本研究では,学習用テキストプロンプトのみを使用する画像上でのlanz-dmlのモデルである間接表現(クリップ埋め込みテキストにおける次元縮小を用いた画像表現)を提案する。 InDiReCTはCLIPを画像とテキストの固定的特徴抽出器として使用し、テキストのバリエーションを画像埋め込み空間に転送する。 5つのデータセットと13の類似性概念に関する広範な実験は、トレーニング中に画像が見えなかったにもかかわらず、間接的なパフォーマンスは強力なベースラインよりも優れており、完全な教師付きモデルのパフォーマンスにアプローチしていることを示している。 分析により、間接的に画像の領域に焦点をあてることを学び、所望の類似性の概念に関連付けることにより、自然言語のみを使用して独自の埋め込み空間を作成する方法の学習が迅速かつ容易にできることが明らかになった。

Common Deep Metric Learning (DML) datasets specify only one notion of similarity, e.g., two images in the Cars196 dataset are deemed similar if they show the same car model. We argue that depending on the application, users of image retrieval systems have different and changing similarity notions that should be incorporated as easily as possible. Therefore, we present Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) as a new DML setting in which users control the properties that should be important for image representations without training data by only using natural language. To this end, we propose InDiReCT (Image representations using Dimensionality Reduction on CLIP embedded Texts), a model for LanZ-DML on images that exclusively uses a few text prompts for training. InDiReCT utilizes CLIP as a fixed feature extractor for images and texts and transfers the variation in text prompt embeddings to the image embedding space. Extensive experiments on five datasets and overall thirteen similarity notions show that, despite not seeing any images during training, InDiReCT performs better than strong baselines and approaches the performance of fully-supervised models. An analysis reveals that InDiReCT learns to focus on regions of the image that correlate with the desired similarity notion, which makes it a fast to train and easy to use method to create custom embedding spaces only using natural language.
翻訳日:2022-11-24 14:30:09 公開日:2022-11-23
# 数学語問題学習のためのソクラテス命題の自動生成

Automatic Generation of Socratic Subquestions for Teaching Math Word Problems ( http://arxiv.org/abs/2211.12835v1 )

ライセンス: Link先を確認
Kumar Shridhar, Jakub Macina, Mennatallah El-Assady, Tanmay Sinha, Manu Kapur, Mrinmaya Sachan(参考訳) ソクラテス・クエスチョン(socratic questioning)は、学生が複雑な問題に対する答えを見つけるための教育手法である。 ディダクティカルな質問の生成は困難であり、問題にかかわる推論プロセスを理解する必要がある。 我々は,このような質問戦略は人的パフォーマンスを高めるだけでなく,算術語問題(MWP)解決者を支援することができると仮定する。 本研究では,大規模言語モデル (LM) が数学用語の問題解決を導くための逐次質問を生成する能力について検討する。 入力条件付けと強化学習に基づく様々な質問生成手法を提案する。 自動品質評価と人的品質評価の両方において、所望の質問特性に制約されたLMが優れた質問を生成し、数学語問題解決器の全体的な性能を向上させる。 教育領域における質問生成モデルの潜在価値を検討するために,予備的なユーザ調査を行う。 その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを決定する上で重要な役割を担っていることが示唆された。 我々は,このような質問戦略を教育に活用する未来について論じる。

Socratic questioning is an educational method that allows students to discover answers to complex problems by asking them a series of thoughtful questions. Generation of didactically sound questions is challenging, requiring understanding of the reasoning process involved in the problem. We hypothesize that such questioning strategy can not only enhance the human performance, but also assist the math word problem (MWP) solvers. In this work, we explore the ability of large language models (LMs) in generating sequential questions for guiding math word problem-solving. We propose various guided question generation schemes based on input conditioning and reinforcement learning. On both automatic and human quality evaluations, we find that LMs constrained with desirable question properties generate superior questions and improve the overall performance of a math word problem solver. We conduct a preliminary user study to examine the potential value of such question generation models in the education domain. Results suggest that the difficulty level of problems plays an important role in determining whether questioning improves or hinders human performance. We discuss the future of using such questioning strategies in education.
翻訳日:2022-11-24 14:29:31 公開日:2022-11-23
# SketchBoost: マルチ出力問題に対する高速勾配ブースト決定木

SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems ( http://arxiv.org/abs/2211.12858v1 )

ライセンス: Link先を確認
Leonid Iosipoi and Anton Vakhrushev(参考訳) Gradient Boosted Decision Tree (GBDT)は、多くの標準的なデータサイエンス問題に対して最先端の結果を得るために広く使われている機械学習アルゴリズムである。 出力が多次元である場合のマルチアウトプット問題への応用に関心がある。 非常に効果的なGBDT実装はあるが、そのような問題に対するスケーラビリティはまだ不十分である。 本稿では,マルチアウトプットシナリオにおけるgbdtの学習プロセスを高速化するための新しい手法を提案する。 これらの手法の背景にある考え方は、決定木の最良の分割を見つけるために用いられるスコアリング関数の近似計算にある。 これらのメソッドはSketchBoostで実装されており、Py-Boostと呼ばれるGBDTのPythonベースのGPU実装に統合されています。 私たちの数値的な研究は、SketchBoostがGBDTのトレーニングプロセスを最大40倍スピードアップし、同等あるいはそれ以上のパフォーマンスを実現していることを示している。

Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.
翻訳日:2022-11-24 14:22:53 公開日:2022-11-23
# AugOp: 神経オペレータへのインジェクション変換

AugOp: Inject Transformation into Neural Operator ( http://arxiv.org/abs/2211.12514v1 )

ライセンス: Link先を確認
Longqing Ye(参考訳) 本稿では,正規畳み込み演算子を訓練中に余分なグループワイズ変換を注入し,推論中にそれを回復させることにより,単純で一般的な方法を提案する。 余剰変換は、各群における正規畳み込みとマージできることを保証するために慎重に選択され、推論中の正規畳み込みの位相構造は変化しない。 通常の畳み込み演算子と比較すると,本手法(augconv)はトレーニング中のモデル性能を改善するために,より大きな学習能力を導入することができるが,モデル展開のための計算オーバーヘッドは増大しない。 ResNetに基づいて、AugConvを使用してAugResNetという畳み込みニューラルネットワークを構築します。 画像分類データセットCifar-10の結果、AugResNetはモデル性能の点でベースラインを上回っている。

In this paper, we propose a simple and general approach to augment regular convolution operator by injecting extra group-wise transformation during training and recover it during inference. Extra transformation is carefully selected to ensure it can be merged with regular convolution in each group and will not change the topological structure of regular convolution during inference. Compared with regular convolution operator, our approach (AugConv) can introduce larger learning capacity to improve model performance during training but will not increase extra computational overhead for model deployment. Based on ResNet, we utilize AugConv to build convolutional neural networks named AugResNet. Result on image classification dataset Cifar-10 shows that AugResNet outperforms its baseline in terms of model performance.
翻訳日:2022-11-24 14:22:18 公開日:2022-11-23
# fre: 異常検出とセグメント化のための高速手法

FRE: A Fast Method For Anomaly Detection And Segmentation ( http://arxiv.org/abs/2211.12650v1 )

ライセンス: Link先を確認
Ibrahima Ndiour and Nilesh Ahuja and Utku Genc and Omesh Tickoo(参考訳) 本稿では,視覚異常の検出とセグメンテーションを高速かつ原理的に解決する手法を提案する。 この設定では、異常のないトレーニングデータのみにアクセスでき、テストデータ上で任意の性質の異常を検出し、識別したいと考えています。 本研究では,訓練データに事前学習したdnnが生成する中間的特徴に対する線形統計次元低減手法の応用を提案し,その特徴に真にまたがる低次元部分空間をキャプチャする。 高次元空間における元の特徴と低次元縮小埋め込みの前像との差の$\ell_2$-normである \emph{feature reconstruction error} (fre) が異常検出に非常に有効であることを示す。 さらに,中間畳み込み層上の同じ特徴再構成誤差概念を用いて,画像中の異常のピクセルレベル空間的局在(すなわちセグメント化)を提供するfreマップを導出する。 標準異常検出データセットとDNNアーキテクチャを用いた実験により、我々の手法は最高の品質性能を達成できるが、最先端技術が要求する計算コストとメモリコストのごく一部に収まることを示した。 従来のcpuでも、非常に効率的にトレーニングや実行が可能です。

This paper presents a fast and principled approach for solving the visual anomaly detection and segmentation problem. In this setup, we have access to only anomaly-free training data and want to detect and identify anomalies of an arbitrary nature on test data. We propose the application of linear statistical dimensionality reduction techniques on the intermediate features produced by a pretrained DNN on the training data, in order to capture the low-dimensional subspace truly spanned by said features. We show that the \emph{feature reconstruction error} (FRE), which is the $\ell_2$-norm of the difference between the original feature in the high-dimensional space and the pre-image of its low-dimensional reduced embedding, is extremely effective for anomaly detection. Further, using the same feature reconstruction error concept on intermediate convolutional layers, we derive FRE maps that provide pixel-level spatial localization of the anomalies in the image (i.e. segmentation). Experiments using standard anomaly detection datasets and DNN architectures demonstrate that our method matches or exceeds best-in-class quality performance, but at a fraction of the computational and memory cost required by the state of the art. It can be trained and run very efficiently, even on a traditional CPU.
翻訳日:2022-11-24 14:22:03 公開日:2022-11-23
# 特徴の能力を識別するクラスを再検討し、それらをよりよく知る

Reconnoitering the class distinguishing abilities of the features, to know them better ( http://arxiv.org/abs/2211.12771v1 )

ライセンス: Link先を確認
Payel Sadhukhan, Sarbani palit, Kausik Sengupta(参考訳) 日常生活における機械学習(ML)の関連性は、その説明可能性と密接に関連している。 説明可能性により、エンドユーザは、MLスキームの能力とユーティリティを透過的で人間的とみなすことができる。 また、システムの自動決定に対するユーザの自信を高める。 モデルの決定を説明するために変数や特徴を説明することは、現在の必要性である。 クラス分け能力(特に実世界のデータがほとんどマルチクラスな性質である場合)に基づいて特徴を説明するような作業は、実際には見つからなかったのです。 任意のデータセットにおいて、ある機能は、データポイントの異なる分類(またはクラス)を区別するのに等しく適していない。 本稿では,それらのクラスやカテゴリ識別機能に基づいて特徴を説明する。 特に、ペアのクラスの組み合わせに対する変数のクラス識別能力(スコア)を推定する。 複数の実世界のマルチクラスデータセット上で経験的に提案手法が与える説明可能性を検証する。 さらに,潜伏特徴の文脈でクラス識別スコアを活用し,新たな意思決定プロトコルを提案する。 この研究のもう1つの目新しさは、潜在変数(テストポイント)が可能性のあるクラスに対して高いクラス分散ポテンシャルを持つ場合、 \emph{refuse to render decision}オプションである。

The relevance of machine learning (ML) in our daily lives is closely intertwined with its explainability. Explainability can allow end-users to have a transparent and humane reckoning of a ML scheme's capability and utility. It will also foster the user's confidence in the automated decisions of a system. Explaining the variables or features to explain a model's decision is a need of the present times. We could not really find any work, which explains the features on the basis of their class-distinguishing abilities (specially when the real world data are mostly of multi-class nature). In any given dataset, a feature is not equally good at making distinctions between the different possible categorizations (or classes) of the data points. In this work, we explain the features on the basis of their class or category-distinguishing capabilities. We particularly estimate the class-distinguishing capabilities (scores) of the variables for pair-wise class combinations. We validate the explainability given by our scheme empirically on several real-world, multi-class datasets. We further utilize the class-distinguishing scores in a latent feature context and propose a novel decision making protocol. Another novelty of this work lies with a \emph{refuse to render decision} option when the latent variable (of the test point) has a high class-distinguishing potential for the likely classes.
翻訳日:2022-11-24 14:21:43 公開日:2022-11-23
# マルチビュー幾何を用いた教師なし3次元キーポイント推定

Unsupervised 3D Keypoint Estimation with Multi-View Geometry ( http://arxiv.org/abs/2211.12829v1 )

ライセンス: Link先を確認
Sina Honari, Pascal Fua(参考訳) 十分なアノテートトレーニングデータがあれば、3D人間のポーズ推定モデルは高い精度を達成することができる。 しかし、特に異常な活動を行う人にとっては、常にアノテーションが利用できるとは限らない。 本稿では,多視点幾何の制約以外に何の監督もせずに,多視点から人体の3次元キーポイントを検出するアルゴリズムを提案する。 推定された3Dキーポイントが意味を持つことを保証するため、各ビューに再投影され、モデル自体が最初に見積もった人のマスクを推定する。 提案手法は,Human3.6MおよびMPI-INF-3DHPベンチマークデータセットにおいて,最先端の非教師付き3次元ポーズ推定法より優れている。

Given enough annotated training data, 3D human pose estimation models can achieve high accuracy. However, annotations are not always available, especially for people performing unusual activities. In this paper, we propose an algorithm that learns to detect 3D keypoints on human bodies from multiple-views without any supervision other than the constraints multiple-view geometry provides. To ensure that the estimated 3D keypoints are meaningful, they are re-projected to each view to estimate the person's mask that the model itself has initially estimated. Our approach outperforms other state-of-the-art unsupervised 3D human pose estimation methods on the Human3.6M and MPI-INF-3DHP benchmark datasets.
翻訳日:2022-11-24 14:21:22 公開日:2022-11-23
# 顕微鏡データの効率的な画像分解

{\mu}Split: efficient image decomposition for microscopy data ( http://arxiv.org/abs/2211.12872v1 )

ライセンス: Link先を確認
Ashesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug(参考訳) 光顕微鏡は生体細胞や生体組織を細胞内分解能で観察するために日常的に用いられる。 画像化された細胞の成分は蛍光ラベルを使ってハイライトできるため、生物学者は興味のある個々の構造を調べることができる。 生物学的プロセスの複雑さを考えると、典型的には複数の構造を同時に観察する必要がある。 それでも、技術的理由から、3つか4つ以上の構造を撮影することは困難であり、生命科学における科学的進歩の速度を制限している。 したがって、単一の画像チャネルで得られた重畳された生物学的構造を分割(分解)する計算手法、すなわち時間多重化なしでは、大きな影響を与える。 ここでは、訓練された画像分解のための専用アプローチである {\mu}Splitを紹介する。 トレーニング中に大きなイメージパッチを使用すると,通常のディープアーキテクチャによる最良の結果が得られることが分かり,メモリ消費が性能向上の限界要因となる。 そこで我々は,小さな入力パッチでうまく動作する深層ネットワークを学習するためのメモリ効率の良い方法である横型コンテキスト化(lc)を導入する。 後段のレイヤでは、適切な解像度で追加のイメージコンテキストが供給される。 我々はLCを階層型オートエンコーダと階層型VAEと統合し、後者では改良されたELBO損失を提示し、音波VAE訓練を可能にすることを示す。 合成データセットに1つ、実際の2つの顕微鏡データセットから派生した4つの分解タスクに {\mu}Splitを適用した。 LCは一貫してSOTA結果を達成し、同時にLCを使用しない競合アーキテクチャよりもGPUメモリをかなり少なくする。 LCを導入する際、上記のバニラアーキテクチャで得られた結果は平均2.36dB(PSNRデシベル)で改善され、個々の改善は0.9から3.4dBである。

Light microscopy is routinely used to look at living cells and biological tissues at sub-cellular resolution. Components of the imaged cells can be highlighted using fluorescent labels, allowing biologists to investigate individual structures of interest. Given the complexity of biological processes, it is typically necessary to look at multiple structures simultaneously, typically via a temporal multiplexing scheme. Still, imaging more than 3 or 4 structures in this way is difficult for technical reasons and limits the rate of scientific progress in the life sciences. Hence, a computational method to split apart (decompose) superimposed biological structures acquired in a single image channel, i.e. without temporal multiplexing, would have tremendous impact. Here we present {\mu}Split, a dedicated approach for trained image decomposition. We find that best results using regular deep architectures is achieved when large image patches are used during training, making memory consumption the limiting factor to further improving performance. We therefore introduce lateral contextualization (LC), a memory efficient way to train deep networks that operate well on small input patches. In later layers, additional image context is fed at adequately lowered resolution. We integrate LC with Hierarchical Autoencoders and Hierarchical VAEs.For the latter, we also present a modified ELBO loss and show that it enables sound VAE training. We apply {\mu}Split to five decomposition tasks, one on a synthetic dataset, four others derived from two real microscopy datasets. LC consistently achieves SOTA results, while simultaneously requiring considerably less GPU memory than competing architectures not using LC. When introducing LC, results obtained with the above-mentioned vanilla architectures do on average improve by 2.36 dB (PSNR decibel), with individual improvements ranging from 0.9 to 3.4 dB.
翻訳日:2022-11-24 14:21:14 公開日:2022-11-23
# orex: ニューラルフィールドを用いたプランナー断面からのオブジェクト再構成

OReX: Object Reconstruction from Planner Cross-sections Using Neural Fields ( http://arxiv.org/abs/2211.12886v1 )

ライセンス: Link先を確認
Haim Sawdayee, Amir Vaxman, Amit H. Bermano(参考訳) 平面断面から3D形状を再構築することは、医用画像や地理情報学といった下流の応用にインスパイアされた課題である。 入力は空間内の平面のスパース集合上で完全に定義されたイン/アウトインジケータ関数であり、出力はインジケータ関数のボリューム全体への補間である。 このスパースで不適切な問題に対処する以前の作品は、低品質の結果を生み出すか、ターゲットトポロジー、外観情報、入力正規方向といった追加の事前情報に依存する。 本稿では,スライスのみによる3次元形状復元手法であるOReXについて述べる。 単純なニューラルネットワークが入力プレーン上で訓練され、3d座標を受け取り、クエリポイントの内側/外側の見積もりを返す。 この前者は滑らかさと自己相似性をもたらすのに強力である。 このアプローチの主な課題は、神経前兆が過度に滑らかになっているため、高周波の詳細である。 これを緩和するために,反復的推定アーキテクチャと階層的入力サンプリングスキームを提供し,細かなトレーニングを奨励し,後段の高周波数にフォーカスすることができる。 さらに,メッシュ抽出工程から発生する一般的なリップル様効果を同定し,解析する。 入力イン/アウト境界付近のインジケータ関数の空間勾配を規則化し、根の問題を削減して緩和する。 定性的かつ定量的な実験を通じて,本手法は精度が高く,入力の大きさとよく一致していることを示す。 我々は,従来のアプローチと最近の潜在的ソリューションと比較して,最先端の成果を報告し,分析とアブレーション研究による個人貢献のメリットを実証する。

Reconstructing 3D shapes from planar cross-sections is a challenge inspired by downstream applications like medical imaging and geographic informatics. The input is an in/out indicator function fully defined on a sparse collection of planes in space, and the output is an interpolation of the indicator function to the entire volume. Previous works addressing this sparse and ill-posed problem either produce low quality results, or rely on additional priors such as target topology, appearance information, or input normal directions. In this paper, we present OReX, a method for 3D shape reconstruction from slices alone, featuring a Neural Field as the interpolation prior. A simple neural network is trained on the input planes to receive a 3D coordinate and return an inside/outside estimate for the query point. This prior is powerful in inducing smoothness and self-similarities. The main challenge for this approach is high-frequency details, as the neural prior is overly smoothing. To alleviate this, we offer an iterative estimation architecture and a hierarchical input sampling scheme that encourage coarse-to-fine training, allowing focusing on high frequencies at later stages. In addition, we identify and analyze a common ripple-like effect stemming from the mesh extraction step. We mitigate it by regularizing the spatial gradients of the indicator function around input in/out boundaries, cutting the problem at the root. Through extensive qualitative and quantitative experimentation, we demonstrate our method is robust, accurate, and scales well with the size of the input. We report state-of-the-art results compared to previous approaches and recent potential solutions, and demonstrate the benefit of our individual contributions through analysis and ablation studies.
翻訳日:2022-11-24 14:20:43 公開日:2022-11-23
# open-vocabulary属性検出

Open-vocabulary Attribute Detection ( http://arxiv.org/abs/2211.12914v1 )

ライセンス: Link先を確認
Mar\'ia A. Bravo, Sudhanshu Mittal, Simon Ging, Thomas Brox(参考訳) 視覚言語モデリングにより、ゼロショットで任意のテキストプロンプトを使って予測をクエリできるオープン語彙タスクが可能になった。 既存のオープン語彙タスクはオブジェクトクラスにフォーカスするが、オブジェクト属性の研究は信頼性のある属性中心の評価ベンチマークが欠如しているため限られている。 本稿では,Open-Vocabulary Attribute Detection (OVAD)タスクとそれに対応するOVADベンチマークを紹介する。 新しいタスクとベンチマークの目的は、視覚言語モデルによって学習されるオブジェクトレベルの属性情報を調べることである。 この目的のために、MS COCOの80のオブジェクトクラスに117の属性クラスを含むクリーンで高密度な注釈付きテストセットを作成しました。 オープンボキャブラリー評価を可能にする、ポジティブなアノテーションとネガティブなアノテーションが含まれている。 全体として、ベンチマークは140万のアノテーションで構成されている。 参考までに,open-vocabulary属性検出のための最初のベースライン手法を提案する。 さらに,いくつかの基礎モデルの属性検出性能を調べ,ベンチマーク値を示す。 プロジェクトページ https://ovad-benchmark.github.io/

Vision-language modeling has enabled open-vocabulary tasks where predictions can be queried using any text prompt in a zero-shot manner. Existing open-vocabulary tasks focus on object classes, whereas research on object attributes is limited due to the lack of a reliable attribute-focused evaluation benchmark. This paper introduces the Open-Vocabulary Attribute Detection (OVAD) task and the corresponding OVAD benchmark. The objective of the novel task and benchmark is to probe object-level attribute information learned by vision-language models. To this end, we created a clean and densely annotated test set covering 117 attribute classes on the 80 object classes of MS COCO. It includes positive and negative annotations, which enables open-vocabulary evaluation. Overall, the benchmark consists of 1.4 million annotations. For reference, we provide a first baseline method for open-vocabulary attribute detection. Moreover, we demonstrate the benchmark's value by studying the attribute detection performance of several foundation models. Project page https://ovad-benchmark.github.io/
翻訳日:2022-11-24 14:20:13 公開日:2022-11-23
# スケーラブルで汎用的な意思決定のためのマスク付き自動エンコーディング

Masked Autoencoding for Scalable and Generalizable Decision Making ( http://arxiv.org/abs/2211.12740v1 )

ライセンス: Link先を確認
Fangchen Liu, Hao Liu, Aditya Grover, Pieter Abbeel(参考訳) 現在の大規模ビジョンや言語モデルに似た大規模で多様なシーケンシャルなデータから学ぶことができる、強化学習のためのスケーラブルなエージェントの学習に興味があります。 そこで本稿では,強化学習(RL)と行動クローニング(BC)のための簡易かつスケーラブルな自己教師付き事前学習手法であるマスク決定予測(MaskDP)を提案する。 MaskDPアプローチでは,マスク付きオートエンコーダ(MAE)を用いて状態-動作軌跡を解析し,状態と動作トークンをランダムにマスキングし,欠落したデータを再構成する。 そうすることで、モデルはマスクアウト状態とアクションを推測し、ダイナミクスに関する情報を抽出する必要がある。 入力シーケンスの異なる割合をマスキングすることは、複数の下流タスクをうまく一般化するより良いモデルを学ぶのに大いに役立ちます。 実証実験では、MaskDPモデルが、単一および複数ゴール到達のような新しいBCタスクへのゼロショット転送能力を獲得し、いくつかの例からゼロショット推論のスキルを得ることができた。 さらに、MaskDPはオフラインのRLによく移行し、モデルサイズに有望なスケーリング動作を示す。 データ効率の良い微調整には適しており、自己回帰的事前訓練に基づく先行手法による競合結果が得られる。

We are interested in learning scalable agents for reinforcement learning that can learn from large-scale, diverse sequential data similar to current large vision and language models. To this end, this paper presents masked decision prediction (MaskDP), a simple and scalable self-supervised pretraining method for reinforcement learning (RL) and behavioral cloning (BC). In our MaskDP approach, we employ a masked autoencoder (MAE) to state-action trajectories, wherein we randomly mask state and action tokens and reconstruct the missing data. By doing so, the model is required to infer masked-out states and actions and extract information about dynamics. We find that masking different proportions of the input sequence significantly helps with learning a better model that generalizes well to multiple downstream tasks. In our empirical study, we find that a MaskDP model gains the capability of zero-shot transfer to new BC tasks, such as single and multiple goal reaching, and it can zero-shot infer skills from a few example transitions. In addition, MaskDP transfers well to offline RL and shows promising scaling behavior w.r.t. to model size. It is amenable to data-efficient finetuning, achieving competitive results with prior methods based on autoregressive pretraining.
翻訳日:2022-11-24 14:13:08 公開日:2022-11-23
# ディープグラフクラスタリングに関する調査:分類学、挑戦、応用

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application ( http://arxiv.org/abs/2211.12875v1 )

ライセンス: Link先を確認
Liu Yue, Xia Jun, Zhou Sihang, Wang Siwei, Guo Xifeng, Yang Xihong, Liang Ke, Tu Wenxuan, Li Stan Z., Liu Xin Wang(参考訳) グラフクラスタリングは、グラフのノードを複数の異なるクラスタに分割することを目的としています。 近年,ディープグラフクラスタリング手法が提案され,有望な性能を達成している。 しかし、それに対応する調査論文は乏しく、この分野で概要を述べることは差し迫っている。 この動機から,本論文はディープグラフクラスタリングに関する最初の包括的調査を行う。 まず,ディープグラフクラスタリングの詳細な定義と重要なベースライン手法を紹介する。 さらに,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法の4つの異なる基準に基づいて,ディープグラフクラスタリング手法の分類法を提案する。 さらに,既存の作品の慎重な分析を通じて,5つの観点からの課題と機会を要約した。 最後に、4つの領域におけるディープグラフクラスタリングの応用について述べる。 論文やコード,データセットなど,最先端のディープグラフクラスタリングメソッドのコレクションがgithubで公開されている点に注意が必要だ。 この研究がクイックガイドとなり、この活気ある分野の課題を克服するのに役立つことを期待しています。

Graph clustering, which aims to divide the nodes in the graph into several distinct clusters, is a fundamental and challenging task. In recent years, deep graph clustering methods have been increasingly proposed and achieved promising performance. However, the corresponding survey paper is scarce and it is imminent to make a summary in this field. From this motivation, this paper makes the first comprehensive survey of deep graph clustering. Firstly, the detailed definition of deep graph clustering and the important baseline methods are introduced. Besides, the taxonomy of deep graph clustering methods is proposed based on four different criteria including graph type, network architecture, learning paradigm, and clustering method. In addition, through the careful analysis of the existing works, the challenges and opportunities from five perspectives are summarized. At last, the applications of deep graph clustering in four domains are presented. It is worth mentioning that a collection of state-of-the-art deep graph clustering methods including papers, codes, and datasets is available on GitHub. We hope this work will serve as a quick guide and help researchers to overcome challenges in this vibrant field.
翻訳日:2022-11-24 14:12:46 公開日:2022-11-23
# オートエンコーダによる概念ドリフトの教師なし学習

Unsupervised Unlearning of Concept Drift with Autoencoders ( http://arxiv.org/abs/2211.12989v1 )

ライセンス: Link先を確認
Andr\'e Artelt, Kleanthis Malialis, Christos Panayiotou, Marios Polycarpou, Barbara Hammer(参考訳) コンセプトドリフトの現象は、将来のサンプルのデータストリームに影響を与えるデータ分布の変化を指す。 その結果、データストリーム上で動作する学習モデルは時代遅れになり、再トレーニングや適応のようなコストがかかり難しい調整が必要になる。 概念ドリフトに対処する既存の方法は、通常、アクティブまたはパッシブに分類される。 前者は漸進学習を用いてモデルを継続的に適応し、後者はドリフト検出機構がアラームをトリガーするときに完全なモデル再訓練を行う。 我々は伝統的な道から出発し、コンセプトドリフトの効果を「解き放つ」代替アプローチを初めて提案する。 具体的には,データ上で動作する学習モデルの再トレーニングや適応を必要とせず,教師なしの方法で概念ドリフトを"アンラーニング"するオートエンコーダベースの手法を提案する。

The phenomena of concept drift refers to a change of the data distribution affecting the data stream of future samples -- such non-stationary environments are often encountered in the real world. Consequently, learning models operating on the data stream might become obsolete, and need costly and difficult adjustments such as retraining or adaptation. Existing methods to address concept drift are, typically, categorised as active or passive. The former continually adapt a model using incremental learning, while the latter perform a complete model retraining when a drift detection mechanism triggers an alarm. We depart from the traditional avenues and propose for the first time an alternative approach which "unlearns" the effects of the concept drift. Specifically, we propose an autoencoder-based method for "unlearning" the concept drift in an unsupervised manner, without having to retrain or adapt any of the learning models operating on the data.
翻訳日:2022-11-24 14:12:15 公開日:2022-11-23
# リスク認識と多目的強化学習のためのモンテカルロ木探索アルゴリズム

Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2211.13032v1 )

ライセンス: Link先を確認
Conor F. Hayes and Mathieu Reymond and Diederik M. Roijers and Enda Howley and Patrick Mannion(参考訳) 多くのリスク認識および多目的強化学習設定において、ユーザの有用性はポリシーの単一実行から導かれる。 これらの設定では、平均的な将来のリターンに基づいた決定は適切ではない。 例えば、医療現場では、患者は病気を治療する機会を1つだけ持つことができる。 期待される将来のリターン(強化学習でその価値として知られる)だけを使って決定を下すことは、決定が持つ可能性のある有害あるいはポジティブな結果の範囲を考慮できない。 したがって、期待される未来に対する分布は、エージェントが決定時に要求する重要な情報を表すために、未来と獲得されたリターンの両方を考慮に入れ、異なる方法で利用すべきである。 本稿では2つのモンテカルロ木探索アルゴリズムを提案する。 まず,非線形ユーティリティ関数(nlu-mcts)のポリシーを,個別のポリシー実行から実現可能な異なる帰納法の有用性を最適化することで計算し,リスク認識と多目的設定の両方に優れたポリシーをもたらすモンテカルロ木探索アルゴリズムを提案する。 次に,NLU-MCTSを拡張した分布型モンテカルロ木探索アルゴリズム(DMCTS)を提案する。 DMCTSはリターンの効用に関する近似した後続分布を計算し、トンプソンサンプリングを用いてリスク対応および多目的設定のポリシーを計算する。 どちらのアルゴリズムも、リターンの期待する有用性のために、多目的強化学習において最先端を上回っている。

In many risk-aware and multi-objective reinforcement learning settings, the utility of the user is derived from a single execution of a policy. In these settings, making decisions based on the average future returns is not suitable. For example, in a medical setting a patient may only have one opportunity to treat their illness. Making decisions using just the expected future returns -- known in reinforcement learning as the value -- cannot account for the potential range of adverse or positive outcomes a decision may have. Therefore, we should use the distribution over expected future returns differently to represent the critical information that the agent requires at decision time by taking both the future and accrued returns into consideration. In this paper, we propose two novel Monte Carlo tree search algorithms. Firstly, we present a Monte Carlo tree search algorithm that can compute policies for nonlinear utility functions (NLU-MCTS) by optimising the utility of the different possible returns attainable from individual policy executions, resulting in good policies for both risk-aware and multi-objective settings. Secondly, we propose a distributional Monte Carlo tree search algorithm (DMCTS) which extends NLU-MCTS. DMCTS computes an approximate posterior distribution over the utility of the returns, and utilises Thompson sampling during planning to compute policies in risk-aware and multi-objective settings. Both algorithms outperform the state-of-the-art in multi-objective reinforcement learning for the expected utility of the returns.
翻訳日:2022-11-24 14:12:02 公開日:2022-11-23
# powderworld:リッチなタスク分散による一般化を理解するプラットフォーム

Powderworld: A Platform for Understanding Generalization via Rich Task Distributions ( http://arxiv.org/abs/2211.13051v1 )

ライセンス: Link先を確認
Kevin Frans, Phillip Isola(参考訳) 強化学習の大きな課題の1つは、新しいタスクに一般化する能力である。 しかし、一般的なエージェントは訓練するために豊富な多様なタスクを必要とする。 そのようなタスクのための'基礎環境'を設計するのは難しい -- 理想的な環境は、様々な創発的な現象、表現力のあるタスク空間、高速なランタイムをサポートするだろう。 この研究ボトルネックに対処するために、この研究は、GPU上で直接実行される軽量で表現力のあるシミュレーション環境であるPowderworldを提示する。 powderworldでは、世界モデリングのためのものと強化学習のためのものという、2つのモチベーションのある課題が提示されている。 それぞれが一般化を調べるための手動で設計されたテストタスクを含んでいる。 実験により、環境の複雑さを増大させることで、世界モデルや特定の強化学習エージェントの一般化が向上するが、高分散環境における学習を阻害する可能性が示唆された。 Powderworldは、同じコアルールから生じる多様なタスクのソースを提供することで、一般化の研究を支援することを目指している。

One of the grand challenges of reinforcement learning is the ability to generalize to new tasks. However, general agents require a set of rich, diverse tasks to train on. Designing a `foundation environment' for such tasks is tricky -- the ideal environment would support a range of emergent phenomena, an expressive task space, and fast runtime. To take a step towards addressing this research bottleneck, this work presents Powderworld, a lightweight yet expressive simulation environment running directly on the GPU. Within Powderworld, two motivating challenges distributions are presented, one for world-modelling and one for reinforcement learning. Each contains hand-designed test tasks to examine generalization. Experiments indicate that increasing the environment's complexity improves generalization for world models and certain reinforcement learning agents, yet may inhibit learning in high-variance environments. Powderworld aims to support the study of generalization by providing a source of diverse tasks arising from the same core rules.
翻訳日:2022-11-24 14:11:38 公開日:2022-11-23
# コンセプトドリフト検出器は信頼性アラームシステムか? ─比較研究

Are Concept Drift Detectors Reliable Alarming Systems? -- A Comparative Study ( http://arxiv.org/abs/2211.13098v1 )

ライセンス: Link先を確認
Lorena Poenaru-Olaru, Luis Cruz, Arie van Deursen, Jan S. Rellermeyer(参考訳) 機械学習モデルがプロダクションシステムにおける従来のビジネスロジックを置き換えるにつれ、彼らのライフサイクル管理は重要な関心事になりつつある。 運用環境にデプロイされると、機械学習モデルは、新しいストリーミングデータに対して常に評価される。 連続的なデータフローを考えると、コンセプトドリフト(concept drift)としても知られるシフトデータは、そのような設定ではユビキタスである。 コンセプトドリフトは通常、機械学習モデルのパフォーマンスに影響を与えるため、概念ドリフトが発生する瞬間を特定する必要がある。 概念ドリフトは概念ドリフト検出器によって識別される。 本研究では, ドリフト検知器の信頼性を検証し, ドリフトがいつまで遅れているか, 誤報が何回鳴らされているかを調べる。 2つの異なる概念ドリフト検出器群に属する最も人気のあるドリフト検出器(誤差率に基づく検出器とデータ分布に基づく検出器)の性能を比較する。 合成データと実世界データの両方でその性能を評価する。 合成データの場合,2種類のコンセプトドリフト,突発的および漸進的なドリフトを検知する検出器の性能について検討する。 本研究は,ドリフト検出器をどのような状況で使用するべきかを実践者が理解することを目的としており,本研究を通じて最も重要な観測結果のリストを公開し,実際的利用のガイドラインとして提供する。 さらに,実験結果に基づき,警報システムとして使用する概念ドリフト検出グループの適合性について検討した。

As machine learning models increasingly replace traditional business logic in the production system, their lifecycle management is becoming a significant concern. Once deployed into production, the machine learning models are constantly evaluated on new streaming data. Given the continuous data flow, shifting data, also known as concept drift, is ubiquitous in such settings. Concept drift usually impacts the performance of machine learning models, thus, identifying the moment when concept drift occurs is required. Concept drift is identified through concept drift detectors. In this work, we assess the reliability of concept drift detectors to identify drift in time by exploring how late are they reporting drifts and how many false alarms are they signaling. We compare the performance of the most popular drift detectors belonging to two different concept drift detector groups, error rate-based detectors and data distribution-based detectors. We assess their performance on both synthetic and real-world data. In the case of synthetic data, we investigate the performance of detectors to identify two types of concept drift, abrupt and gradual. Our findings aim to help practitioners understand which drift detector should be employed in different situations and, to achieve this, we share a list of the most important observations made throughout this study, which can serve as guidelines for practical usage. Furthermore, based on our empirical results, we analyze the suitability of each concept drift detection group to be used as alarming system.
翻訳日:2022-11-24 14:11:23 公開日:2022-11-23
# バイナリニューラルネットワークによるImageNetの高精度クラブへの参加

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket ( http://arxiv.org/abs/2211.12933v1 )

ライセンス: Link先を確認
Nianhui Guo, Joseph Bethge, Christoph Meinel, Haojin Yang(参考訳) バイナリニューラルネットワークは、エッジ機械学習ソリューションとして長年考えられてきた、ネットワーク量子化の極端なケースである。 しかし、実際の精度との大きなギャップは、モバイルアプリケーションに対する創造的可能性を制限する。 ILSVRC-2012 ImageNetでは、バイナリニューラルネットワークが重要な精度レベル(例えば80%)をどうやって達成できるのか? 我々は,(1)バイナリアーキテクチャの包括的研究と最適化プロセスに基づいて,新しいバイナリアーキテクチャbnextを設計すること,という3つの相補的な視点から最適化プロセスを強化することで,この目標を達成している。 2) 極めて正確なバイナリモデルを訓練する際の反直観的オーバーフィッティング問題を緩和する新しい知識蒸留手法を提案する。 3) バイナリネットワークのデータ拡張パイプラインを解析し, 高精度モデルによる最新の手法を用いて近代化する。 ImageNetの評価結果によると、BNextは初めてバイナリモデルの精度境界を80.57%に押し上げ、既存の全てのバイナリネットワークを大幅に上回っている。 コードとトレーニングされたモデルは、 (blind url, appendix を参照) で利用可能である。

Binary neural networks are the extreme case of network quantization, which has long been thought of as a potential edge machine learning solution. However, the significant accuracy gap to the full-precision counterparts restricts their creative potential for mobile applications. In this work, we revisit the potential of binary neural networks and focus on a compelling but unanswered problem: how can a binary neural network achieve the crucial accuracy level (e.g., 80%) on ILSVRC-2012 ImageNet? We achieve this goal by enhancing the optimization process from three complementary perspectives: (1) We design a novel binary architecture BNext based on a comprehensive study of binary architectures and their optimization process. (2) We propose a novel knowledge-distillation technique to alleviate the counter-intuitive overfitting problem observed when attempting to train extremely accurate binary models. (3) We analyze the data augmentation pipeline for binary networks and modernize it with up-to-date techniques from full-precision models. The evaluation results on ImageNet show that BNext, for the first time, pushes the binary model accuracy boundary to 80.57% and significantly outperforms all the existing binary networks. Code and trained models are available at: (blind URL, see appendix).
翻訳日:2022-11-24 14:05:46 公開日:2022-11-23
# 人間かマシンか? 視覚と言語のためのチューリングテスト

Human or Machine? Turing Tests for Vision and Language ( http://arxiv.org/abs/2211.13087v1 )

ライセンス: Link先を確認
Mengmi Zhang, Giorgia Dellaferrera, Ankur Sikarwar, Marcelo Armendariz, Noga Mudrik, Prachi Agrawal, Spandan Madan, Andrei Barbu, Haochen Yang, Tanishq Kumar, Meghna Sadwani, Stella Dellaferrera, Michele Pizzochero, Hanspeter Pfister, Gabriel Kreiman(参考訳) AIアルゴリズムは、かつて人類の唯一の州だった日々の活動にますます参加しているので、私たちは必然的に、機械が本当に私たちに似ているかを考える。 この問題に対処するため、チューリングテストに目を向け、現在のAIを人間を模倣する能力で体系的にベンチマークする。 本研究では,チューリング型テストにおける人間対機械の評価手法を確立し,選択された領域,パラメータ,変数の代表集合を体系的に評価する。 実験では、769人の人間エージェント、24人の最先端AIエージェント、896人の人間裁判官、8人のAI裁判官が、視覚と言語モダリティを含む6つのタスクにわたる21,570人のチューリングテストを行った。 驚くべきことに、現在のAIは、複雑な視覚的および言語的課題において、年齢、性別、教育レベルの異なる人間の裁判官を偽装できるわけではない。 対照的に、単純なAIは人間の答えと機械の答えを区別することで人間の判断を上回ります。 ここで紹介された大規模チューリングテストデータセットとその評価メトリクスは、エージェントが人間であるかどうかを評価するための貴重な洞察を提供する。 現在のaisにおける人間の模倣能力を評価するための定式化は、研究コミュニティがチューリングテストを他の研究領域や条件に拡大する方法である。 すべてのソースコードとデータはhttps://tinyurl.com/8x8nha7pで公開されている。

As AI algorithms increasingly participate in daily activities that used to be the sole province of humans, we are inevitably called upon to consider how much machines are really like us. To address this question, we turn to the Turing test and systematically benchmark current AIs in their abilities to imitate humans. We establish a methodology to evaluate humans versus machines in Turing-like tests and systematically evaluate a representative set of selected domains, parameters, and variables. The experiments involved testing 769 human agents, 24 state-of-the-art AI agents, 896 human judges, and 8 AI judges, in 21,570 Turing tests across 6 tasks encompassing vision and language modalities. Surprisingly, the results reveal that current AIs are not far from being able to impersonate human judges across different ages, genders, and educational levels in complex visual and language challenges. In contrast, simple AI judges outperform human judges in distinguishing human answers versus machine answers. The curated large-scale Turing test datasets introduced here and their evaluation metrics provide valuable insights to assess whether an agent is human or not. The proposed formulation to benchmark human imitation ability in current AIs paves a way for the research community to expand Turing tests to other research areas and conditions. All of source code and data are publicly available at https://tinyurl.com/8x8nha7p
翻訳日:2022-11-24 14:05:26 公開日:2022-11-23
# 物体検出のための構造知識蒸留

Structural Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2211.13133v1 )

ライセンス: Link先を確認
Philip de Rijk, Lukas Schneider, Marius Cordts, Dariu M. Gavrila(参考訳) 知識蒸留(KD)は、大きな教師モデルによって得られた知識を小学生に伝達するディープニューラルネットワークにおいてよく知られた訓練パラダイムである。 kdは、オブジェクト検出を含む様々なタスクにおける学生のパフォーマンスを大幅に改善する効果的な技術であることが証明されている。 したがって、kd技法は主に中間的特徴レベルでの指導に依存しており、訓練中に教師と生徒のアクティベーションの間のlpノルム距離を最小化することで実装される。 本稿では,構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。 付加的なコントラストと構造的手がかりを考慮し, 特徴空間における特徴の重要性, 相関, 空間依存性を考慮する。 MSCOCOに関する大規模な実験は、異なるトレーニングスキームとアーキテクチャにわたる手法の有効性を実証している。 本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。 さらに、注意に基づくサンプリング機構を用いたより複雑な最先端KD手法は、バニラモデルに比べて高速なR-CNN R-50を用いた+3.5APゲインを含む性能が優れている。

Knowledge Distillation (KD) is a well-known training paradigm in deep neural networks where knowledge acquired by a large teacher model is transferred to a small student. KD has proven to be an effective technique to significantly improve the student's performance for various tasks including object detection. As such, KD techniques mostly rely on guidance at the intermediate feature level, which is typically implemented by minimizing an lp-norm distance between teacher and student activations during training. In this paper, we propose a replacement for the pixel-wise independent lp-norm based on the structural similarity (SSIM). By taking into account additional contrast and structural cues, feature importance, correlation and spatial dependence in the feature space are considered in the loss formulation. Extensive experiments on MSCOCO demonstrate the effectiveness of our method across different training schemes and architectures. Our method adds only little computational overhead, is straightforward to implement and at the same time it significantly outperforms the standard lp-norms. Moreover, more complex state-of-the-art KD methods using attention-based sampling mechanisms are outperformed, including a +3.5 AP gain using a Faster R-CNN R-50 compared to a vanilla model.
翻訳日:2022-11-24 14:04:47 公開日:2022-11-23
# 任意長高精細ビデオ生成のための潜時拡散モデル

Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths ( http://arxiv.org/abs/2211.13221v1 )

ライセンス: Link先を確認
Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen(参考訳) AI生成コンテンツは近年多くの注目を集めているが、写真リアリスティックなビデオ合成はまだ難しい。 GANと自己回帰モデルを用いた多くの試みがこの領域で行われているが、生成したビデオの視覚的品質と長さは満足できない。 拡散モデル (DM) は深層生成モデルの別のクラスであり、最近では様々な画像合成タスクにおいて顕著な性能を達成している。 しかし、画像拡散モデルの訓練は通常、高パフォーマンスを達成するためにかなりの計算資源を必要とするため、高次元ビデオ合成タスクへの拡散モデルの拡張は計算コストが高くなる。 優位性を生かしながらこの問題を緩和するために,高忠実度および任意の長大映像を純雑音から合成する軽量ビデオ拡散モデルを導入する。 具体的には, 計算予算が限定された場合の3次元画素空間における従来の方法を大幅に上回る低次元3次元潜時空間における拡散と除音を行う。 さらに、何万フレームでトレーニングしても、私たちのモデルは任意の長さ、すなわち数千フレームの動画を自己回帰的に生成することができます。 最後に, 条件付き潜伏摂動を導入し, 長周期ビデオの合成における性能劣化を低減する。 さまざまなデータセットと生成した長さに関する広範な実験は、ganベース、自己回帰ベース、拡散ベースなど、以前のアプローチよりもずっとリアルで長いビデオをサンプリングできることを示唆している。

AI-generated content has attracted lots of attention recently, but photo-realistic video synthesis is still challenging. Although many attempts using GANs and autoregressive models have been made in this area, the visual quality and length of generated videos are far from satisfactory. Diffusion models (DMs) are another class of deep generative models and have recently achieved remarkable performance on various image synthesis tasks. However, training image diffusion models usually requires substantial computational resources to achieve a high performance, which makes expanding diffusion models to high-dimensional video synthesis tasks more computationally expensive. To ease this problem while leveraging its advantages, we introduce lightweight video diffusion models that synthesize high-fidelity and arbitrary-long videos from pure noise. Specifically, we propose to perform diffusion and denoising in a low-dimensional 3D latent space, which significantly outperforms previous methods on 3D pixel space when under a limited computational budget. In addition, though trained on tens of frames, our models can generate videos with arbitrary lengths, i.e., thousands of frames, in an autoregressive way. Finally, conditional latent perturbation is further introduced to reduce performance degradation during synthesizing long-duration videos. Extensive experiments on various datasets and generated lengths suggest that our framework is able to sample much more realistic and longer videos than previous approaches, including GAN-based, autoregressive-based, and diffusion-based methods.
翻訳日:2022-11-24 14:04:15 公開日:2022-11-23
# 感情・感性特徴を用いたサルカズム検出フレームワーク

Sarcasm Detection Framework Using Emotion and Sentiment Features ( http://arxiv.org/abs/2211.13014v1 )

ライセンス: Link先を確認
Oxana Vitman, Yevhen Kostiuk, Grigori Sidorov, Alexander Gelbukh(参考訳) Sarcasm検出は、議論フォーラムやツイートなど、ユーザ生成データ内の実際の感情を識別する上で不可欠なタスクである。 サルカズム(英: sarcasm)は、表面的な意味が通常内的、より深い意味と矛盾するため、洗練された言語表現である。 このような違和感はサルカズムの重要な構成要素であるが、サルカズムの検出は非常に難しい課題である。 本稿では,サルカズムに固有の違和感を捉えるために感情と感情の特徴を組み込んだモデルを提案する。 さらに,cnnと事前学習トランスフォーマを使用してコンテキスト特徴をキャプチャする。 我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。

Sarcasm detection is an essential task that can help identify the actual sentiment in user-generated data, such as discussion forums or tweets. Sarcasm is a sophisticated form of linguistic expression because its surface meaning usually contradicts its inner, deeper meaning. Such incongruity is the essential component of sarcasm, however, it makes sarcasm detection quite a challenging task. In this paper, we propose a model which incorporates emotion and sentiment features to capture the incongruity intrinsic to sarcasm. Moreover, we use CNN and pre-trained Transformer to capture context features. Our approach achieved state-of-the-art results on four datasets from social networking platforms and online media.
翻訳日:2022-11-24 14:03:50 公開日:2022-11-23
# TorchScale: スケールでのトランスフォーマー

TorchScale: Transformers at Scale ( http://arxiv.org/abs/2211.13184v1 )

ライセンス: Link先を確認
Shuming Ma, Hongyu Wang, Shaohan Huang, Wenhui Wang, Zewen Chi, Li Dong, Alon Benhaim, Barun Patra, Vishrav Chaudhary, Xia Song, Furu Wei(参考訳) 大規模トランスフォーマーは多くのタスクで最先端のパフォーマンスを達成した。 スケーリングトランスフォーマーのほとんどのオープンソースライブラリは、トレーニングや推論の改善と並列化の改善に重点を置いている。 本稿では,研究者や開発者が効率的にTransformerをスケールアップできるオープンソースツールキットであるTorchScaleを紹介する。 TorchScaleには,モデリングの汎用性と能力の向上,安定性と効率のトレーニングなど,いくつかのモデリングテクニックが実装されている。 言語モデリングとニューラルマシン翻訳の実験結果は、トーチスケールが涙なしでトランスフォーマーを異なるサイズにスケールできることを示した。 ライブラリはhttps://aka.ms/torchscale.comで入手できる。

Large Transformers have achieved state-of-the-art performance across many tasks. Most open-source libraries on scaling Transformers focus on improving training or inference with better parallelization. In this work, we present TorchScale, an open-source toolkit that allows researchers and developers to scale up Transformers efficiently and effectively. TorchScale has the implementation of several modeling techniques, which can improve modeling generality and capability, as well as training stability and efficiency. Experimental results on language modeling and neural machine translation demonstrate that TorchScale can successfully scale Transformers to different sizes without tears. The library is available at https://aka.ms/torchscale.
翻訳日:2022-11-24 14:03:38 公開日:2022-11-23
# SeedBERT: 集約ラベルからアノテーションのレーティング分布を復元する

SeedBERT: Recovering Annotator Rating Distributions from an Aggregated Label ( http://arxiv.org/abs/2211.13196v1 )

ライセンス: Link先を確認
Aneesha Sampath, Victoria Lin, Louis-Philippe Morency(参考訳) 多くの機械学習タスク、特に感情的コンピューティングタスクは、本質的に主観的です。 表情の分類や個人の魅力の評価を求めると、人間は互いに意見が一致せず、客観的に正しい答えは得られない。 しかしながら、機械学習データセットは、サンプル毎に単一の"ground truth"ラベルを持つことが多いため、これらのラベルでトレーニングされたモデルは、本質的に主観的なタスクではうまく機能しない可能性がある。 個々のアノテータのレーティングからモデルを学習することは有効であるが、ほとんどのデータセットは各サンプルに対してアノテータ固有のラベルを提供していない。 そこで本研究では,入力の異なる部分に対応するために事前学習したモデルを誘導することにより,単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。 人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。 さらに,大規模な言語モデルを用いた経験的評価では,標準的なディープラーニングモデルとアノテータの不一致を明示する他のモデルと比較して,下流の主観的タスクにおける性能が著しく向上したことを示す。

Many machine learning tasks -- particularly those in affective computing -- are inherently subjective. When asked to classify facial expressions or to rate an individual's attractiveness, humans may disagree with one another, and no single answer may be objectively correct. However, machine learning datasets commonly have just one "ground truth" label for each sample, so models trained on these labels may not perform well on tasks that are subjective in nature. Though allowing models to learn from the individual annotators' ratings may help, most datasets do not provide annotator-specific labels for each sample. To address this issue, we propose SeedBERT, a method for recovering annotator rating distributions from a single label by inducing pre-trained models to attend to different portions of the input. Our human evaluations indicate that SeedBERT's attention mechanism is consistent with human sources of annotator disagreement. Moreover, in our empirical evaluations using large language models, SeedBERT demonstrates substantial gains in performance on downstream subjective tasks compared both to standard deep learning models and to other current models that account explicitly for annotator disagreement.
翻訳日:2022-11-24 14:03:29 公開日:2022-11-23
# DyRRen: 単語とテキストデータを用いた数値推論のための動的Retriever-Reranker-Generatorモデル

DyRRen: A Dynamic Retriever-Reranker-Generator Model for Numerical Reasoning over Tabular and Textual Data ( http://arxiv.org/abs/2211.12668v1 )

ライセンス: Link先を確認
Xiao Li, Yin Zhu, Sichen Liu, Jiangzhou Ju, Yuzhong Qu, Gong Cheng(参考訳) テーブルと長いテキストを含むハイブリッドデータに対する数値推論は、最近AIコミュニティから研究の注目を集めている。 質問に答えるために数学とテーブル操作からなる実行可能な推論プログラムを生成するために、最先端の手法は、検索器ジェネレータパイプラインを使用する。 しかし、検索結果は静的であり、異なる生成ステップは異なる文に依存する可能性がある。 本稿では,各生成ステップに関連する検索情報に対応するために,検索文の動的更新によって各生成ステップが強化される拡張された検索-参照-生成フレームワークDyRRenを提案する。 FinQAデータセットの既存のベースラインを上回ります。

Numerical reasoning over hybrid data containing tables and long texts has recently received research attention from the AI community. To generate an executable reasoning program consisting of math and table operations to answer a question, state-of-the-art methods use a retriever-generator pipeline. However, their retrieval results are static, while different generation steps may rely on different sentences. To attend to the retrieved information that is relevant to each generation step, in this paper, we propose DyRRen, an extended retriever-reranker-generator framework where each generation step is enhanced by a dynamic reranking of retrieved sentences. It outperforms existing baselines on the FinQA dataset.
翻訳日:2022-11-24 14:02:38 公開日:2022-11-23
# 漢字の表現基盤を打破する:ストロークシーケンスモデリングを用いたニューラルマシン翻訳

Breaking the Representation Bottleneck of Chinese Characters: Neural Machine Translation with Stroke Sequence Modeling ( http://arxiv.org/abs/2211.12781v1 )

ライセンス: Link先を確認
Zhijun Wang, Xuebo Liu, Min Zhang(参考訳) 現存する研究は通常、漢字を表現の最小単位として扱う。 しかし、このような漢字表現には2つのボトルネックがある。 1)学習ボトルネック、学習は、その豊富な内部特徴(例えば、急進性とストローク)の恩恵を受けることができない。 2) パラメータのボトルネック,各文字を一意なベクトルで表現する必要がある。 本稿では,ラテン化ストローク列で漢字を表現したストロークネット(ao1(concave)→ajaie(ajaie)→tu1(convex)→aeaqe(aeaqe))という,漢字のボトルネックを解消するための新しい表現法を提案する。 具体的には、StrokeNetは各ストロークを特定のラテン文字にマッピングし、類似の漢字が同様のラテン表現を持つようにしている。 strokenet to neural machine translation (nmt) の導入により、非ラテン言語(例えば、共用サブワード語彙学習や暗号テキストベースのデータ拡張)に応用できない多くの強力な技術が完全に実装できるようになった。 NIST Chinese- English, WMT17 Chinese- English and IWSLT17 Japanese- English NMT task において、StrokeNet は強力なベースラインに対して、より少ないモデルパラメータで大幅な性能向上を実現し、WMT17 Chinese- English task において26.5 BLEU を達成した。 コードとスクリプトはhttps://github.com/zjwang21/StrokeNetで無料で入手できる。

Existing research generally treats Chinese character as a minimum unit for representation. However, such Chinese character representation will suffer two bottlenecks: 1) Learning bottleneck, the learning cannot benefit from its rich internal features (e.g., radicals and strokes); and 2) Parameter bottleneck, each individual character has to be represented by a unique vector. In this paper, we introduce a novel representation method for Chinese characters to break the bottlenecks, namely StrokeNet, which represents a Chinese character by a Latinized stroke sequence (e.g., "ao1 (concave)" to "ajaie" and "tu1 (convex)" to "aeaqe"). Specifically, StrokeNet maps each stroke to a specific Latin character, thus allowing similar Chinese characters to have similar Latin representations. With the introduction of StrokeNet to neural machine translation (NMT), many powerful but not applicable techniques to non-Latin languages (e.g., shared subword vocabulary learning and ciphertext-based data augmentation) can now be perfectly implemented. Experiments on the widely-used NIST Chinese-English, WMT17 Chinese-English and IWSLT17 Japanese-English NMT tasks show that StrokeNet can provide a significant performance boost over the strong baselines with fewer model parameters, achieving 26.5 BLEU on the WMT17 Chinese-English task which is better than any previously reported results without using monolingual data. Code and scripts are freely available at https://github.com/zjwang21/StrokeNet.
翻訳日:2022-11-24 13:56:57 公開日:2022-11-23
# GraphWOZ:会話知識グラフを用いた対話管理

GraphWOZ: Dialogue Management with Conversational Knowledge Graphs ( http://arxiv.org/abs/2211.12852v1 )

ライセンス: Link先を確認
Nicholas Thomas Walker, Stefan Ultes, Pierre Lison(参考訳) 本稿では,対話状態のコア表現として会話知識グラフを用いた対話管理手法を提案する。 この目的のために,人間の参加者が受付係として働くロボットと対話する,Wizard-of-Oz対話を含む新しいデータセットGraphWOZを導入する。 対話管理に関する既存のほとんどの作業とは対照的に、GraphWOZはスロットの固定セットではなく、動的知識グラフとして明示的に表される対話状態に依存している。 このグラフは、さまざまなエンティティ(個人、場所、イベント、発話、言及など)とそれらの関係(グループの一員である人、イベントに参加する人など)で構成されている。 グラフは、新しい観測とシステムアクションに基づいて定期的に更新される。 GraphWOZは、ユーザ意図、システム応答、およびユーザとシステムターンの両方で発生する参照関係に関する詳細なマニュアルアノテーションとともにリリースされた。 GraphWOZに基づいて,対話型エンティティリンクと応答ランキングという2つの対話管理タスクの実験結果を示す。 対話型エンティティリンクでは,文字列とグラフに基づく特徴の組み合わせに依存したニューラルモデルを用いて,知識グラフ内の発話参照を対応するエンティティに接続する方法を示す。 次に、応答ランキングは、グラフの関連内容をテキストに要約し、対話履歴と連結し、所定の対話状態に対して可能な応答をスコアする入力として使用される。

We present a new approach to dialogue management using conversational knowledge graphs as core representation of the dialogue state. To this end, we introduce a new dataset, GraphWOZ, which comprises Wizard-of-Oz dialogues in which human participants interact with a robot acting as a receptionist. In contrast to most existing work on dialogue management, GraphWOZ relies on a dialogue state explicitly represented as a dynamic knowledge graph instead of a fixed set of slots. This graph is composed of a varying number of entities (such as individuals, places, events, utterances and mentions) and relations between them (such as persons being part of a group or attending an event). The graph is then regularly updated on the basis of new observations and system actions. GraphWOZ is released along with detailed manual annotations related to the user intents, system responses, and reference relations occurring in both user and system turns. Based on GraphWOZ, we present experimental results for two dialogue management tasks, namely conversational entity linking and response ranking. For conversational entity linking, we show how to connect utterance mentions to their corresponding entity in the knowledge graph with a neural model relying on a combination of both string and graph-based features. Response ranking is then performed by summarizing the relevant content of the graph into a text, which is concatenated with the dialogue history and employed as input to score possible responses to a given dialogue state.
翻訳日:2022-11-24 13:56:23 公開日:2022-11-23
# 何が起きたのか:マルチモーダルマスクビデオ生成によるテキストガイドビデオの完成

Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation ( http://arxiv.org/abs/2211.12824v1 )

ライセンス: Link先を確認
Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell(参考訳) 最初のいくつかの静的フレームを与えられたビデオを生成することは、時間的コヒーレンスで合理的な将来のフレームを予測できるため、難しい。 ビデオ予測の他に、最後のフレームから巻き戻したり、頭と尾の間に埋め込む能力も重要であるが、ビデオ補完のために探索されることはめったにない。 ほんの数フレームのヒントから異なる結果が得られる可能性があるため、自然言語に従ってビデオ補完を行うシステムは、制御性を大幅に改善する可能性がある。 そこで本研究では,テキスト誘導ビデオ補完(TVC)という新たなタスクを導入し,命令で案内された部分フレームから映像を生成することをモデルに要求する。 次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。 トレーニング中、MMVGはビデオフレームを視覚トークンとマスクに識別し、そのほとんどが任意の時点からビデオ補完を行う。 推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。 我々は、エゴセントリック、アニメーション、ゲームなど、様々なビデオシナリオでMMVGを評価する。 広汎な実験結果から,MMVGはTVCのテキスト誘導による高品質な視覚的外観の生成に有効であることが示唆された。

Generating a video given the first several static frames is challenging as it anticipates reasonable future frames with temporal coherence. Besides video prediction, the ability to rewind from the last frame or infilling between the head and tail is also crucial, but they have rarely been explored for video completion. Since there could be different outcomes from the hints of just a few frames, a system that can follow natural language to perform video completion may significantly improve controllability. Inspired by this, we introduce a novel task, text-guided video completion (TVC), which requests the model to generate a video from partial frames guided by an instruction. We then propose Multimodal Masked Video Generation (MMVG) to address this TVC task. During training, MMVG discretizes the video frames into visual tokens and masks most of them to perform video completion from any time point. At inference time, a single MMVG model can address all 3 cases of TVC, including video prediction, rewind, and infilling, by applying corresponding masking conditions. We evaluate MMVG in various video scenarios, including egocentric, animation, and gaming. Extensive experimental results indicate that MMVG is effective in generating high-quality visual appearances with text guidance for TVC.
翻訳日:2022-11-24 13:56:03 公開日:2022-11-23
# 自動構築アタックアンサンブルによる信頼性ロバスト性評価

Reliable Robustness Evaluation via Automatically Constructed Attack Ensembles ( http://arxiv.org/abs/2211.12713v1 )

ライセンス: Link先を確認
Shengcai Liu, Fu Peng, Ke Tang(参考訳) 複数の攻撃を組み合わせるアタック・アンサンブル(AE)は、敵の堅牢性を評価する信頼性の高い方法を提供する。 実際には、AEは人間の専門家によって構築され、調整されることが多いが、これは準最適で時間を要する傾向がある。 本稿では,AEを自動構築するための概念的にシンプルなアプローチであるAutoAEを提案する。 簡単に言うと、autoaeはアタックとそのイテレーションステップをアンサンブルに追加し、追加のイテレーションに対してアンサンブルの改善を最大化する。 理論上、AutoAEは与えられた防御に最適の定数係数でAEを確実に得ることを示す。 次に、AutoAEを使用して、$l_{\infty}$と$l_2$攻撃用の2つのAEを構築し、ロバストベンチリーダーボード上の45のトップ敵防衛にチューニングや適応をせずにそれらを適用します。 1つのケースを除いて、既存のaesよりもロバスト性評価が等しく(しばしば後者)、特に29ケースでは、最もよく知られたものよりもロバスト性評価が優れています。 このようなAutoAEの性能は、自身を敵の堅牢性に対する信頼性の高い評価プロトコルとして示しており、さらに自動AE構築の可能性を示している。 コードは \url{https://github.com/LeegerPENG/AutoAE} で入手できる。

Attack Ensemble (AE), which combines multiple attacks together, provides a reliable way to evaluate adversarial robustness. In practice, AEs are often constructed and tuned by human experts, which however tends to be sub-optimal and time-consuming. In this work, we present AutoAE, a conceptually simple approach for automatically constructing AEs. In brief, AutoAE repeatedly adds the attack and its iteration steps to the ensemble that maximizes ensemble improvement per additional iteration consumed. We show theoretically that AutoAE yields AEs provably within a constant factor of the optimal for a given defense. We then use AutoAE to construct two AEs for $l_{\infty}$ and $l_2$ attacks, and apply them without any tuning or adaptation to 45 top adversarial defenses on the RobustBench leaderboard. In all except one cases we achieve equal or better (often the latter) robustness evaluation than existing AEs, and notably, in 29 cases we achieve better robustness evaluation than the best known one. Such performance of AutoAE shows itself as a reliable evaluation protocol for adversarial robustness, which further indicates the huge potential of automatic AE construction. Code is available at \url{https://github.com/LeegerPENG/AutoAE}.
翻訳日:2022-11-24 13:55:41 公開日:2022-11-23
# 機能的コネクトーム:ニューラルネットワークによる脳ネットワークの近似化

Functional Connectome: Approximating Brain Networks with Artificial Neural Networks ( http://arxiv.org/abs/2211.12935v1 )

ライセンス: Link先を確認
Sihao Liu (Daniel), Augustine N Mavor-Parker, Caswell Barry(参考訳) 生体神経回路, 機能コネクトームによってインスタンス化された関数を近似する深層学習の能力を探究することを目的とした。 ディープニューラルネットワークを用いて,人工的に構築したニューラルネットワークと,実験的に支持された境界ベクトル型セルプレースセルネットワークによる発火速度観測を行い,教師あり学習を行った。 訓練されたネットワークの性能は、様々な基準とタスクを用いて定量化した。 その結果, 深層ニューラルネットワークは, 合成生物ネットワークによる計算を高精度に捉えることができ, データの効率が高く, 生体可塑性にも頑健であった。 訓練された深層ニューラルネットワークは、新しい環境でゼロショットの一般化を実行でき、宇宙における動物の位置を高精度に復号するといった、豊富なタスクを実現できることを示す。 本研究は,システム神経科学における新しい,有望な方向性を明らかにし,目標指向強化学習など,多数の下流応用によって拡張することができる。

We aimed to explore the capability of deep learning to approximate the function instantiated by biological neural circuits-the functional connectome. Using deep neural networks, we performed supervised learning with firing rate observations drawn from synthetically constructed neural circuits, as well as from an empirically supported Boundary Vector Cell-Place Cell network. The performance of trained networks was quantified using a range of criteria and tasks. Our results show that deep neural networks were able to capture the computations performed by synthetic biological networks with high accuracy, and were highly data efficient and robust to biological plasticity. We show that trained deep neural networks are able to perform zero-shot generalisation in novel environments, and allows for a wealth of tasks such as decoding the animal's location in space with high accuracy. Our study reveals a novel and promising direction in systems neuroscience, and can be expanded upon with a multitude of downstream applications, for example, goal-directed reinforcement learning.
翻訳日:2022-11-24 13:55:19 公開日:2022-11-23
# 統合事前学習型変圧器ピラミッドネットワーク

Integrally Pre-Trained Transformer Pyramid Networks ( http://arxiv.org/abs/2211.12735v1 )

ライセンス: Link先を確認
Yunjie Tian, Lingxi Xie, Zhaozhi Wang, Longhui Wei, Xiaopeng Zhang, Jianbin Jiao, Yaowei Wang, Qi Tian, Qixiang Ye(参考訳) 本稿では,マスク画像モデリング(MIM)に基づく統合事前学習フレームワークを提案する。 我々は,MIMと下流認識タスク間の伝達ギャップを最小限に抑えるために,バックボーンとネックを共同で事前訓練することを提唱する。 私たちは2つの技術貢献をします。 まず,事前学習段階に特徴ピラミッドを挿入することで,復元と認識の首を統一する。 第二に、マスク画像モデリング(MIM)とマスク特徴モデリング(MFM)を補完し、特徴ピラミッドの多段階監視を行う。 統合的に事前訓練されたトランスフォーマーピラミッドネットワーク(iTPN)と呼ばれる事前学習モデルは、視覚認識のための強力な基礎モデルとして機能する。 特に、ベースレベルのiTPNはImageNet-1Kで86.2%/87.8%、Mask-RCNNで1xのトレーニングスケジュールでCOCOオブジェクト検出で53.2%/55.6%、UPerHeadでADE20Kセマンティックセグメンテーションで54.7%/57.7% mIoUを達成した。 私たちの作業は、上流の事前トレーニングと下流の微調整タスクの統合に取り組むコミュニティに刺激を与えます。 コードと事前トレーニングされたモデルはhttps://github.com/sunsmarterjie/iTPNでリリースされる。

In this paper, we present an integral pre-training framework based on masked image modeling (MIM). We advocate for pre-training the backbone and neck jointly so that the transfer gap between MIM and downstream recognition tasks is minimal. We make two technical contributions. First, we unify the reconstruction and recognition necks by inserting a feature pyramid into the pre-training stage. Second, we complement mask image modeling (MIM) with masked feature modeling (MFM) that offers multi-stage supervision to the feature pyramid. The pre-trained models, termed integrally pre-trained transformer pyramid networks (iTPNs), serve as powerful foundation models for visual recognition. In particular, the base/large-level iTPN achieves an 86.2%/87.8% top-1 accuracy on ImageNet-1K, a 53.2%/55.6% box AP on COCO object detection with 1x training schedule using Mask-RCNN, and a 54.7%/57.7% mIoU on ADE20K semantic segmentation using UPerHead -- all these results set new records. Our work inspires the community to work on unifying upstream pre-training and downstream fine-tuning tasks. Code and the pre-trained models will be released at https://github.com/sunsmarterjie/iTPN.
翻訳日:2022-11-24 13:54:12 公開日:2022-11-23
# 自己教師型学習による文脈からの推論

Reason from Context with Self-supervised Learning ( http://arxiv.org/abs/2211.12817v1 )

ライセンス: Link先を確認
Xiao Liu, Ankur Sikarwar, Joo Hwee Lim, Gabriel Kreiman, Zenglin Shi, Mengmi Zhang(参考訳) 空の小さな物体は象ではありません。 文脈推論は視覚認識において重要であり、現在の入力は以前の経験や知識から解釈する必要がある。 これまで,視覚認識における文脈推論の研究は,教師付き学習手法によって大きく進められてきた。 自己監督学習体制で文脈知識を捉えることができるかという疑問は未検討のままである。 ここでは,文脈認識型自己教師付き学習の方法論を確立した。 本研究では,SeCo への入力は,自然の場面に複数オブジェクトが存在するラベル付き画像のみである,SeCo の自己教師付き学習手法を提案する。 人間の視覚における焦点と周囲の区別と同様に、SeCoは自己提案対象領域とそのコンテキストを別々に処理し、学習可能な外部メモリを使用してコンテキスト関連対象情報の検索と更新を行う。 計算モデルを用いて学習した文脈関連性を評価するため、文脈推論における「何」と「どこで」の問題に対処するため、リフト・ザ・フラップとオブジェクトプライミングという2つの評価プロトコルを導入した。 どちらのタスクでも、SeCoは最先端(SOTA)の自己教師型学習手法を大きなマージンで上回りました。 ネットワーク分析の結果、SeCoの外部メモリは、事前のコンテキスト知識を記憶し、リフト・ザ・フラップタスクにおけるターゲットの同一性推論を容易にすることが判明した。 さらに,精神物理学実験を行い,対象プライミングデータセット(HOP)にHumanベンチマークを導入した。 定量的および定性的な結果から,SeCoは人間レベルの性能を近似し,人間的な行動を示すことが示された。 ソースコードとデータはすべて、ここで公開されています。

A tiny object in the sky cannot be an elephant. Context reasoning is critical in visual recognition, where current inputs need to be interpreted in the light of previous experience and knowledge. To date, research into contextual reasoning in visual recognition has largely proceeded with supervised learning methods. The question of whether contextual knowledge can be captured with self-supervised learning regimes remains under-explored. Here, we established a methodology for context-aware self-supervised learning. We proposed a novel Self-supervised Learning Method for Context Reasoning (SeCo), where the only inputs to SeCo are unlabeled images with multiple objects present in natural scenes. Similar to the distinction between fovea and periphery in human vision, SeCo processes self-proposed target object regions and their contexts separately, and then employs a learnable external memory for retrieving and updating context-relevant target information. To evaluate the contextual associations learned by the computational models, we introduced two evaluation protocols, lift-the-flap and object priming, addressing the problems of "what" and "where" in context reasoning. In both tasks, SeCo outperformed all state-of-the-art (SOTA) self-supervised learning methods by a significant margin. Our network analysis revealed that the external memory in SeCo learns to store prior contextual knowledge, facilitating target identity inference in lift-the-flap task. Moreover, we conducted psychophysics experiments and introduced a Human benchmark in Object Priming dataset (HOP). Our quantitative and qualitative results demonstrate that SeCo approximates human-level performance and exhibits human-like behavior. All our source code and data are publicly available here.
翻訳日:2022-11-24 13:53:46 公開日:2022-11-23
# FeTrIL: 初級クラス増分学習のための特徴翻訳

FeTrIL: Feature Translation for Exemplar-Free Class-Incremental Learning ( http://arxiv.org/abs/2211.13131v1 )

ライセンス: Link先を確認
Gr\'egoire Petit, Adrian Popescu, Hugo Schindler, David Picard, Bertrand Delezoide(参考訳) 難解なクラスインクリメンタル学習は、破滅的な放棄の悪影響のため、非常に困難である。 新しいクラスだけでなく過去の精度を高めるためには, 段階的プロセスの安定性と可塑性のバランスが必要である。 既存の非古典的クラス増分法は、モデルの連続的な微調整に焦点をあて、可塑性を優先するか、初期漸進状態後に固定された特徴抽出器を使用するか、安定性を優先する。 固定特徴抽出器と擬似特徴生成器を組み合わせて安定性・塑性バランスを改善する手法を提案する。 ジェネレータは、新しいクラス機能の単純かつ効果的な幾何学的変換を使用して、擬似機能で作られた過去のクラスの表現を生成する。 機能の翻訳は、擬似特徴を生成するために過去のクラスのセントロイド表現の保存のみを必要とする。 新しいクラスの実際の特徴と過去のクラスの擬似特徴を線形分類器に入力し、すべてのクラスを識別するために漸進的に訓練する。 深層モデル全体を更新する主流のプロセスに比べて,提案手法よりもインクリメンタルなプロセスの方がはるかに高速である。 実験は3つの挑戦的なデータセットと異なるインクリメンタル設定で実施される。 既存手法10例と比較したところ,本手法はほとんどの場合,他の手法よりも優れていた。

Exemplar-free class-incremental learning is very challenging due to the negative effect of catastrophic forgetting. A balance between stability and plasticity of the incremental process is needed in order to obtain good accuracy for past as well as new classes. Existing exemplar-free class-incremental methods focus either on successive fine tuning of the model, thus favoring plasticity, or on using a feature extractor fixed after the initial incremental state, thus favoring stability. We introduce a method which combines a fixed feature extractor and a pseudo-features generator to improve the stability-plasticity balance. The generator uses a simple yet effective geometric translation of new class features to create representations of past classes, made of pseudo-features. The translation of features only requires the storage of the centroid representations of past classes to produce their pseudo-features. Actual features of new classes and pseudo-features of past classes are fed into a linear classifier which is trained incrementally to discriminate between all classes. The incremental process is much faster with the proposed method compared to mainstream ones which update the entire deep model. Experiments are performed with three challenging datasets, and different incremental settings. A comparison with ten existing methods shows that our method outperforms the others in most cases.
翻訳日:2022-11-24 13:48:17 公開日:2022-11-23
# CODA-Prompt:リハーサルなし連続学習のための意図に基づく意識型プロンプト

CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2211.13218v1 )

ライセンス: Link先を確認
James Seale Smith, Leonid Karlinsky, Vyshnavi Gutta, Paola Cascante-Bonilla, Donghyun Kim, Assaf Arbelle, Rameswar Panda, Rogerio Feris, Zsolt Kira(参考訳) コンピュータビジョンモデルは、連続的なトレーニングデータから新しい概念を学ぶとき、破滅的な忘れと呼ばれる現象に苦しむ。 この継続学習問題の典型的な解決策は、以前見られたデータの広範なリハーサルを必要とする。 近年,大規模な事前学習型視覚トランスフォーマーモデルの出現により,データリハーサルの代替として,プロンプトアプローチが実現されている。 これらのアプローチは、プロンプトを生成するキークエリ機構に依存しており、十分に確立されたリハーサルのない連続学習環境において、破滅的な忘れ方に非常に耐性があることが判明した。 しかし、これらのメソッドの重要なメカニズムは、タスクシーケンスでエンドツーエンドを訓練するものではない。 実験の結果,これによって可塑性が低下し,新たなタスク精度が犠牲になり,パラメータの容量が拡張できないことがわかった。 そこで我々は,入力条件付きプロンプトを生成するために,入力条件付き重みで組み立てられた一連のプロンプトコンポーネントを学習することを提案する。 実験の結果,既存のベンチマークにおけるSOTA法であるDualPromptを平均精度で5.4%上回っていることがわかった。 また,多くの実践的設定に対応するクラス単位とドメイン単位の両方のタスクシフトを含む連続学習ベンチマークにおいて,芸術の状態を最大6.6%の精度で上回っている。

Computer vision models suffer from a phenomenon known as catastrophic forgetting when learning novel concepts from continuously shifting training data. Typical solutions for this continual learning problem require extensive rehearsal of previously seen data, which increases memory costs and may violate data privacy. Recently, the emergence of large-scale pre-trained vision transformer models has enabled prompting approaches as an alternative to data-rehearsal. These approaches rely on a key-query mechanism to generate prompts and have been found to be highly resistant to catastrophic forgetting in the well-established rehearsal-free continual learning setting. However, the key mechanism of these methods is not trained end-to-end with the task sequence. Our experiments show that this leads to a reduction in their plasticity, hence sacrificing new task accuracy, and inability to benefit from expanded parameter capacity. We instead propose to learn a set of prompt components which are assembled with input-conditioned weights to produce input-conditioned prompts, resulting in a novel attention-based end-to-end key-query scheme. Our experiments show that we outperform the current SOTA method DualPrompt on established benchmarks by as much as 5.4% in average accuracy. We also outperform the state of art by as much as 6.6% accuracy on a continual learning benchmark which contains both class-incremental and domain-incremental task shifts, corresponding to many practical settings.
翻訳日:2022-11-24 13:47:59 公開日:2022-11-23
# 深層スパイクとニューラルネットワークのための塑性インスパイア適応プルーニングの開発

Developmental Plasticity-inspired Adaptive Pruning for Deep Spiking and Artificial Neural Networks ( http://arxiv.org/abs/2211.12714v1 )

ライセンス: Link先を確認
Bing Han, Feifei Zhao, Yi Zeng, Guobin Shen(参考訳) 発達的可塑性は、動的に変化する環境に反応して学習中の脳の構造を形成する上で重要な役割を担っている。 しかし、ディープ人工知能ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)の既存のネットワーク圧縮手法は、脳の発達的可塑性機構からほとんどインスピレーションを受けず、効率的に、迅速に、正確に学習する能力を制限する。 本稿では, 樹状突起, シナプス, ニューロンの適応的発達的プルーニングから着想を得て, 塑性刺激による適応的プルーニング(DPAP)法を提案する。 提案するDPAPモデルでは,適応的プルーニング戦略を付加して,複数の生物学的に現実的な機構(樹状突起動的塑性,活動依存神経スパイキングトレース,局所シナプス可塑性など)を考察し,事前学習や再訓練をせずにネットワーク構造を動的に最適化することができる。 提案手法が深部ANNやSNNに適用され,重要な接続やニューロンのみを保持する効率的なネットワークアーキテクチャを学習できることを実証した。 大規模な比較実験は、様々なベンチマークタスク、特にSNNのニューロモーフィックデータセットにおいて、非常に圧縮されたネットワークにおいて、一貫したパフォーマンスとスピードの向上を示す。 この研究は、発達的可塑性によって複雑な深層ネットワークが徐々に脳のような効率的でコンパクトな構造へと進化し、最終的には生物学的に現実的なSNNのための最先端(SOTA)のパフォーマンスを達成する方法を探る。

Developmental plasticity plays a vital role in shaping the brain's structure during ongoing learning in response to the dynamically changing environments. However, the existing network compression methods for deep artificial neural networks (ANNs) and spiking neural networks (SNNs) draw little inspiration from the brain's developmental plasticity mechanisms, thus limiting their ability to learn efficiently, rapidly, and accurately. This paper proposed a developmental plasticity-inspired adaptive pruning (DPAP) method, with inspiration from the adaptive developmental pruning of dendritic spines, synapses, and neurons according to the "use it or lose it, gradually decay" principle. The proposed DPAP model considers multiple biologically realistic mechanisms (such as dendritic spine dynamic plasticity, activity-dependent neural spiking trace, local synaptic plasticity), with the addition of an adaptive pruning strategy, so that the network structure can be dynamically optimized during learning without any pre-training and retraining. We demonstrated that the proposed DPAP method applied to deep ANNs and SNNs could learn efficient network architectures that retain only relevant important connections and neurons. Extensive comparative experiments show consistent and remarkable performance and speed boost with the extremely compressed networks on a diverse set of benchmark tasks, especially neuromorphic datasets for SNNs. This work explores how developmental plasticity enables the complex deep networks to gradually evolve into brain-like efficient and compact structures, eventually achieving state-of-the-art (SOTA) performance for biologically realistic SNNs.
翻訳日:2022-11-24 13:46:40 公開日:2022-11-23
# NSGA-IIのランタイム分析:3つ以上の目的に対する非効率性の証明、定量化、説明

Runtime Analysis for the NSGA-II: Proving, Quantifying, and Explaining the Inefficiency For Three or More Objectives ( http://arxiv.org/abs/2211.13084v1 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) NSGA-IIは多目的最適化問題を解く最も顕著なアルゴリズムの1つである。 多くの応用が成功し、また、非常に最近の競争力のある数学性能保証にもかかわらず、NSGA-IIはより大きな目的に対して効果が低いことがいくつかの研究で示されている。 本研究では,この現象の厳密な証明と定量化に数学的ランタイム解析を用いる。 単純なOneMinMaxベンチマークでは、全ての解がパレート最適である場合でも、NSGA-IIは大きな集団を持つため、全パレートフロント(全てのパレートオプティマのオブジェクトベクトル)を指数時間で計算することはできない。 我々の証明は、この予期せぬ行動の理由は、群集距離の計算において、異なる目的が独立して考慮されるという事実にあることを示唆している。 これは2つの目的に対する問題ではなく、一方の目的に沿ったペアワイズ非可換な解の任意のソートもまた、他方の目的(逆順序)に従ってそのようなソートである。

The NSGA-II is one of the most prominent algorithms to solve multi-objective optimization problems. Despite numerous successful applications and, very recently, also competitive mathematical performance guarantees, several studies have shown that the NSGA-II is less effective for larger numbers of objectives. In this work, we use mathematical runtime analyses to rigorously prove and quantify this phenomenon. We show that even on the simple OneMinMax benchmark, where every solution is Pareto optimal, the NSGA-II also with large population sizes cannot compute the full Pareto front (objective vectors of all Pareto optima) in sub-exponential time. Our proofs suggest that the reason for this unexpected behavior lies in the fact that in the computation of the crowding distance, the different objectives are regarded independently. This is not a problem for two objectives, where any sorting of a pair-wise incomparable set of solutions according to one objective is also such a sorting according to the other objective (in the inverse order).
翻訳日:2022-11-24 13:46:10 公開日:2022-11-23
# SoFiA, MTObjectsおよび教師付きディープラーニングを用いたHIエミッションライン立方体におけるソースフィニング技術の比較研究

A comparative study of source-finding techniques in HI emission line cubes using SoFiA, MTObjects, and supervised deep learning ( http://arxiv.org/abs/2211.12809v1 )

ライセンス: Link先を確認
J.A. Barkai, M.A.W. Verheijen, E.T. Mart\'inez, M.H.F. Wilkinson(参考訳) 21cmの中性子中性水素(HI)のスペクトル線放射は、電波天文学で観測される主要な波長の1つである。 しかし、信号は本質的に暗く、銀河のHI含量は宇宙環境に依存するため、HIユニバースの調査には大量の調査量と調査深度が必要である。 これらの調査から得られたデータ量が技術的改善とともに増加を続けるにつれ、完全性と純粋性のトレードオフを考慮しながら、hiソースを識別し特徴付ける自動技術が必要となる。 本研究の目的は,3次元中性水素立方体において,最高のマスク品質と最少のアーティファクトを有する多くのソースを探索し,マスキングするための最適なパイプラインを見出すことである。 3次元中性水素21cmスペクトルデータキューブのソースを最適に識別し、隠蔽するパイプラインを構築するために、既存の様々な手法が検討された。 従来の2つのソースフィニング手法であるSoFiAとMTObjectsがテストされ、新しい教師付きディープラーニングアプローチとして、V-Netとして知られる3D畳み込みニューラルネットワークアーキテクチャが使用された。 これらの3つのソースフィニング法は、従来の機械学習分類器を後処理ステップとして追加して、偽陽性検出を除去することでさらに改善された。 パイプラインは、ウェスターボルク合成電波望遠鏡のHIデータキューブに追加の模擬銀河を挿入して試験された。 SoFiAとランダムな森林分類器を組み合わせることで、V-Net-ランダムな森林の組み合わせが2秒間近かった。 これは、トレーニングセットに実際のソースよりも多くのモックソースがあるという事実によるものだと思います。 したがって、V-Netネットワークの品質を向上させる余地があるので、SoFiAより優れている可能性がある。

The 21 cm spectral line emission of atomic neutral hydrogen (HI) is one of the primary wavelengths observed in radio astronomy. However, the signal is intrinsically faint and the HI content of galaxies depends on the cosmic environment, requiring large survey volumes and survey depth to investigate the HI Universe. As the amount of data coming from these surveys continues to increase with technological improvements, so does the need for automatic techniques for identifying and characterising HI sources while considering the tradeoff between completeness and purity. This study aimed to find the optimal pipeline for finding and masking the most sources with the best mask quality and the fewest artefacts in 3D neutral hydrogen cubes. Various existing methods were explored in an attempt to create a pipeline to optimally identify and mask the sources in 3D neutral hydrogen 21 cm spectral line data cubes. Two traditional source-finding methods were tested, SoFiA and MTObjects, as well as a new supervised deep learning approach, in which a 3D convolutional neural network architecture, known as V-Net was used. These three source-finding methods were further improved by adding a classical machine learning classifier as a post-processing step to remove false positive detections. The pipelines were tested on HI data cubes from the Westerbork Synthesis Radio Telescope with additional inserted mock galaxies. SoFiA combined with a random forest classifier provided the best results, with the V-Net-random forest combination a close second. We suspect this is due to the fact that there are many more mock sources in the training set than real sources. There is, therefore, room to improve the quality of the V-Net network with better-labelled data such that it can potentially outperform SoFiA.
翻訳日:2022-11-24 13:45:51 公開日:2022-11-23
# 進化的一般化ゼロショット学習

Evolutionary Generalized Zero-Shot Learning ( http://arxiv.org/abs/2211.13174v1 )

ライセンス: Link先を確認
Dubing Chen, Haofeng Zhang, Yuming Shen, Yang Long, Ling Shao(参考訳) 人工知能への道の開けた問題は、既知のものから未知のものへの一般化であり、一般化ゼロショット学習(GZSL)タスクとしてインスタンス化される。 本研究では,新しい進化的一般化ゼロショット学習環境を提案する。 (i)帰納的GZSLにおける領域シフト問題を避け、 (ii) トランスダクティブGZSLよりも,現実的なデプロイメントの必要性に適合している。 提案手法では,初期性能に乏しいゼロショットモデルを用いて,アプリケーション間におけるオンライン進化を実現する。 この特別課題の3つの課題、すなわち破滅的な忘れ、最初の予測バイアス、進化的データクラスバイアスについて詳述する。 さらに,各課題に対する目標解を提案し,その初期IGZSLモデル上での進化を継続できる汎用的手法を提案する。 3つの人気のあるGZSLベンチマークデータセットの実験は、我々のモデルはテストデータストリームから学習でき、他のベースラインは失敗することを示している。

An open problem on the path to artificial intelligence is generalization from the known to the unknown, which is instantiated as Generalized Zero-Shot Learning (GZSL) task. In this work, we propose a novel Evolutionary Generalized Zero-Shot Learning setting, which (i) avoids the domain shift problem in inductive GZSL, and (ii) is more in line with the needs of real-world deployments than transductive GZSL. In the proposed setting, a zero-shot model with poor initial performance is able to achieve online evolution during application. We elaborate on three challenges of this special task, i.e., catastrophic forgetting, initial prediction bias, and evolutionary data class bias. Moreover, we propose targeted solutions for each challenge, resulting in a generic method capable of continuing to evolve on a given initial IGZSL model. Experiments on three popular GZSL benchmark datasets show that our model can learn from the test data stream while other baselines fail.
翻訳日:2022-11-24 13:39:08 公開日:2022-11-23
# VoP: クロスモーダル検索のためのテキストビデオ協調プロンプトチューニング

VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval ( http://arxiv.org/abs/2211.12764v1 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan Li, Donglin Wang(参考訳) 近年,テキストビデオのクロスモーダル検索にプリトレーニングされたCLIPを付加的な重モジュールでチューニングすることで,大量のパラメータを伴って膨大な計算負担を発生させるだけでなく,上流モデルからの知識を忘れる要因となっている。本研究では,テキストビデオ検索タスクを効率的にチューニングするためのVoP: Text-Video Co-operative Prompt Tuningを提案する。 提案されたVoPはビデオとテキストの両方のプロンプトを備えたエンドツーエンドフレームワークであり、トレーニング可能なパラメータがわずか0.1%の強力なベースラインと見なすことができる。 さらに,ビデオの時空間特性に基づいて,トレーニング可能なパラメータの尺度の異なる性能向上のための3つの新しいビデオプロンプト機構を開発した。 VoP拡張の基本的な考え方は、それぞれ特定のトレーニング可能なプロンプトでフレーム位置、フレームコンテキスト、レイヤ関数をモデル化することである。 大規模な実験によると、拡張されたVoPは完全な微調整に比べて、パラメータのオーバーヘッドが6倍少ない5つのテキストビデオ検索ベンチマークで平均1.4%のR@1ゲインを達成した。 コードはhttps://github.com/bighuang624/vopで入手できる。

Many recent studies leverage the pre-trained CLIP for text-video cross-modal retrieval by tuning the backbone with additional heavy modules, which not only brings huge computational burdens with much more parameters, but also leads to the knowledge forgetting from upstream models.In this work, we propose the VoP: Text-Video Co-operative Prompt Tuning for efficient tuning on the text-video retrieval task. The proposed VoP is an end-to-end framework with both video & text prompts introducing, which can be regarded as a powerful baseline with only 0.1% trainable parameters. Further, based on the spatio-temporal characteristics of videos, we develop three novel video prompt mechanisms to improve the performance with different scales of trainable parameters. The basic idea of the VoP enhancement is to model the frame position, frame context, and layer function with specific trainable prompts, respectively. Extensive experiments show that compared to full fine-tuning, the enhanced VoP achieves a 1.4% average R@1 gain across five text-video retrieval benchmarks with 6x less parameter overhead. The code will be available at https://github.com/bighuang624/VoP.
翻訳日:2022-11-24 13:38:36 公開日:2022-11-23
# データ再キャストの活用による表的推論の強化

Leveraging Data Recasting to Enhance Tabular Reasoning ( http://arxiv.org/abs/2211.12641v1 )

ライセンス: Link先を確認
Aashna Jena, Vivek Gupta, Manish Shrivastava, Julian Martin Eisenschlos(参考訳) 複雑な推論を学ぶには、難しい表型推論データの作成が不可欠である。 これまでは主に2つのデータ生成戦略に頼っていた。 ひとつはヒューマンアノテーションで、言語的に多様なデータを生み出すが、スケールが難しい。 第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。 本研究では,両手法の利点を生かして,既存の表型データを半自動再キャストするフレームワークを提案する。 このフレームワークを使用して,テーブル2テキスト生成や表q/a,意味構文解析などのタスクを意図した5つのデータセットから,表型nliインスタンスを構築する。 我々は,再キャストしたデータを評価ベンチマークや拡張データとして使用して,表付きNLIタスクの性能を向上させることを実証した。 さらに,ゼロショットシナリオにおける再キャストデータにトレーニングされたモデルの有効性を検証し,再キャストされたデータセットタイプ間のパフォーマンス動向を分析した。

Creating challenging tabular inference data is essential for learning complex reasoning. Prior work has mostly relied on two data generation strategies. The first is human annotation, which yields linguistically diverse data but is difficult to scale. The second category for creation is synthetic generation, which is scalable and cost effective but lacks inventiveness. In this research, we present a framework for semi-automatically recasting existing tabular data to make use of the benefits of both approaches. We utilize our framework to build tabular NLI instances from five datasets that were initially intended for tasks like table2text creation, tabular Q/A, and semantic parsing. We demonstrate that recasted data could be used as evaluation benchmarks as well as augmentation data to enhance performance on tabular NLI tasks. Furthermore, we investigate the effectiveness of models trained on recasted data in the zero-shot scenario, and analyse trends in performance across different recasted datasets types.
翻訳日:2022-11-24 13:38:12 公開日:2022-11-23
# Peekaboo: テキストから画像への拡散モデルはゼロショットセグメンタ

Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors ( http://arxiv.org/abs/2211.13224v1 )

ライセンス: Link先を確認
Ryan Burgert, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo(参考訳) 最近の拡散に基づく生成モデルと視覚言語モデルの組み合わせは、自然言語プロンプトから現実的な画像を生成することができる。 これらのモデルは大規模なインターネットスケールのデータセットでトレーニングされているが、そのような事前訓練されたモデルは、セマンティックなローカライゼーションやグラウンドリングに直接導入されない。 ローカライゼーションやグラウンド化の現在のアプローチは、バウンディングボックスやセグメンテーションマスクという形で、人間のアノテーションによるローカライズ情報に依存している。 例外は、ローカライズに特化したアーキテクチャや損失関数を利用する教師なしの方法がいくつかあるが、これらは個別にトレーニングする必要がある。 本研究では,そのような局所化情報の露出を伴わずに学習した市販の拡散モデルが,セグメンテーション固有の再学習を伴わずに様々な意味句を接地できる方法について検討する。 自然言語で条件付きセグメンテーションマスクを生成することができる推論時間最適化プロセスを導入する。 我々は,pascal vocデータセット上の教師なしセマンティクスセグメンテーションのためのpeekabooを提案する。 さらに,RefCOCOデータセットにおけるセグメンテーションの参照評価を行った。 本稿では,ゼロショット,オープンボキャブラリー,非教師なし(ローカライズ情報なし),拡散に基づく生成モデルを利用した意味的接地手法を提案する。 私たちのコードは公開されます。

Recent diffusion-based generative models combined with vision-language models are capable of creating realistic images from natural language prompts. While these models are trained on large internet-scale datasets, such pre-trained models are not directly introduced to any semantic localization or grounding. Most current approaches for localization or grounding rely on human-annotated localization information in the form of bounding boxes or segmentation masks. The exceptions are a few unsupervised methods that utilize architectures or loss functions geared towards localization, but they need to be trained separately. In this work, we explore how off-the-shelf diffusion models, trained with no exposure to such localization information, are capable of grounding various semantic phrases with no segmentation-specific re-training. An inference time optimization process is introduced, that is capable of generating segmentation masks conditioned on natural language. We evaluate our proposal Peekaboo for unsupervised semantic segmentation on the Pascal VOC dataset. In addition, we evaluate for referring segmentation on the RefCOCO dataset. In summary, we present a first zero-shot, open-vocabulary, unsupervised (no localization information), semantic grounding technique leveraging diffusion-based generative models with no re-training. Our code will be released publicly.
翻訳日:2022-11-24 13:37:09 公開日:2022-11-23
# NAS-LID:局所固有次元を用いた効率的なニューラルネットワーク探索

NAS-LID: Efficient Neural Architecture Search with Local Intrinsic Dimension ( http://arxiv.org/abs/2211.12759v1 )

ライセンス: Link先を確認
Xin He, Jiangchao Yao, Yuxin Wang, Zhenheng Tang, Ka Chu Cheung, Simon See, Bo Han, and Xiaowen Chu(参考訳) ワンショットニューラルアーキテクチャサーチ(NAS)は、1つのスーパーネットをトレーニングし、全ての子アーキテクチャ(サブネット)の性能を推定することで、探索効率を大幅に向上させる。 しかし、サブネット間の特性の不整合は、最適化に重大な干渉を引き起こし、サブネットの性能ランキングの相関が低くなる。 その後の探査では、特定の基準、例えば勾配マッチングによって超ネット重量を分解して干渉を減らすが、計算コストと空間分離性に悩まされる。 本研究では,軽量で効果的な局所固有次元(LID)に基づくNAS-LID法を提案する。 NAS-LIDは、低コストのLID特徴層を層単位で計算し、アーキテクチャの幾何学的性質を評価し、LIDの特徴となる類似性は勾配よりも分離性が良く、サブネット間の干渉を効果的に低減する。 nasbench-201の広範な実験は、nas-lidがより効率良く優れた性能を達成していることを示している。 特に、勾配駆動法と比較してNAS-LIDはNASBench-201を検索すると最大86%のGPUメモリオーバーヘッドを節約できる。 また,NAS-LID が ProxylessNAS および OFA 空間に与える影響を示す。 ソースコード:https://github.com/marsggbo/NAS-LID。

One-shot neural architecture search (NAS) substantially improves the search efficiency by training one supernet to estimate the performance of every possible child architecture (i.e., subnet). However, the inconsistency of characteristics among subnets incurs serious interference in the optimization, resulting in poor performance ranking correlation of subnets. Subsequent explorations decompose supernet weights via a particular criterion, e.g., gradient matching, to reduce the interference; yet they suffer from huge computational cost and low space separability. In this work, we propose a lightweight and effective local intrinsic dimension (LID)-based method NAS-LID. NAS-LID evaluates the geometrical properties of architectures by calculating the low-cost LID features layer-by-layer, and the similarity characterized by LID enjoys better separability compared with gradients, which thus effectively reduces the interference among subnets. Extensive experiments on NASBench-201 indicate that NAS-LID achieves superior performance with better efficiency. Specifically, compared to the gradient-driven method, NAS-LID can save up to 86% of GPU memory overhead when searching on NASBench-201. We also demonstrate the effectiveness of NAS-LID on ProxylessNAS and OFA spaces. Source code:https://github.com/marsggbo/NAS-LID.
翻訳日:2022-11-24 13:36:47 公開日:2022-11-23
# コントラスト・マルチビュー・テキスト・ビジュアルエンコーディング--100万規模のワンショット・ロゴ識別に向けて

Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred Thousand-Scale One-Shot Logo Identification ( http://arxiv.org/abs/2211.12926v1 )

ライセンス: Link先を確認
Nakul Sharma, Abhirama S. Penamakuri, Anand Mishra(参考訳) 本稿では,オープンセットワンショット設定において,企業ブランドのロゴを自然シーンで識別する問題について検討する。 この問題の設定は、従来の「クローズドセット」や「カテゴリ毎の大規模トレーニングサンプル」のロゴ認識設定よりもはるかに難しい。 本稿では,ロゴに現れるテキストをエンコードする多視点テキスト視覚符号化フレームワークと,強健なコントラスト表現を学習するためのロゴのグラフィカルデザインを提案する。 これらの表現は、バッチ上で複数のロゴのビューのために共同で学習され、見当たらないロゴに対してうまく一般化される。 提案手法は,自然シーンタスクにおいて,カットロゴの検証,カットロゴの識別,エンド・ツー・エンドのロゴ識別の枠組みを評価し,最先端の手法と比較する。 さらに、文献には基準ロゴ画像の「非常に大規模な」コレクションが欠如しており、1百万のロゴ識別の研究が容易である。 文献のこのギャップを埋めるために,Wikidataから取得した100万のビジネスブランドのロゴを含むWikidata Reference Logo Dataset (WiRLD)を紹介した。 検証タスクのQMUL-OpenLogoデータセットでは,OC曲線の91.3%の領域を達成し,Toplogos-10とFlickrLogos32データセットでは,1ショットのロゴ識別タスクでは,最先端メソッドの9.1%,2.6%を上回った。 さらに,提案手法は,候補ロゴ数が100Kスケールであっても,他のベースラインよりも安定であることを示す。

In this paper, we study the problem of identifying logos of business brands in natural scenes in an open-set one-shot setting. This problem setup is significantly more challenging than traditionally-studied 'closed-set' and 'large-scale training samples per category' logo recognition settings. We propose a novel multi-view textual-visual encoding framework that encodes text appearing in the logos as well as the graphical design of the logos to learn robust contrastive representations. These representations are jointly learned for multiple views of logos over a batch and thereby they generalize well to unseen logos. We evaluate our proposed framework for cropped logo verification, cropped logo identification, and end-to-end logo identification in natural scene tasks; and compare it against state-of-the-art methods. Further, the literature lacks a 'very-large-scale' collection of reference logo images that can facilitate the study of one-hundred thousand-scale logo identification. To fill this gap in the literature, we introduce Wikidata Reference Logo Dataset (WiRLD), containing logos for 100K business brands harvested from Wikidata. Our proposed framework that achieves an area under the ROC curve of 91.3% on the QMUL-OpenLogo dataset for the verification task, outperforms state-of-the-art methods by 9.1% and 2.6% on the one-shot logo identification task on the Toplogos-10 and the FlickrLogos32 datasets, respectively. Further, we show that our method is more stable compared to other baselines even when the number of candidate logos is on a 100K scale.
翻訳日:2022-11-24 13:36:26 公開日:2022-11-23
# Crown-CAM:航空画像におけるツリークラウン検出のための信頼性の高いビジュアル説明

Crown-CAM: Reliable Visual Explanations for Tree Crown Detection in Aerial Images ( http://arxiv.org/abs/2211.13126v1 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) ブラックボックス」モデルの視覚的説明により、人工知能(AI)の専門家や研究者は、そのような手法の局所化能力をはるかに活用できるようになった。 単一対象の分類問題に適用された視覚的説明法の多くは開発されているが、これらの手法は検出タスクにおいて十分に探索されていない。 これは、検出器が様々な視点から異なるスケールの複数のオブジェクトに直面する場合や、関心のあるオブジェクトが存在しない場合、特に重要である。 本稿では,航空画像における樹冠検出の困難かつ動的な問題に対して,信頼性の高い視覚的説明を生成するクラウンCAMを提案する。 樹木の樹冠の微細な局所化と高密度の森林樹のシナリオに対する非テクスチュアルな背景抑制を効果的に提供し、樹木の樹冠のない潜在的な散逸者やシーンの存在下で実現している。 さらに,画像中の樹冠の有無にかかわらず,生成した視覚説明の正確性と不正確性を効果的に定量化できる,結合(iou)ベースの2つの指標が導入された。 実証的評価により,提案手法は平均iouマージン8.7,5.3,21.7 (および3.3,9.8,16.5) でスコアカム法,拡張スコアカム法,固有カム法を上回り,難解なネオンツリークラウンデータセットにおける視覚的説明の精度(精度)と不正確さを向上させた。

Visual explanation of "black-box" models has enabled researchers and experts in artificial intelligence (AI) to exploit the localization abilities of such methods to a much greater extent. Despite most of the developed visual explanation methods applied to single object classification problems, they are not well-explored in the detection task, where the challenges may go beyond simple coarse area-based discrimination. This is of particular importance when a detector should face several objects with different scales from various viewpoints or if the objects of interest are absent. In this paper, we propose CrownCAM to generate reliable visual explanations for the challenging and dynamic problem of tree crown detection in aerial images. It efficiently provides fine-grain localization of tree crowns and non-contextual background suppression for scenarios with highly dense forest trees in the presence of potential distractors or scenes without tree crowns. Additionally, two Intersection over Union (IoU)-based metrics are introduced that can effectively quantify both the accuracy and inaccuracy of generated visual explanations with respect to regions with or without tree crowns in the image. Empirical evaluations demonstrate that the proposed Crown-CAM outperforms the Score-CAM, Augmented ScoreCAM, and Eigen-CAM methods by an average IoU margin of 8.7, 5.3, and 21.7 (and 3.3, 9.8, and 16.5) respectively in improving the accuracy (and decreasing inaccuracy) of visual explanations on the challenging NEON tree crown dataset.
翻訳日:2022-11-24 13:35:54 公開日:2022-11-23
# 非加法的測度の輸送問題

The transport problem for non-additive measures ( http://arxiv.org/abs/2211.12150v2 )

ライセンス: Link先を確認
Vicen\c{c} Torra(参考訳) ファジィ測度、キャパシティ、モノトニックゲームとして知られる非加法的測度は、異なる分野においてますます使われている。 コンピュータサイエンスや人工知能において、意思決定、画像処理、分類と回帰のための機械学習といった応用が構築されている。 測定のためのツールが構築されている。 つまり、非加法的測度は加法的測度よりも一般的なので(確率よりも)、後者ではモデル化できない状況や問題をモデル化できるより良いモデリング能力を持つ。 例えば、エルスバーグ・パラドックスとアリス・パラドックスの両方をモデル化するための非加法測度とチョケ積分の応用を参照。 そのため、非付加的措置の分析の必要性が高まっている。 距離とそれらを比較するための類似性も例外ではない。 それらのために$f$-divergenceを定義する作業がいくつか行われている。 本研究は, 今までの知識に照らされてはいなかった非付加的措置の輸送問題を解消する問題に対処するものである。 最適輸送に基づく確率分布の対の距離は、実用的応用において非常によく使われており、数学的性質について広く研究されている。 同様のフレーバーで適切な定義を与える必要があり、非加法測度に対して標準的な定義を一般化する必要があると考える。 我々は m\"obius 変換に基づく定義を提供するが、いくつかの利点があると考えられる $(\max, +)$-transform にも基づいている。 本稿では,非加法的措置の輸送問題を定義する上で生じる問題点について論じ,その解決方法について論じる。 本稿では、最適輸送問題の定義を提供し、いくつかの特性を証明する。

Non-additive measures, also known as fuzzy measures, capacities, and monotonic games, are increasingly used in different fields. Applications have been built within computer science and artificial intelligence related to e.g. decision making, image processing, machine learning for both classification, and regression. Tools for measure identification have been built. In short, as non-additive measures are more general than additive ones (i.e., than probabilities), they have better modeling capabilities allowing to model situations and problems that cannot be modelled by the latter. See e.g. the application of non-additive measures and the Choquet integral to model both Ellsberg paradox and Allais paradox. Because of that, there is an increasing need to analyze non-additive measures. The need for distances and similarities to compare them is no exception. Some work has been done for definining $f$-divergence for them. In this work we tackle the problem of definining the transport problem for non-additive measures, which has not been considered up to our knowledge up to now. Distances for pairs of probability distributions based on the optimal transport are extremely used in practical applications, and they are being studied extensively for the mathematical properties. We consider that it is necessary to provide appropriate definitions with a similar flavour, and that generalize the standard ones, for non-additive measures. We provide definitions based on the M\"obius transform, but also based on the $(\max, +)$-transform that we consider that has some advantages. We will discuss in this paper the problems that arise to define the transport problem for non-additive measures, and discuss ways to solve them. In this paper we provide the definitions of the optimal transport problem, and prove some properties.
翻訳日:2022-11-24 13:30:28 公開日:2022-11-23
# FE-Fusion-VPR:フレームとイベントの融合による視覚的位置認識のための注意型マルチスケールネットワークアーキテクチャ

FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for Visual Place Recognition by Fusing Frames and Events ( http://arxiv.org/abs/2211.12244v2 )

ライセンス: Link先を確認
Kuanxu Hou, Delei Kong, Junjie Jiang, Hao Zhuang, Xinjie Huang and Zheng Fang(参考訳) 従来の視覚位置認識(vpr)は、通常標準カメラを使用しており、暗い動きや高速動きのために簡単に失敗する。 対照的に、イベントカメラは低レイテンシ、高時間分解能、高ダイナミックレンジの利点があり、上記の問題に対処できる。 それでも、イベントカメラは、弱いテクスチャや動きのないシーンでは失敗しがちだが、標準的なカメラは、この場合の外観情報を提供することができる。 したがって、標準カメラとイベントカメラの相補性を活用すれば、VPRアルゴリズムの性能を効果的に向上させることができる。 本稿では,フレームとイベントを融合させてVPRのマルチスケールネットワークアーキテクチャであるFE-Fusion-VPRを提案する。 まず、浅部特徴融合のために、インテンシティフレームとイベントボリュームを2ストリーム特徴抽出ネットワークに供給する。 次に,VLAD層を用いて3つのサブディスクリプタに集約し,マルチスケール核融合ネットワークを用いて3つの特徴量を求める。 最後に、各サブディスクリプタの重みをディスクリプタ再重み付けネットワークを介して学習し、最終精細化ディスクリプタを得る。 Brisbane-Event-VPRとDDD20データセットでは、FE-Fusion-VPRのRecall@1は、Event-VPRとEnsemble-EventVPRよりも29.26%高く、33.59%高く、MultiRes-NetVLADとNetVLADよりも7.00%、14.15%高い。 我々の知る限り、これはVPRのためにフレームとイベントを直接フューズする既存のイベントベースおよびフレームベースのSOTAメソッドを超える最初のエンドツーエンドネットワークです。

Traditional visual place recognition (VPR), usually using standard cameras, is easy to fail due to glare or high-speed motion. By contrast, event cameras have the advantages of low latency, high temporal resolution, and high dynamic range, which can deal with the above issues. Nevertheless, event cameras are prone to failure in weakly textured or motionless scenes, while standard cameras can still provide appearance information in this case. Thus, exploiting the complementarity of standard cameras and event cameras can effectively improve the performance of VPR algorithms. In the paper, we propose FE-Fusion-VPR, an attention-based multi-scale network architecture for VPR by fusing frames and events. First, the intensity frame and event volume are fed into the two-stream feature extraction network for shallow feature fusion. Next, the three-scale features are obtained through the multi-scale fusion network and aggregated into three sub-descriptors using the VLAD layer. Finally, the weight of each sub-descriptor is learned through the descriptor re-weighting network to obtain the final refined descriptor. Experimental results show that on the Brisbane-Event-VPR and DDD20 datasets, the Recall@1 of our FE-Fusion-VPR is 29.26% and 33.59% higher than Event-VPR and Ensemble-EventVPR, and is 7.00% and 14.15% higher than MultiRes-NetVLAD and NetVLAD. To our knowledge, this is the first end-to-end network that goes beyond the existing event-based and frame-based SOTA methods to fuse frame and events directly for VPR.
翻訳日:2022-11-24 13:29:42 公開日:2022-11-23
# GlowGAN:野生のLDR画像からのHDR画像の教師なし学習

GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild ( http://arxiv.org/abs/2211.12352v2 )

ライセンス: Link先を確認
Chao Wang, Ana Serrano, Xingang Pan, Bin Chen, Hans-Peter Seidel, Christian Theobalt, Karol Myszkowski, Thomas Leimkuehler(参考訳) ほとんどの画像は低ダイナミックレンジ(LDR)形式で保存されており、高ダイナミックレンジ(HDR)視覚世界を部分的に観察する役割を果たしている。 ダイナミックレンジは限られているが、これらのLDR画像は、しばしば異なる露出で撮影され、基盤となるHDR画像の分布に関する情報を暗黙的に含んでいる。 この直観に触発されて、本研究では、我々の知識を最大限に活用し、野生のldr画像コレクションからhdr画像の生成モデルを完全に教師なしで学習する最初の方法を紹介します。 鍵となる考え方は、GAN(Generative Adversarial Network)を訓練して、様々な露光下でLDRに投影された場合、実際のLDR画像と区別できないHDR画像を生成することである。 HDRからLDRへの投影は、露出の確率性とカメラ応答関数をキャプチャするカメラモデルによって達成される。 実験により,従来の教師付き生成モデルが過剰に露出した画像を生成する風景,雷,窓など,多くの課題において,glowganがフォトリアリスティックなhdr画像を合成できることが判明した。 さらに,GlowGANによって実現された教師なし逆トーンマッピング(ITM)の新たな応用を実証する。 ITM法では,HDR画像やマルチ露光画像は必要としないが,これらのデータに基づいて訓練された最先端の教師あり学習モデルよりも,過剰に露光した領域の情報を再構成する。

Most in-the-wild images are stored in Low Dynamic Range (LDR) form, serving as a partial observation of the High Dynamic Range (HDR) visual world. Despite limited dynamic range, these LDR images are often captured with different exposures, implicitly containing information about the underlying HDR image distribution. Inspired by this intuition, in this work we present, to the best of our knowledge, the first method for learning a generative model of HDR images from in-the-wild LDR image collections in a fully unsupervised manner. The key idea is to train a generative adversarial network (GAN) to generate HDR images which, when projected to LDR under various exposures, are indistinguishable from real LDR images. The projection from HDR to LDR is achieved via a camera model that captures the stochasticity in exposure and camera response function. Experiments show that our method GlowGAN can synthesize photorealistic HDR images in many challenging cases such as landscapes, lightning, or windows, where previous supervised generative models produce overexposed images. We further demonstrate the new application of unsupervised inverse tone mapping (ITM) enabled by GlowGAN. Our ITM method does not need HDR images or paired multi-exposure images for training, yet it reconstructs more plausible information for overexposed regions than state-of-the-art supervised learning models trained on such data.
翻訳日:2022-11-24 13:29:08 公開日:2022-11-23
# ラベルなしデータによるバックドアクリーニング

Backdoor Cleansing with Unlabeled Data ( http://arxiv.org/abs/2211.12044v2 )

ライセンス: Link先を確認
Lu Pang, Tao Sun, Haibin Ling, Chao Chen(参考訳) ディープニューラルネットワーク(DNN)の計算需要が増大しているため、企業や組織はトレーニングプロセスをアウトソースし始めている。 しかし、外部で訓練されたDNNはバックドア攻撃を受ける可能性がある。 このような攻撃、すなわち不審なモデルを後処理してバックドアの動作を緩和し、クリーン入力に対する通常の予測能力は妥協されないようにすることが重要である。 バックドアの異常な挙動を取り除くために、既存の手法は主にラベル付きクリーンサンプルに頼っている。 しかし、トレーニングデータはエンドユーザーには利用できないことが多いため、このような要件は非現実的かもしれない。 本稿では,そのような障壁を回避する可能性を検討する。 トレーニングラベルを必要とせず,新たな防御手法を提案する。 本手法は, 層単位の重み付け再初期化と知識蒸留を慎重に設計することにより, 正常な動作において, 疑わしいネットワークのバックドア挙動を効果的に浄化することができる。 実験では,ラベルを使わずにトレーニングした手法が,ラベルを用いた最新の防御手法とほぼ同等であることを示す。 また, 分配外データにおいても, 有望な防御結果が得られている。 この方法はとても実用的です。

Due to the increasing computational demand of Deep Neural Networks (DNNs), companies and organizations have begun to outsource the training process. However, the externally trained DNNs can potentially be backdoor attacked. It is crucial to defend against such attacks, i.e., to postprocess a suspicious model so that its backdoor behavior is mitigated while its normal prediction power on clean inputs remain uncompromised. To remove the abnormal backdoor behavior, existing methods mostly rely on additional labeled clean samples. However, such requirement may be unrealistic as the training data are often unavailable to end users. In this paper, we investigate the possibility of circumventing such barrier. We propose a novel defense method that does not require training labels. Through a carefully designed layer-wise weight re-initialization and knowledge distillation, our method can effectively cleanse backdoor behaviors of a suspicious network with negligible compromise in its normal behavior. In experiments, we show that our method, trained without labels, is on-par with state-of-the-art defense methods trained using labels. We also observe promising defense results even on out-of-distribution data. This makes our method very practical.
翻訳日:2022-11-24 13:28:41 公開日:2022-11-23
# 生成逆数ネットワークを用いた連成位相場問題の高速化

Accelerated Solutions of Coupled Phase-Field Problems using Generative Adversarial Networks ( http://arxiv.org/abs/2211.12084v2 )

ライセンス: Link先を確認
Vir Karan, A. Maruthi Indresh, Saswata Bhattacharyya(参考訳) 多成分拡散、多相系における相変態、合金凝固などの多物理問題は、非線形偏微分方程式(PDE)の結合系の数値解を含む。 メッシュに基づく手法によるpdesの数値解は、これらの方程式の時空間的離散化を必要とする。 したがって、数値解はしばしば離散化パラメータに敏感であり、不正確な(格子ベースの近似から推測される)ことがある。 さらに、より高精度なメッシュを選択することで、計算コストが高くなる。 ニューラルネットワークベースのPDEソルバは、グリッド非依存で高速かつ正確である機械学習可能な構造を使用するため、従来の数値手法に代わる堅牢な代替手段として出現している。 しかし、ニューラルネットワークベースのソルバは大量のトレーニングデータを必要とするため、その汎用性とスケーラビリティに影響を及ぼす。 これらの懸念は、時間依存PDEの結合系ではより深刻になる。 これらの問題に対処するために,エンコーダ・デコーダをベースとした条件付き生成適応ネットワークとConvLSTM層を用いたニューラルネットワークベースの新しいフレームワークを開発し,Cahn-Hilliard方程式のシステムを解く。 これらの方程式は、スピノダル分解を受ける三元合金の三相相相相間隙内における組織変化を制御する。 訓練されたモデルがメッシュとスケール非依存であることを示し,効果的なニューラルオペレータとしての利用を保証した。

Multiphysics problems such as multicomponent diffusion, phase transformations in multiphase systems and alloy solidification involve numerical solution of a coupled system of nonlinear partial differential equations (PDEs). Numerical solutions of these PDEs using mesh-based methods require spatiotemporal discretization of these equations. Hence, the numerical solutions are often sensitive to discretization parameters and may have inaccuracies (resulting from grid-based approximations). Moreover, choice of finer mesh for higher accuracy make these methods computationally expensive. Neural network-based PDE solvers are emerging as robust alternatives to conventional numerical methods because these use machine learnable structures that are grid-independent, fast and accurate. However, neural network based solvers require large amount of training data, thus affecting their generalizabilty and scalability. These concerns become more acute for coupled systems of time-dependent PDEs. To address these issues, we develop a new neural network based framework that uses encoder-decoder based conditional Generative Adversarial Networks with ConvLSTM layers to solve a system of Cahn-Hilliard equations. These equations govern microstructural evolution of a ternary alloy undergoing spinodal decomposition when quenched inside a three-phase miscibility gap. We show that the trained models are mesh and scale-independent, thereby warranting application as effective neural operators.
翻訳日:2022-11-24 13:28:22 公開日:2022-11-23
# 自然言語処理課題の継続的な学習 : 調査

Continual Learning of Natural Language Processing Tasks: A Survey ( http://arxiv.org/abs/2211.12701v1 )

ライセンス: Link先を確認
Zixuan Ke, Bing Liu(参考訳) CL(Continuous Learning)は、学習した知識を忘れることなく、学習と知識を継続的に蓄積する人間の能力をエミュレートすることを目的とした、新たな学習パラダイムである。 本調査では,最近のNLP分野におけるCLの進歩を概観する。 1)すべてのCL設定を既存のテクニックの分類でカバーしている。 忘れの扱いに加えて、NLPにとって特に重要な(2)知識の伝達にも焦点をあてている。 1) と (2) の両方が既存の調査には言及されていない。 最後に,今後の方向性についても述べる。

Continual learning (CL) is an emerging learning paradigm that aims to emulate the human capability of learning and accumulating knowledge continually without forgetting the previously learned knowledge and also transferring the knowledge to new tasks to learn them better. This survey presents a comprehensive review of the recent progress of CL in the NLP field. It covers (1) all CL settings with a taxonomy of existing techniques. Besides dealing with forgetting, it also focuses on (2) knowledge transfer, which is of particular importance to NLP. Both (1) and (2) are not mentioned in the existing survey. Finally, a list of future directions is also discussed.
翻訳日:2022-11-24 13:28:01 公開日:2022-11-23
# RoentGen:胸部X線生成のためのビジョン言語基礎モデル

RoentGen: Vision-Language Foundation Model for Chest X-ray Generation ( http://arxiv.org/abs/2211.12737v1 )

ライセンス: Link先を確認
Pierre Chambon, Christian Bluethgen, Jean-Benoit Delbrouck, Rogier Van der Sluijs, Ma{\l}gorzata Po{\l}acin, Juan Manuel Zambrano Chaves, Tanishq Mathew Abraham, Shivanshu Purohit, Curtis P. Langlotz, Akshay Chaudhari(参考訳) 大規模な自然画像とテキストのペアデータセットでトレーニングされたマルチモーダルモデルは、高品質な画像を生成する驚くべき能力を示している。 医学画像データは自然画像と根本的に異なり、医学データ内の関連する詳細を簡潔に捉えるために使用される言語は、異なる、狭く、意味的にリッチなドメイン固有語彙を使用する。 当然のことながら、自然画像とテキストのペアで訓練されたマルチモーダルモデルは、医学領域にうまく一般化しない傾向がある。 合成多様性を提供しながら医療概念を忠実に表現する生成イメージングモデルを開発することで、高品質な注釈付医用画像データセットの既存の質を軽減できる。 本研究では,胸部X線(CXR)とそれに対応する放射線学(テキスト)レポートのコーパスに,事前訓練した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。 テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。 画像品質指標を用いて定量的にモデル出力を評価し,人間の領域の専門家による画像品質とテキスト画像のアライメントを評価する。 得られたモデル(ローエントゲン)が視覚的に説得力のある多彩な合成cxr画像を作成することができ、放射線特異的言語を含むフリーフォームテキストプロンプトを用いて出力を新たな範囲で制御できることを示す。 このモデルを固定トレーニングセットに微調整し,データ拡張法として用いることで,合成画像と実画像で共同で訓練した分類器の5%改善と,大規模で純粋に合成されたトレーニングセットでトレーニングした場合の3%改善を計測した。 最後に, この微調整は, テキストエンコーダのドメイン内知識を抽出し, 気胸などの特定の疾患の表現能力を25%向上させる。

Multimodal models trained on large natural image-text pair datasets have exhibited astounding abilities in generating high-quality images. Medical imaging data is fundamentally different to natural images, and the language used to succinctly capture relevant details in medical data uses a different, narrow but semantically rich, domain-specific vocabulary. Not surprisingly, multi-modal models trained on natural image-text pairs do not tend to generalize well to the medical domain. Developing generative imaging models faithfully representing medical concepts while providing compositional diversity could mitigate the existing paucity of high-quality, annotated medical imaging datasets. In this work, we develop a strategy to overcome the large natural-medical distributional shift by adapting a pre-trained latent diffusion model on a corpus of publicly available chest x-rays (CXR) and their corresponding radiology (text) reports. We investigate the model's ability to generate high-fidelity, diverse synthetic CXR conditioned on text prompts. We assess the model outputs quantitatively using image quality metrics, and evaluate image quality and text-image alignment by human domain experts. We present evidence that the resulting model (RoentGen) is able to create visually convincing, diverse synthetic CXR images, and that the output can be controlled to a new extent by using free-form text prompts including radiology-specific language. Fine-tuning this model on a fixed training set and using it as a data augmentation method, we measure a 5% improvement of a classifier trained jointly on synthetic and real images, and a 3% improvement when trained on a larger but purely synthetic training set. Finally, we observe that this fine-tuning distills in-domain knowledge in the text-encoder and can improve its representation capabilities of certain diseases like pneumothorax by 25%.
翻訳日:2022-11-24 13:27:51 公開日:2022-11-23
# 糖尿病網膜症検出タスクにおけるベイズ深層学習のベンチマーク

Benchmarking Bayesian Deep Learning on Diabetic Retinopathy Detection Tasks ( http://arxiv.org/abs/2211.12717v1 )

ライセンス: Link先を確認
Neil Band, Tim G. J. Rudner, Qixuan Feng, Angelos Filos, Zachary Nado, Michael W. Dusenberry, Ghassen Jerfel, Dustin Tran, Yarin Gal(参考訳) Bayesianのディープラーニングは、彼らの予測の不確実性を正確に定量化する能力を備えたディープニューラルネットワークの装備を目指している。 新しい方法は、信頼性の高い不確実性定量化の恩恵を受ける下流の現実世界のタスクの複雑さを反映しない非現実的なテストベッドで評価され続けている。 本稿では,そのような複雑さを正確に反映した実世界のタスクのセットであるRETINA Benchmarkを提案し,安全クリティカルなシナリオにおける予測モデルの信頼性を評価する。 具体的には,様々な糖尿病網膜症を呈する高分解能ヒト網膜画像の2つの公開データセットを収集し,それを用いて信頼性の高い予測的不確実性定量化を必要とする一連の自動診断タスクを設計する。 我々はこれらのタスクを用いて、タスク固有の評価指標に基づいて、確立された最先端のベイズ深層学習手法をベンチマークする。 再現性とソフトウェア設計の原則に従って,高速で簡単なベンチマークを行うための,使いやすいコードベースを提供しています。 ベンチマークに含まれるすべてのメソッドの実装と、100 TPU日、20 GPU日、400のハイパーパラメータ構成を計算し、それぞれ6つのランダムシードの評価を行う。

Bayesian deep learning seeks to equip deep neural networks with the ability to precisely quantify their predictive uncertainty, and has promised to make deep learning more reliable for safety-critical real-world applications. Yet, existing Bayesian deep learning methods fall short of this promise; new methods continue to be evaluated on unrealistic test beds that do not reflect the complexities of downstream real-world tasks that would benefit most from reliable uncertainty quantification. We propose the RETINA Benchmark, a set of real-world tasks that accurately reflect such complexities and are designed to assess the reliability of predictive models in safety-critical scenarios. Specifically, we curate two publicly available datasets of high-resolution human retina images exhibiting varying degrees of diabetic retinopathy, a medical condition that can lead to blindness, and use them to design a suite of automated diagnosis tasks that require reliable predictive uncertainty quantification. We use these tasks to benchmark well-established and state-of-the-art Bayesian deep learning methods on task-specific evaluation metrics. We provide an easy-to-use codebase for fast and easy benchmarking following reproducibility and software design principles. We provide implementations of all methods included in the benchmark as well as results computed over 100 TPU days, 20 GPU days, 400 hyperparameter configurations, and evaluation on at least 6 random seeds each.
翻訳日:2022-11-24 13:27:16 公開日:2022-11-23
# DeepSolo: テキストスポッティングのための明示的なポイントソロ付きトランスフォーマーデコーダ

DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting ( http://arxiv.org/abs/2211.10772v2 )

ライセンス: Link先を確認
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao(参考訳) エンドツーエンドテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的としている。 2つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で重要な役割を果たす。 トランスフォーマーベースの手法ではヒューリスティックなポストプロセッシングは排除されるが、サブタスクと低トレーニング効率の相乗効果の問題に苦しむ。 本稿では,テキスト検出と認識を同時に行うために,Explicit Points Soloを持つ1つのデコーダを同時に使用可能な,単純な検出トランスフォーマベースラインであるDeepSoloを提案する。 技術的には、各テキストインスタンスでは、文字列を順序付けポイントとして表現し、学習可能な明示的なポイントクエリでモデル化します。 単一のデコーダを渡すと、ポイントクエリは必要なテキストセマンティクスと場所を符号化するので、非常に単純な予測ヘッドを通じてテキストの中央線、境界線、スクリプト、信頼性にさらにデコードでき、統一されたフレームワークでテキストスポッティングのサブタスクを解決できる。 さらに,より正確な監視信号を提供するためのテキストマッチング基準を導入し,より効率的なトレーニングを可能にした。 公開ベンチマークの定量的実験によると、DeepSoloは従来の最先端の手法より優れ、訓練効率が向上している。 さらに、deepsoloは行アノテーションとも互換性があり、ポリゴンよりもはるかに少ないアノテーションコストを必要とする。 コードはリリースされます。

End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. In this paper, we present DeepSolo, a simple detection transformer baseline that lets a single Decoder with Explicit Points Solo for text detection and recognition simultaneously. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations and thus can be further decoded to the center line, boundary, script, and confidence of text via very simple prediction heads in parallel, solving the sub-tasks in text spotting in a unified framework. Besides, we also introduce a text-matching criterion to deliver more accurate supervisory signals, thus enabling more efficient training. Quantitative experiments on public benchmarks demonstrate that DeepSolo outperforms previous state-of-the-art methods and achieves better training efficiency. In addition, DeepSolo is also compatible with line annotations, which require much less annotation cost than polygons. The code will be released.
翻訳日:2022-11-24 13:20:36 公開日:2022-11-23
# RobustLoc:運転環境におけるロバストカメラポッドの回帰

RobustLoc: Robust Camera Pose Regression in Challenging Driving Environments ( http://arxiv.org/abs/2211.11238v2 )

ライセンス: Link先を確認
Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Andreas Hartmannsgruber, Diego Navarro Navarro(参考訳) カメラのリローカライゼーションは自動運転に様々な応用がある。 従来のカメラポーズ回帰モデルは、環境摂動がほとんどない理想的なシナリオのみを考える。 季節, 天気, 照明, 不安定な物体の存在に変化をもたらす可能性のある運転環境に対処するため, ニューラル微分方程式からの摂動に対する頑健さを導出するRobostLocを提案する。 本モデルでは,多視点画像から特徴地図を抽出する畳み込みニューラルネットワーク,インタラクティブに情報を拡散するロバストなニューラルネットワーク方程式拡散ブロックモジュール,多層トレーニングによる分岐ポーズデコーダを用いて車両のポーズ推定を行う。 実験により、ロバストロックは現在の最先端カメラの回帰モデルを超え、様々な環境で堅牢な性能を達成することが示された。 私たちのコードは、https://github.com/sijieaaa/RobustLocでリリースされています。

Camera relocalization has various applications in autonomous driving. Previous camera pose regression models consider only ideal scenarios where there is little environmental perturbation. To deal with challenging driving environments that may have changing seasons, weather, illumination, and the presence of unstable objects, we propose RobustLoc, which derives its robustness against perturbations from neural differential equations. Our model uses a convolutional neural network to extract feature maps from multi-view images, a robust neural differential equation diffusion block module to diffuse information interactively, and a branched pose decoder with multi-layer training to estimate the vehicle poses. Experiments demonstrate that RobustLoc surpasses current state-of-the-art camera pose regression models and achieves robust performance in various environments. Our code is released at: https://github.com/sijieaaa/RobustLoc
翻訳日:2022-11-24 13:19:53 公開日:2022-11-23
# ツリーアーキテクチャの学習は、畳み込みフィードフォワードネットワークより優れている

Learning on tree architectures outperforms a convolutional feedforward network ( http://arxiv.org/abs/2211.11378v2 )

ライセンス: Link先を確認
Yuval Meir, Itamar Ben-Noam, Yarden Tzach, Shiri Hodassman and Ido Kanter(参考訳) 高度なディープラーニングアーキテクチャは、数百に拡張され、生物学的実現には程遠い、完全に接続された、畳み込み型の隠れた層を何万も含んでいる。 生物学的ダイナミクスは、出力ユニットと重量の間の経路の数が典型的には大きいため、非局所的な方法で重量を変更することに基づいている。 ここでは,3層木アーキテクチャを用いたオフラインおよびオンラインCIFAR-10データベース学習が,5層畳み込みLeNetの達成可能な成功率を上回っている。 単一の経路が出力単位と重みを接続する高い刈り込み木バックプロパゲーション手順は、効率的な樹状深層学習を表現している。

Advanced deep learning architectures consist of tens of fully connected and convolutional hidden layers, which are already extended to hundreds, and are far from their biological realization. Their implausible biological dynamics is based on changing a weight in a non-local manner, as the number of routes between an output unit and a weight is typically large, using the backpropagation technique. Here, offline and online CIFAR-10 database learning on 3-layer tree architectures, inspired by experimental-based dendritic tree adaptations, outperforms the achievable success rates of the 5-layer convolutional LeNet. Its highly pruning tree backpropagation procedure, where a single route connects an output unit and a weight, represents an efficient dendritic deep learning.
翻訳日:2022-11-24 13:19:37 公開日:2022-11-23
# Teach-DETR: 教師によるより良いトレーニング

Teach-DETR: Better Training DETR with Teachers ( http://arxiv.org/abs/2211.11953v2 )

ライセンス: Link先を確認
Linjiang Huang, Kaixin Lu, Guanglu Song, Liang Wang, Si Liu, Yu Liu, Hongsheng Li(参考訳) 本稿では,多用途の教師検出器からより優れたdetr型検出器を学習するための新しい学習手法である teach-detr を提案する。 教師検出器からの予測ボックスは,より正確で頑健なdetrモデルを訓練するために,rcnnまたはdetrに基づく検出器の知識を伝達する効果的な媒体であることを示す。 この新たなトレーニングスキームは、複数の教師検出器から予測されたボックスを容易に組み込むことができ、それぞれが生徒のDETRに並列監視を提供する。 提案手法では,追加パラメータは導入せず,トレーニング中に元の検出器に無視できない計算コストを付加する。 推論中、Teach-DETRはオーバーヘッドをゼロにし、非最大抑制を必要としないメリットを維持する。 広範な実験により,detr系検出器の一貫性が向上した。 具体的には,Swin-Largeバックボーン,4スケールの機能マップ,36エポックトレーニングスケジュールを備えた最先端検出器DINOを,MSCOCO 2017検証セットの平均精度で57.8%から58.9%に改善する。 コードはhttps://github.com/LeonHLJ/Teach-DETRで入手できる。

In this paper, we present a novel training scheme, namely Teach-DETR, to learn better DETR-based detectors from versatile teacher detectors. We show that the predicted boxes from teacher detectors are effective medium to transfer knowledge of teacher detectors, which could be either RCNN-based or DETR-based detectors, to train a more accurate and robust DETR model. This new training scheme can easily incorporate the predicted boxes from multiple teacher detectors, each of which provides parallel supervisions to the student DETR. Our strategy introduces no additional parameters and adds negligible computational cost to the original detector during training. During inference, Teach-DETR brings zero additional overhead and maintains the merit of requiring no non-maximum suppression. Extensive experiments show that our method leads to consistent improvement for various DETR-based detectors. Specifically, we improve the state-of-the-art detector DINO with Swin-Large backbone, 4 scales of feature maps and 36-epoch training schedule, from 57.8% to 58.9% in terms of mean average precision on MSCOCO 2017 validation set. Code will be available at https://github.com/LeonHLJ/Teach-DETR.
翻訳日:2022-11-24 13:19:22 公開日:2022-11-23
# 変態同変3次元物体検出による自律走行

Transformation-Equivariant 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2211.11962v2 )

ライセンス: Link先を確認
Hai Wu and Chenglu Wen and Wei Li and Xin Li and Ruigang Yang and Cheng Wang(参考訳) 3次元物体検出は、最近自動運転に注目が集まっている。 3dシーンのオブジェクトは、さまざまな方向で配布される。 通常の検出器は回転と反射変換のバリエーションを明示的にモデル化しない。 そのため、堅牢な検出には大規模ネットワークと広範なデータ拡張が必要である。 最近の同変ネットワークは、複数の変換点雲に共有ネットワークを適用することで、変換変動を明示的にモデル化し、オブジェクト幾何学モデリングに大きな可能性を示している。 しかし、計算コストが大きく、推論速度も遅いため、自動運転における3次元物体検出にそのようなネットワークを適用することは困難である。 本研究では,計算コストと速度問題を克服する効率的な変換同変3次元検出器tedを提案する。 TEDはまずスパース・コンボリューション・バックボーンを適用し、マルチチャネル変換等価なボクセル特徴を抽出し、その後、これらの同変特徴を高速な3Dオブジェクト検出のための軽量でコンパクトな表現に整列し集約する。 高度に競争力のあるKITTIの3D車検出リーダーボードでは、TEDは競争効率の高い全ての応募品の1位にランクインした。

3D object detection received increasing attention in autonomous driving recently. Objects in 3D scenes are distributed with diverse orientations. Ordinary detectors do not explicitly model the variations of rotation and reflection transformations. Consequently, large networks and extensive data augmentation are required for robust detection. Recent equivariant networks explicitly model the transformation variations by applying shared networks on multiple transformed point clouds, showing great potential in object geometry modeling. However, it is difficult to apply such networks to 3D object detection in autonomous driving due to its large computation cost and slow reasoning speed. In this work, we present TED, an efficient Transformation-Equivariant 3D Detector to overcome the computation cost and speed issues. TED first applies a sparse convolution backbone to extract multi-channel transformation-equivariant voxel features; and then aligns and aggregates these equivariant features into lightweight and compact representations for high-performance 3D object detection. On the highly competitive KITTI 3D car detection leaderboard, TED ranked 1st among all submissions with competitive efficiency.
翻訳日:2022-11-24 13:19:02 公開日:2022-11-23
# PointCMC: ポイントクラウド理解のためのクロスモーダルマルチスケール対応学習

PointCMC: Cross-Modal Multi-Scale Correspondences Learning for Point Cloud Understanding ( http://arxiv.org/abs/2211.12032v2 )

ライセンス: Link先を確認
Honggu Zhou, Xiaogang Peng, Jiawei Mao, Zizhao Wu, Ming Zeng(参考訳) いくつかの自己教師型クロスモーダル学習アプローチは、最近、ポイントクラウド表現を強化するための画像信号の可能性を実証している。 しかし、自己監督的な方法で、モーダルな局所的およびグローバルな通信を直接モデル化する方法については疑問が残る。 そこで本研究では,自己教師付きポイントクラウド表現学習のためのマルチスケール対応をモデル化する新しいクロスモーダル手法であるpointcmcを提案する。 特にポイントCMCは,(1) 局所的局所幾何学的特徴を最適化して局所的対応を学習する局所的-局所的(L2L)モジュール,(2) 局所的-グローバル的(L2G)モジュール,(3) 局所的-グローバル的(G2G)モジュールによって局所的特徴とグローバル的特徴の対応を学習する局所的-グローバル的(L2G)モジュールから構成される。 広範な実験結果から,3dオブジェクトの分類やセグメンテーションといった下流タスクにおいて,既存の最先端手法よりも優れた手法が得られた。 コードは受理次第公開される予定だ。

Some self-supervised cross-modal learning approaches have recently demonstrated the potential of image signals for enhancing point cloud representation. However, it remains a question on how to directly model cross-modal local and global correspondences in a self-supervised fashion. To solve it, we proposed PointCMC, a novel cross-modal method to model multi-scale correspondences across modalities for self-supervised point cloud representation learning. In particular, PointCMC is composed of: (1) a local-to-local (L2L) module that learns local correspondences through optimized cross-modal local geometric features, (2) a local-to-global (L2G) module that aims to learn the correspondences between local and global features across modalities via local-global discrimination, and (3) a global-to-global (G2G) module, which leverages auxiliary global contrastive loss between the point cloud and image to learn high-level semantic correspondences. Extensive experiment results show that our approach outperforms existing state-of-the-art methods in various downstream tasks such as 3D object classification and segmentation. Code will be made publicly available upon acceptance.
翻訳日:2022-11-24 13:18:46 公開日:2022-11-23
# 視覚学習者のための暗黙的神経表現の再考

Rethinking Implicit Neural Representations for Vision Learners ( http://arxiv.org/abs/2211.12040v2 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Lizhuang Ma(参考訳) Inlicit Neural Representation (INR) はコンピュータビジョンにおける連続信号のパラメータ化に有効である。 しかし、ほとんどのINRメソッドは、画像/ビデオ圧縮、超解像度、画像生成などの低レベルなタスクに限定されている。 ハイレベルなタスクやディープネットワークへのINRの探索方法に関する質問はまだ未調査である。 既存のINRメソッドには2つの問題がある。 1)INRの狭い理論的定義は、ハイレベルなタスクには適用できない。 2)ディープネットワークにおける表現能力の欠如。 以上の事実に動機づけられたinrsの定義を,新しい視点から再構成し,低レベルと高レベルの両方の課題に取り組むinrsの最初の研究である革新的暗黙的ニューラルネットワーク(inrn)を提案する。 具体的には、2つの異なる積み重ね方と対応する損失関数とともに、inrnにおける基本ブロックの3つの重要な設計を示す。 低レベルタスク (画像適合) と高レベル視覚タスク (画像分類, オブジェクト検出, インスタンスセグメント化) の両方について解析を行い, 提案手法の有効性を実証した。

Implicit Neural Representations (INRs) are powerful to parameterize continuous signals in computer vision. However, almost all INRs methods are limited to low-level tasks, e.g., image/video compression, super-resolution, and image generation. The questions on how to explore INRs to high-level tasks and deep networks are still under-explored. Existing INRs methods suffer from two problems: 1) narrow theoretical definitions of INRs are inapplicable to high-level tasks; 2) lack of representation capabilities to deep networks. Motivated by the above facts, we reformulate the definitions of INRs from a novel perspective and propose an innovative Implicit Neural Representation Network (INRN), which is the first study of INRs to tackle both low-level and high-level tasks. Specifically, we present three key designs for basic blocks in INRN along with two different stacking ways and corresponding loss functions. Extensive experiments with analysis on both low-level tasks (image fitting) and high-level vision tasks (image classification, object detection, instance segmentation) demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-24 13:18:18 公開日:2022-11-23
# ISIM:弱修正セグメンテーションのための反復自己改善モデル

ISIM: Iterative Self-Improved Model for Weakly Supervised Segmentation ( http://arxiv.org/abs/2211.12455v2 )

ライセンス: Link先を確認
Cenk Bircanoglu, Nafiz Arica(参考訳) Weakly Supervised Semantic Segmentation (WSSS)は,クラスレベルのラベルからセグメンテーションラベルを学習するための課題である。 文献では、クラス活性化マップ(CAM)から得られる情報を活用することがWSSS研究に広く利用されている。 しかし、CAMは分類ネットワークから得られるため、オブジェクトの最も識別性の高い部分に興味を持ち、セグメンテーションタスクの非完全事前情報を生成する。 本研究では,セグメンテーションラベルとよりコヒーレントなCAMを得るために,修正エンコーダ-デコーダ-ベースセグメンテーションモデルに反復的アプローチを用いたフレームワークを提案し,同時に分類とセグメンテーションタスクをサポートする。 基底トラストのセグメンテーションラベルは付与されないため、同じモデルが密度条件ランダムフィールド(dCRF)の助けを借りて擬似セグメンテーションラベルを生成する。 その結果,提案手法は反復的な自己改善モデルとなった。 DeepLabv3とUNetモデルで実施された実験では、Pascal VOC12データセットが大幅に向上し、DeepLabv3アプリケーションは現在の最先端メトリックを2.5%向上させた。 実験に関連する実装は、https://github.com/cenkbircanoglu/isimである。

Weakly Supervised Semantic Segmentation (WSSS) is a challenging task aiming to learn the segmentation labels from class-level labels. In the literature, exploiting the information obtained from Class Activation Maps (CAMs) is widely used for WSSS studies. However, as CAMs are obtained from a classification network, they are interested in the most discriminative parts of the objects, producing non-complete prior information for segmentation tasks. In this study, to obtain more coherent CAMs with segmentation labels, we propose a framework that employs an iterative approach in a modified encoder-decoder-based segmentation model, which simultaneously supports classification and segmentation tasks. As no ground-truth segmentation labels are given, the same model also generates the pseudo-segmentation labels with the help of dense Conditional Random Fields (dCRF). As a result, the proposed framework becomes an iterative self-improved model. The experiments performed with DeepLabv3 and UNet models show a significant gain on the Pascal VOC12 dataset, and the DeepLabv3 application increases the current state-of-the-art metric by %2.5. The implementation associated with the experiments can be found: https://github.com/cenkbircanoglu/isim.
翻訳日:2022-11-24 13:18:01 公開日:2022-11-23
# 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方

Reward is not Necessary: How to Create a Compositional Self-Preserving Agent for Life-Long Learning ( http://arxiv.org/abs/2211.10851v2 )

ライセンス: Link先を確認
Thomas J. Ringstrom(参考訳) 本稿では, 報酬信号や報酬の最大化を目的としない, フレキシブルな自己保存システムを定義することが可能であることの証明として, 生理モデルに基づくエージェントを紹介した。 我々は,エージェントが解決しなければ,システムが吸収状態に閉じ込められ,目標指向の警察を実施できる生理学的構造を備えた自己保存エージェント(SPA)を導入することにより,これを実現した。 我々のエージェントは、テンポラルゴールマルコフ決定過程 (TGMDP) として形式化された非定常非マルコフタスクを符号化するために、演算子ベルマン方程式 (OBEs) と呼ばれるベルマン方程式の新しいクラスを用いて定義される。 OBEは、目標を達成するために使われるポリシーの最終状態時間に初期状態時刻をマッピングする最適な目標条件付き時空間遷移演算子を作成し、また、複数の動的生理的状態空間における将来の状態を予測するためにも使用できる。 spaは、ポリシーに従う後のエンパワーメント(トランジッション演算子のチャネル容量)の変化を定量化するvalence関数と呼ばれる本質的な動機付け関数を備えている。 エンパワーメントは遷移作用素の関数であるため、エンパワーメントとOBEの間には自然なシナジズムが存在する: OBEは階層的遷移作用素を作成し、価関数はこれらの作用素で定義される階層的エンパワーメント変化を評価することができる。 次に、valence関数はゴール選択に使用され、エージェントは最大エンパワーメントゲインを生成するゴール状態を実現するポリシーシーケンスを選択する。 そうすることで、エージェントは、将来、外部状態と内部状態の両方を制御する能力を損なう内部死状態を避け、予測的および予測的自己保存能力を発揮する。 また,SPAと多目的RLを比較し,シンボリック推論と生涯学習の能力について議論した。

We introduce a physiological model-based agent as proof-of-principle that it is possible to define a flexible self-preserving system that does not use a reward signal or reward-maximization as an objective. We achieve this by introducing the Self-Preserving Agent (SPA) with a physiological structure where the system can get trapped in an absorbing state if the agent does not solve and execute goal-directed polices. Our agent is defined using new class of Bellman equations called Operator Bellman Equations (OBEs), for encoding jointly non-stationary non-Markovian tasks formalized as a Temporal Goal Markov Decision Process (TGMDP). OBEs produce optimal goal-conditioned spatiotemporal transition operators that map an initial state-time to the final state-times of a policy used to complete a goal, and can also be used to forecast future states in multiple dynamic physiological state-spaces. SPA is equipped with an intrinsic motivation function called the valence function, which quantifies the changes in empowerment (the channel capacity of a transition operator) after following a policy. Because empowerment is a function of a transition operator, there is a natural synergism between empowerment and OBEs: the OBEs create hierarchical transition operators, and the valence function can evaluate hierarchical empowerment change defined on these operators. The valence function can then be used for goal selection, wherein the agent chooses a policy sequence that realizes goal states which produce maximum empowerment gain. In doing so, the agent will seek freedom and avoid internal death-states that undermine its ability to control both external and internal states in the future, thereby exhibiting the capacity of predictive and anticipatory self-preservation. We also compare SPA to Multi-objective RL, and discuss its capacity for symbolic reasoning and life-long learning.
翻訳日:2022-11-24 13:11:40 公開日:2022-11-23
# シーケンス内のベクトルをルーティングするアルゴリズム

An Algorithm for Routing Vectors in Sequences ( http://arxiv.org/abs/2211.11754v2 )

ライセンス: Link先を確認
Franz A. Heinsen(参考訳) 本研究では,ベクトル列を取り込んで,長さとベクトルサイズが指定された新しいシーケンスを計算するルーティングアルゴリズムを提案する。 それぞれの出力ベクトルは「bang per bit」を最大化し、入力ベクトルをより良く予測することで、使い勝手とデータ無視のネットコストの差を最大化する。 我々は、出力ベクトルを幾何学的対象、信用を割り当てる潜在変数、連想記憶のモデルにおける問合せ状態、心の社会のモデルにおけるエージェントとして記述する。 我々は,パラメータ数,計算量,メモリ使用量を桁違いに削減し,従来よりも長い列をルーティングするアルゴリズムを実装した。 我々は,自然言語および視覚的分類タスクの実装を評価し,解釈可能な競争的あるいは最先端の精度とエンドツーエンドの信用代入を得る。

We propose a routing algorithm that takes a sequence of vectors and computes a new sequence with specified length and vector size. Each output vector maximizes "bang per bit," the difference between a net benefit to use and net cost to ignore data, by better predicting the input vectors. We describe output vectors as geometric objects, as latent variables that assign credit, as query states in a model of associative memory, and as agents in a model of a Society of Mind. We implement the algorithm with optimizations that reduce parameter count, computation, and memory use by orders of magnitude, enabling us to route sequences of greater length than previously possible. We evaluate our implementation on natural language and visual classification tasks, obtaining competitive or state-of-the-art accuracy and end-to-end credit assignments that are interpretable.
翻訳日:2022-11-24 13:11:07 公開日:2022-11-23
# ニューラルネットワークのためのベイズ学習:アルゴリズムによる調査

Bayesian Learning for Neural Networks: an algorithmic survey ( http://arxiv.org/abs/2211.11865v2 )

ライセンス: Link先を確認
Martin Magris, Alexandros Iosifidis(参考訳) 過去10年間、ベイズ学習への関心が高まった。 しかし、このトピックの技術的な性質とそれに関連する多くの要素は、理論を実践的な実装に変換する複雑さに加えて、ベイズ学習パラダイムの使用を制限することや、様々な分野や応用で広く採用されるのを妨げている。 この自己完結型調査は、ベイズ学習ニューラルネットワークの原理とアルゴリズムを読者に紹介する。 アクセス可能で実践的な視点からトピックを紹介します。 ベイズニューラルネットワークの一般導入について、変分推論と自然勾配の利用に依存する解に重点を置いて、ベイズ推論の標準的および最近のアプローチを論じ、提示する。 また,ベイズ学習の最先端手法としての多様体最適化についても論じる。 提案手法の特徴について検討し,その実装に擬似コードを提供し,勾配の計算などの実践的側面に注目した。

The last decade witnessed a growing interest in Bayesian learning. Yet, the technicality of the topic and the multitude of ingredients involved therein, besides the complexity of turning theory into practical implementations, limit the use of the Bayesian learning paradigm, preventing its widespread adoption across different fields and applications. This self-contained survey engages and introduces readers to the principles and algorithms of Bayesian Learning for Neural Networks. It provides an introduction to the topic from an accessible, practical-algorithmic perspective. Upon providing a general introduction to Bayesian Neural Networks, we discuss and present both standard and recent approaches for Bayesian inference, with an emphasis on solutions relying on Variational Inference and the use of Natural gradients. We also discuss the use of manifold optimization as a state-of-the-art approach to Bayesian learning. We examine the characteristic properties of all the discussed methods, and provide pseudo-codes for their implementation, paying attention to practical aspects, such as the computation of the gradients
翻訳日:2022-11-24 13:10:52 公開日:2022-11-23
# 自己監督型ビデオハッシュのためのコントラストマスクオートエンコーダ

Contrastive Masked Autoencoders for Self-Supervised Video Hashing ( http://arxiv.org/abs/2211.11210v2 )

ライセンス: Link先を確認
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shutao Xia(参考訳) SSVH(Self-Supervised Video Hashing)モデルでは,映像の短いバイナリ表現を地道な監督なしに生成し,大規模ビデオ検索の効率化と研究の注目を集める。 SSVHの成功は、ビデオコンテンツを理解することと、ラベルのないビデオ間のセマンティックな関係を捉える能力にある。 通常、最先端のssvh法はこれら2つのポイントを2段階のトレーニングパイプラインで考慮し、まず、インスタンス毎にマスク・アンド・予測タスクで補助ネットワークを訓練し、次に、補助ネットワークから転送される疑似neighborhood構造を保存するためにハッシュモデルを訓練する。 この連続的なトレーニング戦略は柔軟性がなく、不要である。 本論文では,映像意味情報と映像類似性関係理解を1段階に組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。 ハッシュ学習を改善するためにビデオ意味情報をキャプチャするため,エンコーダ・デコーダ構造を採用し,時間マッシュフレームから映像を再構成する。 特に、より高いマスキング比はビデオの理解に役立ちます。 さらに、ビデオの2つの拡張ビュー間の合意を最大化することで、ビデオ間の類似性を十分に活用し、より識別的で堅牢なハッシュコードに寄与します。 大規模ビデオデータセット(FCVID、ActivityNet、YFCC)の大規模な実験は、ConMHが最先端の結果を達成することを示している。 コードはhttps://github.com/huangmozhi9527/conmhで入手できる。

Self-Supervised Video Hashing (SSVH) models learn to generate short binary representations for videos without ground-truth supervision, facilitating large-scale video retrieval efficiency and attracting increasing research attention. The success of SSVH lies in the understanding of video content and the ability to capture the semantic relation among unlabeled videos. Typically, state-of-the-art SSVH methods consider these two points in a two-stage training pipeline, where they firstly train an auxiliary network by instance-wise mask-and-predict tasks and secondly train a hashing model to preserve the pseudo-neighborhood structure transferred from the auxiliary network. This consecutive training strategy is inflexible and also unnecessary. In this paper, we propose a simple yet effective one-stage SSVH method called ConMH, which incorporates video semantic information and video similarity relationship understanding in a single stage. To capture video semantic information for better hashing learning, we adopt an encoder-decoder structure to reconstruct the video from its temporal-masked frames. Particularly, we find that a higher masking ratio helps video understanding. Besides, we fully exploit the similarity relationship between videos by maximizing agreement between two augmented views of a video, which contributes to more discriminative and robust hash codes. Extensive experiments on three large-scale video datasets (i.e., FCVID, ActivityNet and YFCC) indicate that ConMH achieves state-of-the-art results. Code is available at https://github.com/huangmozhi9527/ConMH.
翻訳日:2022-11-24 13:10:37 公開日:2022-11-23
# 深部RLの雑音的記号的抽象化 : Reward Machine を用いた検討

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines ( http://arxiv.org/abs/2211.10902v2 )

ライセンス: Link先を確認
Andrew C. Li, Zizhao Chen, Pashootan Vaezipoor, Toryn Q. Klassen, Rodrigo Toro Icarte, Sheila A. McIlraith(参考訳) 自然言語と形式言語は、人間が指示や報酬関数を指定する効果的なメカニズムを提供する。 本稿では,Reward Machinesが取得したシンボル言語で報酬関数が指定された場合,RLによるポリシー生成について検討する。 我々は、エージェントの観点から、環境状態のシンボル(ここでは報酬機械)語彙へのマッピングが不確実である場合に関心を持っている。 我々は,PMDP最適化問題の特別なクラスとして,ノイズの多いシンボル抽象化を用いたリワードマシンにおけるポリシー学習の問題を定式化し,既存の手法と新しい手法に基づいて,個別のシンボルの基底ではなく,リワードマシンの状態を予測することに焦点を当てたいくつかの手法について検討する。 これらの手法を解析し,記号語彙の正しい解釈における不確かさの程度を実験的に評価する。 本手法の強みと既存手法の限界を, 図示的, 玩具的, 部分的観察可能な深層rl領域の両方について実証的に検証した。

Natural and formal languages provide an effective mechanism for humans to specify instructions and reward functions. We investigate how to generate policies via RL when reward functions are specified in a symbolic language captured by Reward Machines, an increasingly popular automaton-inspired structure. We are interested in the case where the mapping of environment state to a symbolic (here, Reward Machine) vocabulary -- commonly known as the labelling function -- is uncertain from the perspective of the agent. We formulate the problem of policy learning in Reward Machines with noisy symbolic abstractions as a special class of POMDP optimization problem, and investigate several methods to address the problem, building on existing and new techniques, the latter focused on predicting Reward Machine state, rather than on grounding of individual symbols. We analyze these methods and evaluate them experimentally under varying degrees of uncertainty in the correct interpretation of the symbolic vocabulary. We verify the strength of our approach and the limitation of existing methods via an empirical investigation on both illustrative, toy domains and partially observable, deep RL domains.
翻訳日:2022-11-24 13:10:09 公開日:2022-11-23
# フェアネスは敵の脆弱性を増す

Fairness Increases Adversarial Vulnerability ( http://arxiv.org/abs/2211.11835v2 )

ライセンス: Link先を確認
Cuong Tran, Keyu Zhu, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) ディープラーニングモデルの顕著なパフォーマンスとその連続したドメイン(例えば顔認識)への応用は、エクイティとセキュリティの交差において重要な課題をもたらす。 公平性と堅牢性は、学習モデルにおいてしばしば必要とされる2つの望ましい概念である。 公正さは、モデルを不均等に他のグループに害を与えない(または利益を与える)ことを保証する一方、ロバスト性は小さな入力摂動に対してモデルの弾力性を測定する。 本稿では,フェアネスとロバストネスの2分法が存在することを示し,フェアネスを達成すると,モデルのロバスト性が逆試料に低下することを示す。 報告された分析は、そのような対照的な行動を引き起こす要因に光を当て、この行動の鍵となる説明として、グループ間の決定境界までの距離が示唆されている。 非線形モデルと異なるアーキテクチャに関する広範な実験は、複数の視覚領域における理論的知見を検証する。 最後に,公平性とロバスト性の間の良好なトレードオフを実現するモデルを構築するための,単純かつ効果的なソリューションを提案する。

The remarkable performance of deep learning models and their applications in consequential domains (e.g., facial recognition) introduces important challenges at the intersection of equity and security. Fairness and robustness are two desired notions often required in learning models. Fairness ensures that models do not disproportionately harm (or benefit) some groups over others, while robustness measures the models' resilience against small input perturbations. This paper shows the existence of a dichotomy between fairness and robustness, and analyzes when achieving fairness decreases the model robustness to adversarial samples. The reported analysis sheds light on the factors causing such contrasting behavior, suggesting that distance to the decision boundary across groups as a key explainer for this behavior. Extensive experiments on non-linear models and different architectures validate the theoretical findings in multiple vision domains. Finally, the paper proposes a simple, yet effective, solution to construct models achieving good tradeoffs between fairness and robustness.
翻訳日:2022-11-24 13:09:51 公開日:2022-11-23
# ロバストな高次元チューニングフリー多重テスト

Robust High-dimensional Tuning Free Multiple Testing ( http://arxiv.org/abs/2211.11959v2 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Mengxin Yu(参考訳) 高次元データのスタイリングの特徴は、多くの変数が重い尾を持ち、ロバストな統計的推論が大規模な統計的推論の有効性にとって重要であることである。 しかし、Winsorization、Huberization、Central of meansといった既存の開発では、境界付けられた第2モーメントが必要であり、変数依存のチューニングパラメータが伴うため、大規模な問題への応用が困難になる。 これらの制約を解放するために,本論文では,非漸近的な視点から,一点と二点の両問題における位置パラメータを推定するための有名なHodges-Lehmann (HL) 推定器を再検討する。 本研究では,新たに開発した非漸近的バハドゥル表現に基づくhl推定器に対するberry-esseen不等式と cram\'{e}r型不等式を開発し,重み付きブートストラップアプローチによるデータ駆動信頼区間を構築する。 これらの結果から、HL推定器を大規模研究に拡張し、グローバルヌルのテストや偽発見比例制御による大規模多重検定のための \emph{tuning-free} と \emph{moment-free} の高次元推論手順を提案する。 結果として得られるチューニングフリーおよびモーメントフリーの方法は、所定のレベルで偽発見比率を制御することが説得力強く示される。 シミュレーション研究は、我々の進歩した理論をさらに支持する。

A stylized feature of high-dimensional data is that many variables have heavy tails, and robust statistical inference is critical for valid large-scale statistical inference. Yet, the existing developments such as Winsorization, Huberization and median of means require the bounded second moments and involve variable-dependent tuning parameters, which hamper their fidelity in applications to large-scale problems. To liberate these constraints, this paper revisits the celebrated Hodges-Lehmann (HL) estimator for estimating location parameters in both the one- and two-sample problems, from a non-asymptotic perspective. Our study develops Berry-Esseen inequality and Cram\'{e}r type moderate deviation for the HL estimator based on newly developed non-asymptotic Bahadur representation, and builds data-driven confidence intervals via a weighted bootstrap approach. These results allow us to extend the HL estimator to large-scale studies and propose \emph{tuning-free} and \emph{moment-free} high-dimensional inference procedures for testing global null and for large-scale multiple testing with false discovery proportion control. It is convincingly shown that the resulting tuning-free and moment-free methods control false discovery proportion at a prescribed level. The simulation studies lend further support to our developed theory.
翻訳日:2022-11-24 13:09:36 公開日:2022-11-23
# tore: トランスフォーマーによる効率的なメッシュリカバリのためのトークン削減

TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer ( http://arxiv.org/abs/2211.10705v2 )

ライセンス: Link先を確認
Zhiyang Dou, Qingxuan Wu, Cheng Lin, Zeyu Cao, Qiangqiang Wu, Weilin Wan, Taku Komura, Wenping Wang(参考訳) 本稿では,モノクロ画像からトランスフォーマーをベースとしたヒューマンメッシュ回復のための効果的なToken Reduction(TORE)戦略を提案する。 現在のSOTA性能はTransformerベースの構造によって達成されている。 しかし、冗長なトークンによって引き起こされる高いモデルの複雑さと計算コストに苦しむ。 本稿では,2つの重要な側面,すなわち3次元形状構造と2次元画像特徴に基づくトークン削減戦略を提案する。 その結果,トランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減し,計算コストを大幅に削減した形状回復の競合精度を実現した。 提案手法の有効性を検証し,手メッシュ回収における本手法の一般化可能性を示すため,幅広いベンチマーク実験を行った。 論文が公開されたら、私たちのコードは公開されます。

In this paper, we introduce a set of effective TOken REduction (TORE) strategies for Transformer-based Human Mesh Recovery from monocular images. Current SOTA performance is achieved by Transformer-based structures. However, they suffer from high model complexity and computation cost caused by redundant tokens. We propose token reduction strategies based on two important aspects, i.e., the 3D geometry structure and 2D image feature, where we hierarchically recover the mesh geometry with priors from body structure and conduct token clustering to pass fewer but more discriminative image feature tokens to the Transformer. As a result, our method vastly reduces the number of tokens involved in high-complexity interactions in the Transformer, achieving competitive accuracy of shape recovery at a significantly reduced computational cost. We conduct extensive experiments across a wide range of benchmarks to validate the proposed method and further demonstrate the generalizability of our method on hand mesh recovery. Our code will be publicly available once the paper is published.
翻訳日:2022-11-24 13:09:08 公開日:2022-11-23