このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230401となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# GradMDM:動的ネットワークに対する敵攻撃 GradMDM: Adversarial Attack on Dynamic Networks ( http://arxiv.org/abs/2304.06724v1 ) ライセンス: Link先を確認 | Jianhong Pan, Lin Geng Foo, Qichen Zheng, Zhipeng Fan, Hossein Rahmani, Qiuhong Ke, Jun Liu | (参考訳) 動的ニューラルネットワークは、入力に基づいて構造を適応することにより、精度を損なうことなく、計算の冗長性を著しく低減することができる。
本稿では,動的ニューラルネットワークの高効率化を目的としたエネルギー指向攻撃に対する堅牢性について検討する。
具体的には,新しいアルゴリズムgradmdmを用いて動的モデルを攻撃する。
GradMDMは、勾配の方向と大きさを調整し、各入力に対する小さな摂動を効果的に見つけ、推論中に動的モデルのより多くの計算単位を活性化する技術である。
複数のデータセットおよび動的モデル上でGradMDMを評価し、従来のエネルギー指向攻撃手法よりも優れ、摂動の知覚性を低下させながら計算複雑性を大幅に向上させる。 Dynamic neural networks can greatly reduce computation redundancy without compromising accuracy by adapting their structures based on the input. In this paper, we explore the robustness of dynamic neural networks against energy-oriented attacks targeted at reducing their efficiency. Specifically, we attack dynamic models with our novel algorithm GradMDM. GradMDM is a technique that adjusts the direction and the magnitude of the gradients to effectively find a small perturbation for each input, that will activate more computational units of dynamic models during inference. We evaluate GradMDM on multiple datasets and dynamic models, where it outperforms previous energy-oriented attack techniques, significantly increasing computation complexity while reducing the perceptibility of the perturbations. | 翻訳日:2023-04-23 04:32:51 公開日:2023-04-01 |
# Mature-Health:MAndatory Feature choiceのためのHealth Recommender System MATURE-HEALTH: HEALTH Recommender System for MAndatory FeaTURE choices ( http://arxiv.org/abs/2304.09099v1 ) ライセンス: Link先を確認 | Ritu Shandilya, Sugam Sharma, Johnny Wong | (参考訳) 電解質のバランスは、人体の臓器の適切な機能に必要不可欠であり、電解質の不均衡は根底にある病態の発達の兆候である。
電解質の効率的なモニタリングは、疾患の早期発見の可能性を高めるだけでなく、病気検出後の電解質のバランスをとるために栄養管理食を厳密に追従することで、健康のさらなる悪化を防ぐことができる。
本研究では,血液中の必須電解質および他の物質の不均衡を予測し,バランスの取れた栄養素を有する食品を推奨し,電解質の不均衡を回避し,成熟した健康状態のレコメンダシステムを提案する。
提案モデルでは, 電解質の不均衡を予測するために, 最新の実験結果と, 毎日の食品について検討する。
成熟した健康状態は、食品を推奨する成熟した食品アルゴリズムに依存している。
この方法, 特にナトリウム, カリウム, BUNの濃度を, 実験室報告と毎日の食事摂取量を用いて, 透析患者の予測アルゴリズムであるランダムフォレストを用いて予測した。
そして、提案されたモデルは、それぞれナトリウム、カリウム、BUNの99.53パーセント、96.94パーセント、95.35パーセントの精度を示す。
MATURE Healthは、血液中の必須電解質やその他の物質の不均衡を予測するための機械学習モデルを実装し、電解質の不均衡を予防または少なくとも軽減する栄養素の量を含む食品を推奨する、新しい健康勧告システムである。 Balancing electrolytes is utmost important and essential for appropriate functioning of organs in human body as electrolytes imbalance can be an indication of the development of underlying pathophysiology. Efficient monitoring of electrolytes imbalance not only can increase the chances of early detection of disease, but also prevents the further deterioration of the health by strictly following nutrient controlled diet for balancing the electrolytes post disease detection. In this research, a recommender system MATURE Health is proposed and implemented, which predicts the imbalance of mandatory electrolytes and other substances presented in blood and recommends the food items with the balanced nutrients to avoid occurrence of the electrolytes imbalance. The proposed model takes user most recent laboratory results and daily food intake into account to predict the electrolytes imbalance. MATURE Health relies on MATURE Food algorithm to recommend food items as latter recommends only those food items that satisfy all mandatory nutrient requirements while also considering user past food preferences. To validate the proposed method, particularly sodium, potassium, and BUN levels have been predicted with prediction algorithm, Random Forest, for dialysis patients using their laboratory reports history and daily food intake. And, the proposed model demonstrates 99.53 percent, 96.94 percent and 95.35 percent accuracy for Sodium, Potassium, and BUN respectively. MATURE Health is a novel health recommender system that implements machine learning models to predict the imbalance of mandatory electrolytes and other substances in the blood and recommends the food items which contain the required amount of the nutrients that prevent or at least reduce the risk of the electrolytes imbalance. | 翻訳日:2023-04-23 04:18:06 公開日:2023-04-01 |
# Leo: Lagrangeの基本的な最適化 Leo: Lagrange Elementary Optimization ( http://arxiv.org/abs/2304.05346v1 ) ライセンス: Link先を確認 | Aso M. Aladdin, Tarik A. Rashid | (参考訳) グローバル最適化問題は、実用的かつ効率的な進化的洗練手法を用いて頻繁に解決される。
しかし、元の問題がより複雑になると、その有効性と拡張性も向上する。
そこで本研究では,ヒト血液のアルブミン投与量を用いたワクチン接種精度の顕著な向上から着想を得た,ラグランジュ基本最適化(Leo)を進化的手法として導入することを目的とする。
遺伝子交差後の適合関数値を用いてインテリジェントエージェントを開発する。
これらの遺伝子は探索と搾取の両方において探索エージェントを誘導する。
leoアルゴリズムの主な目的は、この概念の着想と動機とともに、本論文で提示される。
その精度を示すために、提案アルゴリズムは19の従来のベンチマーク関数やCECC06 2019テスト関数を含む様々なテスト関数に対して検証される。
19の古典的なベンチマークテスト関数に対する leo の結果は da, pso, ga に対して別々に評価され、さらに fdo と lpb のような他の2つの最近のアルゴリズムも評価に含まれる。
さらに、LeoはCECC06 2019の10の関数でDA、WOA、SSA、FDO、PB、FOXアルゴリズムをはっきりとテストしている。
累積的な結果はレオの人口増加と世界的最適への移動の能力を示している。
異なる標準測定は、探検と搾取の両方の段階でレオの安定性を検証し、証明するために用いられる。
さらに, 統計的解析は, 提案研究の結果を支持する。
最後に、Leoの実用性を実証するために、現実世界における新しい応用を紹介した。 Global optimization problems are frequently solved using the practical and efficient method of evolutionary sophistication. But as the original problem becomes more complex, so does its efficacy and expandability. Thus, the purpose of this research is to introduce the Lagrange Elementary Optimization (Leo) as an evolutionary method, which is self-adaptive inspired by the remarkable accuracy of vaccinations using the albumin quotient of human blood. They develop intelligent agents using their fitness function value after gene crossing. These genes direct the search agents during both exploration and exploitation. The main objective of the Leo algorithm is presented in this paper along with the inspiration and motivation for the concept. To demonstrate its precision, the proposed algorithm is validated against a variety of test functions, including 19 traditional benchmark functions and the CECC06 2019 test functions. The results of Leo for 19 classic benchmark test functions are evaluated against DA, PSO, and GA separately, and then two other recent algorithms such as FDO and LPB are also included in the evaluation. In addition, the Leo is tested by ten functions on CECC06 2019 with DA, WOA, SSA, FDO, LPB, and FOX algorithms distinctly. The cumulative outcomes demonstrate Leo's capacity to increase the starting population and move toward the global optimum. Different standard measurements are used to verify and prove the stability of Leo in both the exploration and exploitation phases. Moreover, Statistical analysis supports the findings results of the proposed research. Finally, novel applications in the real world are introduced to demonstrate the practicality of Leo. | 翻訳日:2023-04-16 22:15:39 公開日:2023-04-01 |
# 多ページdocvqa用階層型マルチモーダルトランスフォーマー Hierarchical multimodal transformers for Multi-Page DocVQA ( http://arxiv.org/abs/2212.05935v2 ) ライセンス: Link先を確認 | Rub\`en Tito, Dimosthenis Karatzas and Ernest Valveny | (参考訳) Document Visual Question Answering (DocVQA)は、文書イメージから質問に答えるタスクである。
DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。
しかし、実際のシナリオでは、ドキュメントは主に、完全に処理されるべき複数のページで構成されています。
この作業では、DocVQAをマルチページシナリオに拡張します。
そのため、まずMP-DocVQAという新しいデータセットを作成し、単一のページではなく複数ページのドキュメントに質問を提示する。
第2に,t5アーキテクチャに基づく新しい階層的手法であるhi-vt5を提案する。
提案手法は,エンコーダが各ページの最も関連する情報を要約し,その要約情報をデコーダが取り出して最終回答を生成する階層的トランスフォーマアーキテクチャに基づいている。
広範な実験を通じて,本手法は一つの段階において,質問に答えることができ,回答を見つけるための関連情報を含むページを提供し,ある種の説明可能性尺度として利用できることを示した。 Document Visual Question Answering (DocVQA) refers to the task of answering questions from document images. Existing work on DocVQA only considers single-page documents. However, in real scenarios documents are mostly composed of multiple pages that should be processed altogether. In this work we extend DocVQA to the multi-page scenario. For that, we first create a new dataset, MP-DocVQA, where questions are posed over multi-page documents instead of single pages. Second, we propose a new hierarchical method, Hi-VT5, based on the T5 architecture, that overcomes the limitations of current methods to process long multi-page documents. The proposed method is based on a hierarchical transformer architecture where the encoder summarizes the most relevant information of every page and then, the decoder takes this summarized information to generate the final answer. Through extensive experimentation, we demonstrate that our method is able, in a single stage, to answer the questions and provide the page that contains the relevant information to find the answer, which can be used as a kind of explainability measure. | 翻訳日:2023-04-05 18:16:56 公開日:2023-04-01 |
# 改良型マルチエージェントソフトアクタ・クリティカルアルゴリズムを用いたマルチグリッド協調最適化スケジューリング Multi-Microgrid Collaborative Optimization Scheduling Using an Improved Multi-Agent Soft Actor-Critic Algorithm ( http://arxiv.org/abs/2304.01223v1 ) ライセンス: Link先を確認 | Jiankai Gao, Yang Li, Bin Wang, Haibo Wu | (参考訳) 複数の再生可能エネルギー源を備えたマルチマイクログリッド(MMG)システムの実装は、電力取引の促進を可能にする。
本稿では,異なる運用主体に属する複数の再生可能エネルギーマイクログリッドからなるmmgシステムのエネルギー管理問題に対処するため,マルチエージェント集中型トレーニング分散実行フレームワークに基づくmmg協調最適化スケジューリングモデルを提案する。
様々な不確実性に対処するための一般化能力を高めるために,マルチエージェント・ソフト・アクタ・クリティック(masac)アルゴリズムを提案し,mmgにおけるマルチエージェント間のエンエルジ取引を容易にし,自動機械学習(automl)を用いてマサックハイパーパラメータを最適化し,深層強化学習(drl)の一般化をさらに改善する。
実験の結果,提案手法は異なるエンティティ間の電力相補性を実現し,MMGシステムの運用コストを低減できることがわかった。
さらに、この提案は、経済性と計算効率の向上によって、他の最先端強化学習アルゴリズムを大きく上回っている。 The implementation of a multi-microgrid (MMG) system with multiple renewable energy sources enables the facilitation of electricity trading. To tackle the energy management problem of a MMG system, which consists of multiple renewable energy microgrids belonging to different operating entities, this paper proposes a MMG collaborative optimization scheduling model based on a multi-agent centralized training distributed execution framework. To enhance the generalization ability of dealing with various uncertainties, we also propose an improved multi-agent soft actor-critic (MASAC) algorithm, which facilitates en-ergy transactions between multi-agents in MMG, and employs automated machine learning (AutoML) to optimize the MASAC hyperparameters to further improve the generalization of deep reinforcement learning (DRL). The test results demonstrate that the proposed method successfully achieves power complementarity between different entities, and reduces the MMG system operating cost. Additionally, the proposal significantly outperforms other state-of-the-art reinforcement learning algorithms with better economy and higher calculation efficiency. | 翻訳日:2023-04-05 17:13:29 公開日:2023-04-01 |
# NeuroDAVIS: データ可視化のためのニューラルネットワークモデル NeuroDAVIS: A neural network model for data visualization ( http://arxiv.org/abs/2304.01222v1 ) ライセンス: Link先を確認 | Chayan Maitra, Dibyendu B. Seal and Rajat K. De | (参考訳) 高次元データセットの次元性低減と可視化のタスクは、長い間、難題のままである。
最近の高スループット技術は、比較的新しいデータ型を持つ複数のビューを持つ新しい高次元データセットを生成する。
これらのデータセットの可視化には、データのローカル構造やグローバル構造に影響を与えることなく、データの隠れたパターンを発見できる適切な方法論が必要である。
しかし、このような方法はほとんど存在せず、この課題を実現することができる。
本研究では,データ可視化のための新しい教師なし深層ニューラルネットワークモデルneurodavisを導入した。
NeuroDAVISは、データ分布を仮定することなく、データから重要な特徴を抽出し、低次元で効果的に視覚化することができる。
高次元におけるデータの近傍関係は低次元で保存されていることが理論的に示されている。
NeuroDAVISの性能は、数値、テキスト、画像、生物学的データを含む多種多様な合成および実際の高次元データセットで評価されている。
NeuroDAVISは、可視化品質に関して、t-Distributed Stochastic Neighbor Embedding (t-SNE) とUniform Manifold Approximation and Projection (UMAP) の両方に対して、データサイズ、形状、および局所的およびグローバルな構造の保存に関して高い競争力を持っている。
高速補間に基づく t-SNE (Fit-SNE) は、高次元データセットのほとんどに対して t-SNE の変種である。
生物学的データセットでは、t-SNE、UMAP、Fit-SNEに加えて、NeuroDAVISは、親和性に基づく軌道埋め込み(PHATE)のための熱拡散の可能性や、IVISと呼ばれるシアムニューラルネットワークベースの方法など、他の最先端のアルゴリズムとよく比較されている。
下流の分類とクラスタリング分析は、NeuroDAVISによる埋め込みに好適な結果を示した。 The task of dimensionality reduction and visualization of high-dimensional datasets remains a challenging problem since long. Modern high-throughput technologies produce newer high-dimensional datasets having multiple views with relatively new data types. Visualization of these datasets require proper methodology that can uncover hidden patterns in the data without affecting the local and global structures within the data. To this end, however, very few such methodology exist, which can realise this task. In this work, we have introduced a novel unsupervised deep neural network model, called NeuroDAVIS, for data visualization. NeuroDAVIS is capable of extracting important features from the data, without assuming any data distribution, and visualize effectively in lower dimension. It has been shown theoritically that neighbourhood relationship of the data in high dimension remains preserved in lower dimension. The performance of NeuroDAVIS has been evaluated on a wide variety of synthetic and real high-dimensional datasets including numeric, textual, image and biological data. NeuroDAVIS has been highly competitive against both t-Distributed Stochastic Neighbor Embedding (t-SNE) and Uniform Manifold Approximation and Projection (UMAP) with respect to visualization quality, and preservation of data size, shape, and both local and global structure. It has outperformed Fast interpolation-based t-SNE (Fit-SNE), a variant of t-SNE, for most of the high-dimensional datasets as well. For the biological datasets, besides t-SNE, UMAP and Fit-SNE, NeuroDAVIS has also performed well compared to other state-of-the-art algorithms, like Potential of Heat-diffusion for Affinity-based Trajectory Embedding (PHATE) and the siamese neural network-based method, called IVIS. Downstream classification and clustering analyses have also revealed favourable results for NeuroDAVIS-generated embeddings. | 翻訳日:2023-04-05 17:13:11 公開日:2023-04-01 |
# 説明可能な機械学習システムが胸部X線写真解釈におけるサーバ間合意に及ぼす影響の評価 Evaluating the impact of an explainable machine learning system on the interobserver agreement in chest radiograph interpretation ( http://arxiv.org/abs/2304.01220v1 ) ライセンス: Link先を確認 | Hieu H. Pham, Ha Q. Nguyen, Hieu T. Nguyen, Linh T. Le, Khanh Lam | (参考訳) 胸部x線写真解釈における弁別可能な機械学習システムの臨床効果を測定するための前向き研究を行った。
VinDr-CXR(VinDr-CXR)と呼ばれるこのAIシステムは、FleissのKappa平均の1.5%の増加で、6人の放射線学者間の合意を著しく改善した。
さらに, 放射線科医がAIの提案を相談した結果, 放射線科医とシステム間の合意は, コーエンのカッパ平均で3.3%増加していた。
この研究はIEEE Accessで発表され、本論文はシカゴのミッドウェスト機械学習シンポジウム(MMLS 2023)に提出された短いバージョンである。 We conducted a prospective study to measure the clinical impact of an explainable machine learning system on interobserver agreement in chest radiograph interpretation. The AI system, which we call as it VinDr-CXR when used as a diagnosis-supporting tool, significantly improved the agreement between six radiologists with an increase of 1.5% in mean Fleiss' Kappa. In addition, we also observed that, after the radiologists consulted AI's suggestions, the agreement between each radiologist and the system was remarkably increased by 3.3% in mean Cohen's Kappa. This work has been accepted for publication in IEEE Access and this paper is our short version submitted to the Midwest Machine Learning Symposium (MMLS 2023), Chicago, IL, USA. | 翻訳日:2023-04-05 17:12:37 公開日:2023-04-01 |
# mp-fedcl : エッジインテリジェンスのためのマルチプロトタイプフェデレートコントラスト学習 MP-FedCL: Multi-Prototype Federated Contrastive Learning for Edge Intelligence ( http://arxiv.org/abs/2304.01950v1 ) ライセンス: Link先を確認 | Yu Qiao, Md. Shirajum Munir, Apurba Adhikary, Huy Q. Le, Avi Deb Raha, Chaoning Zhang, Choong Seon Hong | (参考訳) フェデレートされた学習支援エッジインテリジェンスにより、現代のインテリジェントサービスにおけるプライバシー保護が可能になる。
しかし、エッジクライアント間の独立分散(非IID)分散は、ローカルモデルのパフォーマンスを損なう可能性がある。
既存の単一プロトタイプベースの戦略は、機能空間の平均を用いてサンプルを表す。
しかし、機能空間は通常クラスタ化されておらず、単一のプロトタイプではサンプルをうまく表現できない。
そこで本研究では, ラベルと特徴歪の両方を含む非IID条件下で, 単一プロトタイプ上でのマルチプロトタイプ戦略の有効性を実証する, マルチプロトタイプ・フェデレート・コントラスト学習手法(MP-FedCL)を提案する。
特に、 \textit{k-means} に基づくマルチプロトタイプ計算戦略は、組込み空間内のクラスを表す複数のプロトタイプ (k$ centroids) を使用して、クラス空間ごとに異なる組込み表現をキャプチャするために最初に提案されている。
グローバルラウンド毎に、計算された複数のプロトタイプとそのモデルパラメータがエッジサーバに送信され、グローバルプロトタイププールに集約され、各クライアントに送られて、ローカルトレーニングのガイドとなる。
最後に、各クライアントのローカルトレーニングは、独自の教師付き学習タスクを最小化し、教師付きコントラスト学習を通じてグローバルプロトタイププール内の共有プロトタイプから学習する。
MNIST,Digit-5,Office-10,DomainNetによる実験結果から,提案手法は,特徴量およびラベル非IID分布において,平均テスト精度が約4.6\%,10.4\%向上した。 Federated learning-assisted edge intelligence enables privacy protection in modern intelligent services. However, not Independent and Identically Distributed (non-IID) distribution among edge clients can impair the local model performance. The existing single prototype-based strategy represents a sample by using the mean of the feature space. However, feature spaces are usually not clustered, and a single prototype may not represent a sample well. Motivated by this, this paper proposes a multi-prototype federated contrastive learning approach (MP-FedCL) which demonstrates the effectiveness of using a multi-prototype strategy over a single-prototype under non-IID settings, including both label and feature skewness. Specifically, a multi-prototype computation strategy based on \textit{k-means} is first proposed to capture different embedding representations for each class space, using multiple prototypes ($k$ centroids) to represent a class in the embedding space. In each global round, the computed multiple prototypes and their respective model parameters are sent to the edge server for aggregation into a global prototype pool, which is then sent back to all clients to guide their local training. Finally, local training for each client minimizes their own supervised learning tasks and learns from shared prototypes in the global prototype pool through supervised contrastive learning, which encourages them to learn knowledge related to their own class from others and reduces the absorption of unrelated knowledge in each global iteration. Experimental results on MNIST, Digit-5, Office-10, and DomainNet show that our method outperforms multiple baselines, with an average test accuracy improvement of about 4.6\% and 10.4\% under feature and label non-IID distributions, respectively. | 翻訳日:2023-04-05 13:02:28 公開日:2023-04-01 |
# chatgpt研究のネットワーク可視化 : 用語とキーワードの共起ネットワーク分析に基づく研究 Network Visualization of ChatGPT Research: a study based on term and keyword co-occurrence network analysis ( http://arxiv.org/abs/2304.01948v1 ) ライセンス: Link先を確認 | Deep Kumar Kirtania | (参考訳) 本研究の目的は,ChatGPTの主要な研究領域を用語およびキーワード共起ネットワークマッピング技術を用いて同定することである。
本研究では,ネットワーク可視化のために,レンズデータベースから577冊の出版物を検索した。
研究の結果,チャットグプが最大回数で発生し,人工知能,大規模言語モデル,gpt,研究などの関連用語が続いた。
この研究は、図書館や情報科学だけでなく、コンピュータや情報技術の専門家にも役立つだろう。 The main objective of this paper is to identify the major research areas of ChatGPT through term and keyword co-occurrence network mapping techniques. For conducting the present study, total of 577 publications were retrieved from the Lens database for the network visualization. The findings of the study showed that chatgpt occurrence in maximum number of times followed by its related terms such as artificial intelligence, large language model, gpt, study etc. This study will be helpful to library and information science as well as computer or information technology professionals. | 翻訳日:2023-04-05 13:01:59 公開日:2023-04-01 |
# 高特殊化トピ, 放射線オンコロジー物理における大規模言語モデルの評価 Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics ( http://arxiv.org/abs/2304.01938v1 ) ライセンス: Link先を確認 | Jason Holmes, Zhengliang Liu, Lian Zhang, Yuzhen Ding, Terence T. Sio, Lisa A. McGee, Jonathan B. Ashman, Xiang Li, Tianming Liu, Jiajian Shen, Wei Liu | (参考訳) 本研究では,放射線オンコロジーの物理問題に答えるために,Large Language Models (LLMs) を最初に研究する。
AP物理、LSAT、GREのような一般的な試験は、循環中に大量のテストタッカーと十分な試験準備資源を持っているため、LLMの真の可能性を正確に評価することはできない。
本稿では, LLMの指標としての価値に加えて, 科学的, 医学的コミュニティに関係のある放射線オンコロジー物理を, 高度に専門化したトピックで評価することを提案する。
我々は,マヨクリニックの専門知識に基づく放射線オンコロジー物理100問からなる試験を開発した。
4つのLDM, ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), BLOOMZを, 医学物理学者および非専門家に対して評価した。
ChatGPT (GPT-4) は、他のLLMや医学物理学者よりも平均して優れていた。
ChatGPT(GPT-4)の性能は、まず説明し、次に答えるとさらに向上した。
ChatGPT(GPT-3.5およびGPT-4)は,ヒト試験群では観察されなかった特徴である正しいか間違っているかにかかわらず,回答選択において高い一貫性を示した。
chatgpts (gpt-4) の推論能力の評価において、新しいアプローチ("上記の選択肢の1つが正しい答えである"という正しい答えを代入する)を用いた推論能力の評価において、chatgpt (gpt-4) は驚くべき正確さを示し、創発的な能力が存在する可能性を示唆した。
最終的に、chatgpt (gpt-4) は全体的な性能は良好であったが、その本質的な特性は、公判の多数決に基づくスコア付けにおいてさらなる改善を許さなかった。
対照的に、医学物理学者のチームは多数決でChatGPT(GPT-4)を大きく上回った。
この研究は、LLMが放射線腫瘍学の専門家と共に、非常に知識のあるアシスタントとして働く大きな可能性を示唆している。 We present the first study to investigate Large Language Models (LLMs) in answering radiation oncology physics questions. Because popular exams like AP Physics, LSAT, and GRE have large test-taker populations and ample test preparation resources in circulation, they may not allow for accurately assessing the true potential of LLMs. This paper proposes evaluating LLMs on a highly-specialized topic, radiation oncology physics, which may be more pertinent to scientific and medical communities in addition to being a valuable benchmark of LLMs. We developed an exam consisting of 100 radiation oncology physics questions based on our expertise at Mayo Clinic. Four LLMs, ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), and BLOOMZ, were evaluated against medical physicists and non-experts. ChatGPT (GPT-4) outperformed all other LLMs as well as medical physicists, on average. The performance of ChatGPT (GPT-4) was further improved when prompted to explain first, then answer. ChatGPT (GPT-3.5 and GPT-4) showed a high level of consistency in its answer choices across a number of trials, whether correct or incorrect, a characteristic that was not observed in the human test groups. In evaluating ChatGPTs (GPT-4) deductive reasoning ability using a novel approach (substituting the correct answer with "None of the above choices is the correct answer."), ChatGPT (GPT-4) demonstrated surprising accuracy, suggesting the potential presence of an emergent ability. Finally, although ChatGPT (GPT-4) performed well overall, its intrinsic properties did not allow for further improvement when scoring based on a majority vote across trials. In contrast, a team of medical physicists were able to greatly outperform ChatGPT (GPT-4) using a majority vote. This study suggests a great potential for LLMs to work alongside radiation oncology experts as highly knowledgeable assistants. | 翻訳日:2023-04-05 13:01:38 公開日:2023-04-01 |
# 意思決定における順序効果の量子的モデリング:Wang-Busemeyer QQ-equalityにおけるPOVM視点 Quantum-like modeling of the order effect in decision making: POVM viewpoint on the Wang-Busemeyer QQ-equality ( http://arxiv.org/abs/1811.00045v2 ) ライセンス: Link先を確認 | Aleksandr Lebedev and Andrei Khrennikov | (参考訳) 近年では、心理学、社会学、意思決定の理論、ゲーム理論など、物理学以外の分野で量子力学が積極的に使われている。
特に、量子力学は認知心理学や意思決定で生じるパラドックスを説明するために用いられる。
Wang と Busemeyer は、量子モデルとアプローチ、および非パラメトリック平等(いわゆる QQ-equality )を発明し、質問の順序効果を説明した。
このノートの主な目的は、数学的に正の演算子値測度で表される質問を考慮し、Wang-Busemeyerモデルを拡張する可能性をテストすることである。
このような観測可能量に対して、QQ-equalityは違反する可能性がある。
しかし, 原理的には, 質問の文脈を拡大することで, 元の Wang-Busemeyer モデルに拡張モデルを還元できることを示した。
preprintのこのバージョンは、バージョンで厄介な誤算を指摘しようとしている
1. この誤算は、POVMを使った運用経験のない読者を誤解させる可能性がある。
さもなくば、バージョン1で示される構成と推論のメインラインは正しいものであり、バージョン1とバージョンでの訂正の意見に基づいて、読み手によって簡単に完成することができる。
2. In recent years, quantum mechanics has been actively used in areas outside of physics, such as psychology, sociology, theory of decision-making, game theory, and others. In particular, quantum mechanics is used to explain the paradoxes arising in cognitive psychology and decision making. Wang and Busemeyer invented a quantum model and approach as well as non-parametric equality (so-called QQ-equality), explaining the questions order effect. The primary objective of this note is to test the possibility to expand the Wang-Busemeyer model by considering questions which are mathematically represented by positive operator valued measures. We found that, for such observables, the QQ-equality can be violated. But, we also showed that, in principle, it is possible to reduce expanded model to the original Wang-Busemeyer model by expanding the context of the questions. This version of preprint is aimed to point out to annoying miscalculation in version 1. This miscalculation might mislead a reader who is not experienced in operating with POVMs. Otherwise the main line of construction and reasoning presented in version 1 is right and it can be easily completed by the reader on the basis of version 1 and the correction remark in version 2. | 翻訳日:2023-04-05 02:42:06 公開日:2023-04-01 |
# ランドーアーの消去原理の3つのタイプ:微視的考察 Three types of Landauer's erasure principle: a microscopic view ( http://arxiv.org/abs/2005.06995v2 ) ライセンス: Link先を確認 | Xavier Oriols and Hrvoje Nikoli\'c | (参考訳) 熱力学の第2法則に情報を組み込む重要なステップはランダウアーによって行われ、情報の消去は熱の増加を意味することを示した。
ランダウアーの消去原理を正当化しようとするほとんどの試みは熱力学的議論に基づいている。
ここでは、古典的な顕微鏡法則の時間的可逆性だけを用いて、論理入力1と論理入力0にリンクした2つの最終環境の関係に依存するランダウアーの消去原理の3つのタイプを同定する。
強いタイプ(元々のランダウアーの定式化)は、最終的な環境が熱平衡である必要がある。
k_b \ln 2$のエントロピー変化を与える中間型は、2つの最終環境が同一のマクロ状態であるときに発生する。
最後に、弱いランダウアーの原理は、2つの最終環境がマクロ的に異なる場合、エントロピー変化のない情報消去を提供する。
上記の結果は古典的消去ゲートに正式に有効であるが、量子シナリオへの自然な拡張に関する議論が述べられている。
本稿は、Landauerの原理(熱処理環境の仮定に基づく)がマイクロエレクトロニクスには十分妥当であるが、将来のTHz周波数で動作する少数原子デバイスには適切でないことを強く示唆する。
したがって、情報消去が必ずしも放熱に結びついているとは限らない弱く中間的なランダウアーの原理は調査に値する。 An important step to incorporate information in the second law of thermodynamics was done by Landauer, showing that the erasure of information implies an increase in heat. Most attempts to justify Landauer's erasure principle are based on thermodynamic argumentations. Here, using just the time-reversibility of classical microscopic laws, we identify three types of the Landauer's erasure principle depending on the relation between the two final environments: the one linked to a logical input 1 and the other to the logical input 0. The strong type (which is the original Landauer's formulation) requires the final environments to be in thermal equilibrium. The intermediate type giving the entropy change of $k_B \ln 2$ occurs when the two final environments are identical macroscopic states. Finally, the weak Landauer's principle, providing information erasure with no entropy change, when the two final environments are macroscopically different. Even though the above results are formally valid for classical erasure gates, a discussion on their natural extension to quantum scenarios is presented. This paper strongly suggests that the original Landauer's principle (based on the assumption of thermalized environments) is fully reasonable for microelectronics, but it becomes less reasonable for future few-atoms devices working at THz frequencies. Thus, the weak and intermediate Landauer's principles, where the erasure of information is not necessarily linked to heat dissipation, are worth investigating. | 翻訳日:2023-04-05 02:37:29 公開日:2023-04-01 |
# デュアルストリームピラミッド登録ネットワーク Dual-Stream Pyramid Registration Network ( http://arxiv.org/abs/1909.11966v2 ) ライセンス: Link先を確認 | Miao Kang and Xiaojun Hu and Weilin Huang and Matthew R. Scott and Mauricio Reyes | (参考訳) 本稿では,教師なし3次元医用画像登録のためのDual-Stream Pyramid Registration Network(Dual-PRNet)を提案する。
最近のCNNベースの登録手法とは異なり、VoxelMorphは1ストリームエンコーダ・デコーダネットワークを用いて、一対の3Dボリュームから登録フィールドを計算し、畳み込み特徴ピラミッドからマルチスケール登録フィールドを計算できる2ストリームアーキテクチャを設計する。
私たちの貢献は2つあります。
一) 2つの畳み込み特徴ピラミッドを1対の入力ボリュームで別々に計算し、変形推定に有意な強い深み表現を生成する2つのストリーム3dエンコーダ・デコーダネットワークを設計する。
(ii)デコーディング機能ピラミッドから直接,複数スケールの登録フィールドを予測できるピラミッド登録モジュールを提案する。
これにより、シーケンシャルなワープにより、登録フィールドを徐々に粗い方法で洗練し、空間領域やスライス空間における大きな変位などの2つのボリューム間の大きな変形を処理することができる。
提案されたDual-PRNetは脳MRI登録のための2つの標準ベンチマークで評価されており、例えば最近のVoxelMorph [2]のLPBA40では0.683->0.778、Mindboggle101では0.511->0.631に改善されている。
コードはhttps://github.com/kangmiao15/dual-stream-prnet-plusで入手できる。 We propose a Dual-Stream Pyramid Registration Network (referred as Dual-PRNet) for unsupervised 3D medical image registration. Unlike recent CNN-based registration approaches, such as VoxelMorph, which explores a single-stream encoder-decoder network to compute a registration fields from a pair of 3D volumes, we design a two-stream architecture able to compute multi-scale registration fields from convolutional feature pyramids. Our contributions are two-fold: (i) we design a two-stream 3D encoder-decoder network which computes two convolutional feature pyramids separately for a pair of input volumes, resulting in strong deep representations that are meaningful for deformation estimation; (ii) we propose a pyramid registration module able to predict multi-scale registration fields directly from the decoding feature pyramids. This allows it to refine the registration fields gradually in a coarse-to-fine manner via sequential warping, and enable the model with the capability for handling significant deformations between two volumes, such as large displacements in spatial domain or slice space. The proposed Dual-PRNet is evaluated on two standard benchmarks for brain MRI registration, where it outperforms the state-of-the-art approaches by a large margin, e.g., having improvements over recent VoxelMorph [2] with 0.683->0.778 on the LPBA40, and 0.511->0.631 on the Mindboggle101, in term of average Dice score. Code is available at: https://github.com/kangmiao15/Dual-Stream-PRNet-Plus. | 翻訳日:2023-04-05 02:36:44 公開日:2023-04-01 |
# エッジコンピューティングにおける連合アンサンブルモデルに基づく強化学習 Federated Ensemble Model-based Reinforcement Learning in Edge Computing ( http://arxiv.org/abs/2109.05549v3 ) ライセンス: Link先を確認 | Jin Wang, Jia Hu, Jed Mills, Geyong Min, and Ming Xia | (参考訳) Federated Learning(FL)は、データを集めることなく、地理的に分散した、異質なデバイス間の協調トレーニングを可能にする、プライバシ保護の分散機械学習パラダイムである。
FLを教師付き学習モデルを超えて拡張することにより、エッジコンピューティングシステムにおける逐次決定問題に対処するフェデレーション強化学習(FRL)を提案した。
しかし、既存のFRLアルゴリズムはモデルフリーのRLをFLと直接結合し、しばしば高いサンプリング複雑性と理論的保証の欠如をもたらす。
そこで本研究では,モデルベースRLと知識蒸留をFLに効果的に組み込む新しいFRLアルゴリズムを提案する。
具体的には、FLと知識蒸留を利用してクライアント向けの動的モデルのアンサンブルを作成し、環境と相互作用することなく、単にアンサンブルモデルを用いてポリシーを訓練する。
さらに,提案アルゴリズムの単調改善が保証されていることを理論的に証明する。
実験結果から,エッジコンピューティング環境下での連続制御ベンチマーク環境において,従来のモデルレスFRLアルゴリズムと比較して,サンプル効率がはるかに高いことを示した。
また,不均質なクライアントデータと局所モデル更新ステップがFRLの性能に与える影響を明らかにし,理論解析から得られた知見を検証した。 Federated learning (FL) is a privacy-preserving distributed machine learning paradigm that enables collaborative training among geographically distributed and heterogeneous devices without gathering their data. Extending FL beyond the supervised learning models, federated reinforcement learning (FRL) was proposed to handle sequential decision-making problems in edge computing systems. However, the existing FRL algorithms directly combine model-free RL with FL, thus often leading to high sample complexity and lacking theoretical guarantees. To address the challenges, we propose a novel FRL algorithm that effectively incorporates model-based RL and ensemble knowledge distillation into FL for the first time. Specifically, we utilise FL and knowledge distillation to create an ensemble of dynamics models for clients, and then train the policy by solely using the ensemble model without interacting with the environment. Furthermore, we theoretically prove that the monotonic improvement of the proposed algorithm is guaranteed. The extensive experimental results demonstrate that our algorithm obtains much higher sample efficiency compared to classic model-free FRL algorithms in the challenging continuous control benchmark environments under edge computing settings. The results also highlight the significant impact of heterogeneous client data and local model update steps on the performance of FRL, validating the insights obtained from our theoretical analysis. | 翻訳日:2023-04-05 01:50:50 公開日:2023-04-01 |
# sim-to-lab-to-real:シールドと一般化による安全強化学習 Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees ( http://arxiv.org/abs/2201.08355v4 ) ライセンス: Link先を確認 | Kai-Chieh Hsu, Allen Z. Ren, Duy Phuong Nguyen, Anirudha Majumdar, Jaime F. Fisac | (参考訳) 安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用するための課題である。
特に強化学習で学んだ政策は、安全でない行動のために新しい環境に一般化できないことが多い。
本稿では,現実のギャップを確率論的に保証された安全対応政策分布で埋めるSim-to-Lab-to-Realを提案する。
安全性を向上させるために,ハミルトン・ヤコビ(hj)到達性解析に基づく安全ベルマン方程式を解いて,累積タスク報酬を用いてパフォーマンスポリシーを訓練し,バックアップ(安全)ポリシーを訓練するデュアルポリシー設定を適用する。
sim-to-lab転送では、探索中の安全でない動作を保護するための監視制御スキームを適用し、実験室間転送では、おそらくほぼ正しい(pac)-bayesフレームワークを利用して、目に見えない環境でのポリシーの期待性能と安全性の限界を低くする。
さらに、HJリーチビリティ解析を継承することで、各環境における最悪の安全に対する期待が説明できる。
光リアリズムの異なる2種類の屋内環境におけるエゴビジョンナビゲーションの枠組みを実証的に検討した。
また,四足歩行ロボットを用いた実室内空間におけるハードウェア実験により,強力な一般化性能を示す。
補足資料はhttps://sites.google.com/princeton.edu/sim-to-lab-to-realを参照。 Safety is a critical component of autonomous systems and remains a challenge for learning-based policies to be utilized in the real world. In particular, policies learned using reinforcement learning often fail to generalize to novel environments due to unsafe behavior. In this paper, we propose Sim-to-Lab-to-Real to bridge the reality gap with a probabilistically guaranteed safety-aware policy distribution. To improve safety, we apply a dual policy setup where a performance policy is trained using the cumulative task reward and a backup (safety) policy is trained by solving the Safety Bellman Equation based on Hamilton-Jacobi (HJ) reachability analysis. In Sim-to-Lab transfer, we apply a supervisory control scheme to shield unsafe actions during exploration; in Lab-to-Real transfer, we leverage the Probably Approximately Correct (PAC)-Bayes framework to provide lower bounds on the expected performance and safety of policies in unseen environments. Additionally, inheriting from the HJ reachability analysis, the bound accounts for the expectation over the worst-case safety in each environment. We empirically study the proposed framework for ego-vision navigation in two types of indoor environments with varying degrees of photorealism. We also demonstrate strong generalization performance through hardware experiments in real indoor spaces with a quadrupedal robot. See https://sites.google.com/princeton.edu/sim-to-lab-to-real for supplementary material. | 翻訳日:2023-04-05 01:43:04 公開日:2023-04-01 |
# GlobalMatch: 相対ステム位置のグローバルマッチングによる森林地中点雲の登録 GlobalMatch: Registration of Forest Terrestrial Point Clouds by Global Matching of Relative Stem Positions ( http://arxiv.org/abs/2112.11121v3 ) ライセンス: Link先を確認 | Xufei Wang, Zexin Yang, Xiaojun Cheng, Jantien Stoter, Wenbing Xu, Zhenlun Wu, and Liangliang Nan | (参考訳) 森林環境の点雲の登録は、精密林業におけるLiDAR応用の必須条件である。
森林点雲登録の最先端手法では,個々の樹木属性の抽出が必要であり,密林のある実世界の森林の点雲を扱う際の効率のボトルネックとなる。
本研究では,森林点雲の登録のための自動的かつロバストで効率的な手法を提案する。
提案手法は,まず原点雲から樹幹を抽出し,その相対的空間関係に基づいて樹幹をマッチングし,登録変換を決定する。
このアルゴリズムは個々の樹木属性を必要とせず、環境中の樹木の数に二次的な複雑さを持ち、大きな森林環境の点雲を整列させることができる。
森林地中点雲を広範囲に実験した結果,本手法はstem登録戦略の有効性と頑健性を継承し,その効率を著しく高めていることが明らかとなった。
さらに,森林点雲の登録方法の開発と評価のために,既存の数少ないオープンデータセットを補完する新しいベンチマークデータセットを導入する。
このメソッドとデータセットのソースコードは、https://github.com/zexinyang/globalmatch.comから入手できます。 Registering point clouds of forest environments is an essential prerequisite for LiDAR applications in precision forestry. State-of-the-art methods for forest point cloud registration require the extraction of individual tree attributes, and they have an efficiency bottleneck when dealing with point clouds of real-world forests with dense trees. We propose an automatic, robust, and efficient method for the registration of forest point clouds. Our approach first locates tree stems from raw point clouds and then matches the stems based on their relative spatial relationship to determine the registration transformation. The algorithm requires no extra individual tree attributes and has quadratic complexity to the number of trees in the environment, allowing it to align point clouds of large forest environments. Extensive experiments on forest terrestrial point clouds have revealed that our method inherits the effectiveness and robustness of the stem-based registration strategy while exceedingly increasing its efficiency. Besides, we introduce a new benchmark dataset that complements the very few existing open datasets for the development and evaluation of registration methods for forest point clouds. The source code of our method and the dataset are available at https://github.com/zexinyang/GlobalMatch. | 翻訳日:2023-04-05 01:41:41 公開日:2023-04-01 |
# 高次インタラクション予測のための時間点プロセスを用いた動的表現学習 Dynamic Representation Learning with Temporal Point Processes for Higher-Order Interaction Forecasting ( http://arxiv.org/abs/2112.10154v4 ) ライセンス: Link先を確認 | Tony Gracious, Ambedkar Dukkipati | (参考訳) デジタル情報の爆発とソーシャルネットワークへの人々の関与の増加は、対話データから意味のある情報を抽出する手法を開発するための膨大な研究活動につながった。
一般的に、相互作用はネットワークやグラフのエッジによって表現され、相互作用はペアで静的であると暗黙的に仮定される。
しかし、現実世界の相互作用はこれらの前提から逸脱する。
i) 相互作用は2つ以上のノードまたは個人(例えば、家族関係、タンパク質相互作用)と多方向である。
(II) 相互作用は一定期間にわたって変化しうる(例えば、意見の変化や友情状態)。
動的ネットワーク設定において対の相互作用が研究され、静的ネットワークにおけるハイパーグラフを用いてマルチウェイ相互作用が研究されているが、現在、動的設定におけるマルチウェイ相互作用やハイパーエッジを予測する方法が存在しない。
既存のメソッドは、次にいつ、いつ発生するかのような、時間的クエリに答えることができない。
本稿では,ハイパーエッジ予測のための時間的点過程モデルを提案する。
提案モデルは,ハイパーエッジ予測のためのニューラルポイントプロセスフレームワークにおけるノードの動的表現学習手法を用いる。
いくつかの実験結果とベンチマーク結果を示す。
私たちの知る限りでは、動的ネットワークのハイパーエッジを予測するために時間点プロセスを使った最初の研究である。 The explosion of digital information and the growing involvement of people in social networks led to enormous research activity to develop methods that can extract meaningful information from interaction data. Commonly, interactions are represented by edges in a network or a graph, which implicitly assumes that the interactions are pairwise and static. However, real-world interactions deviate from these assumptions: (i) interactions can be multi-way, involving more than two nodes or individuals (e.g., family relationships, protein interactions), and (ii) interactions can change over a period of time (e.g., change of opinions and friendship status). While pairwise interactions have been studied in a dynamic network setting and multi-way interactions have been studied using hypergraphs in static networks, there exists no method, at present, that can predict multi-way interactions or hyperedges in dynamic settings. Existing related methods cannot answer temporal queries like what type of interaction will occur next and when it will occur. This paper proposes a temporal point process model for hyperedge prediction to address these problems. Our proposed model uses dynamic representation learning techniques for nodes in a neural point process framework to forecast hyperedges. We present several experimental results and set benchmark results. As far as our knowledge, this is the first work that uses the temporal point process to forecast hyperedges in dynamic networks. | 翻訳日:2023-04-05 01:41:20 公開日:2023-04-01 |
# 被験者の小規模データに対するゼロショットメタラーニング Zero-shot meta-learning for small-scale data from human subjects ( http://arxiv.org/abs/2203.16309v4 ) ライセンス: Link先を確認 | Julie Jiang, Kristina Lerman, Emilio Ferrara | (参考訳) 機械学習の発展はビッグデータのパフォーマンス向上に繋がる一方で、多くの被験者のデータは、実際には小さく、まばらにラベル付けされている。
このようなデータに適用される既存の手法は、しばしば外サンプルの被験者に容易に一般化されない。
代わりに、モデルは異なる分布から引き出されるかもしれないテストデータ、すなわち \textit{zero-shot learning} の予測をしなければならない。
この課題に対処するために,我々はメタラーニング手法を用いたエンドツーエンドフレームワークを開発し,サンプル外テストデータに対するトレーニングデータに制限のある新しい予測タスクに迅速に適応することができる。
3つの実世界の小規模ヒト被験者データセット(ランダム化制御研究と1つの観察研究)を用いて,保留治療群に対する治療結果を予測する。
我々のモデルは各介入の潜在的な治療効果を学習し、設計により、自然にマルチタスク予測を処理できる。
我々は,本モデルが各保持グループ,特にテストグループがトレーニンググループと明確に異なる場合において,最善を尽くすことを示す。
本モデルは,より広い人口を対象とした小型ヒト研究の一般化に寄与する。 While developments in machine learning led to impressive performance gains on big data, many human subjects data are, in actuality, small and sparsely labeled. Existing methods applied to such data often do not easily generalize to out-of-sample subjects. Instead, models must make predictions on test data that may be drawn from a different distribution, a problem known as \textit{zero-shot learning}. To address this challenge, we develop an end-to-end framework using a meta-learning approach, which enables the model to rapidly adapt to a new prediction task with limited training data for out-of-sample test data. We use three real-world small-scale human subjects datasets (two randomized control studies and one observational study), for which we predict treatment outcomes for held-out treatment groups. Our model learns the latent treatment effects of each intervention and, by design, can naturally handle multi-task predictions. We show that our model performs the best holistically for each held-out group and especially when the test group is distinctly different from the training group. Our model has implications for improved generalization of small-size human studies to the wider population. | 翻訳日:2023-04-05 01:33:07 公開日:2023-04-01 |
# 領域ギャップを越えた宇宙空間推定のためのロバストマルチタスク学習とオンラインリファインメント Robust Multi-Task Learning and Online Refinement for Spacecraft Pose Estimation across Domain Gap ( http://arxiv.org/abs/2203.04275v5 ) ライセンス: Link先を確認 | Tae Ha Park and Simone D'Amico | (参考訳) 本研究は,非協力型宇宙船のポーズ推定のための畳み込みニューラルネットワーク(cnn)であるspaces pose network v2(spnv2)を提案する。
SPNv2はマルチスケールのマルチタスクCNNであり、共有機能出力で異なるタスクを実行する複数の予測ヘッドと共有機能エンコーダで構成される。
これらのタスクはすべて、予め定義された衛星キーポイントの予測、直接ポーズ回帰、衛星の前景のバイナリセグメンテーションなど、画像からのターゲット宇宙船の検出とポーズ推定に関連する。
共有エンコーダは、合成画像のみに広範なデータ拡張を施した異なる関連タスクを共同で訓練することにより、合成画像と根本的に異なる視覚的特徴を持つ画像領域に共通する特徴を学習する。
この作業は、デプロイ時にオンラインのターゲットドメインイメージ上のSPNv2の正規化レイヤのパラメータを洗練するオンラインドメインリファインメント(ODR)も導入している。
具体的には、ODRは予測衛星フォアグラウンドの自己監督エントロピー最小化を行い、ポーズラベルを使わずに、最小の計算努力で、ターゲット領域画像上でのCNNの性能を向上させる。
spnv2のgithubリポジトリはhttps://github.com/tpark94/spnv2で入手できる。 This work presents Spacecraft Pose Network v2 (SPNv2), a Convolutional Neural Network (CNN) for pose estimation of noncooperative spacecraft across domain gap. SPNv2 is a multi-scale, multi-task CNN which consists of a shared multi-scale feature encoder and multiple prediction heads that perform different tasks on a shared feature output. These tasks are all related to detection and pose estimation of a target spacecraft from an image, such as prediction of pre-defined satellite keypoints, direct pose regression, and binary segmentation of the satellite foreground. It is shown that by jointly training on different yet related tasks with extensive data augmentations on synthetic images only, the shared encoder learns features that are common across image domains that have fundamentally different visual characteristics compared to synthetic images. This work also introduces Online Domain Refinement (ODR) which refines the parameters of the normalization layers of SPNv2 on the target domain images online at deployment. Specifically, ODR performs self-supervised entropy minimization of the predicted satellite foreground, thereby improving the CNN's performance on the target domain images without their pose labels and with minimal computational efforts. The GitHub repository for SPNv2 is available at https://github.com/tpark94/spnv2. | 翻訳日:2023-04-05 01:32:33 公開日:2023-04-01 |
# 視覚的質問応答における評価手法の再評価--アウトオブディストリビューション一般化を事例として Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization ( http://arxiv.org/abs/2205.12191v2 ) ライセンス: Link先を確認 | Aishwarya Agrawal, Ivana Kaji\'c, Emanuele Bugliarello, Elnaz Davoodi, Anita Gergely, Phil Blunsom, Aida Nematzadeh | (参考訳) 大規模マルチモーダルデータに基づく視覚言語モデル(v&l)は,画像キャプションや視覚質問応答(vqa)など,さまざまなタスクにおいて強力なパフォーマンスを示している。
このようなモデルの品質は、通常トレーニングデータと同じ分布から得られる見えないデータ上でのパフォーマンスを測定することで評価される。
しかし、vqaのアウト・オブ・ディストリビューション(out-of-dataset)設定下で評価すると、これらのモデルが一般化に乏しいことが分かる。
我々は、異なる設定(分類とオープンエンドテキスト生成)で事前訓練された2つのV&Lモデルを包括的に評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
また、ほとんどの場合、生成モデルは差別的モデルに比べてデータ分布の変化の影響を受けにくく、マルチモーダル事前学習は一般的にOODの一般化に役立ちます。
最後に,VQA自動評価指標の使用を前提とした仮定を再検討し,その厳密な性質が正しい応答のモデルに繰り返し適用されることを実証的に示す。 Vision-and-language (V&L) models pretrained on large-scale multimodal data have demonstrated strong performance on various tasks such as image captioning and visual question answering (VQA). The quality of such models is commonly assessed by measuring their performance on unseen data that typically comes from the same distribution as the training data. However, when evaluated under out-of-distribution (out-of-dataset) settings for VQA, we observe that these models exhibit poor generalization. We comprehensively evaluate two pretrained V&L models under different settings (i.e. classification and open-ended text generation) by conducting cross-dataset evaluations. We find that these models tend to learn to solve the benchmark, rather than learning the high-level skills required by the VQA task. We also find that in most cases generative models are less susceptible to shifts in data distribution compared to discriminative ones, and that multimodal pretraining is generally helpful for OOD generalization. Finally, we revisit assumptions underlying the use of automatic VQA evaluation metrics, and empirically show that their stringent nature repeatedly penalizes models for correct responses. | 翻訳日:2023-04-05 01:24:18 公開日:2023-04-01 |
# 群衆の知恵:早期行動予測のための時間的進歩的注意 The Wisdom of Crowds: Temporal Progressive Attention for Early Action Prediction ( http://arxiv.org/abs/2204.13340v2 ) ライセンス: Link先を確認 | Alexandros Stergiou, Dima Damen | (参考訳) 初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から硬度までの段階的サンプリングにより,動作の進化を捉えるボトルネックに基づく注意モデルを提案する。
提案するテンポラルプログレッシブ(TemPr)モデルは,複数のアテンションタワーで構成されている。
予測された行動ラベルは、これらの塔の信頼性を考慮する集合的な合意に基づいている。
4つのビデオデータセットにわたる広範囲な実験は、さまざまなエンコーダアーキテクチャにわたる早期行動予測のタスクにおける最先端のパフォーマンスを示している。
詳細な説明を通じてTemPrの有効性と一貫性を示す。 Early action prediction deals with inferring the ongoing action from partially-observed videos, typically at the outset of the video. We propose a bottleneck-based attention model that captures the evolution of the action, through progressive sampling over fine-to-coarse scales. Our proposed Temporal Progressive (TemPr) model is composed of multiple attention towers, one for each scale. The predicted action label is based on the collective agreement considering confidences of these towers. Extensive experiments over four video datasets showcase state-of-the-art performance on the task of Early Action Prediction across a range of encoder architectures. We demonstrate the effectiveness and consistency of TemPr through detailed ablations. | 翻訳日:2023-04-05 01:23:45 公開日:2023-04-01 |
# 集積量子光源のためのカスタム非線形プロファイル Custom nonlinearity profile for integrated quantum light sources ( http://arxiv.org/abs/2207.01714v2 ) ライセンス: Link先を確認 | Salvador Poveda-Hospital, Nicol\'as Quesada, and Yves-Alain Peter | (参考訳) ヘラルド単光子源は、光量子技術の基本構成要素である。
これらのソースは、優れたスケーラビリティを持ち、不要な損失を避けるために、フィルタを外して統合する必要がある。
この目的を達成するためには、導波路源に混在して伝播する磁場の有効非線形性を制御する必要がある。
本稿では,非線形導波路を任意に形作る非線形導波路設計法を提案する。
この方法は、第2次非線形応答がテンソル量であるという事実を生かして、物質の局所的有効非線形性は、相互作用に関与する場の伝播方向に依存する。
したがって、フィールドの伝搬方向を局所的に変化させることで、波混合プロセスを変調することができる。
導波路の材料構造は1つの結晶でできており, 配向パターン (OP) や周期性ポーリング (PP) はもはや不要である。
提案手法を用いて伝搬長がガウス的である非線形プロファイルを持つ導波路を設計し,完全純粋に隠蔽された単一光子を生成する。 Heralded single-photon sources are a fundamental building block for optical quantum technologies. These sources need to be unfiltered and integrated to have good scalability and avoid unnecessary losses. To attain this goal, it is necessary to control the effective nonlinearity seen by the fields as they mix and propagate in a waveguide source. In this paper, we introduce a method to design nonlinear waveguides with arbitrarily shaped effective nonlinearity profiles. The method takes advantage of the fact that the second order nonlinear response is a tensor quantity and thus the local effective nonlinearity of a material depends on the propagation direction of the fields participating in the interaction. Thus, by locally changing the propagation direction of the fields we can modulate the wave-mixing process. Our methods allows for the waveguide fabrication process to be significantly simplified: The material structure of the waveguide is made by a single crystal, no longer needing oriented patterning (OP) or periodic poling (PP). We use our method to design waveguides with a nonlinearity profile that is Gaussian in the propagation length, allowing to generate perfectly pure heralded single photons. | 翻訳日:2023-04-05 01:16:30 公開日:2023-04-01 |
# 情報共分散を用いたベイズ最適化 Bayesian Optimization with Informative Covariance ( http://arxiv.org/abs/2208.02704v2 ) ライセンス: Link先を確認 | Afonso Eduardo, Michael U. Gutmann | (参考訳) ベイズ最適化 (Bayesian optimization) は、未知および高価な目的を大域的に最適化するための方法論である。
代理ベイズ回帰モデルと取得関数を組み合わせることで、目的をどこで評価するかを決定する。
典型的な回帰モデルは定常共分散関数を持つガウス過程によって与えられる。
しかし、これらの機能は最適な位置を含む事前の入力依存情報を表現できない。
定常モデルの普及により、情報的平均関数による事前情報の利用が一般的になった。
本稿では,これらのモデルが特に高次元において,性能に乏しいことを強調する。
本研究では,非定常性を利用して探索空間の特定の領域の好みを符号化し,最適化中の局所探索を適応的に促進する新しい情報共分散関数を提案する。
提案する関数は,事前情報が弱い場合でも,ベイズ最適化のサンプル効率を高次元で高めることができることを示す。 Bayesian optimization is a methodology for global optimization of unknown and expensive objectives. It combines a surrogate Bayesian regression model with an acquisition function to decide where to evaluate the objective. Typical regression models are given by Gaussian processes with stationary covariance functions. However, these functions are unable to express prior input-dependent information, including possible locations of the optimum. The ubiquity of stationary models has led to the common practice of exploiting prior information via informative mean functions. In this paper, we highlight that these models can perform poorly, especially in high dimensions. We propose novel informative covariance functions for optimization, leveraging nonstationarity to encode preferences for certain regions of the search space and adaptively promote local exploration during optimization. We demonstrate that the proposed functions can increase the sample efficiency of Bayesian optimization in high dimensions, even under weak prior information. | 翻訳日:2023-04-05 01:06:33 公開日:2023-04-01 |
# 一般化ロングプレート分類のための不変特徴学習 Invariant Feature Learning for Generalized Long-Tailed Classification ( http://arxiv.org/abs/2207.09504v2 ) ライセンス: Link先を確認 | Kaihua Tang, Mingyuan Tao, Jiaxin Qi, Zhenguang Liu, Hanwang Zhang | (参考訳) 既存のlong-tailed classification (lt)メソッドは、headクラスがtailクラスよりも多くのサンプルを持つクラス間の不均衡に取り組むことだけに焦点を当てています。
実際、クラスがバランスを取っていても、各クラス内のサンプルは、異なる属性のために長い尾を持つ可能性がある。
属性は、ほとんどのデータセットにとって暗黙的なだけでなく、組合せ的に複雑であるため、バランスをとるのに非常に高価である。
そこで我々は,両タイプの不均衡を共同で検討するために,GLT(Generalized Long-Tailed Classification)という新たな研究課題を導入する。
一般化」により、GLT法は従来のLTを自然に解くべきであるが、逆ではない。
意外なことに、提案した2つのベンチマーク(ImageNet-GLTとMSCOCO-GLT)では、ほとんどのクラスワイドLTメソッドが退化している。
属性不変の特徴を学習することを無視しながら、クラス分布の調整を過度に強調するためである。
そこで本研究では,GLTの最初の強力なベースラインとして,不変特徴学習(IFL)手法を提案する。
iflはまず、不完全な予測からクラス内分布を分離した環境を発見し、それらの間の不変な特徴を学習する。
機能バックボーンの改善として、iflは1/2ステージの再バランス、拡張、アンサンブルといったltラインアップをすべて強化する。
コードとベンチマークはgithubで入手できる。 https://github.com/kaihuatang/generalized-long-tailed-benchmarks.pytorch Existing long-tailed classification (LT) methods only focus on tackling the class-wise imbalance that head classes have more samples than tail classes, but overlook the attribute-wise imbalance. In fact, even if the class is balanced, samples within each class may still be long-tailed due to the varying attributes. Note that the latter is fundamentally more ubiquitous and challenging than the former because attributes are not just implicit for most datasets, but also combinatorially complex, thus prohibitively expensive to be balanced. Therefore, we introduce a novel research problem: Generalized Long-Tailed classification (GLT), to jointly consider both kinds of imbalances. By "generalized", we mean that a GLT method should naturally solve the traditional LT, but not vice versa. Not surprisingly, we find that most class-wise LT methods degenerate in our proposed two benchmarks: ImageNet-GLT and MSCOCO-GLT. We argue that it is because they over-emphasize the adjustment of class distribution while neglecting to learn attribute-invariant features. To this end, we propose an Invariant Feature Learning (IFL) method as the first strong baseline for GLT. IFL first discovers environments with divergent intra-class distributions from the imperfect predictions and then learns invariant features across them. Promisingly, as an improved feature backbone, IFL boosts all the LT line-up: one/two-stage re-balance, augmentation, and ensemble. Codes and benchmarks are available on Github: https://github.com/KaihuaTang/Generalized-Long-Tailed-Benchmarks.pytorch | 翻訳日:2023-04-05 01:05:51 公開日:2023-04-01 |
# Retweet-BERT: 言語特徴とソーシャルネットワーク上の情報拡散を用いた政治的学習検出 Retweet-BERT: Political Leaning Detection Using Language Features and Information Diffusion on Social Networks ( http://arxiv.org/abs/2207.08349v3 ) ライセンス: Link先を確認 | Julie Jiang, Xiang Ren, Emilio Ferrara | (参考訳) ソーシャルメディア利用者の政治的傾きを見積もるのは、ソーシャルメディア消費の増加を考えると、より困難な問題である。
Retweet-BERTは、シンプルでスケーラブルなモデルで、Twitterユーザーの政治的傾向を推定する。
Retweet-BERTは、retweetネットワーク構造とユーザのプロファイル記述に使用される言語を活用する。
我々の仮定は、同様のイデオロギーを共有する人々の間で、ネットワークや言語学のパターンがホモフィリーであることに由来する。
Retweet-BERTは、他の最先端のベースラインと競合するパフォーマンスを示し、最近の2つのTwitterデータセット(COVID-19データセットと2020年の米国大統領選挙データセット)で96%-97%のマクロF1を達成した。
また,トレーニングデータにないユーザに対して,Retweet-BERTの性能検証を行う。
最後に、covid-19のケーススタディで、twitterに政治エコーチャンバーが存在することを示し、主に右利きユーザーの間で存在していることを示す。
私たちのコードはオープンソースで、データは公開されています。 Estimating the political leanings of social media users is a challenging and ever more pressing problem given the increase in social media consumption. We introduce Retweet-BERT, a simple and scalable model to estimate the political leanings of Twitter users. Retweet-BERT leverages the retweet network structure and the language used in users' profile descriptions. Our assumptions stem from patterns of networks and linguistics homophily among people who share similar ideologies. Retweet-BERT demonstrates competitive performance against other state-of-the-art baselines, achieving 96%-97% macro-F1 on two recent Twitter datasets (a COVID-19 dataset and a 2020 United States presidential elections dataset). We also perform manual validation to validate the performance of Retweet-BERT on users not in the training data. Finally, in a case study of COVID-19, we illustrate the presence of political echo chambers on Twitter and show that it exists primarily among right-leaning users. Our code is open-sourced and our data is publicly available. | 翻訳日:2023-04-05 01:05:03 公開日:2023-04-01 |
# 連邦災害支援政策の簡易宣言モデル -透明性のモデル化と測定- A simple declarative model of the Federal Disaster Assistance Policy -- modelling and measuring transparency ( http://arxiv.org/abs/2207.07392v2 ) ライセンス: Link先を確認 | Mark Dukes | (参考訳) 本稿では,3つの異なる利害関係者の視点から,連邦災害支援政策の簡易モデルに関する定量的分析を行う。
この定量的手法は新しいもので、ビジネスや医療といった他の分野にも応用できる。
ステークホルダーはプロセスの透明性に興味を持っているが、それぞれが透明性を構成するものについて、正確に異なる意見を持っている。
我々はまた、連邦災害支援政策の3つの変更を検討し、株主の観点から、株主の満足度がプロセスからプロセスにどのように変化するかを分析する。
この分析は、すべての集合的利害関係者の選好に関する4つのポリシーの好適性をランク付けするために使用される。 In this paper we will provide a quantitative analysis of a simple model of the Federal Disaster Assistance policy from the viewpoint of three different stakeholders. This quantitative methodology is new and has applications to other areas such as business and healthcare processes. The stakeholders are interested in process transparency but each has a different opinion on precisely what constitutes transparency. We will also consider three modifications to the Federal Disaster Assistance policy and analyse, from a stakeholder viewpoint, how stakeholder satisfaction changes from process to process. This analysis is used to rank the favourability of four policies with respect to all collective stakeholder preferences. | 翻訳日:2023-04-05 01:04:46 公開日:2023-04-01 |
# 機能的オブジェクト指向ネットワークによる長期計画と実行 Long-Horizon Planning and Execution with Functional Object-Oriented Networks ( http://arxiv.org/abs/2207.05800v5 ) ライセンス: Link先を確認 | David Paulius, Alejandro Agostini and Dongheui Lee | (参考訳) ロボットの知識グラフ表現として機能的オブジェクト指向ネットワーク(foon)が導入された。
FOONは、ロボットのタスクとその環境に対する理解に有用な象徴的な概念を含んでいる。
この研究に先立ち、FOONから取得した計画がロボットによってどのように実行されるかを示すために、FOONの概念は実行するには抽象的すぎるため、ほとんど行われていない。
そこで我々は,タスク計画と実行のためのFOONとして,オブジェクトレベルの知識を活用するアイデアを紹介した。
提案手法はフォオンをpddlに自動的に変換し,既成のプランナー,アクションコンテキスト,ロボットスキルを階層的計画パイプラインで活用し,実行可能なタスクプランを生成する。
我々はCoppeliaSimの長期タスクに対するアプローチ全体を実証し、学習されたアクションコンテキストが、これまで見たことのないシナリオにどのように拡張できるかを示す。 Following work on joint object-action representations, functional object-oriented networks (FOON) were introduced as a knowledge graph representation for robots. A FOON contains symbolic concepts useful to a robot's understanding of tasks and its environment for object-level planning. Prior to this work, little has been done to show how plans acquired from FOON can be executed by a robot, as the concepts in a FOON are too abstract for execution. We thereby introduce the idea of exploiting object-level knowledge as a FOON for task planning and execution. Our approach automatically transforms FOON into PDDL and leverages off-the-shelf planners, action contexts, and robot skills in a hierarchical planning pipeline to generate executable task plans. We demonstrate our entire approach on long-horizon tasks in CoppeliaSim and show how learned action contexts can be extended to never-before-seen scenarios. | 翻訳日:2023-04-05 01:04:35 公開日:2023-04-01 |
# 線形構造方程式モデルのための因果帯域 Causal Bandits for Linear Structural Equation Models ( http://arxiv.org/abs/2208.12764v3 ) ライセンス: Link先を確認 | Burak Varici, Karthikeyan Shanmugam, Prasanna Sattigeri, and Ali Tajer | (参考訳) 本稿では,後視における最良の介入に関して,累積後悔を最小限に抑えるために,因果グラフモデルにおける最適な介入系列を設計する問題について検討する。
これは当然、因果的盗賊問題として提起される。
焦点は線形構造方程式モデル(SEM)とソフト介入のための因果包帯である。
グラフの構造は知られており、ノードは$N$である。
2つの線形機構、1つのソフト介入と1つの観察機構が各ノードに対して仮定され、2^n$の介入が可能となる。
既存の因果バンディットアルゴリズムの大部分は、少なくとも報酬ノードの両親の介入分布が完全に特定されていると仮定している。
しかし、そのような分布(各介入に対応するもの)は2^N$であり、中程度のグラフでも禁止となる。
本稿では,これらの分布や限界を知るという仮定を省略する。
頻繁性(UCBベース)とベイズ性(トンプソンサンプリングベース)の2つのアルゴリズムを提案する。
これらのアルゴリズムの鍵となる考え方は、$2^N$の報酬分布を直接見積もることを避け、代わりにSEMを完全に指定したパラメータ($N$の線形)を推定し、報酬を計算することである。
どちらのアルゴリズムにおいても、雑音とパラメータ空間の有界性仮定の下では、累積的後悔は$\tilde{\cal o} (d^{l+\frac{1}{2}} \sqrt{nt})$であり、ここで$d$はグラフの最大次数、$l$は最長因果経路の長さである。
さらに、$\omega(d^{\frac{l}{2}-2}\sqrt{t})$ 以下の minimax が提示され、達成可能な値と下限値が、水平線 $t$ とグラフパラメータ $d$ と $l$ に対してスケーリング動作に適合することを示唆している。 This paper studies the problem of designing an optimal sequence of interventions in a causal graphical model to minimize cumulative regret with respect to the best intervention in hindsight. This is, naturally, posed as a causal bandit problem. The focus is on causal bandits for linear structural equation models (SEMs) and soft interventions. It is assumed that the graph's structure is known and has $N$ nodes. Two linear mechanisms, one soft intervention and one observational, are assumed for each node, giving rise to $2^N$ possible interventions. Majority of the existing causal bandit algorithms assume that at least the interventional distributions of the reward node's parents are fully specified. However, there are $2^N$ such distributions (one corresponding to each intervention), acquiring which becomes prohibitive even in moderate-sized graphs. This paper dispenses with the assumption of knowing these distributions or their marginals. Two algorithms are proposed for the frequentist (UCB-based) and Bayesian (Thompson Sampling-based) settings. The key idea of these algorithms is to avoid directly estimating the $2^N$ reward distributions and instead estimate the parameters that fully specify the SEMs (linear in $N$) and use them to compute the rewards. In both algorithms, under boundedness assumptions on noise and the parameter space, the cumulative regrets scale as $\tilde{\cal O} (d^{L+\frac{1}{2}} \sqrt{NT})$, where $d$ is the graph's maximum degree, and $L$ is the length of its longest causal path. Additionally, a minimax lower of $\Omega(d^{\frac{L}{2}-2}\sqrt{T})$ is presented, which suggests that the achievable and lower bounds conform in their scaling behavior with respect to the horizon $T$ and graph parameters $d$ and $L$. | 翻訳日:2023-04-05 00:56:45 公開日:2023-04-01 |
# SmartMocap:RGBカメラを用いた人間とカメラの動きの同時推定 SmartMocap: Joint Estimation of Human and Camera Motion using Uncalibrated RGB Cameras ( http://arxiv.org/abs/2209.13906v2 ) ライセンス: Link先を確認 | Nitin Saini, Chun-hao P. Huang, Michael J. Black, Aamir Ahmad | (参考訳) 複数のrgbカメラからのマーカーレスモーションキャプチャ(mocap)は広く研究されている問題である。
既存の方法は、モキャップシステムの基準フレームとして機能するスタティックカメラに対して、キャリブレーションされたカメラやキャリブレーションを必要とする。
キャリブレーションステップは、面倒なプロセスであるキャプチャセッション毎にプリオリを行う必要があり、カメラが意図的にまたは誤って移動されたときに再校正が必要である。
本稿では,複数の静止・移動可能なRGBカメラを用いたモキャップ方式を提案する。
本手法の主な構成要素は以下の通りである。
まず、カメラと被写体は自由に動けるので、カメラ座標内の物体を表す既存の方法とは異なり、地上面を身体とカメラの動きの両方を表す共通参照として選択する。
次に、地上面に対して短い人間の動き列($1sec)の確率分布を学習し、それをカメラと人間の動きの曖昧さに活用する。
第3に、この分布を、新しい多段階最適化アプローチに先立って動きとして使用し、smpl人体モデルに適合させ、カメラが画像の人体キーポイントにポーズを取る。
最後に,提案手法が,航空カメラからスマートフォンまで,さまざまなデータセットで動作可能であることを示す。
また、静的カメラによる単眼型人間のモキャップのタスクの最先端技術と比較すると、より正確な結果が得られる。
私たちのコードは研究目的でhttps://github.com/robot-perception-group/smartmocapで利用できます。 Markerless human motion capture (mocap) from multiple RGB cameras is a widely studied problem. Existing methods either need calibrated cameras or calibrate them relative to a static camera, which acts as the reference frame for the mocap system. The calibration step has to be done a priori for every capture session, which is a tedious process, and re-calibration is required whenever cameras are intentionally or accidentally moved. In this paper, we propose a mocap method which uses multiple static and moving extrinsically uncalibrated RGB cameras. The key components of our method are as follows. First, since the cameras and the subject can move freely, we select the ground plane as a common reference to represent both the body and the camera motions unlike existing methods which represent bodies in the camera coordinate. Second, we learn a probability distribution of short human motion sequences ($\sim$1sec) relative to the ground plane and leverage it to disambiguate between the camera and human motion. Third, we use this distribution as a motion prior in a novel multi-stage optimization approach to fit the SMPL human body model and the camera poses to the human body keypoints on the images. Finally, we show that our method can work on a variety of datasets ranging from aerial cameras to smartphones. It also gives more accurate results compared to the state-of-the-art on the task of monocular human mocap with a static camera. Our code is available for research purposes on https://github.com/robot-perception-group/SmartMocap. | 翻訳日:2023-04-05 00:47:41 公開日:2023-04-01 |
# モジュール化と合成による弱畳み込みニューラルネットワークモデル Patching Weak Convolutional Neural Network Models through Modularization and Composition ( http://arxiv.org/abs/2209.06116v2 ) ライセンス: Link先を確認 | Binhang Qi, Hailong Sun, Xiang Gao, Hongyu Zhang | (参考訳) 多くのアプリケーションで大きな成功を収めているが、ディープニューラルネットワークは必ずしも堅牢ではない。
例えば、分類タスクのための畳み込みニューロンネットワーク(cnn)モデルは、しばしば特定の種類のオブジェクトの分類において不十分に機能する。
本研究では,CNNモデルの弱い部分を,コストのかかるモデル全体の再トレーニングによって改善するのではなく,パッチを当てることに関心がある。
ソフトウェア工学におけるモジュール化と構成という基本的な概念に触発され、圧縮モジュール化アプローチであるcnnsplitterを提案し、n$-class分類のための強力なcnnモデルをより小さなcnnモジュールに分解する。
各モジュールは、強モデルの畳み込みカーネルの一部を含むサブモデルである。
ターゲットクラス(TC)で不満足に機能する弱いCNNモデルをパッチするために、弱いCNNモデルと強力なCNNモデルから得られる対応するモジュールを合成する。
したがって、弱いCNNモデルのTC認識能力はパッチ適用によって改善される。
さらに、TCと誤分類されたサンプルを非TCと正しく分類できるため、非TCを認識する能力も向上した。
広く使われている3つのデータセットに対する2つの代表的CNNによる実験の結果、TCにおける精度とリコールの平均改善率は12.54%と2.14%である。
さらに、パッチは非TCの精度を1.18%向上させる。
その結果、CNNSplitterはモジュール化と構成により弱いCNNモデルにパッチを当てることができ、ロバストなCNNモデルを開発するための新しいソリューションを提供することが示された。 Despite great success in many applications, deep neural networks are not always robust in practice. For instance, a convolutional neuron network (CNN) model for classification tasks often performs unsatisfactorily in classifying some particular classes of objects. In this work, we are concerned with patching the weak part of a CNN model instead of improving it through the costly retraining of the entire model. Inspired by the fundamental concepts of modularization and composition in software engineering, we propose a compressed modularization approach, CNNSplitter, which decomposes a strong CNN model for $N$-class classification into $N$ smaller CNN modules. Each module is a sub-model containing a part of the convolution kernels of the strong model. To patch a weak CNN model that performs unsatisfactorily on a target class (TC), we compose the weak CNN model with the corresponding module obtained from a strong CNN model. The ability of the weak CNN model to recognize the TC can thus be improved through patching. Moreover, the ability to recognize non-TCs is also improved, as the samples misclassified as TC could be classified as non-TCs correctly. Experimental results with two representative CNNs on three widely-used datasets show that the averaged improvement on the TC in terms of precision and recall are 12.54% and 2.14%, respectively. Moreover, patching improves the accuracy of non-TCs by 1.18%. The results demonstrate that CNNSplitter can patch a weak CNN model through modularization and composition, thus providing a new solution for developing robust CNN models. | 翻訳日:2023-04-05 00:47:00 公開日:2023-04-01 |
# 量子核の分類への効率向上における絡み合いの役割 The role of entanglement for enhancing the efficiency of quantum kernels towards classification ( http://arxiv.org/abs/2209.05142v2 ) ライセンス: Link先を確認 | Diksha Sharma, Parvinder Singh and Atul Kumar | (参考訳) 量子カーネルは、機械学習における量子コンピューティングの利点を説明する潜在的なリソースであると考えられている。
古典的機械学習モデルの性能に対するハイパーパラメータの影響を考慮すると、量子カーネル法を用いて有望なハイパーパラメータを同定し、量子的優位性を達成することが不可欠である。
本研究では,線形および完全絡み合った回路に基づく新しい量子カーネルを用いて,単語間の相関を制御するハイパーパラメータとして,テキストデータの感情分析と分類を行う。
また,線形および完全絡み合いを用いることで,量子サポートベクトルマシン (qsvm) の表現性がさらに制御できることがわかった。
さらに,提案回路の効率を,他の量子回路や古典的機械学習アルゴリズムと比較する。
その結果,提案する完全絡み合い回路は,従来のアルゴリズムに加えて,他の完全または線形絡み合い回路よりも優れていることがわかった。
実際、機能の増加に伴い、提案する完全絡み合いモデルの効率も大幅に向上しました。 Quantum kernels are considered as potential resources to illustrate benefits of quantum computing in machine learning. Considering the impact of hyperparameters on the performance of a classical machine learning model, it is imperative to identify promising hyperparameters using quantum kernel methods in order to achieve quantum advantages. In this work, we analyse and classify sentiments of textual data using a new quantum kernel based on linear and full entangled circuits as hyperparameters for controlling the correlation among words. We also find that the use of linear and full entanglement further controls the expressivity of the Quantum Support Vector Machine (QSVM). In addition, we also compare the efficiency of the proposed circuit with other quantum circuits and classical machine learning algorithms. Our results show that the proposed fully entangled circuit outperforms all other fully or linearly entangled circuits in addition to classical algorithms for most of the features. In fact, as the feature increases the efficiency of our proposed fully entangled model also increases significantly. | 翻訳日:2023-04-05 00:46:19 公開日:2023-04-01 |
# 視覚における拡散モデル:調査 Diffusion Models in Vision: A Survey ( http://arxiv.org/abs/2209.04747v5 ) ライセンス: Link先を確認 | Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Mubarak Shah | (参考訳) 拡散モデルの認知はコンピュータビジョンにおける近年の話題であり、生成モデリングの領域において顕著な成果を示している。
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深い生成モデルである。
前方拡散段階では、ガウスノイズを加えることにより、入力データが数ステップにわたって徐々に摂動される。
逆段階では、拡散過程を段階的に徐々に逆転させる学習により、元の入力データを復元するモデルを課題とする。
拡散モデルは、その計算負荷、すなわちサンプリング中のステップ数の増加による低速さにもかかわらず、生成したサンプルの品質と多様性について広く評価されている。
本研究は,視覚に応用される分別拡散モデルに関する論文を総合的にレビューし,その分野における理論的および実用的貢献を考察する。
まず, 一般化確率モデル, 雑音条件付スコアネットワーク, 確率微分方程式に基づく3つの一般化拡散モデリングフレームワークを同定し, 提案する。
さらに,拡散モデルと可変オートエンコーダ,生成逆ネットワーク,エネルギーベースモデル,自己回帰モデル,正規化フローなど,他の深層生成モデルとの関係についても論じる。
次に,コンピュータビジョンに適用された拡散モデルの多視点分類を提案する。
最後に, 拡散モデルの現在の限界を説明し, 今後の研究に向けた興味深い方向性について考察する。 Denoising diffusion models represent a recent emerging topic in computer vision, demonstrating remarkable results in the area of generative modeling. A diffusion model is a deep generative model that is based on two stages, a forward diffusion stage and a reverse diffusion stage. In the forward diffusion stage, the input data is gradually perturbed over several steps by adding Gaussian noise. In the reverse stage, a model is tasked at recovering the original input data by learning to gradually reverse the diffusion process, step by step. Diffusion models are widely appreciated for the quality and diversity of the generated samples, despite their known computational burdens, i.e. low speeds due to the high number of steps involved during sampling. In this survey, we provide a comprehensive review of articles on denoising diffusion models applied in vision, comprising both theoretical and practical contributions in the field. First, we identify and present three generic diffusion modeling frameworks, which are based on denoising diffusion probabilistic models, noise conditioned score networks, and stochastic differential equations. We further discuss the relations between diffusion models and other deep generative models, including variational auto-encoders, generative adversarial networks, energy-based models, autoregressive models and normalizing flows. Then, we introduce a multi-perspective categorization of diffusion models applied in computer vision. Finally, we illustrate the current limitations of diffusion models and envision some interesting directions for future research. | 翻訳日:2023-04-05 00:46:08 公開日:2023-04-01 |
# マスク適応CLIPを用いたオープンボキャブラリセマンティックセマンティックセグメンテーション Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP ( http://arxiv.org/abs/2210.04150v3 ) ライセンス: Link先を確認 | Feng Liang, Bichen Wu, Xiaoliang Dai, Kunpeng Li, Yinan Zhao, Hang Zhang, Peizhao Zhang, Peter Vajda, Diana Marculescu | (参考訳) open-vocabulary semantic segmentationは、テキスト記述に従ってイメージを意味領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、CLIPのような事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
我々は,このパラダイムの性能ボトルネックを,マスク画像上では良好に動作しないため,事前訓練されたCLIPモデルとみなす。
これを解決するために,マスク画像領域とその対応するテキスト記述の集合上でCLIPを微調整することを提案する。
既存の画像キャプチャデータセット(例えばCOCOキャプション)をマイニングしてトレーニングデータを収集し,CLIPを用いて画像キャプション内の名詞にマスクされた画像領域をマッチングする。
より正確で手動で注釈付けされたセグメンテーションラベルと固定クラス(例えばCOCO-Stuff)を比較すると、ノイズがあるが多様なデータセットはCLIPの一般化能力を維持できる。
モデル全体を微調整すると同時に,マスクプロンプトチューニングを行う手法を用いて,マスク画像中の「ブランク」領域を利用する。
実験では、マスクプロンプトチューニングはCLIPの重みを変更することなく大幅に改善され、完全に微調整されたモデルをさらに改善することができる。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の最先端よりも+8.5%高い。
オープンボカブラリなジェネラリストモデルが初めて、データセット固有の適応なしに2017年に教師付きスペシャリストモデルのパフォーマンスに一致した。 Open-vocabulary semantic segmentation aims to segment an image into semantic regions according to text descriptions, which may not have been seen during training. Recent two-stage methods first generate class-agnostic mask proposals and then leverage pre-trained vision-language models, e.g., CLIP, to classify masked regions. We identify the performance bottleneck of this paradigm to be the pre-trained CLIP model, since it does not perform well on masked images. To address this, we propose to finetune CLIP on a collection of masked image regions and their corresponding text descriptions. We collect training data by mining an existing image-caption dataset (e.g., COCO Captions), using CLIP to match masked image regions to nouns in the image captions. Compared with the more precise and manually annotated segmentation labels with fixed classes (e.g., COCO-Stuff), we find our noisy but diverse dataset can better retain CLIP's generalization ability. Along with finetuning the entire model, we utilize the "blank" areas in masked images using a method we dub mask prompt tuning. Experiments demonstrate mask prompt tuning brings significant improvement without modifying any weights of CLIP, and it can further improve a fully finetuned model. In particular, when trained on COCO and evaluated on ADE20K-150, our best model achieves 29.6% mIoU, which is +8.5% higher than the previous state-of-the-art. For the first time, open-vocabulary generalist models match the performance of supervised specialist models in 2017 without dataset-specific adaptations. | 翻訳日:2023-04-05 00:38:47 公開日:2023-04-01 |
# MaPLe: マルチモーダル・プロンプト学習 MaPLe: Multi-modal Prompt Learning ( http://arxiv.org/abs/2210.03117v3 ) ライセンス: Link先を確認 | Muhammad Uzair Khattak, Hanoona Rasheed, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan | (参考訳) CLIPのような事前学習された視覚言語(V-L)モデルは、下流タスクに優れた一般化能力を示している。
しかし、それらは入力テキストのプロンプトの選択に敏感であり、うまく機能するにはプロンプトテンプレートを慎重に選択する必要がある。
自然言語処理(NLP)の文献に触発された最近のCLIP適応アプローチは、下流タスクのための微調整CLIPへのテキスト入力として、プロンプトを学ぶ。
ここでは,CLIPの単一ブランチ(言語や視覚)で表現を適応させるプロンプトが,下流タスク上で両方の表現空間を動的に調整できないため,準最適である点に留意する。
本研究では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
我々の設計は、視覚言語プロンプト間の強い結合を促進し、相互の相乗効果と独立なユニモーダル解の学習を阻害する。
さらに、異なる初期段階の異なるプロンプトを学習し、段階的特徴関係を段階的にモデル化し、リッチな文脈学習を可能にする。
本稿では,新しいクラス,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクに対するアプローチの有効性を評価する。
state-of-the-artメソッドと比べ、mapleは優れたパフォーマンスを示し、11種類の画像認識データセットの平均で、新規クラスでは3.45%、総合調和平均では2.72%という絶対的なゲインを達成している。
私たちのコードと事前トレーニングされたモデルは、https://github.com/muzairkhattak/multimodal-prompt-learningで利用可能です。 Pre-trained vision-language (V-L) models such as CLIP have shown excellent generalization ability to downstream tasks. However, they are sensitive to the choice of input text prompts and require careful selection of prompt templates to perform well. Inspired by the Natural Language Processing (NLP) literature, recent CLIP adaptation approaches learn prompts as the textual inputs to fine-tune CLIP for downstream tasks. We note that using prompting to adapt representations in a single branch of CLIP (language or vision) is sub-optimal since it does not allow the flexibility to dynamically adjust both representation spaces on a downstream task. In this work, we propose Multi-modal Prompt Learning (MaPLe) for both vision and language branches to improve alignment between the vision and language representations. Our design promotes strong coupling between the vision-language prompts to ensure mutual synergy and discourages learning independent uni-modal solutions. Further, we learn separate prompts across different early stages to progressively model the stage-wise feature relationships to allow rich context learning. We evaluate the effectiveness of our approach on three representative tasks of generalization to novel classes, new target datasets and unseen domain shifts. Compared with the state-of-the-art method Co-CoOp, MaPLe exhibits favorable performance and achieves an absolute gain of 3.45% on novel classes and 2.72% on overall harmonic-mean, averaged over 11 diverse image recognition datasets. Our code and pre-trained models are available at https://github.com/muzairkhattak/multimodal-prompt-learning. | 翻訳日:2023-04-05 00:37:56 公開日:2023-04-01 |
# ドライバーのリスクフィールドを用いた臨界運転行動の実証から学ぶ Learning from Demonstrations of Critical Driving Behaviours Using Driver's Risk Field ( http://arxiv.org/abs/2210.01747v2 ) ライセンス: Link先を確認 | Yurui Du, Flavia Sofia Acerbo, Jens Kober, Tong Duy Son | (参考訳) 近年,自律走行車(AV)計画モジュールのコアとして,模倣学習(IL)が産業で広く利用されている。
しかし、以前のilの作業は、安全クリティカルなシナリオにおいて、サンプル非効率と低い一般化を示しており、それらはほとんどテストされない。
その結果、ilプランナーは、学習ポリシーを改善するためにより多くのトレーニングデータを追加するのをやめるパフォーマンスの高原に達することができる。
まず,スプライン係数パラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。
そして、Lyft予測データセットに基づくマルチエージェント交通シミュレータに実装されたパラメトリック人間運転行動モデルであるドライバのリスクフィールド(DRF)のパラメータを最適化することで、臨界シナリオを合成して学習したILポリシーの弱点を明らかにする。
学習方針を継続的に改善するために,ilモデルを拡張データで再トレーニングする。
DRFの表現性と解釈性により、所望の駆動動作を符号化し、元のトレーニングデータに集約することができる。
我々の研究は、クローズドループにおける学習したILポリシーを効率的かつ継続的に改善できる完全な開発サイクルを構成する。
最後に, トレーニングリソースの少ないILプランナの開発は, 従来よりも優れた性能を示した。 In recent years, imitation learning (IL) has been widely used in industry as the core of autonomous vehicle (AV) planning modules. However, previous IL works show sample inefficiency and low generalisation in safety-critical scenarios, on which they are rarely tested. As a result, IL planners can reach a performance plateau where adding more training data ceases to improve the learnt policy. First, our work presents an IL model using the spline coefficient parameterisation and offline expert queries to enhance safety and training efficiency. Then, we expose the weakness of the learnt IL policy by synthetically generating critical scenarios through optimisation of parameters of the driver's risk field (DRF), a parametric human driving behaviour model implemented in a multi-agent traffic simulator based on the Lyft Prediction Dataset. To continuously improve the learnt policy, we retrain the IL model with augmented data. Thanks to the expressivity and interpretability of the DRF, the desired driving behaviours can be encoded and aggregated to the original training data. Our work constitutes a full development cycle that can efficiently and continuously improve the learnt IL policies in closed-loop. Finally, we show that our IL planner developed with less training resource still has superior performance compared to the previous state-of-the-art. | 翻訳日:2023-04-05 00:37:07 公開日:2023-04-01 |
# Pop2Piano : ポップオーディオによるピアノカバー生成 Pop2Piano : Pop Audio-based Piano Cover Generation ( http://arxiv.org/abs/2211.00895v2 ) ライセンス: Link先を確認 | Jongho Choi, Kyogu Lee | (参考訳) ポップミュージックのピアノカバーは多くの人が楽しみます。
しかし、ポップ音楽のピアノカバーを自動生成する作業はまだ未熟である。
これは部分的には、同期した{pop, piano cover}データペアが欠如しているため、最新のデータ集約型ディープラーニングベースの手法の適用が困難になったためだ。
データ駆動アプローチのパワーを活用するために、自動パイプラインを使用して大量のペア化と同期化の {Pop, Piano Cover} データを作成します。
本稿では,ピアノカバーを生成するトランスフォーマーネットワークであるPop2Pianoについて述べる。
私たちの知る限りでは、これはメロディやコード抽出モジュールを使わずにポップオーディオから直接ピアノカバーを生成する最初のモデルです。
我々のデータセットでトレーニングされたPop2Pianoは、可塑性ピアノカバーを製造可能であることを示す。 Piano covers of pop music are enjoyed by many people. However, the task of automatically generating piano covers of pop music is still understudied. This is partly due to the lack of synchronized {Pop, Piano Cover} data pairs, which made it challenging to apply the latest data-intensive deep learning-based methods. To leverage the power of the data-driven approach, we make a large amount of paired and synchronized {Pop, Piano Cover} data using an automated pipeline. In this paper, we present Pop2Piano, a Transformer network that generates piano covers given waveforms of pop music. To the best of our knowledge, this is the first model to generate a piano cover directly from pop audio without using melody and chord extraction modules. We show that Pop2Piano, trained with our dataset, is capable of producing plausible piano covers. | 翻訳日:2023-04-05 00:30:29 公開日:2023-04-01 |
# 確率的活性化剤の確率的勾配の分散による連合学習 Federated Learning Using Variance Reduced Stochastic Gradient for Probabilistically Activated Agents ( http://arxiv.org/abs/2210.14362v2 ) ライセンス: Link先を確認 | M. R. Rostami, S. S. Kia | (参考訳) 本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
分散機械学習では、プライバシが重要な場合、flは機能的なツールです。
FLをエージェント(デバイス)の不規則な接続を持つ環境で配置することは、経済的かつ迅速な方法で訓練されたモデルに到達することが要求される仕事である。
アルゴリズムの第1層は,サーバが実行したエージェント間のモデルパラメータの伝搬に対応する。
第2層では、各エージェントは確率的かつ分散還元されたSVRG(Stochastic Variance Reduced Gradient)と呼ばれる技法で局所的な更新を行う。
確率的勾配降下 (sgd) に起因する分散を減らすために, エージェントが局所的な更新ステップを行おうとする場合, 確率的最適化からの分散低減の概念を利用する。
我々は、定数のステップサイズを用いて、$O(\frac{1}{\sqrt{K}})$から$O(\frac{1}{K})$へのレートを改善するアルゴリズムの収束バウンドを提供する。
数値例を用いて,本アルゴリズムの性能を実証する。 This paper proposes an algorithm for Federated Learning (FL) with a two-layer structure that achieves both variance reduction and a faster convergence rate to an optimal solution in the setting where each agent has an arbitrary probability of selection in each iteration. In distributed machine learning, when privacy matters, FL is a functional tool. Placing FL in an environment where it has some irregular connections of agents (devices), reaching a trained model in both an economical and quick way can be a demanding job. The first layer of our algorithm corresponds to the model parameter propagation across agents done by the server. In the second layer, each agent does its local update with a stochastic and variance-reduced technique called Stochastic Variance Reduced Gradient (SVRG). We leverage the concept of variance reduction from stochastic optimization when the agents want to do their local update step to reduce the variance caused by stochastic gradient descent (SGD). We provide a convergence bound for our algorithm which improves the rate from $O(\frac{1}{\sqrt{K}})$ to $O(\frac{1}{K})$ by using a constant step-size. We demonstrate the performance of our algorithm using numerical examples. | 翻訳日:2023-04-05 00:29:14 公開日:2023-04-01 |
# マクロ経済学とファイナンスのための強化ベイズニューラルネットワーク Enhanced Bayesian Neural Networks for Macroeconomics and Finance ( http://arxiv.org/abs/2211.04752v3 ) ライセンス: Link先を確認 | Niko Hauzenberger, Florian Huber, Karin Klieber, Massimiliano Marcellino | (参考訳) 我々は、(おそらく大きな)マクロ経済・金融変数の一般的な非線形性と時間変動をモデル化できるベイズニューラルネットワーク(BNN)を開発した。
方法論的な観点から、高密度またはスパースなデータセットに適用可能なネットワークの一般的な仕様化を可能にし、様々な活性化関数、おそらく非常に多くのニューロン、エラー項に対する確率的ボラティリティ(SV)を組み合わせた。
計算の観点からは,提案する一般bnnの高速かつ効率的な推定アルゴリズムを開発した。
実証的な観点からは、シミュレーションデータと、bnnの実用的利用、特に対象変数の断面分布や時系列分布の尾部での観察について、共通のマクロおよび財務的応用の組み合わせの両方を示し、この手法が非日常的な政策立案に特に有益であることを示す。 We develop Bayesian neural networks (BNNs) that permit to model generic nonlinearities and time variation for (possibly large sets of) macroeconomic and financial variables. From a methodological point of view, we allow for a general specification of networks that can be applied to either dense or sparse datasets, and combines various activation functions, a possibly very large number of neurons, and stochastic volatility (SV) for the error term. From a computational point of view, we develop fast and efficient estimation algorithms for the general BNNs we introduce. From an empirical point of view, we show both with simulated data and with a set of common macro and financial applications that our BNNs can be of practical use, particularly so for observations in the tails of the cross-sectional or time series distributions of the target variables, which makes the method particularly informative for policy making in uncommon times. | 翻訳日:2023-04-05 00:19:13 公開日:2023-04-01 |
# 実効連続手話のための時間重畳クロスオーバーモジュール Temporal superimposed crossover module for effective continuous sign language ( http://arxiv.org/abs/2211.03387v3 ) ライセンス: Link先を確認 | Qidan Zhu, Jing Li, Fei Yuan, Quan Gan | (参考訳) 継続的手話認識(cslr)の最終的な目標は、モデルのある程度のリアルタイムとデプロイ可能性を必要とする、特殊人と正常な人々とのコミュニケーションを促進することである。
しかし、CSLRに関する以前の研究では、リアルタイムとデプロイ能力にはほとんど注意が払われていない。
モデルの実時間および展開性を改善するために,ゼロパラメータ,ゼロ計算時間重畳クロスオーバーモジュール (TSCM) を提案し,それを2次元畳み込みと組み合わせて「TSCM+2D畳み込み」ハイブリッド畳み込み(TSCM+2D畳み込み)を形成する。
本稿では,tscmに基づくcslrモデル全体を改良されたresblocktネットワーク上に構築する。
tscm+2d畳み込み」のハイブリッド畳み込みをresnetネットワークのresblockに応用して新しいresblocktを形成し、ランダム勾配停止とマルチレベルctc損失を導入してモデルをトレーニングし、トレーニングメモリ使用量を減らしながら最終認識 werを削減し、resnetネットワークを画像分類タスクからビデオ認識タスクに拡張する。
さらに,CSLRでは,手話ビデオの時間空間的特徴を2次元畳み込み抽出のみを用いて認識のためのエンドツーエンド学習を行った。
2つの大規模連続手話データセットの実験は,提案手法の有効性を実証し,高い競争力を発揮する。 The ultimate goal of continuous sign language recognition(CSLR) is to facilitate the communication between special people and normal people, which requires a certain degree of real-time and deploy-ability of the model. However, in the previous research on CSLR, little attention has been paid to the real-time and deploy-ability. In order to improve the real-time and deploy-ability of the model, this paper proposes a zero parameter, zero computation temporal superposition crossover module(TSCM), and combines it with 2D convolution to form a "TSCM+2D convolution" hybrid convolution, which enables 2D convolution to have strong spatial-temporal modelling capability with zero parameter increase and lower deployment cost compared with other spatial-temporal convolutions. The overall CSLR model based on TSCM is built on the improved ResBlockT network in this paper. The hybrid convolution of "TSCM+2D convolution" is applied to the ResBlock of the ResNet network to form the new ResBlockT, and random gradient stop and multi-level CTC loss are introduced to train the model, which reduces the final recognition WER while reducing the training memory usage, and extends the ResNet network from image classification task to video recognition task. In addition, this study is the first in CSLR to use only 2D convolution extraction of sign language video temporal-spatial features for end-to-end learning for recognition. Experiments on two large-scale continuous sign language datasets demonstrate the effectiveness of the proposed method and achieve highly competitive results. | 翻訳日:2023-04-05 00:18:56 公開日:2023-04-01 |
# PIP: 位置エンコード画像 PIP: Positional-encoding Image Prior ( http://arxiv.org/abs/2211.14298v2 ) ライセンス: Link先を確認 | Nimrod Shabtay, Eli Schwartz and Raja Giryes | (参考訳) 深部画像先行(dip)では、畳み込みニューラルネットワーク(cnn)を装着して、潜在空間を劣化した(例えばノイズの多い)画像にマッピングするが、その過程でクリーン画像の再構築を学習する。
この現象はCNNの内部イメージ優先によるものである。
我々は、神経の暗黙的な表現の観点から、ディップフレームワークを再検討する。
この観点から、ランダムもしくは学習済みの潜伏語をフーリエ・フィーチャース (Positional Encoding) に置き換える。
本稿では,Fourierの機能特性により,単純なピクセルレベルのMPPで畳み込み層を置き換えることができることを示す。
我々は、このスキームを ``positional encoding image prior" (pip) と命名し、パラメータの少ない様々な画像再構成タスクのディップと非常によく似た性能を示す。
さらに,PIPは3D-DIPが苦労して不安定なビデオに容易に拡張できることを示した。
ビデオを含むすべてのタスクのコードと追加の例は、プロジェクトページhttps://nimrodshabtay.github.io/pip/で見ることができる。 In Deep Image Prior (DIP), a Convolutional Neural Network (CNN) is fitted to map a latent space to a degraded (e.g. noisy) image but in the process learns to reconstruct the clean image. This phenomenon is attributed to CNN's internal image-prior. We revisit the DIP framework, examining it from the perspective of a neural implicit representation. Motivated by this perspective, we replace the random or learned latent with Fourier-Features (Positional Encoding). We show that thanks to the Fourier features properties, we can replace the convolution layers with simple pixel-level MLPs. We name this scheme ``Positional Encoding Image Prior" (PIP) and exhibit that it performs very similarly to DIP on various image-reconstruction tasks with much less parameters required. Additionally, we demonstrate that PIP can be easily extended to videos, where 3D-DIP struggles and suffers from instability. Code and additional examples for all tasks, including videos, are available on the project page https://nimrodshabtay.github.io/PIP/ | 翻訳日:2023-04-05 00:01:22 公開日:2023-04-01 |
# Ham2Pose: 手話表記をPoseシーケンスにアニメーション Ham2Pose: Animating Sign Language Notation into Pose Sequences ( http://arxiv.org/abs/2211.13613v2 ) ライセンス: Link先を確認 | Rotem Shalev-Arkushin, Amit Moryossef, Ohad Fried | (参考訳) 音声言語を手話に翻訳することは、聴覚障害者コミュニティと聴覚障害者コミュニティとの間のオープンコミュニケーションに必要である。
この目的を達成するために,Lexical Sign言語表記法であるHamNoSysで書かれたテキストを署名されたポーズ列にアニメーションする手法を提案する。
HamNoSysは設計上普遍的であるため,提案手法はターゲット手話に不変な汎用解を提供する。
本手法は,空間的および時間的情報を考慮しながら,テキストとポーズの有意義な表現を生成するトランスコーダを用いて,徐々にポーズ予測を生成する。
我々は,訓練過程に弱い監督を施し,部分的および不正確なデータから学習することに成功していることを示す。
さらに, dtw-mje を用いてポーズ列間の距離を測定するために, キーポイントの欠落を考慮した新しい距離測定を行う。
大規模手話データセットであるautslを用いてその正確性を検証し、既存の測定値よりも正確なポーズ列間の距離を測定し、生成されたポーズシーケンスの品質を評価する。
データ前処理、モデル、距離測定のためのコードは、将来の研究のために公開されている。 Translating spoken languages into Sign languages is necessary for open communication between the hearing and hearing-impaired communities. To achieve this goal, we propose the first method for animating a text written in HamNoSys, a lexical Sign language notation, into signed pose sequences. As HamNoSys is universal by design, our proposed method offers a generic solution invariant to the target Sign language. Our method gradually generates pose predictions using transformer encoders that create meaningful representations of the text and poses while considering their spatial and temporal information. We use weak supervision for the training process and show that our method succeeds in learning from partial and inaccurate data. Additionally, we offer a new distance measurement that considers missing keypoints, to measure the distance between pose sequences using DTW-MJE. We validate its correctness using AUTSL, a large-scale Sign language dataset, show that it measures the distance between pose sequences more accurately than existing measurements, and use it to assess the quality of our generated pose sequences. Code for the data pre-processing, the model, and the distance measurement is publicly released for future research. | 翻訳日:2023-04-05 00:01:01 公開日:2023-04-01 |
# 有限次元における量子貯水池計算 Quantum reservoir computing in finite dimensions ( http://arxiv.org/abs/2212.00396v2 ) ライセンス: Link先を確認 | Rodrigo Mart\'inez-Pe\~na and Juan-Pablo Ortega | (参考訳) 古典入力を持つ量子貯水池計算(qrc)システムの既存の結果の多くは密度行列形式を用いて得られた。
本稿では,設計および評価問題に対処する上で,代替表現がより良い洞察を与えることを示す。
より明確には、系同型は、ゲルマン基底に付随するブロッホベクトルを用いて観測可能空間における表現とQRCへの密度行列アプローチを統一する。
これらのベクトル表現は、古典的な貯水池計算の文献で以前に導入され、多くの理論的結果が得られた状態アフィンシステム(SAS)をもたらすことが示されている。
この接続は、フェージングメモリ(FMP)とエコー状態(ESP)特性に関する様々なステートメントが表現とは独立であることを示し、また有限次元のQRC理論における基本的な問題にいくつかの光を当てるために用いられる。
特に、ESPとFMPが保持する必要十分条件は標準仮説を用いて定式化され、単純半無限解のみを持つ収縮量子チャネルは入力非依存の固定点の存在によって特徴づけられる。 Most existing results in the analysis of quantum reservoir computing (QRC) systems with classical inputs have been obtained using the density matrix formalism. This paper shows that alternative representations can provide better insights when dealing with design and assessment questions. More explicitly, system isomorphisms are established that unify the density matrix approach to QRC with the representation in the space of observables using Bloch vectors associated with Gell-Mann bases. It is shown that these vector representations yield state-affine systems (SAS) previously introduced in the classical reservoir computing literature and for which numerous theoretical results have been established. This connection is used to show that various statements in relation to the fading memory (FMP) and the echo state (ESP) properties are independent of the representation, and also to shed some light on fundamental questions in QRC theory in finite dimensions. In particular, a necessary and sufficient condition for the ESP and FMP to hold is formulated using standard hypotheses, and contractive quantum channels that have exclusively trivial semi-infinite solutions are characterized in terms of the existence of input-independent fixed points. | 翻訳日:2023-04-04 23:51:18 公開日:2023-04-01 |
# 物理形学習におけるニューラルネットワークと偏微分方程式の適合性について On the Compatibility between Neural Networks and Partial Differential Equations for Physics-informed Learning ( http://arxiv.org/abs/2212.00270v2 ) ライセンス: Link先を確認 | Kuangdai Leng and Jeyan Thiyagalingam | (参考訳) 私たちは、落とし穴と物理情報ニューラルネットワーク(PINN)の機会に光を当てました。
relu(rectified linear unit)またはreluライクリプシッツ活性化関数のみを持つ多層パーセプトロン(mlp)は、常に消滅したヘッシアンをもたらす。
このようなネットワーク上の制約は、二階あるいは高階の偏微分方程式(PDE)と矛盾する。
したがって、ReLU ベースの MLP は、それらの解の近似に対する許容関数空間を形成できない。
この落とし穴に着想を得て、出力層の重みが特定の超平面上にあるとき、$C^n$ 活性化関数を持つ MLP で$n$-階までの線形 PDE が厳密に満足できることを証明した。
層外超平面を備えたMLPは、PDE自体の損失関数(初期条件と境界条件のみ)を必要としない「物理強化」となる。
このような超平面は、MLPだけでなく、完全に接続された隠された層によって尾行されるネットワークアーキテクチャにも存在している。
私たちの知る限り、これはPDEのポイントワイドな正しさを強制する最初のPINNアーキテクチャであるべきです。
2階線形PDEに対する外層超平面の閉形式表現を示し、高階非線形PDEに一般化することができる。 We shed light on a pitfall and an opportunity in physics-informed neural networks (PINNs). We prove that a multilayer perceptron (MLP) only with ReLU (Rectified Linear Unit) or ReLU-like Lipschitz activation functions will always lead to a vanished Hessian. Such a network-imposed constraint contradicts any second- or higher-order partial differential equations (PDEs). Therefore, a ReLU-based MLP cannot form a permissible function space for the approximation of their solutions. Inspired by this pitfall, we prove that a linear PDE up to the $n$-th order can be strictly satisfied by an MLP with $C^n$ activation functions when the weights of its output layer lie on a certain hyperplane, as called the out-layer-hyperplane. An MLP equipped with the out-layer-hyperplane becomes "physics-enforced", no longer requiring a loss function for the PDE itself (but only those for the initial and boundary conditions). Such a hyperplane exists not only for MLPs but for any network architecture tailed by a fully-connected hidden layer. To our knowledge, this should be the first PINN architecture that enforces point-wise correctness of PDEs. We show a closed-form expression of the out-layer-hyperplane for second-order linear PDEs, which can be generalised to higher-order nonlinear PDEs. | 翻訳日:2023-04-04 23:50:59 公開日:2023-04-01 |
# 計算効率の良い強化学習:単純なルールを活かした探索 Computationally Efficient Reinforcement Learning: Targeted Exploration leveraging simple Rules ( http://arxiv.org/abs/2211.16691v2 ) ライセンス: Link先を確認 | Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones | (参考訳) 強化学習(Reinforcement Learning, RL)は一般的にサンプルの複雑さに悩まされる。
一方で、システムの専門家の知識によって、良いポリシーが常に従うことを期待するシンプルなルールを設計することがしばしば可能になると仮定します。
そこで本研究では,このようなルールを組み込んだ連続的アクター・クリティカル・フレームワークの簡易かつ効果的な修正を提案し,RLエージェントの収束を著しく促進する状態-アクション空間の領域を回避する。
具体的には、エージェントが直感に従わない場合、エージェントが選択したアクションを飽和させ、重要なことは、学習プロセスが飽和ステップの影響を受けないようにポリシーの勾配更新ステップを変更することである。
室内温度制御のケーススタディでは、計算オーバーヘッドを伴わず、良好な最終性能を維持しながら、従来のエージェントよりも最大6~7倍の性能のポリシーに収束することができる。 Reinforcement Learning (RL) generally suffers from poor sample complexity, mostly due to the need to exhaustively explore the state-action space to find well-performing policies. On the other hand, we postulate that expert knowledge of the system often allows us to design simple rules we expect good policies to follow at all times. In this work, we hence propose a simple yet effective modification of continuous actor-critic frameworks to incorporate such rules and avoid regions of the state-action space that are known to be suboptimal, thereby significantly accelerating the convergence of RL agents. Concretely, we saturate the actions chosen by the agent if they do not comply with our intuition and, critically, modify the gradient update step of the policy to ensure the learning process is not affected by the saturation step. On a room temperature control case study, it allows agents to converge to well-performing policies up to 6-7x faster than classical agents without computational overhead and while retaining good final performance. | 翻訳日:2023-04-04 23:50:23 公開日:2023-04-01 |
# 希少事象による動的因果発見に向けて:非パラメトリック条件独立試験 Towards Dynamic Causal Discovery with Rare Events: A Nonparametric Conditional Independence Test ( http://arxiv.org/abs/2211.16596v4 ) ライセンス: Link先を確認 | Chih-Yuan Chiu, Kshitij Kulkarni, Shankar Sastry | (参考訳) 稀な事象に関連する因果現象は、危険に敏感な安全分析、事故解析と予防、極端な価値理論など、幅広い工学的問題にまたがる。
しかし、因果発見の現在の手法は、変数が最初に低確率の実現を経験したときにのみ現れる、動的環境におけるランダム変数間の因果関係を発見できないことが多い。
そこで本研究では, 時間不変力学系から収集されたデータに対して, 稀ではあるが連続的な事象が発生する新しい統計独立性テストを提案する。
特に,システム状態の重畳されたデータセットを,異なるタイミングで発生する前に構築するために,基礎となるデータの時間的不変性を利用する。
次に、再構成データに基づいて条件付き独立試験を設計する。
本手法の一貫性のために非漸近的なサンプル複雑性境界を提供し,caltrans performance measurement system (pems) から収集したインシデントデータを含む様々なシミュレーションおよび実世界のデータセットでその性能を検証する。
データセットと実験を含むコードは公開されている。 Causal phenomena associated with rare events occur across a wide range of engineering problems, such as risk-sensitive safety analysis, accident analysis and prevention, and extreme value theory. However, current methods for causal discovery are often unable to uncover causal links, between random variables in a dynamic setting, that manifest only when the variables first experience low-probability realizations. To address this issue, we introduce a novel statistical independence test on data collected from time-invariant dynamical systems in which rare but consequential events occur. In particular, we exploit the time-invariance of the underlying data to construct a superimposed dataset of the system state before rare events happen at different timesteps. We then design a conditional independence test on the reorganized data. We provide non-asymptotic sample complexity bounds for the consistency of our method, and validate its performance across various simulated and real-world datasets, including incident data collected from the Caltrans Performance Measurement System (PeMS). Code containing the datasets and experiments is publicly available. | 翻訳日:2023-04-04 23:50:04 公開日:2023-04-01 |
# scanents3d: 3dシーンにおける visio-linguistic model の改良 ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes ( http://arxiv.org/abs/2212.06250v2 ) ライセンス: Link先を確認 | Ahmed Abdelreheem, Kyle Olszewski, Hsin-Ying Lee, Peter Wonka, Panos Achlioptas | (参考訳) ScanRefer [16]とReferIt3D [3]の2つの人気のあるデータセットは、自然言語を現実世界の3Dデータに結びつける。
本稿では,参照文で言及されるすべてのオブジェクトと,その基礎となるインスタンスを3dシーン内で関連付けることで,上記2つを拡張した大規模かつ補完的なデータセットをキュレートする。
特に、3d(scanents3d)データセットのスキャンエンティティは、84kの自然参照文にまたがる369kオブジェクト間の明示的な対応を提供し、705の現実世界のシーンをカバーします。
重要なのは、この新しいデータセットから学習できる直感的な損失を組み込むことで、Nr3DとScanReferのベンチマークでそれぞれ4.3%と5.0%の改善を含む、最近導入されたいくつかのニューラルリスニングアーキテクチャのパフォーマンスを大幅に改善できることである。
さらに,nr3dベンチマークにおけるsitaの13.2cider点の改善を含む3dニューラル話者のトレーニングにより,言語生成タスクの競合ベースラインと最近の手法を実験し,ニューラルリスナーと同様に3dニューラル話者もscanents3dで明らかに有益であることを示す。
本研究は,ScanEnts3Dを学習することで,新たに収集したアノテーションをテスト時に提供することなく,より効率的かつ解釈可能な3Dアーキテクチャを実現することができるという結論を強く支持する。
プロジェクトのwebページはhttps://scanents3d.github.io/。 The two popular datasets ScanRefer [16] and ReferIt3D [3] connect natural language to real-world 3D data. In this paper, we curate a large-scale and complementary dataset extending both the aforementioned ones by associating all objects mentioned in a referential sentence to their underlying instances inside a 3D scene. Specifically, our Scan Entities in 3D (ScanEnts3D) dataset provides explicit correspondences between 369k objects across 84k natural referential sentences, covering 705 real-world scenes. Crucially, we show that by incorporating intuitive losses that enable learning from this novel dataset, we can significantly improve the performance of several recently introduced neural listening architectures, including improving the SoTA in both the Nr3D and ScanRefer benchmarks by 4.3% and 5.0%, respectively. Moreover, we experiment with competitive baselines and recent methods for the task of language generation and show that, as with neural listeners, 3D neural speakers can also noticeably benefit by training with ScanEnts3D, including improving the SoTA by 13.2 CIDEr points on the Nr3D benchmark. Overall, our carefully conducted experimental studies strongly support the conclusion that, by learning on ScanEnts3D, commonly used visio-linguistic 3D architectures can become more efficient and interpretable in their generalization without needing to provide these newly collected annotations at test time. The project's webpage is https://scanents3d.github.io/ . | 翻訳日:2023-04-04 23:43:51 公開日:2023-04-01 |
# モロー・ヨシダ正則化からの密度ポテンシャル反転 Density-potential inversion from Moreau-Yosida regularization ( http://arxiv.org/abs/2212.12727v3 ) ライセンス: Link先を確認 | Markus Penz, Mih\'aly A. Csirik, Andre Laestadius | (参考訳) 密度が与えられた量子力学的多電子系では、Zhao-Morrison-Parr法は、その密度を正確に求める有効なポテンシャルを計算することができる。
本研究では,バナッハ空間上の密度汎函数のモロー・ヨシダ正規化と,これと類似の逆解析が数学的にどのように関係するかを示す。
正規化パラメータが 0 に近づくと、これらの反転手順は実際に極限過程として理解できることが示された。
これにより、密度汎関数理論におけるモロー・ヨシダ正則化の役割に関する新たな洞察が生まれ、密度-ポテンシャル反転を体系的に改善することができる。
この結果は, 相互作用密度を再現する実効的な1体ポテンシャルを決定する分数的占有をもつコーン・シャム設定に適用できる。 For a quantum-mechanical many-electron system, given a density, the Zhao-Morrison-Parr method allows to compute the effective potential that yields precisely that density. In this work, we demonstrate how this and similar inversion procedures mathematically relate to the Moreau-Yosida regularization of density functionals on Banach spaces. It is shown that these inversion procedures can in fact be understood as a limit process as the regularization parameter approaches zero. This sheds new insight on the role of Moreau-Yosida regularization in density-functional theory and allows to systematically improve density-potential inversion. Our results apply to the Kohn-Sham setting with fractional occupation that determines an effective one-body potential that in turn reproduces an interacting density. | 翻訳日:2023-04-04 23:32:18 公開日:2023-04-01 |
# CLIPPO: ピクセルのみによる画像と言語理解 CLIPPO: Image-and-Language Understanding from Pixels Only ( http://arxiv.org/abs/2212.08045v2 ) ライセンス: Link先を確認 | Michael Tschannen, Basil Mustafa, Neil Houlsby | (参考訳) トランスフォーマーアーキテクチャのような統一されたコンポーネントによって、マルチモーダルモデルはますます効果的になっている。
しかし、マルチモーダルモデルは依然として多くのタスクとモダリティ固有の部品と訓練手順で構成されている。
例えば、CLIP (Radford et al., 2021) は、対照的な損失によって独立したテキストとイメージタワーを訓練している。
我々は、画像、テキスト、マルチモーダルタスクの実行に純粋なピクセルベースのモデルを使用することにより、さらなる統一を探求する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
CLIPPOは、通常の画像と画像としてレンダリングされたテキストの両方を処理する単一のエンコーダを使用する。
CLIPPOは、CLIPスタイルのモデルと同様に、検索やゼロショット画像分類などの画像ベースのタスクを実行する。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは、単語レベルの損失(言語モデリングやマスク付き言語モデリング)を伴わずに、自然言語理解タスクでうまく機能し、ピクセルベースの先行処理より優れた性能を発揮する。
意外なことに、CLIPPOは、単に質問と画像をまとめてレンダリングすることで、視覚的質問応答において正確な精度を得ることができる。
最後に、CLIPPOがトークン化を必要とせず、修正なしに多言語マルチモーダル検索において高い性能が得られることを示す事実を利用する。 Multimodal models are becoming increasingly effective, in part due to unified components, such as the Transformer architecture. However, multimodal models still often consist of many task- and modality-specific pieces and training procedures. For example, CLIP (Radford et al., 2021) trains independent text and image towers via a contrastive loss. We explore an additional unification: the use of a pure pixel-based model to perform image, text, and multimodal tasks. Our model is trained with contrastive loss alone, so we call it CLIP-Pixels Only (CLIPPO). CLIPPO uses a single encoder that processes both regular images and text rendered as images. CLIPPO performs image-based tasks such as retrieval and zero-shot image classification almost as well as CLIP-style models, with half the number of parameters and no text-specific tower or embedding. When trained jointly via image-text contrastive learning and next-sentence contrastive learning, CLIPPO can perform well on natural language understanding tasks, without any word-level loss (language modelling or masked language modelling), outperforming pixel-based prior work. Surprisingly, CLIPPO can obtain good accuracy in visual question answering, simply by rendering the question and image together. Finally, we exploit the fact that CLIPPO does not require a tokenizer to show that it can achieve strong performance on multilingual multimodal retrieval without modifications. | 翻訳日:2023-04-04 23:30:55 公開日:2023-04-01 |
# Crowd3D:1枚の画像から数百人の再建を目指す Crowd3D: Towards Hundreds of People Reconstruction from a Single Image ( http://arxiv.org/abs/2301.09376v2 ) ライセンス: Link先を確認 | Hao Wen, Jing Huang, Huili Cui, Haozhe Lin, YuKun Lai, Lu Fang and Kun Li | (参考訳) 広視野大シーンにおける画像に基づく多人数再構築は,群集分析とセキュリティ警告にとって重要である。
しかし、既存の手法では数百人の人々を含む大きなシーンは扱えないため、多くの人々の挑戦、人間の規模の大きなバリエーション、複雑な空間分布に遭遇する。
本稿では,1つの大画面画像からグローバルな一貫性を持つ数百人の3Dポーズ,形状,位置を再構築する最初のフレームワークであるCrowd3Dを提案する。
このアプローチの核心は,新たな概念であるhvip(human-scene virtual interaction point)の助けを借りて,複雑なクラウドローカライゼーションの問題をピクセルローカライゼーションに変換することである。
観客をグローバルな整合性で再構築するために,シーンレベルのカメラと地上平面を事前推定することにより,HVIPに基づく進行的再構成ネットワークを提案する。
多数の人と様々な大きさの人間を扱うため、適応型人間中心のクロッピングスキームも設計する。
さらに,大規模シーンにおける群集再構築のためのベンチマークデータセット largecrowd もコントリビュートする。
実験の結果,提案手法の有効性が示された。
コードとデータセットは公開される予定だ。 Image-based multi-person reconstruction in wide-field large scenes is critical for crowd analysis and security alert. However, existing methods cannot deal with large scenes containing hundreds of people, which encounter the challenges of large number of people, large variations in human scale, and complex spatial distribution. In this paper, we propose Crowd3D, the first framework to reconstruct the 3D poses, shapes and locations of hundreds of people with global consistency from a single large-scene image. The core of our approach is to convert the problem of complex crowd localization into pixel localization with the help of our newly defined concept, Human-scene Virtual Interaction Point (HVIP). To reconstruct the crowd with global consistency, we propose a progressive reconstruction network based on HVIP by pre-estimating a scene-level camera and a ground plane. To deal with a large number of persons and various human sizes, we also design an adaptive human-centric cropping scheme. Besides, we contribute a benchmark dataset, LargeCrowd, for crowd reconstruction in a large scene. Experimental results demonstrate the effectiveness of the proposed method. The code and datasets will be made public. | 翻訳日:2023-04-04 21:38:35 公開日:2023-04-01 |
# パルス形状と人工神経ネットワークを用いたPMTの飽和応答の復元 Restoring the saturation response of a PMT using pulse-shape and artificial-neural-networks ( http://arxiv.org/abs/2302.06170v2 ) ライセンス: Link先を確認 | Hyun-Gi Lee, Jungsic Park, Byeongsu Yang | (参考訳) 光増倍管(PMT)の線形応答は、ニュートリノエネルギーの光子計数と再構成に必要な性質である。
線形アルキルベンゼン (LAB) 系液体シンチレータを用いて, PMTの線形性有効領域と飽和応答を検討した。
2種類の飽和反応の間にはパルス形状歪みとパルス面積減少の相関が認められた。
観測されたパルス形状は、パルス領域に対する線形領域の推定に有用な情報を提供する。
この相関に基づく診断は、以前に困難であった線型性範囲の${in}$-${situ}$推定を可能にする。
この2つの飽和応答の相関関係を人工神経ネットワーク(ann)の訓練に応用し,観察したパルス形状からパルス面積の低下を予測した。
ANN予測パルス領域減少により、飽和挙動とは無関係に理想的な光電子数の予測が可能となる。
このパルス形状に基づく機械学習技術は、PMTの飽和応答を復元する新しい方法を提供する。 The linear response of a photomultiplier tube (PMT) is a required property for photon counting and reconstruction of the neutrino energy. The linearity valid region and the saturation response of PMT were investigated using a linear-alkyl-benzene (LAB)-based liquid scintillator. A correlation was observed between the two different saturation responses, with pulse-shape distortion and pulse-area decrease. The observed pulse-shape provides useful information for the estimation of the linearity region relative to the pulse-area. This correlation-based diagnosis allows an ${in}$-${situ}$ estimation of the linearity range, which was previously challenging. The measured correlation between the two saturation responses was employed to train an artificial-neural-network (ANN) to predict the decrease in pulse-area from the observed pulse-shape. The ANN-predicted pulse-area decrease enables the prediction of the ideal number of photoelectrons irrelevant to the saturation behavior. This pulse-shape-based machine learning technique offers a novel method for restoring the saturation response of PMTs. | 翻訳日:2023-04-04 21:31:36 公開日:2023-04-01 |
# I$^2$SB: Image-to-Image Schr\"odinger Bridge I$^2$SB: Image-to-Image Schr\"odinger Bridge ( http://arxiv.org/abs/2302.05872v2 ) ライセンス: Link先を確認 | Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, Anima Anandkumar | (参考訳) 本研究では,2つの分布間の非線形拡散過程を直接学習する新しい条件拡散モデルであるschr\"odinger bridge (i$^2$sb)を提案する。
これらの拡散橋は、劣化した画像がクリーンな画像の再構築に構造的に有益であるため、画像復元に特に有用である。
I$^2$SBは、スコアベースモデルへの非線形拡張であるSchr\"odinger Bridgeの抽出可能なクラスに属し、その限界分布は解析的に与えられた境界対を計算できる。
これにより、I$^2$SBトレーニングが標準拡散モデルで使用される実践的手法を採用することにより、非線形拡散のシミュレーション不要なフレームワークがスケーラブルになる。
I$^2$SB は、画像Net 256x256 上での塗り絵、超解像、デブロアリング、JPEG 復元などの様々な画像復元タスクの解決において有効であり、I$^2$SB は、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。
さらに、I$^2$SBは、汚職演算子の知識を必要とする逆メソッドのパフォーマンスと一致する。
我々の研究は、大規模に効率的な非線形拡散モデルを開発するための新しいアルゴリズムの機会を開く。
スケール。
プロジェクトページとコード: https://i2sb.github.io/ We propose Image-to-Image Schr\"odinger Bridge (I$^2$SB), a new class of conditional diffusion models that directly learn the nonlinear diffusion processes between two given distributions. These diffusion bridges are particularly useful for image restoration, as the degraded images are structurally informative priors for reconstructing the clean images. I$^2$SB belongs to a tractable class of Schr\"odinger bridge, the nonlinear extension to score-based models, whose marginal distributions can be computed analytically given boundary pairs. This results in a simulation-free framework for nonlinear diffusions, where the I$^2$SB training becomes scalable by adopting practical techniques used in standard diffusion models. We validate I$^2$SB in solving various image restoration tasks, including inpainting, super-resolution, deblurring, and JPEG restoration on ImageNet 256x256 and show that I$^2$SB surpasses standard conditional diffusion models with more interpretable generative processes. Moreover, I$^2$SB matches the performance of inverse methods that additionally require the knowledge of the corruption operators. Our work opens up new algorithmic opportunities for developing efficient nonlinear diffusion models on a large scale. scale. Project page and codes: https://i2sb.github.io/ | 翻訳日:2023-04-04 21:31:22 公開日:2023-04-01 |
# Jaccard Metric Losses: ソフトラベルによるJaccard Indexの最適化 Jaccard Metric Losses: Optimizing the Jaccard Index with Soft Labels ( http://arxiv.org/abs/2302.05666v3 ) ライセンス: Link先を確認 | Zifu Wang and Matthew B. Blaschko | (参考訳) IoU損失はJaccardインデックスを直接最適化するサロゲートである。
セグメンテーションにおいて、損失関数の一部としてIoU損失を活用することは、クロスエントロピー損失のみのような画素単位の損失を最適化するよりも、ジャカード指数測度に関して優れていることを示す。
IoUの最大の損失は、ソフトなジャカードの損失とロバスツ・ソフトマックスの損失である。
しかし、これらの損失は機械学習においてユビキタスなソフトラベルとは相容れない。
本稿では、ハードラベルの標準設定において、ソフトなジャカード損失と同一であるがソフトなラベルと互換性のあるジャカード計量損失(JML)を提案する。
JMLでは,ラベルスムース化と知識蒸留という,ソフトラベルの最も一般的な2つのユースケースについて検討した。
様々なアーキテクチャを用いて,3つの意味セグメンテーションデータセット (cityscapes, pascal voc, deepglobe land) におけるクロスエントロピー損失を大幅に改善した。
コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。 IoU losses are surrogates that directly optimize the Jaccard index. In semantic segmentation, leveraging IoU losses as part of the loss function is shown to perform better with respect to the Jaccard index measure than optimizing pixel-wise losses such as the cross-entropy loss alone. The most notable IoU losses are the soft Jaccard loss and the Lovasz-Softmax loss. However, these losses are incompatible with soft labels which are ubiquitous in machine learning. In this paper, we propose Jaccard metric losses (JMLs), which are identical to the soft Jaccard loss in a standard setting with hard labels, but are compatible with soft labels. With JMLs, we study two of the most popular use cases of soft labels: label smoothing and knowledge distillation. With a variety of architectures, our experiments show significant improvements over the cross-entropy loss on three semantic segmentation datasets (Cityscapes, PASCAL VOC and DeepGlobe Land), and our simple approach outperforms state-of-the-art knowledge distillation methods by a large margin. Code is available at: \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}. | 翻訳日:2023-04-04 21:30:36 公開日:2023-04-01 |
# 共有近傍グラフ上のグラフラプラシアンおよび同じ極限を持つ$k$Nearest Neighborグラフ上のグラフラプラシアン Graph Laplacians on Shared Nearest Neighbor graphs and graph Laplacians on $k$-Nearest Neighbor graphs having the same limit ( http://arxiv.org/abs/2302.12399v2 ) ライセンス: Link先を確認 | A. Martina Neuman | (参考訳) 共有隣人グラフ(英: Shared Nearest Neighbor graph、SNN)は、共有隣人情報を用いたグラフ構築の一種であり、一次の$k$-nearest(k$-NN)測度によって誘導されるランクに基づく二次類似度尺度である。
SNN測度は従来の距離測度よりも次元の呪いの傾向が低いと評価されており、特に高次元データセットのクラスタリングや高次元データのサブスペースにおけるアウトリーチの発見において、SNNグラフを用いた手法が広く用いられている。
それにもかかわらず、SNNグラフとグラフラプラシアンの理論的研究は未解明のままである。
この先駆的な仕事において、私たちはこの方向に最初に貢献します。
SNNグラフラプラシアンの大規模漸近が一貫した連続極限に達することを示し、この極限は$k$-NNグラフラプラシアンと同じである。
さらに、グラフラプラシアンの点収束率は、高い確率で$(k/n)^{1/m}$に対して線形であることを示した。 A Shared Nearest Neighbor (SNN) graph is a type of graph construction using shared nearest neighbor information, which is a secondary similarity measure based on the rankings induced by a primary $k$-nearest neighbor ($k$-NN) measure. SNN measures have been touted as being less prone to the curse of dimensionality than conventional distance measures, and thus methods using SNN graphs have been widely used in applications, particularly in clustering high-dimensional data sets and in finding outliers in subspaces of high dimensional data. Despite this, the theoretical study of SNN graphs and graph Laplacians remains unexplored. In this pioneering work, we make the first contribution in this direction. We show that large scale asymptotics of an SNN graph Laplacian reach a consistent continuum limit; this limit is the same as that of a $k$-NN graph Laplacian. Moreover, we show that the pointwise convergence rate of the graph Laplacian is linear with respect to $(k/n)^{1/m}$ with high probability. | 翻訳日:2023-04-04 21:22:23 公開日:2023-04-01 |
# 深部ニューラルネットワークのための関数結合型透かしについて On Function-Coupled Watermarks for Deep Neural Networks ( http://arxiv.org/abs/2302.10296v3 ) ライセンス: Link先を確認 | Xiangyu Wen, Yu Li, Wei Jiang, Qiang Xu | (参考訳) DNN(well-performed Deep Neural Network)は、トレーニングに大量のラベル付きデータと計算リソースを必要とする。
このような知的財産権(IP)を保護するために様々な透かし技術が提案され、DNNプロバイダが秘密情報をモデルに埋め込んで、専用のトリガー入力で埋め込んだ透かしを取得することで、後にIP所有権を主張できるようにしている。
文献では有望な結果が報告されているが、既存のソリューションは、モデルファインチューニングやモデルプルーニングなどのウォーターマーク除去攻撃に悩まされている。
本稿では,上記の攻撃に対して効果的に防御できる新しいDNN透かし手法を提案する。
我々の重要な洞察は、ウォーターマークの結合とモデル機能の強化であり、ウォーターマークの除去は、必然的に通常の入力でモデルのパフォーマンスを低下させる。
そこで,本手法は,分散データから学習した機密機能に依存する従来の手法とは異なり,分散データから学習した機能のみを使用する。
具体的には、元のトレーニングデータセットからの入力をサンプル化して、ウォーターマークトリガーとして融合する手法を提案する。
一方で,トレーニング中にモデル重みをランダムにマスクすることにより,ネットワーク内に埋め込まれた透かしの情報を広げる。
そうすることで、モデルの微調整/プルニングは、関数結合したウォーターマークを忘れません。
画像分類タスクの評価結果から, 攻撃的な透かし除去攻撃による透かし認証の成功率は100 %であり, 既存の解よりも有意に優れていた。
コードはhttps://github.com/cure-lab/function-coupled-watermark。 Well-performed deep neural networks (DNNs) generally require massive labelled data and computational resources for training. Various watermarking techniques are proposed to protect such intellectual properties (IPs), wherein the DNN providers implant secret information into the model so that they can later claim IP ownership by retrieving their embedded watermarks with some dedicated trigger inputs. While promising results are reported in the literature, existing solutions suffer from watermark removal attacks, such as model fine-tuning and model pruning. In this paper, we propose a novel DNN watermarking solution that can effectively defend against the above attacks. Our key insight is to enhance the coupling of the watermark and model functionalities such that removing the watermark would inevitably degrade the model's performance on normal inputs. To this end, unlike previous methods relying on secret features learnt from out-of-distribution data, our method only uses features learnt from in-distribution data. Specifically, on the one hand, we propose to sample inputs from the original training dataset and fuse them as watermark triggers. On the other hand, we randomly mask model weights during training so that the information of our embedded watermarks spreads in the network. By doing so, model fine-tuning/pruning would not forget our function-coupled watermarks. Evaluation results on various image classification tasks show a 100\% watermark authentication success rate under aggressive watermark removal attacks, significantly outperforming existing solutions. Code is available: https://github.com/cure-lab/Function-Coupled-Watermark. | 翻訳日:2023-04-04 21:20:46 公開日:2023-04-01 |
# 重み共有アグリゲーションによる暗黙的剛性制約の活用によるポイントクラウドからのシーンフロー推定 Exploiting Implicit Rigidity Constraints via Weight-Sharing Aggregation for Scene Flow Estimation from Point Clouds ( http://arxiv.org/abs/2303.02454v2 ) ライセンス: Link先を確認 | Yun Wang, Cheng Chi, Xin Yang | (参考訳) 点雲からシーンポイントの3次元運動を予測するシーンフロー推定は、自動運転やその他の多くの3次元視覚アプリケーションにおける中核的なタスクである。
既存の手法では、剛体運動の一貫性の欠如や、明示的なポーズ推定と3dオブジェクトのセグメンテーションを必要とする。
推定ポーズとセグメンテーションオブジェクトの誤差は不正確な剛性制約をもたらし、結果として誤解を招くシーンフロー推定となる。
本稿では,特徴量とシーンフローのアップサンプリングのための新しいウェイトシェアリングアグリゲーション(WSA)手法を提案する。
wsaは推定されたポーズやセグメンテーションされたオブジェクトには依存せず、暗黙的に剛性制約を強制し、シーンフロー推定における構造歪みを回避することができる。
幾何情報をさらに活用し,局所構造を保存するために,局所領域の不変性を維持するために変形度モジュールを設計する。
我々はPointPWC-Netを修正し、提案したWSAおよび変形度モジュールを拡張されたPointPWC-Netに統合し、WSAFlowNetと呼ばれるエンドツーエンドのシーンフロー推定ネットワークを導出する。
FlyingThings3DとKITTIデータセットの大規模な実験結果から、当社のWSAFlowNetが最先端のパフォーマンスを達成し、従来の手法よりも大きなマージンで性能を向上していることが示された。
ソースコードはhttps://github.com/wangyunlhr/WSAFlowNet.gitで公開します。 Scene flow estimation, which predicts the 3D motion of scene points from point clouds, is a core task in autonomous driving and many other 3D vision applications. Existing methods either suffer from structure distortion due to ignorance of rigid motion consistency or require explicit pose estimation and 3D object segmentation. Errors of estimated poses and segmented objects would yield inaccurate rigidity constraints and in turn mislead scene flow estimation. In this paper, we propose a novel weight-sharing aggregation (WSA) method for feature and scene flow up-sampling. WSA does not rely on estimated poses and segmented objects, and can implicitly enforce rigidity constraints to avoid structure distortion in scene flow estimation. To further exploit geometric information and preserve local structure, we design a deformation degree module aim to keep the local region invariance. We modify the PointPWC-Net and integrate the proposed WSA and deformation degree module into the enhanced PointPWC-Net to derive an end-to-end scene flow estimation network, called WSAFlowNet. Extensive experimental results on the FlyingThings3D and KITTI datasets demonstrate that our WSAFlowNet achieves the state-of-the-art performance and outperforms previous methods by a large margin. We will release the source code at https://github.com/wangyunlhr/WSAFlowNet.git. | 翻訳日:2023-04-04 21:11:33 公開日:2023-04-01 |
# PyTorchとFiredrakeを結合した物理駆動機械学習モデル Physics-driven machine learning models coupling PyTorch and Firedrake ( http://arxiv.org/abs/2303.06871v3 ) ライセンス: Link先を確認 | Nacime Bouziani, David A. Ham | (参考訳) 偏微分方程式 (Partial differential equation, PDE) は、科学や工学の分野にまたがる複雑な物理系の記述とモデル化の中心である。
しかし、多くの現実的な応用において、PDEモデリングは関心の物理学の不完全な記述を提供する。
PDEベースの機械学習技術はこの制限に対処するために設計されている。
このアプローチでは、PDEはインダクティブバイアスとして使われ、結合されたモデルは、トレーニングデータが少なくとも基本的な物理法則に依存することができる。
PDEと機械学習を複雑な問題に結合する高性能シミュレーションの展開は、機械学習とPDEベースのフレームワークが提供する機能の構成を必要とする。
我々は、機械学習フレームワークPyTorchと、研究者、エンジニア、ドメインスペシャリストに、既存のコードに簡単な変更しか必要とせず、結合したモデルを特定する高い生産性の方法を提供するPDEシステムFiredrakeとの、シンプルで効果的な結合を提示する。 Partial differential equations (PDEs) are central to describing and modelling complex physical systems that arise in many disciplines across science and engineering. However, in many realistic applications PDE modelling provides an incomplete description of the physics of interest. PDE-based machine learning techniques are designed to address this limitation. In this approach, the PDE is used as an inductive bias enabling the coupled model to rely on fundamental physical laws while requiring less training data. The deployment of high-performance simulations coupling PDEs and machine learning to complex problems necessitates the composition of capabilities provided by machine learning and PDE-based frameworks. We present a simple yet effective coupling between the machine learning framework PyTorch and the PDE system Firedrake that provides researchers, engineers and domain specialists with a high productive way of specifying coupled models while only requiring trivial changes to existing code. | 翻訳日:2023-04-04 21:02:08 公開日:2023-04-01 |
# ニューラルネットワークのハードウェア高速化 Hardware Acceleration of Neural Graphics ( http://arxiv.org/abs/2303.05735v4 ) ライセンス: Link先を確認 | Muhammad Husnain Mubarik, Ramakrishna Kanungo, Tobias Zirr and Rakesh Kumar | (参考訳) 従来のコンピュータグラフィックスを駆動するレンダリングと逆レンダリングアルゴリズムは、最近neural representations (nr)に取って代わられた。
NRは、最近、シーンの幾何学的および物質的特性を学び、その情報を使ってフォトリアリスティックな画像を合成し、スケーラブルで予測可能なパフォーマンスで従来のレンダリングアルゴリズムを置き換えることを約束している。
neural graphics (ng) はハードウェアサポートが必要か?
60FPSで4kの解像度をレンダリングしたい場合、現在のGPUで所望のパフォーマンスで1.5X-55Xの差があることを示す代表NGアプリケーションについて検討した。
AR/VRアプリケーションでは、所望のパフォーマンスと必要なシステムパワーの間に2-4 OOMのギャップがさらに大きい。
入力エンコーディングとmlpカーネルは性能ボトルネックであり,マルチres.hashgrid,multi res. densegrid,low res. densegridエンコーディングのアプリケーション時間の72%,60%,59%を消費する。
我々は,専用エンジンによる入力エンコーディングとmlpカーネルを直接高速化し,幅広いngアプリケーションをサポートするスケーラブルでフレキシブルなハードウェアアーキテクチャであるng処理クラスタを提案する。
Vulkanでは、前処理や後処理のカーネルの未使用実装と比較して、9.94倍のカーネルレベルのパフォーマンス向上を実現しています。
以上の結果から,NGPCは最大58倍のエンド・ツー・エンドの性能向上を実現し,Hashgridエンコーディングは4つのNGアプリケーションで平均12X,20X,33X,39Xのスケーリング係数でそれぞれ8,16,32,64。
以上の結果から,NGPCでは,NeRFで30FPSで4k,他のNGアプリケーションで120FPSで8kのレンダリングが可能であることが示唆された。 Rendering and inverse-rendering algorithms that drive conventional computer graphics have recently been superseded by neural representations (NR). NRs have recently been used to learn the geometric and the material properties of the scenes and use the information to synthesize photorealistic imagery, thereby promising a replacement for traditional rendering algorithms with scalable quality and predictable performance. In this work we ask the question: Does neural graphics (NG) need hardware support? We studied representative NG applications showing that, if we want to render 4k res. at 60FPS there is a gap of 1.5X-55X in the desired performance on current GPUs. For AR/VR applications, there is an even larger gap of 2-4 OOM between the desired performance and the required system power. We identify that the input encoding and the MLP kernels are the performance bottlenecks, consuming 72%,60% and 59% of application time for multi res. hashgrid, multi res. densegrid and low res. densegrid encodings, respectively. We propose a NG processing cluster, a scalable and flexible hardware architecture that directly accelerates the input encoding and MLP kernels through dedicated engines and supports a wide range of NG applications. We also accelerate the rest of the kernels by fusing them together in Vulkan, which leads to 9.94X kernel-level performance improvement compared to un-fused implementation of the pre-processing and the post-processing kernels. Our results show that, NGPC gives up to 58X end-to-end application-level performance improvement, for multi res. hashgrid encoding on average across the four NG applications, the performance benefits are 12X,20X,33X and 39X for the scaling factor of 8,16,32 and 64, respectively. Our results show that with multi res. hashgrid encoding, NGPC enables the rendering of 4k res. at 30FPS for NeRF and 8k res. at 120FPS for all our other NG applications. | 翻訳日:2023-04-04 21:01:29 公開日:2023-04-01 |
# 変圧器モデルにおけるブロックワイズビット圧縮 Block-wise Bit-Compression of Transformer-based Models ( http://arxiv.org/abs/2303.09184v2 ) ライセンス: Link先を確認 | Gaochen Dong, Wei Chen | (参考訳) BERT、GPT-3、ChatGPTに代表される最近のTransformerベースのモデルの人気により、自然言語処理タスクの分野では最先端のパフォーマンスがある。
しかし、大規模な計算、巨大なメモリフットプリント、そしてトランスフォーマーベースのモデルの高いレイテンシは、リアルタイム要求の高いクラウドにとって避けられない課題である。
この問題に対処するため,変換器のブロックワイドビット圧縮法であるBBCTを提案する。
本手法は, 埋め込み, 行列乗算, ゲル, ソフトマックス, 層正規化, およびすべての中間結果を含む, トランスフォーマー全体のよりきめ細かい圧縮を実現する。
実例では,BBCT の手法を用いて効率的な BERT を圧縮する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。 With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks. | 翻訳日:2023-04-04 20:54:06 公開日:2023-04-01 |
# fastinst: リアルタイムインスタンスセグメンテーションのための単純なクエリベースモデル FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation ( http://arxiv.org/abs/2303.08594v2 ) ライセンス: Link先を確認 | Junjie He, Pengyu Li, Yifeng Geng, Xuansong Xie | (参考訳) インスタンスセグメンテーションにおける近年の注目は、クエリベースのモデルに焦点を当てている。
非最大抑制(nms)とエンドツーエンドであるにもかかわらず、高精度リアルタイムベンチマークにおけるこれらのモデルの優位性はよく示されていない。
本稿では,効率的なインスタンスセグメンテーションアルゴリズム設計におけるクエリベースモデルの可能性を示す。
リアルタイムインスタンスセグメンテーションのための、シンプルで効果的なクエリベースのフレームワークであるfastinstを提案する。
FastInstはリアルタイムな速度(すなわち32.5 FPS)で実行でき、ベルやホイッスルなしでCOCOテストデブ上で40以上のAP(すなわち40.5 AP)を出力する。
具体的には、FastInstは、最近導入されたMask2Formerのメタアーキテクチャに従う。
その重要な設計には、インスタンスアクティベーション誘導クエリ、デュアルパス更新ストラテジー、そして、より軽いピクセルデコーダ、より少ないトランスフォーマーデコーダレイヤの使用を可能にし、パフォーマンスを向上できるグランド・トゥルーションマスクガイド学習が含まれる。
実験によれば、fastinstはスピードと正確性の両方において、強い畳み込みのベースラインを含む最先端のリアルタイムシステムよりも優れています。
コードはhttps://github.com/junjiehe96/FastInst にある。 Recent attention in instance segmentation has focused on query-based models. Despite being non-maximum suppression (NMS)-free and end-to-end, the superiority of these models on high-accuracy real-time benchmarks has not been well demonstrated. In this paper, we show the strong potential of query-based models on efficient instance segmentation algorithm designs. We present FastInst, a simple, effective query-based framework for real-time instance segmentation. FastInst can execute at a real-time speed (i.e., 32.5 FPS) while yielding an AP of more than 40 (i.e., 40.5 AP) on COCO test-dev without bells and whistles. Specifically, FastInst follows the meta-architecture of recently introduced Mask2Former. Its key designs include instance activation-guided queries, dual-path update strategy, and ground truth mask-guided learning, which enable us to use lighter pixel decoders, fewer Transformer decoder layers, while achieving better performance. The experiments show that FastInst outperforms most state-of-the-art real-time counterparts, including strong fully convolutional baselines, in both speed and accuracy. Code can be found at https://github.com/junjiehe96/FastInst . | 翻訳日:2023-04-04 20:53:51 公開日:2023-04-01 |
# Edit-A-Video:Object-Aware Consistencyによるシングルビデオ編集 Edit-A-Video: Single Video Editing with Object-Aware Consistency ( http://arxiv.org/abs/2303.07945v3 ) ライセンス: Link先を確認 | Chaehun Shin, Heeseung Kim, Che Hyun Lee, Sang-gil Lee, Sungroh Yoon | (参考訳) 近年,テキスト・ツー・ビデオ(TTV)モデルが顕著な成功を収めているにもかかわらず,ビデオ編集の拡張に対するTTVへのアプローチはほとんどない。
拡散に基づくテキスト・ツー・イメージ(tti)モデルに適応したttvモデルのアプローチに動機づけられ,事前学習されたttiモデルと<text, video>ペアのみを与えられた映像編集フレームワークを提案する。
このフレームワークは、(1)時間的モジュールを付加して2dモデルを3dモデルに拡張し、ソースビデオにチューニングする(2)ソースビデオをノイズに反転させ、ターゲットテキストプロンプトとアテンションマップインジェクションで編集する2段階からなる。
各ステージは、ソースビデオの意味的属性の時間的モデリングと保存を可能にする。
ビデオ編集における重要な課題の1つは、編集に含まれない領域が望ましくない時間変化に悩まされる背景の不整合の問題である。
この問題を軽減するため,sparse-causal blending (sc blending) と呼ばれる新しいマスクブレンディング法を提案する。
従来のマスクブレンディング法を改良して時間的一貫性を反映し,編集対象領域のスムーズな遷移と,未編集領域の時空間的一貫性を実現する。
提案手法は,様々な種類のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,映像編集品質の面でのベースラインと比較し,提案手法の優位性を示す。 Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single <text, video> pair, which we term Edit-A-Video. The framework consists of two stages: (1) inflating the 2D model into the 3D model by appending temporal modules and tuning on the source video (2) inverting the source video into the noise and editing with target text prompt and attention map injection. Each stage enables the temporal modeling and preservation of semantic attributes of the source video. One of the key challenges for video editing include a background inconsistency problem, where the regions not included for the edit suffer from undesirable and inconsistent temporal alterations. To mitigate this issue, we also introduce a novel mask blending method, termed as sparse-causal blending (SC Blending). We improve previous mask blending methods to reflect the temporal consistency so that the area where the editing is applied exhibits smooth transition while also achieving spatio-temporal consistency of the unedited regions. We present extensive experimental results over various types of text and videos, and demonstrate the superiority of the proposed method compared to baselines in terms of background consistency, text alignment, and video editing quality. | 翻訳日:2023-04-04 20:52:13 公開日:2023-04-01 |
# 医用画像復号化(MIDI)タスクグループ報告 - ベストプラクティスと勧告- Report of the Medical Image De-Identification (MIDI) Task Group -- Best Practices and Recommendations ( http://arxiv.org/abs/2303.10473v2 ) ライセンス: Link先を確認 | David A. Clunie, Adam Flanders, Adam Taylor, Brad Erickson, Brian Bialecki, David Brundage, David Gutman, Fred Prior, J Anthony Seibert, John Perry, Judy Wawira Gichoya, Justin Kirby, Katherine Andriole, Luke Geneslaw, Steve Moore, TJ Fitzgerald, Wyatt Tellis, Ying Xiao, Keyvan Farahani | (参考訳) 本報告は、倫理的・道徳的・法的懸念の再識別リスクを十分に低減し、ソース・配信サイトの管轄権にかかわらず、いかなる目的でも無制限の公開共有を許すような、人体・バイオスペクティブの医療画像の非特定の技術的側面について論じる。
取得のモードにかかわらず、すべての医療画像は考慮されているが、主にデータ要素、特にデータ要素が埋め込まれたフォーマット、特にDigital Imaging and Communications in Medicine (DICOM)で符号化されたデータ要素を持つものに焦点を当てている。
これらの画像には、Segmentation、Parametric Maps、Radiotherapy (RT) Doseオブジェクトなどのイメージライクなオブジェクトが含まれている。
このスコープには、RT構造セット、プランと線量ヒストグラム、構造化レポート、プレゼンテーション状態など、関連する非イメージオブジェクトも含まれている。
公開データのみを識別し、人工知能(AI)モデル開発のためのフェデレーション学習のような、プライバシ保護への代替アプローチは、AIモデル共有からのプライバシリークの問題と同様に、スコープ外である。
公開共有の技術的な問題にのみ対処する。 This report addresses the technical aspects of de-identification of medical images of human subjects and biospecimens, such that re-identification risk of ethical, moral, and legal concern is sufficiently reduced to allow unrestricted public sharing for any purpose, regardless of the jurisdiction of the source and distribution sites. All medical images, regardless of the mode of acquisition, are considered, though the primary emphasis is on those with accompanying data elements, especially those encoded in formats in which the data elements are embedded, particularly Digital Imaging and Communications in Medicine (DICOM). These images include image-like objects such as Segmentations, Parametric Maps, and Radiotherapy (RT) Dose objects. The scope also includes related non-image objects, such as RT Structure Sets, Plans and Dose Volume Histograms, Structured Reports, and Presentation States. Only de-identification of publicly released data is considered, and alternative approaches to privacy preservation, such as federated learning for artificial intelligence (AI) model development, are out of scope, as are issues of privacy leakage from AI model sharing. Only technical issues of public sharing are addressed. | 翻訳日:2023-04-04 20:43:00 公開日:2023-04-01 |
# 不均一ネットワークにおけるフェデレーションSVMのマルチタスクモデルパーソナライゼーション Multi-Task Model Personalization for Federated Supervised SVM in Heterogeneous Networks ( http://arxiv.org/abs/2303.10254v2 ) ライセンス: Link先を確認 | Aleksei Ponomarenko-Timofeev, Olga Galinina, Ravikumar Balakrishnan, Nageen Himayat, Sergey Andreev, and Yevgeni Koucheryavy | (参考訳) フェデレーションシステムは、マルチタスク学習アルゴリズムを使用することにより、モデルパーソナライズを通じて、高度に異種なデータに対する協調的なトレーニングを可能にする。
しかし、デバイス計算能力の大幅な変化は、訓練の収束率を著しく低下させる可能性がある。
マルチタスクのフェデレーション設定において、多様な参加者の学習手順を高速化するために、より効率的で堅牢な方法を開発する必要がある。
本稿では,分散化と回帰に対処するサポートベクトルマシン(SVM)のための乗算器の交互方向法(ADMM)に基づく効率的な反復分散手法を設計する。
提案手法は、異種ノードのネットワークにおける効率的な計算とモデル交換を利用し、非i.d.データの存在下で学習モデルのパーソナライズを可能にする。
プライバシーをさらに強化するため,データ反転を回避するためにランダムマスク方式を導入する。
最後に,提案するプライバシ機構と参加者ハードウェアとデータの均一性がシステム性能に与える影響を分析する。 Federated systems enable collaborative training on highly heterogeneous data through model personalization, which can be facilitated by employing multi-task learning algorithms. However, significant variation in device computing capabilities may result in substantial degradation in the convergence rate of training. To accelerate the learning procedure for diverse participants in a multi-task federated setting, more efficient and robust methods need to be developed. In this paper, we design an efficient iterative distributed method based on the alternating direction method of multipliers (ADMM) for support vector machines (SVMs), which tackles federated classification and regression. The proposed method utilizes efficient computations and model exchange in a network of heterogeneous nodes and allows personalization of the learning model in the presence of non-i.i.d. data. To further enhance privacy, we introduce a random mask procedure that helps avoid data inversion. Finally, we analyze the impact of the proposed privacy mechanisms and participant hardware and data heterogeneity on the system performance. | 翻訳日:2023-04-04 20:42:22 公開日:2023-04-01 |
# 後方特徴投影による連続学習における線形分離性維持 Preserving Linear Separability in Continual Learning by Backward Feature Projection ( http://arxiv.org/abs/2303.14595v2 ) ライセンス: Link先を確認 | Qiao Gu, Dongsub Shim, Florian Shkurti | (参考訳) 破滅的な忘れは、連続的な学習において大きな課題であり、モデルでは、以前見られたタスクからデータにアクセスできない、あるいは制限された、新しいタスクを学習する必要がある。
この課題に対処するため,特徴空間における知識蒸留に基づく手法が提案され,忘れの低減が図られている。
しかし、ほとんどの特徴蒸留法は、プラスチック性の必要性を見越して、新しい特徴を古いものと一致させるよう直接に制約している。
安定性と可塑性のトレードオフを改善するため,我々は,新しい特徴を学習可能な線形変換へと変化させる連続学習法である後方特徴投影法(bfp)を提案する。
BFPは古いクラスの線形分離性を保ちつつ、新しいフィーチャの方向が新しいクラスに対応できるようにしている。
BFPは既存のエクスペリエンスリプレイメソッドと統合することができ、パフォーマンスを大幅に向上させることができる。
また,BFPは連続学習中に線形分離性が良好に維持され,高い分類精度が得られるような表現空間の学習にも有効であることを示す。
コードはhttps://github.com/rvl-lab-utoronto/BFPで確認できる。 Catastrophic forgetting has been a major challenge in continual learning, where the model needs to learn new tasks with limited or no access to data from previously seen tasks. To tackle this challenge, methods based on knowledge distillation in feature space have been proposed and shown to reduce forgetting. However, most feature distillation methods directly constrain the new features to match the old ones, overlooking the need for plasticity. To achieve a better stability-plasticity trade-off, we propose Backward Feature Projection (BFP), a method for continual learning that allows the new features to change up to a learnable linear transformation of the old features. BFP preserves the linear separability of the old classes while allowing the emergence of new feature directions to accommodate new classes. BFP can be integrated with existing experience replay methods and boost performance by a significant margin. We also demonstrate that BFP helps learn a better representation space, in which linear separability is well preserved during continual learning and linear probing achieves high classification accuracy. The code can be found at https://github.com/rvl-lab-utoronto/BFP | 翻訳日:2023-04-04 20:36:46 公開日:2023-04-01 |
# ChatDoctor:医学領域知識を用いたLLaMAモデルに基づく医用チャットモデル ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge ( http://arxiv.org/abs/2303.14070v3 ) ライセンス: Link先を確認 | Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, You Zhang | (参考訳) ChatGPTのような一般領域における最近の大規模言語モデル(LLM)は、指示に従うことや、人間のような反応を生み出すことに顕著な成功を収めている。
しかし、これらの言語モデルは医療領域に合わせたものではないため、回答の正確さが低く、医療診断や医薬品などの適切な推奨ができない。
この問題に対処するために,700以上の疾患とその症状,必要な医療検査,推奨薬を収集し,医師と患者との会話を5万件生成した。
また,オンラインQ&A医療相談サイトから200万件の患者と医師の会話を得た。
205kの医師と患者との会話を微調整することで、患者のニーズを理解し、アドバイスを提供し、様々な医療関連分野に有用な支援を提供することができる。
これらの高度な言語モデルの医療への統合は、医療専門家と患者のコミュニケーション方法に革命をもたらし、最終的には患者のケアと成果の全体的な効率と品質を向上させる。
さらに、医療分野における対話モデルのさらなる発展を促進するため、すべてのソースコード、データセット、モデルの重み付けを公開しました。
このプロジェクトのトレーニングデータ、コード、重み付けは以下の通りである。 トレーニングデータ、コード、重み付けは、https://github.com/Kent0n-Li/ChatDoctor.comで利用可能である。 Recent large language models (LLMs) in the general domain, such as ChatGPT, have shown remarkable success in following instructions and producing human-like responses. However, such language models have not been tailored to the medical domain, resulting in poor answer accuracy and inability to give plausible recommendations for medical diagnosis, medications, etc. To address this issue, we collected more than 700 diseases and their corresponding symptoms, required medical tests, and recommended medications, from which we generated 5K doctor-patient conversations. In addition, we obtained 200K real patient-doctor conversations from online Q\&A medical consultation sites. By fine-tuning LLMs using these 205k doctor-patient conversations, the resulting models emerge with great potential to understand patients' needs, provide informed advice, and offer valuable assistance in a variety of medical-related fields. The integration of these advanced language models into healthcare can revolutionize the way healthcare professionals and patients communicate, ultimately improving the overall efficiency and quality of patient care and outcomes. In addition, we made public all the source codes, datasets, and model weights to facilitate the further development of dialogue models in the medical field. The training data, codes, and weights of this project are available at: The training data, codes, and weights of this project are available at: https://github.com/Kent0n-Li/ChatDoctor. | 翻訳日:2023-04-04 20:35:16 公開日:2023-04-01 |
# ヒューリスティックスによる定理証明としての計画 Planning as Theorem Proving with Heuristics ( http://arxiv.org/abs/2303.13638v2 ) ライセンス: Link先を確認 | Mikhail Soutchanski and Ryan Young | (参考訳) 状況計算における定理証明としての計画は、50年前に不可能プロジェクトとして放棄された。
しかし、我々は、A*探索アルゴリズムを用いて、状況のツリー内のプランを探索するTheorem Proving Lifted Heuristic(TPLH)プランナーを開発した。
削除緩和に基づくドメイン独立ヒューリスティックによって制御される。
我々は,TPLHとFast Downward (FD)とBest First Width Search (BFWS)を,いくつかの標準ベンチマークで比較した。
ヒューリスティック関数の実装は最適化されていないため、TPLHはFDやBFWSよりも遅い。
しかし、短い計画を計算し、少ない州を探索する。
我々は、KR\&R内の計画に関する以前の研究について論じ、関連する方向を特定する。
以上より,状況計算において帰納的揚水ヒューリスティック計画が実際に可能であることを示す。 Planning as theorem proving in situation calculus was abandoned 50 years ago as an impossible project. But we have developed a Theorem Proving Lifted Heuristic (TPLH) planner that searches for a plan in a tree of situations using the A* search algorithm. It is controlled by a delete relaxation-based domain independent heuristic. We compare TPLH with Fast Downward (FD) and Best First Width Search (BFWS) planners over several standard benchmarks. Since our implementation of the heuristic function is not optimized, TPLH is slower than FD and BFWS. But it computes shorter plans, and it explores fewer states. We discuss previous research on planning within KR\&R and identify related directions. Thus, we show that deductive lifted heuristic planning in situation calculus is actually doable. | 翻訳日:2023-04-04 20:34:44 公開日:2023-04-01 |
# Dice Semimetric Losses: ソフトラベルによるDice Scoreの最適化 Dice Semimetric Losses: Optimizing the Dice Score with Soft Labels ( http://arxiv.org/abs/2303.16296v2 ) ライセンス: Link先を確認 | Zifu Wang, Teodora Popordanoska, Jeroen Bertels, Robin Lemmens, Matthew B. Blaschko | (参考訳) 軟Dice損失(SDL)は、医療画像コミュニティにおける多くの自動セグメンテーションパイプラインにおいて重要な役割を担っている。
ここ数年、その優れた機能を支えるいくつかの理由が明らかにされ、さらなる最適化が検討されている。
しかしながら、ソフトラベルを使った設定での直接使用をサポートする実装は今のところ存在しない。
したがって、SDLの使用とソフトラベルの利用による研究の相乗効果は、モデルキャリブレーションの文脈においても、いまだに欠落している。
本稿では,Dice semimetric loss (DML)を紹介する。
(i) ハードラベルの標準設定でSDLと同一の設計であるが、
(ii)はソフトラベルの設定で使用することができる。
公的なQUBIQ、LiTS、KiTSベンチマークに関する我々の実験は、ハードラベル(多数投票やランダム選択など)に対するソフトラベル(平均化、ラベルの平滑化、知識蒸留など)とのDMLのシナジーの可能性を確認する。
その結果,dmlの普及を支援する優れたdiceスコアとモデルキャリブレーションを得た。
コードは \href{https://github.com/zifuwanggg/jdtlosses}{https://github.com/zifuwanggg/jdtlosses} で入手できる。 The soft Dice loss (SDL) has taken a pivotal role in many automated segmentation pipelines in the medical imaging community. Over the last years, some reasons behind its superior functioning have been uncovered and further optimizations have been explored. However, there is currently no implementation that supports its direct use in settings with soft labels. Hence, a synergy between the use of SDL and research leveraging the use of soft labels, also in the context of model calibration, is still missing. In this work, we introduce Dice semimetric losses (DMLs), which (i) are by design identical to SDL in a standard setting with hard labels, but (ii) can be used in settings with soft labels. Our experiments on the public QUBIQ, LiTS and KiTS benchmarks confirm the potential synergy of DMLs with soft labels (e.g. averaging, label smoothing, and knowledge distillation) over hard labels (e.g. majority voting and random selection). As a result, we obtain superior Dice scores and model calibration, which supports the wider adoption of DMLs in practice. Code is available at \href{https://github.com/zifuwanggg/JDTLosses}{https://github.com/zifuwanggg/JDTLosses}. | 翻訳日:2023-04-04 20:26:42 公開日:2023-04-01 |
# 多出力回帰タスクにおける深いアンサンブルによる校正不確かさの定量化に向けて Towards Quantifying Calibrated Uncertainty via Deep Ensembles in Multi-output Regression Task ( http://arxiv.org/abs/2303.16210v2 ) ライセンス: Link先を確認 | Sunwoong Yang, Kwanjung Yee | (参考訳) ディープアンサンブルはベイズ推論を近似するための単純で単純なアプローチであり、多くの分類タスクにうまく適用されている。
本研究の目的は、多出力回帰タスクにおけるこのアプローチを包括的に検討し、ミサイル構成の空力性能を予測することである。
アンサンブルで使用されるニューラルネットワークの数の影響を精査することにより、推定不確実性における自信不足に対する明らかな傾向が観察される。
本研究では,ポストホック校正法を適用した深層アンサンブルフレームワークを提案し,その不確実性定量化性能の向上を実証する。
工学における不確実性定量化の最も一般的なモデルであるガウス過程回帰と比較され、回帰精度、推定不確実性の信頼性、訓練効率において優れた性能を持つことが証明されている。
最後に,提案手法がベイズ最適化の結果に及ぼす影響について検討し,深部アンサンブルが校正されるか否かが全く異なる探査特性をもたらすことを示した。
このフレームワークは、この研究で使われる特定の問題に対して特別な仮定がなされていないため、任意の回帰タスクにシームレスに適用および拡張することができる。 Deep ensemble is a simple and straightforward approach for approximating Bayesian inference and has been successfully applied to many classification tasks. This study aims to comprehensively investigate this approach in the multi-output regression task to predict the aerodynamic performance of a missile configuration. By scrutinizing the effect of the number of neural networks used in the ensemble, an obvious trend toward underconfidence in estimated uncertainty is observed. In this context, we propose the deep ensemble framework that applies the post-hoc calibration method, and its improved uncertainty quantification performance is demonstrated. It is compared with Gaussian process regression, the most prevalent model for uncertainty quantification in engineering, and is proven to have superior performance in terms of regression accuracy, reliability of estimated uncertainty, and training efficiency. Finally, the impact of the suggested framework on the results of Bayesian optimization is examined, showing that whether or not the deep ensemble is calibrated can result in completely different exploration characteristics. This framework can be seamlessly applied and extended to any regression task, as no special assumptions have been made for the specific problem used in this study. | 翻訳日:2023-04-04 20:26:08 公開日:2023-04-01 |
# Unify, Align and Refine:マルチレベルセマンティックアライメントによる放射線診断レポート生成 Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation ( http://arxiv.org/abs/2303.15932v3 ) ライセンス: Link先を確認 | Yaowei Li, Bang Yang, Xuxin Cheng, Zhihong Zhu, Hongxiang Li, Yuexian Zou | (参考訳) 自動放射線学レポート生成は, 放射線技師の作業負荷軽減の実践的価値から, 膨大な研究関心を集めている。
しかし、画像(例えば、Chest X-ray)とその関連レポートと画像パッチとキーワードの局所的なアライメントのグローバルな対応を同時に確立することは困難である。
この目的のために,多段階のクロスモーダルアライメントを学習し,LSU(Latent Space Unifier),CRA(Cross-modal Representation Aligner),TIR(Text-to-Image Refiner)の3つの新しいモジュールを導入するためのUnify,Align, then Refine (UAR)アプローチを提案する。
特に、LSUはマルチモーダルデータを離散トークンに統一し、共有ネットワークを用いてモダリティ間の共通知識を学習する。
モダリティ非依存 cra は、まず正規直交基底と双対ゲート機構のセットを通して識別的特徴を学習し、次に三重項コントラスト損失の下で視覚的およびテキスト的表現をグローバルに調整する。
TIRは、学習可能なマスクでテキストと画像の注意を校正することでトークンレベルの局所アライメントを高める。
さらに,2段階の学習手順をデザインし,uarが様々なレベルにおけるクロスモーダルアライメントを徐々に把握できるようにし,放射線科医のワークフローを模倣した。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの大規模な実験と解析により、UARの様々な最先端手法に対する優位性を示す。 Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods. | 翻訳日:2023-04-04 20:25:31 公開日:2023-04-01 |
# Aggregated Gradientsを用いた高速収束フェデレーション学習 Fast Convergent Federated Learning with Aggregated Gradients ( http://arxiv.org/abs/2303.15799v2 ) ライセンス: Link先を確認 | Wenhao Yuan and Xuehe Wang | (参考訳) フェデレーション学習(federated learning, fl)は、複数の分散デバイスが協調して、プライベートデータをローカルに保護しながら、中央サーバがスケジュールした共有モデルをトレーニングできる、新しい機械学習フレームワークである。
しかし、非独立分散(Non-IID)データサンプルと参加者間の頻繁なコミュニケーションは、収束率を著しく低下させ、通信コストを増大させる可能性がある。
高速収束を実現するために,各局所更新期間に集計勾配を導入することにより,従来の局所更新規則を改善し,さらに局所パラメータと大域パラメータの偏差を考慮した適応学習率アルゴリズムを提案する。
上記の適応学習率設計では、局所的なパラメータや勾配を含む全てのクライアントのローカル情報が必要である。
各クライアントに対して分散適応学習率を得るために,各ローカルエポックにおいて,各クライアントがそれぞれのローカル情報を交換する必要のない2つの平均場語を導入し,各ローカルパラメータと勾配を推定することで,平均場アプローチを利用する。
解析の結果,提案手法はIIDおよび非IIDデータセットのモデル精度と収束率の両方において,最先端のFL方式よりも優れていることがわかった。 Federated Learning (FL) is a novel machine learning framework, which enables multiple distributed devices cooperatively to train a shared model scheduled by a central server while protecting private data locally. However, the non-independent-and-identically-distributed (Non-IID) data samples and frequent communication across participants may significantly slow down the convergent rate and increase communication costs. To achieve fast convergence, we ameliorate the conventional local updating rule by introducing the aggregated gradients at each local update epoch, and propose an adaptive learning rate algorithm that further takes the deviation of local parameter and global parameter into consideration. The above adaptive learning rate design requires all clients' local information including the local parameters and gradients, which is challenging as there is no communication during the local update epochs. To obtain a decentralized adaptive learning rate for each client, we utilize the mean field approach by introducing two mean field terms to estimate the average local parameters and gradients respectively, which does not require the clients to exchange their local information with each other at each local epoch. Numerical results show that our proposed framework is superior to the state-of-art FL schemes in both model accuracy and convergent rate for IID and Non-IID datasets. | 翻訳日:2023-04-04 20:25:01 公開日:2023-04-01 |
# 情報抽出研究:トークン化を念頭に置いて! An Information Extraction Study: Take In Mind the Tokenization! ( http://arxiv.org/abs/2303.15100v2 ) ライセンス: Link先を確認 | Christos Theodoropoulos, Marie-Francine Moens | (参考訳) 深層学習モデルの入力としてトークン化テキストの代わりに文字を使うことの利点とトレードオフに関する最近の研究は、大きく進歩している。
新しいトークンフリーモデルでは従来のトークン化のステップが取り除かれるが、その効率性はまだ不明である。
さらに、トークン化の効果はシーケンスタギングタスクでは比較的未探索である。
そこで本研究では,文書から情報を抽出する際のトークン化の影響を調査し,サブワードモデルと文字モデルの比較検討と分析を行う。
具体的には,生物医学文献からの情報抽出(ie)について検討する。
トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスを導入し、文字ベースのモデルは有望な結果をもたらす。 Current research on the advantages and trade-offs of using characters, instead of tokenized text, as input for deep learning models, has evolved substantially. New token-free models remove the traditional tokenization step; however, their efficiency remains unclear. Moreover, the effect of tokenization is relatively unexplored in sequence tagging tasks. To this end, we investigate the impact of tokenization when extracting information from documents and present a comparative study and analysis of subword-based and character-based models. Specifically, we study Information Extraction (IE) from biomedical texts. The main outcome is twofold: tokenization patterns can introduce inductive bias that results in state-of-the-art performance, and the character-based models produce promising results; thus, transitioning to token-free IE models is feasible. | 翻訳日:2023-04-04 20:24:21 公開日:2023-04-01 |
# 新しいエントロピーアプローチによる適応的フェデレーション学習 Adaptive Federated Learning via New Entropy Approach ( http://arxiv.org/abs/2303.14966v2 ) ライセンス: Link先を確認 | Shensheng Zheng, Xuehe Wang, Lingjie Duan | (参考訳) リソース制約のある独立したクライアントは、ローカルにプライバシに敏感なデータを保存しながら、中央サーバのオーケストレーションの下でグローバルモデルを協調的に学習することができる。
しかし,ヘテロジニアスクライアントの機器の相違やデータのばらつきにより,局所モデル間のパラメータ偏差が生じ,収束速度が遅く,グローバルモデルの精度が低下する。
現在のFLアルゴリズムは静的クライアント学習戦略を広く利用しており、異なるクライアントの動的トレーニングパラメータに適応できない。
本稿では,異なる局所モデルパラメータ間の偏差を考慮し,不均一なクライアント間の偏差を緩和し,グローバルモデルの高速収束を実現するために,エントロピー理論に基づく各クライアントに対する適応学習率スキームを提案する。
他のクライアントのローカル情報がないため、特にローカルクライアントと中央サーバ間の通信のないローカルトレーニングの時期において、各クライアントの最適な動的学習率を設計することは困難である。
各クライアントの分散学習率設計を実現するために,まず,他のクライアントの局所モデルパラメータに関連する条件を推定する平均場スキームを導入する。
そして、ハミルトン方程式を構成することにより、クライアント毎の分散適応学習率を閉形式に求める。
さらに,平均場推定器に対する不動点解が存在することを証明し,それを得るためのアルゴリズムを提案する。
最後に, 実データを用いた実験結果から, 局所モデルパラメータ間の偏差を他のFLアルゴリズムと比較して効果的に除去できることが示唆された。 Federated Learning (FL) has recently emerged as a popular framework, which allows resource-constrained discrete clients to cooperatively learn the global model under the orchestration of a central server while storing privacy-sensitive data locally. However, due to the difference in equipment and data divergence of heterogeneous clients, there will be parameter deviation between local models, resulting in a slow convergence rate and a reduction of the accuracy of the global model. The current FL algorithms use the static client learning strategy pervasively and can not adapt to the dynamic training parameters of different clients. In this paper, by considering the deviation between different local model parameters, we propose an adaptive learning rate scheme for each client based on entropy theory to alleviate the deviation between heterogeneous clients and achieve fast convergence of the global model. It's difficult to design the optimal dynamic learning rate for each client as the local information of other clients is unknown, especially during the local training epochs without communications between local clients and the central server. To enable a decentralized learning rate design for each client, we first introduce mean-field schemes to estimate the terms related to other clients' local model parameters. Then the decentralized adaptive learning rate for each client is obtained in closed form by constructing the Hamilton equation. Moreover, we prove that there exist fixed point solutions for the mean-field estimators, and an algorithm is proposed to obtain them. Finally, extensive experimental results on real datasets show that our algorithm can effectively eliminate the deviation between local model parameters compared to other recent FL algorithms. | 翻訳日:2023-04-04 20:24:10 公開日:2023-04-01 |
# 微分可能なヒルベルト値パラメータのワンステップ推定 One-Step Estimation of Differentiable Hilbert-Valued Parameters ( http://arxiv.org/abs/2303.16711v2 ) ライセンス: Link先を確認 | Alex Luedtke and Incheoul Chung | (参考訳) 本稿では,滑らか性が経路的微分可能性条件によって特徴づけられる滑らかなヒルベルト値パラメータに対する推定子を提案する。
パラメータ空間が再生核ヒルベルト空間であるとき、効率的なルートnレート推定子と対応する信頼度集合を得る手段を提供する。
これらの推定器はヒルベルト値の効率的な影響関数に基づくクロスフィットワンステップ推定器の一般化に対応する。
機械学習技術に基づくものを含む,任意のニュアンス関数推定器を用いた場合においても理論的保証を与える。
これらの結果は、パラメータが効率的な影響関数を持つ限り、再生カーネルを持たないヒルベルト空間に自然に拡張されることを示す。
しかし、再生カーネルがない場合には、パスワイズ微分可能であっても、多くの興味深いパラメータが効率的な影響関数を持たないという不運な事実も明らかになった。
これらのケースに対処するために、正規化された一段階推定子と関連する信頼セットを提案する。
また、我々のアプローチの中心的な要件であるパスワイズ微分可能性が、多くの場合に成り立つことを示す。
具体的には、経路微分可能なパラメータの複数の例を示し、対応する推定器と信頼セットを開発する。
これらの例のうち4つは、因果推論コミュニティによる進行中の研究に特に関係しており、反事実密度関数、線量応答関数、条件平均処理効果関数、反事実カーネル平均埋め込みである。 We present estimators for smooth Hilbert-valued parameters, where smoothness is characterized by a pathwise differentiability condition. When the parameter space is a reproducing kernel Hilbert space, we provide a means to obtain efficient, root-n rate estimators and corresponding confidence sets. These estimators correspond to generalizations of cross-fitted one-step estimators based on Hilbert-valued efficient influence functions. We give theoretical guarantees even when arbitrary estimators of nuisance functions are used, including those based on machine learning techniques. We show that these results naturally extend to Hilbert spaces that lack a reproducing kernel, as long as the parameter has an efficient influence function. However, we also uncover the unfortunate fact that, when there is no reproducing kernel, many interesting parameters fail to have an efficient influence function, even though they are pathwise differentiable. To handle these cases, we propose a regularized one-step estimator and associated confidence sets. We also show that pathwise differentiability, which is a central requirement of our approach, holds in many cases. Specifically, we provide multiple examples of pathwise differentiable parameters and develop corresponding estimators and confidence sets. Among these examples, four are particularly relevant to ongoing research by the causal inference community: the counterfactual density function, dose-response function, conditional average treatment effect function, and counterfactual kernel mean embedding. | 翻訳日:2023-04-04 20:16:43 公開日:2023-04-01 |
# 先導的知識による高速対人訓練の改善 Improving Fast Adversarial Training with Prior-Guided Knowledge ( http://arxiv.org/abs/2304.00202v1 ) ライセンス: Link先を確認 | Xiaojun Jia, Yong Zhang, Xingxing Wei, Baoyuan Wu, Ke Ma, Jue Wang, and Xiaochun Cao Sr | (参考訳) 高速対人訓練(FAT)は、堅牢性を改善するための効率的な方法である。
しかし、オリジナルのFATは破滅的なオーバーフィッティングに悩まされ、数回の訓練の後に劇的に、突然頑丈さを低下させる。
オーバーフィッティングを防ぐために様々なFAT型が提案されているが、訓練コストが高い。
本稿では,標準的な対人訓練のトレーニングプロセスとFATを比較し,対人的事例品質と破滅的オーバーフィッティングの関係について検討する。
敵例の攻撃成功率が悪化すると,破滅的なオーバーフィッティングが発生することがわかった。
そこで本研究では, 学習コストを増すことなく, 実例の質を向上し, 過剰フィッティングを防止するために, 事前指示による正の逆初期化を提案する。
この初期化は、歴史学習過程からの高品質な逆転摂動を用いて生成される。
提案した初期化の理論解析を行い,損失関数の滑らかさを高める事前誘導正規化法を提案する。
さらに、異なる減衰率を用いて、過去のモデルの異なるモデル重みを平均化する事前誘導型アンサンブルFAT法を設計する。
提案手法はFGSM-PGKと呼ばれ,過去の訓練過程において得られた事前指導知識,すなわち事前指導初期化とモデル重み付けを組み立てる。
提案手法の優位性を示す4つのデータセットの評価を行った。 Fast adversarial training (FAT) is an efficient method to improve robustness. However, the original FAT suffers from catastrophic overfitting, which dramatically and suddenly reduces robustness after a few training epochs. Although various FAT variants have been proposed to prevent overfitting, they require high training costs. In this paper, we investigate the relationship between adversarial example quality and catastrophic overfitting by comparing the training processes of standard adversarial training and FAT. We find that catastrophic overfitting occurs when the attack success rate of adversarial examples becomes worse. Based on this observation, we propose a positive prior-guided adversarial initialization to prevent overfitting by improving adversarial example quality without extra training costs. This initialization is generated by using high-quality adversarial perturbations from the historical training process. We provide theoretical analysis for the proposed initialization and propose a prior-guided regularization method that boosts the smoothness of the loss function. Additionally, we design a prior-guided ensemble FAT method that averages the different model weights of historical models using different decay rates. Our proposed method, called FGSM-PGK, assembles the prior-guided knowledge, i.e., the prior-guided initialization and model weights, acquired during the historical training process. Evaluations of four datasets demonstrate the superiority of the proposed method. | 翻訳日:2023-04-04 19:22:47 公開日:2023-04-01 |
# 生成モデリングのための拡散マップ粒子システム Diffusion map particle systems for generative modeling ( http://arxiv.org/abs/2304.00200v1 ) ライセンス: Link先を確認 | Fengyi Li, Youssef Marzouk | (参考訳) 本稿では,拡散マップとラプラシアン調整ワッサーシュタイン勾配勾配(lawgd)に基づく生成モデルのための新しい拡散マップ粒子システム(dmps)を提案する。
拡散写像はサンプルからランジュバン拡散過程の生成元を近似し、従って基礎となるデータ生成多様体を学ぶために用いられる。
一方, lawgd では, 拡散写像で計算した生成器のスペクトル近似を用いて, 適切なカーネル選択を条件として, ターゲット分布からの効率的なサンプリングが可能となる。
数値実験により,本手法は他の合成データセットよりも優れており,その例として多様体構造がある。 We propose a novel diffusion map particle system (DMPS) for generative modeling, based on diffusion maps and Laplacian-adjusted Wasserstein gradient descent (LAWGD). Diffusion maps are used to approximate the generator of the Langevin diffusion process from samples, and hence to learn the underlying data-generating manifold. On the other hand, LAWGD enables efficient sampling from the target distribution given a suitable choice of kernel, which we construct here via a spectral approximation of the generator, computed with diffusion maps. Numerical experiments show that our method outperforms others on synthetic datasets, including examples with manifold structure. | 翻訳日:2023-04-04 19:22:21 公開日:2023-04-01 |
# 多様体学習におけるno-collision transportation mapsの応用 Applications of No-Collision Transportation Maps in Manifold Learning ( http://arxiv.org/abs/2304.00199v1 ) ライセンス: Link先を確認 | Elisa Negrini and Levon Nurbekyan | (参考訳) 本研究では,[Nurbekyan et. al., 2020]で導入された非衝突輸送マップの画像データの多様体学習への応用について検討する。
近年,移動や変形などの現象を表すデータに対して,移動距離や特徴を応用する動きが急増している。
実際、固定位置での強度を比較することは、しばしばデータ構造を明らかにしない。
no-collision map and distances in (nurbekyan et. al., 2020) は最適輸送 (ot) マップに似た幾何学的特徴に敏感であるが、最適化の欠如により計算が容易である。
本研究では,非衝突距離が単一確率測度の変換(相対的拡張)とユークリッド距離を備えた変換(相対的拡張)ベクトルとの間の等距離を与えることを示す。
さらに、非衝突輸送写像とOTおよび線形化OT写像が一般に回転の等尺性を提供していないことを証明した。
数値実験により,非衝突距離は計算コストのごく一部で他のot法やユークリッド法と比較して,いくつかの多様体学習タスクにおいて類似あるいは良好な性能が得られることが示された。 In this work, we investigate applications of no-collision transportation maps introduced in [Nurbekyan et. al., 2020] in manifold learning for image data. Recently, there has been a surge in applying transportation-based distances and features for data representing motion-like or deformation-like phenomena. Indeed, comparing intensities at fixed locations often does not reveal the data structure. No-collision maps and distances developed in [Nurbekyan et. al., 2020] are sensitive to geometric features similar to optimal transportation (OT) maps but much cheaper to compute due to the absence of optimization. In this work, we prove that no-collision distances provide an isometry between translations (respectively dilations) of a single probability measure and the translation (respectively dilation) vectors equipped with a Euclidean distance. Furthermore, we prove that no-collision transportation maps, as well as OT and linearized OT maps, do not in general provide an isometry for rotations. The numerical experiments confirm our theoretical findings and show that no-collision distances achieve similar or better performance on several manifold learning tasks compared to other OT and Euclidean-based methods at a fraction of a computational cost. | 翻訳日:2023-04-04 19:22:09 公開日:2023-04-01 |
# ノイズデータからの逐次学習:Echo-State Networkとデータ同化 Sequential Learning from Noisy Data: Data-Assimilation Meets Echo-State Network ( http://arxiv.org/abs/2304.00198v1 ) ライセンス: Link先を確認 | Debdipta Goswami | (参考訳) 本稿では,雑音データから繰り返しニューラルネットワークを学習する際の問題点を考察する。
ニューラルネットワークに基づく動的予測器はノイズのないトレーニングデータでうまく機能するが、トレーニング段階でのノイズ入力による予測は大きな課題となる。
そこで,アンサンブルカルマンフィルタを用いたノイズ観測を組み込んだエコー状態ネットワーク(esn)のための逐次学習アルゴリズムを開発した。
その結果、カルマン訓練されたエコー状態ネットワーク(KalT-ESN)は、計算コストを抑えながら、最小二乗アルゴリズムで従来の訓練されたESNより優れている。
提案手法は,カオス力学系からの2つの合成データセットとリアルタイムトラフィックデータからなる3つのシステムからの雑音観測で実証された。 This paper explores the problem of training a recurrent neural network from noisy data. While neural network based dynamic predictors perform well with noise-free training data, prediction with noisy inputs during training phase poses a significant challenge. Here a sequential training algorithm is developed for an echo-state network (ESN) by incorporating noisy observations using an ensemble Kalman filter. The resultant Kalman-trained echo-state network (KalT-ESN) outperforms the traditionally trained ESN with least square algorithm while still being computationally cheap. The proposed method is demonstrated on noisy observations from three systems: two synthetic datasets from chaotic dynamical systems and a set of real-time traffic data. | 翻訳日:2023-04-04 19:21:47 公開日:2023-04-01 |
# abstractors: シンボリックメッセージパッシングとリレーショナル推論のためのトランスフォーマーモジュール Abstractors: Transformer Modules for Symbolic Message Passing and Relational Reasoning ( http://arxiv.org/abs/2304.00195v1 ) ライセンス: Link先を確認 | Awni Altabaa, Taylor Webb, Jonathan Cohen, John Lafferty | (参考訳) リレーショナル・ラーニングをトランスフォーマーの観点で導入し, センサ状態と抽象状態の結合を相互注意機構で実装するフレームワークを提案する。 A framework is proposed that casts relational learning in terms of transformers, implementing binding between sensory states and abstract states with relational cross attention mechanisms. | 翻訳日:2023-04-04 19:21:36 公開日:2023-04-01 |
# コンフォーマル予測を用いた確率センサの不確かさ下での安全知覚制御 Safe Perception-Based Control under Stochastic Sensor Uncertainty using Conformal Prediction ( http://arxiv.org/abs/2304.00194v1 ) ライセンス: Link先を確認 | Shuo Yang, George J. Pappas, Rahul Mangharam, and Lars Lindemann | (参考訳) 学習可能な知覚マップを用いて高次元センサ計測から得られる状態推定を用いた知覚に基づく制御について検討する。
しかし、これらの知覚地図は完全ではなく、システム動作の安全を損なう状態推定誤差をもたらす。
確率的センサノイズはより悪くなり、未知の分布に従う推定誤差が発生する。
我々は知覚に基づく制御フレームワークを提案する。
一 知覚地図の推定の不確かさを定量化し、
ii) これらの不確実性表現を制御設計に統合する。
そこで我々は,未知の状態を含む集合である有効な状態推定領域を計算するために,共形予測を用いる。
次に,ロバスト制御バリア関数の計測に基づく連続時間システムのためのサンプルデータコントローラを考案する。
制御器は自己トリガー制御のアイデアを用いており、確率計算の使用を避けることができる。
我々の枠組みは、知覚マップの選択、ノイズ分布の非依存、そして私たちの知る限り、そのような環境で確率論的安全保証を初めて提供するものである。
本稿では,LiDAR対応F1/10thカーに対する認識制御の有効性を示す。 We consider perception-based control using state estimates that are obtained from high-dimensional sensor measurements via learning-enabled perception maps. However, these perception maps are not perfect and result in state estimation errors that can lead to unsafe system behavior. Stochastic sensor noise can make matters worse and result in estimation errors that follow unknown distributions. We propose a perception-based control framework that i) quantifies estimation uncertainty of perception maps, and ii) integrates these uncertainty representations into the control design. To do so, we use conformal prediction to compute valid state estimation regions, which are sets that contain the unknown state with high probability. We then devise a sampled-data controller for continuous-time systems based on the notion of measurement robust control barrier functions. Our controller uses idea from self-triggered control and enables us to avoid using stochastic calculus. Our framework is agnostic to the choice of the perception map, independent of the noise distribution, and to the best of our knowledge the first to provide probabilistic safety guarantees in such a setting. We demonstrate the effectiveness of our proposed perception-based controller for a LiDAR-enabled F1/10th car. | 翻訳日:2023-04-04 19:21:31 公開日:2023-04-01 |
# 交通渋滞シミュレーションと最適化のためのNeo4jとディープラーニングの活用 Leveraging Neo4j and deep learning for traffic congestion simulation & optimization ( http://arxiv.org/abs/2304.00192v1 ) ライセンス: Link先を確認 | Shyam Pratap Singh, Arshad Ali Khan, Riad Souissi and Syed Adnan Yusuf | (参考訳) 多くの都市道路網では交通渋滞が大きな課題となっている。
交通渋滞を強調し、データ駆動アプローチを用いてこの問題に対処するために、広範な研究が行われている。
現在、ほとんどの交通渋滞解析は、様々な交通渋滞のシナリオを作成するために使用されるツールやユーティリティの制限のために、限られた洞察を提供するシミュレーションソフトウェアを使用して行われる。
これらすべてが、地域や国によって異なるカスタムビジネス問題の定式化に影響を与えます。
知識グラフのパワーを利用して、トラフィックの混雑問題をNeo4jグラフにモデル化し、負荷分散、最適化アルゴリズムを用いて渋滞のない道路網を同定する。
また,渋滞や事故が発生した場合の交通の後方伝播や,道路の他の区間への全体的な影響も示す。
また,リアルタイムトラヒックデータを用いた逐次的rnn-lstm(long short-term memory)ディープラーニングモデルを訓練し,道路交通渋滞によるシミュレーション結果の精度評価を行った。
その結果,ai mlによる交通予測を補完するグラフに基づく交通シミュレーションが,道路網の混雑レベルの推定に有効であることがわかった。 Traffic congestion has been a major challenge in many urban road networks. Extensive research studies have been conducted to highlight traffic-related congestion and address the issue using data-driven approaches. Currently, most traffic congestion analyses are done using simulation software that offers limited insight due to the limitations in the tools and utilities being used to render various traffic congestion scenarios. All that impacts the formulation of custom business problems which vary from place to place and country to country. By exploiting the power of the knowledge graph, we model a traffic congestion problem into the Neo4j graph and then use the load balancing, optimization algorithm to identify congestion-free road networks. We also show how traffic propagates backward in case of congestion or accident scenarios and its overall impact on other segments of the roads. We also train a sequential RNN-LSTM (Long Short-Term Memory) deep learning model on the real-time traffic data to assess the accuracy of simulation results based on a road-specific congestion. Our results show that graph-based traffic simulation, supplemented by AI ML-based traffic prediction can be more effective in estimating the congestion level in a road network. | 翻訳日:2023-04-04 19:21:17 公開日:2023-04-01 |
# 好奇心による探索におけるエージェントの内部空間に対するユークリッド対射影群の作用--正式な解析 Action of the Euclidean versus Projective group on an agent's internal space in curiosity driven exploration: a formal analysis ( http://arxiv.org/abs/2304.00188v1 ) ライセンス: Link先を確認 | Gr\'egoire Sergeant-Perthuis, David Rudrauf, Dimitri Ognibene and Yvain Tisserand | (参考訳) 人間の空間認識では、情報は3次元投影幾何学に従って表現される。
内部表現空間内の情報統合と行動計画を構成する。
エージェントの異なるファーストパーソン視点が互いにどのように関連しているかは、世界モデルの変換を通じて、エージェントの特定の知覚スキームを定義する。
数学において、この変換の集まりは「群」と呼ばれ、それに作用して幾何学空間を特徴づける。
本稿では,「幾何学的」構造を持つ世界モデルが,エージェントの異なる知覚スキームを捉える方法の一つとして提案する。
本研究では,世界モデルの幾何学的構造の変化がエージェントの行動に与える影響について考察する。
特に,このような幾何学的操作が,エージェントの環境に対する好奇心を喚起する活動的推論における認識論的価値の形式的表現をどのように変化させるかに注目し,それに従って探索行動に影響を及ぼす。
我々は,パースペクティブ依存制御のための特別な分類としてグループアクションを用いた。
ユークリッド群と射影群を比較した。
我々は、これらのグループが異なる行動を引き起こすことを正式に示す。
射影群は、エントロピーとてんかん値をフレームの選択の関数として変換する非線形収縮と拡張を誘導し、探索行動を促進する。
この貢献は、情報統合と行動計画のためのエージェントの内部表現空間の幾何構造 \textit{a priori} の研究の道を開く。 In human spatial awareness, information appears to be represented according to 3-D projective geometry. It structures information integration and action planning within an internal representation space. The way different first person perspectives of an agent relate to each other, through transformations of a world model, defines a specific perception scheme for the agent. In mathematics, this collection of transformations is called a `group' and it characterizes a geometric space by acting on it. We propose that imbuing world models with a `geometric' structure, given by a group, is one way to capture different perception schemes of agents. We explore how changing the geometric structure of a world model impacts the behavior of an agent. In particular, we focus on how such geometrical operations transform the formal expression of epistemic value in active inference as driving an agent's curiosity about its environment, and impact exploration behaviors accordingly. We used group action as a special class of policies for perspective-dependent control. We compared the Euclidean versus projective groups. We formally demonstrate that the groups induce distinct behaviors. The projective group induces nonlinear contraction and dilatation that transform entropy and epistemic value as a function of the choice of frame, which fosters exploration behaviors. This contribution opens research avenues in which a geometry structures \textit{a priori} an agent's internal representation space for information integration and action planning. | 翻訳日:2023-04-04 19:20:59 公開日:2023-04-01 |
# 徒弟学習による主題駆動テキストから画像への生成 Subject-driven Text-to-Image Generation via Apprenticeship Learning ( http://arxiv.org/abs/2304.00186v1 ) ライセンス: Link先を確認 | Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Rui, Xuhui Jia, Ming-Wei Chang, William W. Cohen | (参考訳) dreamboothのような最近のテキストから画像への生成モデルは、いくつかの例から与えられた主題に対して‘専門家モデル’を微調整することで、高度にカスタマイズされた対象のイメージを生成するという大きな進歩を遂げている。
しかし、このプロセスは高価であり、各主題について新しい専門家モデルを学ぶ必要がある。
本稿では,主題固有の微調整を \emph{in-context} 学習に置き換える,主題駆動のテキスト対イメージ生成器であるsutiを提案する。
新たな主題のデモがいくつかあると、SuTIは主題固有の最適化を使わずに、異なる場面で対象の新たな再帰を即座に生成できる。
SuTIは、大量の主題固有の専門家モデルによって生成されたデータから単一の見習いモデルを学習する。
具体的には、インターネットから何百万ものイメージクラスタを発掘し、それぞれが特定のビジュアルテーマを中心にしています。
これらのクラスタを採用して、異なる主題に特化した大量のエキスパートモデルをトレーニングしています。
次に、見習いモデルSuTIは、提案された見習い学習アルゴリズムを通じて、これらの専門家の振る舞いを模倣することを学ぶ。
SuTIは最適化ベースのSoTA法よりも20倍高速で高品質でカスタマイズされた画像を生成することができる。
挑戦的なDreamBenchとDreamBench-v2では、SuTIが既存のアプローチであるInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagenを、DreamBoothと同等のパフォーマンスで大幅に上回ります。 Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with \emph{in-context} learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by {\em apprenticeship learning}, where a single apprentice model is learned from data generated by massive amount of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train massive amount of expert models specialized on different subjects. The apprentice model SuTI then learns to mimic the behavior of these experts through the proposed apprenticeship learning algorithm. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI can significantly outperform existing approaches like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen while performing on par with DreamBooth. | 翻訳日:2023-04-04 19:20:36 公開日:2023-04-01 |
# PrefGen: 相対属性による参照ガイド画像生成 PrefGen: Preference Guided Image Generation with Relative Attributes ( http://arxiv.org/abs/2304.00185v1 ) ライセンス: Link先を確認 | Alec Helbling, Christopher J. Rozell, Matthew O'Shaughnessy, Kion Fallah | (参考訳) 深層生成モデルには、人間の顔のようなコンテンツの忠実度の高い画像をレンダリングする能力がある。
近年,顔に伝達される感情など,特定の量的属性を持つ条件付き画像の生成が著しく進展している。
これらのメソッドは通常、視覚属性の所望の強度を明示的に定量化する必要がある。
この方法の限界は、人間の顔の「怒り」のような多くの属性が、ユーザが正確に定量化することが難しいことである。
しかし、ユーザーは2つの顔のうちどれが「危険」であるかを確実に話すことができる。
この前提に従って$\textit{PrefGen}$システムを開発し、ユーザーは生成した画像の相対属性を「画像$a$か画像$b$か」という形式で単純なペア比較クエリで表示できる。
クエリ応答のシーケンスからの情報を用いて、画像属性のセットよりもユーザの好みを推定し、優先誘導画像編集および生成を行う。
さらに,好みの局所化を可能かつ効率的に行うために,アクティブなクエリ選択戦略を適用する。
人間の顔編集作業において,StyleGAN2ジェネレータを用いたこのアプローチの成功例を示す。
さらに,このアプローチをクリップと組み合わせることで,テキストプロンプトによって指定された属性の相対的な強度をユーザが編集できることを示す。
コード: https://github.com/helblazer811/prefgen。 Deep generative models have the capacity to render high fidelity images of content like human faces. Recently, there has been substantial progress in conditionally generating images with specific quantitative attributes, like the emotion conveyed by one's face. These methods typically require a user to explicitly quantify the desired intensity of a visual attribute. A limitation of this method is that many attributes, like how "angry" a human face looks, are difficult for a user to precisely quantify. However, a user would be able to reliably say which of two faces seems "angrier". Following this premise, we develop the $\textit{PrefGen}$ system, which allows users to control the relative attributes of generated images by presenting them with simple paired comparison queries of the form "do you prefer image $a$ or image $b$?" Using information from a sequence of query responses, we can estimate user preferences over a set of image attributes and perform preference-guided image editing and generation. Furthermore, to make preference localization feasible and efficient, we apply an active query selection strategy. We demonstrate the success of this approach using a StyleGAN2 generator on the task of human face editing. Additionally, we demonstrate how our approach can be combined with CLIP, allowing a user to edit the relative intensity of attributes specified by text prompts. Code at https://github.com/helblazer811/PrefGen. | 翻訳日:2023-04-04 19:20:06 公開日:2023-04-01 |
# 大規模言語モデルはニュースソースの信頼性を評価できる Large language models can rate news outlet credibility ( http://arxiv.org/abs/2304.00228v1 ) ライセンス: Link先を確認 | Kai-Cheng Yang and Filippo Menczer | (参考訳) 大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて例外的な性能を示したが、幻覚の傾向にある。
新しいBingのような最先端のチャットボットは、インターネットから直接情報を収集して回答を土台にすることでこの問題を緩和しようとしている。
この設定では、信頼できる情報源を識別する能力は、ユーザに適切な精度のコンテキストを提供することに不可欠である。
ここでは、著名なLCMであるChatGPTが、ニュースメディアの信頼性を評価することができるかどうかを評価する。
適切な指示により、ChatGPTは、文脈的説明とともに、非英語や風刺的な情報源を含む様々なニュースメディアに対して評価を提供することができる。
以上の結果から, これらの評価は人間の専門家(Spearmam's $\rho=0.54, p<0.001$)と相関することがわかった。
これらの結果から,LCMはファクトチェックアプリケーションにおける信頼性評価の安価な基準となる可能性が示唆された。
将来のllmは、情報精度を向上させるために、情報源信頼性の人間的専門家判断との整合を強化するべきである。 Although large language models (LLMs) have shown exceptional performance in various natural language processing tasks, they are prone to hallucinations. State-of-the-art chatbots, such as the new Bing, attempt to mitigate this issue by gathering information directly from the internet to ground their answers. In this setting, the capacity to distinguish trustworthy sources is critical for providing appropriate accuracy contexts to users. Here we assess whether ChatGPT, a prominent LLM, can evaluate the credibility of news outlets. With appropriate instructions, ChatGPT can provide ratings for a diverse set of news outlets, including those in non-English languages and satirical sources, along with contextual explanations. Our results show that these ratings correlate with those from human experts (Spearmam's $\rho=0.54, p<0.001$). These findings suggest that LLMs could be an affordable reference for credibility ratings in fact-checking applications. Future LLMs should enhance their alignment with human expert judgments of source credibility to improve information accuracy. | 翻訳日:2023-04-04 19:13:50 公開日:2023-04-01 |
# 自動高分解能ワイヤセグメンテーションと除去 Automatic High Resolution Wire Segmentation and Removal ( http://arxiv.org/abs/2304.00221v1 ) ライセンス: Link先を確認 | Mang Tik Chiu, Xuaner Zhang, Zijun Wei, Yuqian Zhou, Eli Shechtman, Connelly Barnes, Zhe Lin, Florian Kainz, Sohrab Amirghodsi, Humphrey Shi | (参考訳) ワイヤーとパワーラインは、しばしば写真の美観を損なう視覚障害である。
正確に分割して取り除く手作業は極めて面倒で、特にワイヤーが空間全体に広がっている高解像度の写真では数時間かかる可能性がある。
本稿では,ワイヤセグメンテーションと除去・塗装の処理を数秒以内で容易に行える自動ワイヤクリーニングシステムを提案する。
ワイヤーは薄く、長さがあり、ばらばらである。
これらは一般的なセグメンテーションタスクでは処理できない、特に高解像度画像では珍しい性質である。
そこで本稿では,グローバル・ローカル・コンテクストを併用して高解像度画像中のワイヤを高精度に分割する2段階法と,予測されたセグメンテーションマスクからワイヤを除去するタイルベースの塗装戦略を提案する。
また、最初のワイヤセグメンテーションベンチマークデータセットであるwireseghrについても紹介する。
最後に, ワイヤクリーニングシステムにより, ワイヤの外観を広く一般化した完全自動除去が可能となることを定量的, 定性的に示す。 Wires and powerlines are common visual distractions that often undermine the aesthetics of photographs. The manual process of precisely segmenting and removing them is extremely tedious and may take up hours, especially on high-resolution photos where wires may span the entire space. In this paper, we present an automatic wire clean-up system that eases the process of wire segmentation and removal/inpainting to within a few seconds. We observe several unique challenges: wires are thin, lengthy, and sparse. These are rare properties of subjects that common segmentation tasks cannot handle, especially in high-resolution images. We thus propose a two-stage method that leverages both global and local contexts to accurately segment wires in high-resolution images efficiently, and a tile-based inpainting strategy to remove the wires given our predicted segmentation masks. We also introduce the first wire segmentation benchmark dataset, WireSegHR. Finally, we demonstrate quantitatively and qualitatively that our wire clean-up system enables fully automated wire removal with great generalization to various wire appearances. | 翻訳日:2023-04-04 19:13:31 公開日:2023-04-01 |
# convbls: 画像分類のための効率的かつ効率的なインクリメンタル畳み込み広義学習システム ConvBLS: An Effective and Efficient Incremental Convolutional Broad Learning System for Image Classification ( http://arxiv.org/abs/2304.00219v1 ) ライセンス: Link先を確認 | Chunyu Lei, C. L. Philip Chen, Jifeng Guo, and Tong Zhang | (参考訳) ディープラーニングは一般的に膨大な計算資源と時間を要するトレーニングプロセスに悩まされる。
ブロードラーニングシステム(BLS)とその畳み込み変種はこれらの問題を緩和するために提案され、画像分類において最高性能を達成した。
しかし、既存の畳み込み型広範学習システム(C-BLS)は、効率的な学習方法と漸進的な学習能力に欠けるか、性能の低下に悩まされている。
そこで本研究では, 畳み込み機能(CF)層, 畳み込み拡張(CE)層, TSMS機能融合層, 出力層から構成される, 球面K平均(SKM)アルゴリズムと2段マルチスケール(TSMS)機能融合に基づく畳み込み広範学習システム(ConvBLS)を提案する。
第一に、現在のC-BLSとは異なり、単純なSKMアルゴリズムを用いてCF層の重み付けを学習する。
ランダムフィルタと比較して、SKMアルゴリズムはCF層により包括的な空間的特徴を学習させる。
次に、バニラBLSと同様、CE層が特徴空間を拡張するために確立される。
第3に,tsms機能融合層はcf層とce層の統合により,より効果的なマルチスケール機能を抽出するために提案されている。
以上の設計と,出力層重みの擬似逆計算により,提案手法は前例のないほど効率的かつ効果的である。
最後に、モデルを拡張しようとする場合の迅速なリモデリングのために、対応するインクリメンタル学習アルゴリズムが提示される。
実験と比較により,本手法の優位性を示す。 Deep learning generally suffers from enormous computational resources and time-consuming training processes. Broad Learning System (BLS) and its convolutional variants have been proposed to mitigate these issues and have achieved superb performance in image classification. However, the existing convolutional-based broad learning system (C-BLS) either lacks an efficient training method and incremental learning capability or suffers from poor performance. To this end, we propose a convolutional broad learning system (ConvBLS) based on the spherical K-means (SKM) algorithm and two-stage multi-scale (TSMS) feature fusion, which consists of the convolutional feature (CF) layer, convolutional enhancement (CE) layer, TSMS feature fusion layer, and output layer. First, unlike the current C-BLS, the simple yet efficient SKM algorithm is utilized to learn the weights of CF layers. Compared with random filters, the SKM algorithm makes the CF layer learn more comprehensive spatial features. Second, similar to the vanilla BLS, CE layers are established to expand the feature space. Third, the TSMS feature fusion layer is proposed to extract more effective multi-scale features through the integration of CF layers and CE layers. Thanks to the above design and the pseudo-inverse calculation of the output layer weights, our proposed ConvBLS method is unprecedentedly efficient and effective. Finally, the corresponding incremental learning algorithms are presented for rapid remodeling if the model deems to expand. Experiments and comparisons demonstrate the superiority of our method. | 翻訳日:2023-04-04 19:13:13 公開日:2023-04-01 |
# 自己指導型学習のためのマスク階層的特徴 Mask Hierarchical Features For Self-Supervised Learning ( http://arxiv.org/abs/2304.00218v1 ) ライセンス: Link先を確認 | Fenggang Liu, Yangguang Li, Feng Liang, Jilan Xu, Bin Huang, Jing Shao | (参考訳) 本稿では,Masking the Deep Hierarchical featuresは,MaskDeepとして表される効率的な自己教師手法であることを示す。
MaskDeepは、表現空間の各パッチを独立したインスタンスとして扱う。
表現空間のパッチの一部をマスクし、スパース可視性パッチを用いて高意味性画像表現を再構築する。
MaskDeepの直感は、モデルがわずかに見えるパッチの意味から画像のグローバルな意味へと推論できるという事実にある。
フレームワークにはさらに3つの設計を提案する。
1) パッチ表現の階層性に関する階層的なDeep-Maskingモジュール。
2)エンコーダの余分なコンピューティング消費を伴わずに効率を向上させるマルチグループ戦略
3)グローバルセマンティクスのより詳細な記述を提供するためのマルチターゲット戦略。
われわれのMaskDeepは、まともな改善をもたらす。
200エポックでResNet50でトレーニングされたMaskDeepは、ImageNet上で71.2%の精度で線形分類を行う。
COCOオブジェクト検出タスクでは、MaskDeepはオブジェクト検出用に特別に設計された自己教師型メソッドであるSoCoよりも優れている。
100エポックでトレーニングすると、MaskDeepは69.6%の精度で、HCSCなどの200エポックでトレーニングされた現在のメソッドを0.4%上回る。 This paper shows that Masking the Deep hierarchical features is an efficient self-supervised method, denoted as MaskDeep. MaskDeep treats each patch in the representation space as an independent instance. We mask part of patches in the representation space and then utilize sparse visible patches to reconstruct high semantic image representation. The intuition of MaskDeep lies in the fact that models can reason from sparse visible patches semantic to the global semantic of the image. We further propose three designs in our framework: 1) a Hierarchical Deep-Masking module to concern the hierarchical property of patch representations, 2) a multi-group strategy to improve the efficiency without any extra computing consumption of the encoder and 3) a multi-target strategy to provide more description of the global semantic. Our MaskDeep brings decent improvements. Trained on ResNet50 with 200 epochs, MaskDeep achieves state-of-the-art results of 71.2% Top1 accuracy linear classification on ImageNet. On COCO object detection tasks, MaskDeep outperforms the self-supervised method SoCo, which specifically designed for object detection. When trained with 100 epochs, MaskDeep achieves 69.6% Top1 accuracy, which surpasses current methods trained with 200 epochs, such as HCSC, by 0.4% . | 翻訳日:2023-04-04 19:12:46 公開日:2023-04-01 |
# 病理画像診断のためのクロススケールマルチインスタンス学習 Cross-scale Multi-instance Learning for Pathological Image Diagnosis ( http://arxiv.org/abs/2304.00216v1 ) ライセンス: Link先を確認 | Ruining Deng, Can Cui, Lucas W. Remedios, Shunxing Bao, R. Michael Womick, Sophie Chiron, Jia Li, Joseph T. Roland, Ken S. Lau, Qi Liu, Keith T. Wilson, Yaohong Wang, Lori A. Coburn, Bennett A. Landman, Yuankai Huo | (参考訳) 複数スケールにわたる情報に関する高解像度スライド画像(WSI)の解析は、デジタル病理学において重要な課題である。
MIL(Multi-Instance Learning)は、オブジェクトの袋(小さな画像パッチの集合)を分類することで高解像度画像を扱うための一般的なソリューションである。
しかし、そのような処理は通常、WSIsの1つのスケール(例えば20倍)で行われ、人間の病理学者による診断の鍵となるスケール間情報を無視している。
本研究では,病的画像診断のための1つのMILネットワークにスケール間関係を明示的に集約する,新しいクロススケールMILアルゴリズムを提案する。
本論文の貢献は,(1)マルチスケール情報とスケール間関係を統合した新しいクロススケールMIL(CS-MIL)アルゴリズムの提案,(2)スケール固有の形態的特徴を持つ玩具データセットの作成と公開,(3)社内と公共の両方のデータセット上でのスーパーパフォーマンスを,我々の単純なクロススケールMIL戦略によって実証する。
公式実装はhttps://github.com/hrlblab/CS-MILで公開されている。 Analyzing high resolution whole slide images (WSIs) with regard to information across multiple scales poses a significant challenge in digital pathology. Multi-instance learning (MIL) is a common solution for working with high resolution images by classifying bags of objects (i.e. sets of smaller image patches). However, such processing is typically performed at a single scale (e.g., 20x magnification) of WSIs, disregarding the vital inter-scale information that is key to diagnoses by human pathologists. In this study, we propose a novel cross-scale MIL algorithm to explicitly aggregate inter-scale relationships into a single MIL network for pathological image diagnosis. The contribution of this paper is three-fold: (1) A novel cross-scale MIL (CS-MIL) algorithm that integrates the multi-scale information and the inter-scale relationships is proposed; (2) A toy dataset with scale-specific morphological features is created and released to examine and visualize differential cross-scale attention; (3) Superior performance on both in-house and public datasets is demonstrated by our simple cross-scale MIL strategy. The official implementation is publicly available at https://github.com/hrlblab/CS-MIL. | 翻訳日:2023-04-04 19:12:23 公開日:2023-04-01 |
# 階層変換器を用いた関係経路と文脈からの帰納的関係予測 Inductive Relation Prediction from Relational Paths and Context with Hierarchical Transformers ( http://arxiv.org/abs/2304.00215v1 ) ライセンス: Link先を確認 | Jiaang Li, Quan Wang, Zhendong Mao | (参考訳) 知識グラフ(KG)に関する関係予測は重要な研究トピックである。
支配的な埋め込みベースの手法は、主にトランスダクティブな設定に焦点を当て、推論のために新しいエンティティに一般化するインダクティブな能力を欠いている。
帰納的推論の既存の方法は、主に関係的文脈に含まれる頭と尾のエンティティの性質を考慮せずに、関係的経路(relational paths)というエンティティ間の接続を掘り下げる。
本稿では,リレーショナルパスとコンテキストを同時に集約することにより,エンティティ間の接続とエンティティの固有性の両方をキャプチャする新しい手法,すなわちレポートを提案する。
因果関係論のみに依拠し、訓練や推論のためのKGが共通の実体を持たない完全帰納的設定に自然に一般化することができる。
実験では、2つの完全帰納的データセットの8つのバージョンサブセットのほぼすべてのベースラインに対して、Actionalは一貫してパフォーマンスが向上する。
さらに。
レポートは、各要素の予測結果への貢献を提供することによって解釈できる。 Relation prediction on knowledge graphs (KGs) is a key research topic. Dominant embedding-based methods mainly focus on the transductive setting and lack the inductive ability to generalize to new entities for inference. Existing methods for inductive reasoning mostly mine the connections between entities, i.e., relational paths, without considering the nature of head and tail entities contained in the relational context. This paper proposes a novel method that captures both connections between entities and the intrinsic nature of entities, by simultaneously aggregating RElational Paths and cOntext with a unified hieRarchical Transformer framework, namely REPORT. REPORT relies solely on relation semantics and can naturally generalize to the fully-inductive setting, where KGs for training and inference have no common entities. In the experiments, REPORT performs consistently better than all baselines on almost all the eight version subsets of two fully-inductive datasets. Moreover. REPORT is interpretable by providing each element's contribution to the prediction results. | 翻訳日:2023-04-04 19:11:58 公開日:2023-04-01 |
# 高速回転場を用いた$^{87}$Rbベクトル磁気センサのパルス化 Pulsed $^{87}$Rb vector magnetometer using a fast rotating field ( http://arxiv.org/abs/2304.00214v1 ) ライセンス: Link先を確認 | Tao Wang, Wonjae Lee, Michael Romalis, Mark Limes, Tom Kornack, Elizabeth Foley | (参考訳) 凝縮物や原子物理学系を含むベクトル磁場測定には様々なセットのアプローチがある。
しかし、これらは全て様々な制限に悩まされており、最も広く使われている高感度ベクトル磁力計は軟磁性材料を用いたフラックスゲートである。
ここでは、スカラー原子磁気センサに外部回転磁界を適用することにより、ベクトル磁気センサを記述する。
このようなアプローチは、磁場の回転面に対する全磁場と2つの極角の同時測定を提供する。
重要なことに、ベクター磁力計やグラディメーターに関連するいくつかの気象上の問題を避ける。
このようなベクトル磁気センサの基本的・体系的・実用的限界について詳述する。
回転速度はスピン緩和速度よりも速い。
その結果,アルカリ金属スカラー磁力計の方位誤差に伴う系統的影響が排除された。
ベリーの位相周波数シフトや近くの導体における渦電流の影響など,その他の系統的効果について検討する。
また,このようなセンサの感度に対する基本的な限界を導出し,ベクトル感度がスカラー原子磁気センサの感度に近づくことを示す。 There are diverse set approaches for vector magnetic field measurements involving condensed matter and atomic physics systems. However, they all suffer from various limitations, so the most widely used high-sensitivity vector magnetometers are fluxgates using soft magnetically-saturable materials. Here we describe a vector magnetometer by applying an external rotating magnetic field to a scalar atomic magnetometer. Such an approach provides simultaneous measurements of the total magnetic field and two polar angles relative to the plane of magnetic field rotation. Crucially, it avoids several metrological difficulties associated with vector magnetometers and gradiometers. We describe in detail the fundamental, systematic, and practical limits of such vector magnetometers. We use a field rotation rate faster than the spin relaxation rate. We show that it eliminates a class of systematic effects associated with heading errors in alkali-metal scalar magnetometers. We investigate several other systematic effects, such as Berry's phase frequency shift and the effects of eddy currents in nearby conductors. We also derive fundamental limits on the sensitivity of such sensors and show that the vector sensitivity can approach the sensitivity of scalar atomic magnetometers. | 翻訳日:2023-04-04 19:11:41 公開日:2023-04-01 |
# Devil is in the Queries: Advancing Mask Transformer for Real-world Medical Image Segmentation and Out-of-Distribution Localization Devil is in the Queries: Advancing Mask Transformers for Real-world Medical Image Segmentation and Out-of-Distribution Localization ( http://arxiv.org/abs/2304.00212v1 ) ライセンス: Link先を確認 | Mingze Yuan, Yingda Xia, Hexin Dong, Zifan Chen, Jiawen Yao, Mingyan Qiu, Ke Yan, Xiaoli Yin, Yu Shi, Xin Chen, Zaiyi Liu, Bin Dong, Jingren Zhou, Le Lu, Ling Zhang, Li Zhang | (参考訳) 現実世界の医療画像のセグメンテーションは、比較的稀な疾患と相関し、臨床的に重要な、非常に長い尾の複雑な物体を持つ。
信頼できる医療AIアルゴリズムは、これらのアウト・オブ・ディストリビューション(OOD)症例の臨床的に危険な損傷を避けるために、尾の条件でその効果を示すべきである。
本稿では,マスクトランスフォーマーにおけるオブジェクトクエリの概念を採用し,意味セグメンテーションをソフトクラスタ割り当てとして定式化する。
クエリは、トレーニング中のイリヤの機能レベルクラスタセンターに適合する。
したがって、現実のシナリオで医用画像上で推論を行う場合、画素とクエリの類似性がood領域を検出してローカライズする。
私たちはこのOODローカライゼーションをMaxQueryと呼びます。
さらに、OODオブジェクトや不整形物など、現実世界の医療画像の前景は、病変である。
それらの違いは前景と背景の違いよりも小さく、オブジェクトクエリが背景に冗長にフォーカスするように誤解を招く可能性がある。
そこで本研究では,クエリレベルのセグメント化目標と他の領域との明確な境界を強制するクエリ分散(qd)損失を提案する。
提案手法は, 膵腫瘍と肝腫瘍の分節化, AUROCでは平均7.39%, AUPRでは14.69%, OODでは13.79%と, 2つの実世界の分節化作業で検証された。
一方,本フレームワークは,主要なベースラインであるnnUNetと比較して,平均5.27%のDSCで不整合セグメンテーション性能を向上する。 Real-world medical image segmentation has tremendous long-tailed complexity of objects, among which tail conditions correlate with relatively rare diseases and are clinically significant. A trustworthy medical AI algorithm should demonstrate its effectiveness on tail conditions to avoid clinically dangerous damage in these out-of-distribution (OOD) cases. In this paper, we adopt the concept of object queries in Mask Transformers to formulate semantic segmentation as a soft cluster assignment. The queries fit the feature-level cluster centers of inliers during training. Therefore, when performing inference on a medical image in real-world scenarios, the similarity between pixels and the queries detects and localizes OOD regions. We term this OOD localization as MaxQuery. Furthermore, the foregrounds of real-world medical images, whether OOD objects or inliers, are lesions. The difference between them is less than that between the foreground and background, possibly misleading the object queries to focus redundantly on the background. Thus, we propose a query-distribution (QD) loss to enforce clear boundaries between segmentation targets and other regions at the query level, improving the inlier segmentation and OOD indication. Our proposed framework is tested on two real-world segmentation tasks, i.e., segmentation of pancreatic and liver tumors, outperforming previous state-of-the-art algorithms by an average of 7.39% on AUROC, 14.69% on AUPR, and 13.79% on FPR95 for OOD localization. On the other hand, our framework improves the performance of inlier segmentation by an average of 5.27% DSC when compared with the leading baseline nnUNet. | 翻訳日:2023-04-04 19:11:25 公開日:2023-04-01 |
# ID3モデル決定木を用いたIoTエッジデバイスのための歩行者意図分類器 Pedestrian Intention Classifier using ID3 Modelled Decision Trees for IoT Edge Devices ( http://arxiv.org/abs/2304.00206v1 ) ライセンス: Link先を確認 | Sriram Radhakrishna, Adithya Balasubramanyam | (参考訳) 自動運転車による交通事故は通常、(ペデストリアン)障害物が、非常に突然の時間間隔で移動中の車両の経路に現れる状況で発生し、ロボットがシーンの変化に反応する時間はさらに少なくなる。
本研究では,2次元フレームにおいて任意に選択された歩行者の意図を,メディアパイプポーズ推定モデルから生成された四元数を用いて手続き的に論理状態に分類するアルゴリズムの実装を提案する。
これは、主に深度認識の必要性の欠如と、ほとんどのIoTエッジデバイスに存在する計算リソースに対する暗黙の上限のため、比較的レイテンシの高いディープラーニングアルゴリズムを採用する必要性を回避している。
このモデルは平均的なテスト精度が83.56%、信頼性のある分散が0.0042であり、平均レイテンシ48ミリ秒で動作し、これらの知覚的タスクに時空間畳み込みネットワークを使用する現在の標準よりも、複数の顕著な利点を示した。 Road accidents involving autonomous vehicles commonly occur in situations where a (pedestrian) obstacle presents itself in the path of the moving vehicle at very sudden time intervals, leaving the robot even lesser time to react to the change in scene. In order to tackle this issue, we propose a novel algorithmic implementation that classifies the intent of a single arbitrarily chosen pedestrian in a two dimensional frame into logic states in a procedural manner using quaternions generated from a MediaPipe pose estimation model. This bypasses the need to employ any relatively high latency deep-learning algorithms primarily due to the lack of necessity for depth perception as well as an implicit cap on the computational resources that most IoT edge devices present. The model was able to achieve an average testing accuracy of 83.56% with a reliable variance of 0.0042 while operating with an average latency of 48 milliseconds, demonstrating multiple notable advantages over the current standard of using spatio-temporal convolutional networks for these perceptive tasks. | 翻訳日:2023-04-04 19:10:51 公開日:2023-04-01 |
# リニア光学と単一光子検出器を用いた偏光・空間多角形ベル状態の高角化 Practically Enhanced Hyperentanglement Concentration for Polarization-spatial Hyperentangled Bell States with Linear Optics and Common Single-photon Detectors ( http://arxiv.org/abs/2304.00204v1 ) ライセンス: Link先を確認 | Gui-Long Jiang, Wen-Qiang Liu, and Hai-Rui Wei | (参考訳) 量子系のいくつかの独立した自由度 (dofs) における同時絡み合いとして定義される超絡み合いは、量子情報処理における魅力的な資源であり、その優れた利点がある。
本稿では,線形光学系と単一光子検出器を用いた未知の偏光・空間的超エンタングルベル状態の集中化を目的としたヘラルドハイパーエンタングルメント集中プロトコル(hyper-ecps)を提案する。
時間遅延DOFを導入することにより、検出シグネチャによってスキームの成功を正確に隠蔽することができ、過去の実験に必要なポストセレクション技術や光子数分解検出器は不要となる。
さらに、我々の線形光学アーキテクチャは、濃度が不規則な特定の状態がリサイクル可能であることを許容し、この手法の成功確率を以前の線形光学超ECPよりも高くする。 Hyperentanglement, defined as the simultaneous entanglement in several independent degrees of freedom (DOFs) of a quantum system, is a fascinating resource in quantum information processing with its outstanding merits. Here we propose heralded hyperentanglement concentration protocols (hyper-ECPs) to concentrate an unknown partially less polarization-spatial hyperentangled Bell state with available linear optics and common single-photon detectors. By introducing time-delay DOFs, the schemes are highly efficient in that the success of the scheme can be accurately heralded by the detection signatures, and postselection techniques or photon-number-resolving detectors, necessary for previous experiments, are not required. Additionally, our linear optical architectures allow certain states, where concentration fails, to be recyclable, and a trick makes the success probabilities of our schemes higher than those of previous linear optical hyper-ECPs. | 翻訳日:2023-04-04 19:10:34 公開日:2023-04-01 |
# DOAD: 1段階アクション検出ネットワークを分離 DOAD: Decoupled One Stage Action Detection Network ( http://arxiv.org/abs/2304.00254v1 ) ライセンス: Link先を確認 | Shuning Chang, Pichao Wang, Fan Wang, Jiashi Feng, Mike Zheng Show | (参考訳) 人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
しかし、これらの二段階法は一般に効率が低い。
直接検出と行動認識が 普通に苦しむのを観察します
(i) 検出及び行動認識のための文脈表現の所望の性質の違いによる劣等学習
(ii)訓練データ不足による最適化難易度
本稿では,上記の課題を軽減し,時空間的行動検出の効率を向上させるため,分離された一段階ネットワークであるdoadを提案する。
これを実現するために,検出と動作認識を2つのブランチに分離する。
具体的には、アクター検出のための検出表現と、アクション認識のための別のブランチに焦点を当てる。
アクションブランチでは、人とコンテキスト間の相互関係をモデル化するトランスフォーマーベースモジュール(TransPC)を設計する。
自己注意においてよく使われるベクトルベースのドット製品とは異なり、これは新しい行列ベースのキーとアダマールが人文情報をモデル化するための値の上に構築されている。
個人間の関係を利用するだけでなく、コンテキストや相対的な位置情報も考慮する。
AVAとUCF101-24データセットの結果から,本手法は2段階の最先端手法と競合し,高い効率性を示した。 Localizing people and recognizing their actions from videos is a challenging task towards high-level video understanding. Existing methods are mostly two-stage based, with one stage for person bounding box generation and the other stage for action recognition. However, such two-stage methods are generally with low efficiency. We observe that directly unifying detection and action recognition normally suffers from (i) inferior learning due to different desired properties of context representation for detection and action recognition; (ii) optimization difficulty with insufficient training data. In this work, we present a decoupled one-stage network dubbed DOAD, to mitigate above issues and improve the efficiency for spatio-temporal action detection. To achieve it, we decouple detection and action recognition into two branches. Specifically, one branch focuses on detection representation for actor detection, and the other one for action recognition. For the action branch, we design a transformer-based module (TransPC) to model pairwise relationships between people and context. Different from commonly used vector-based dot product in self-attention, it is built upon a novel matrix-based key and value for Hadamard attention to model person-context information. It not only exploits relationships between person pairs but also takes into account context and relative position information. The results on AVA and UCF101-24 datasets show that our method is competitive with two-stage state-of-the-art methods with significant efficiency improvement. | 翻訳日:2023-04-04 19:04:47 公開日:2023-04-01 |
# Q-DETR:高効率低ビット量子化検出変換器 Q-DETR: An Efficient Low-Bit Quantized Detection Transformer ( http://arxiv.org/abs/2304.00253v1 ) ライセンス: Link先を確認 | Sheng Xu, Yanjing Li, Mingbao Lin, Peng Gao, Guodong Guo, Jinhu Lu, Baochang Zhang | (参考訳) 最近の検出変換器(DETR)は高度なオブジェクト検出機能を備えているが、リソース制約のあるデバイスに応用するには膨大な計算とメモリ資源が必要である。
量子化は、低ビットパラメータと演算でネットワークを表現することで、ソリューションとして際立っている。
しかし、既存の量子化手法で低ビット量子化DETR(Q-DETR)を実行する場合、大きな性能低下がある。
Q-DETRのボトルネックは、我々の経験的分析によるクエリ情報の歪みから生じる。
本稿では, 分布補正蒸留(DRD)に基づいてこの問題に対処する。
情報ボトルネック(IB)の原理をQ-DETRの学習に一般化することで導出できる2レベル最適化問題としてDRDを定式化する。
内部レベルでは,自己情報エントロピーを最大化するために,クエリの分散アライメントを行う。
上層部では,教師情報を蒸留所要の特徴に効果的に伝達し,条件情報エントロピーを最小化する,新しい前景対応クエリマッチング方式を導入する。
実験結果から,本手法は先行技術よりも優れた性能を示した。
例えば、4ビットQ-DETRは理論上、ResNet-50のバックボーンでDETRを6.6倍加速し、39.4%のAPを達成した。 The recent detection transformer (DETR) has advanced object detection, but its application on resource-constrained devices requires massive computation and memory resources. Quantization stands out as a solution by representing the network in low-bit parameters and operations. However, there is a significant performance drop when performing low-bit quantized DETR (Q-DETR) with existing quantization methods. We find that the bottlenecks of Q-DETR come from the query information distortion through our empirical analyses. This paper addresses this problem based on a distribution rectification distillation (DRD). We formulate our DRD as a bi-level optimization problem, which can be derived by generalizing the information bottleneck (IB) principle to the learning of Q-DETR. At the inner level, we conduct a distribution alignment for the queries to maximize the self-information entropy. At the upper level, we introduce a new foreground-aware query matching scheme to effectively transfer the teacher information to distillation-desired features to minimize the conditional information entropy. Extensive experimental results show that our method performs much better than prior arts. For example, the 4-bit Q-DETR can theoretically accelerate DETR with ResNet-50 backbone by 6.6x and achieve 39.4% AP, with only 2.6% performance gaps than its real-valued counterpart on the COCO dataset. | 翻訳日:2023-04-04 19:04:24 公開日:2023-04-01 |
# Recover Triggered States: 強化学習におけるバックドア攻撃に対する保護モデル Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning ( http://arxiv.org/abs/2304.00252v1 ) ライセンス: Link先を確認 | Hao Chen, Chen Gong, Yizhe Wang, Xinwen Hou | (参考訳) バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
このような攻撃はRLシステムの信頼性を損なうものであり、様々な分野で破滅的な結果をもたらす可能性がある。
対照的に、比較的限られた研究は、RLのバックドア攻撃に対する効果的な防御について研究している。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
RTSは、ダイナミクスモデルを近似するために代理ネットワークを構築する。
開発者はトリガの状態からクリーンな状態に環境を回復できるため、攻撃者がトリガーを提示することでエージェント内に隠されたバックドアを活性化するのを防ぐことができる。
シュロゲートをトレーニングして状態を予測した場合、エージェントアクション情報を組み込んで、エージェントが予測した状態に対するアクションと実際の状態に対するアクションとの相違を低減する。
RTSは、単一エージェント環境でバックドア攻撃を防御する最初のアプローチである。
以上の結果から,RTSの累積報酬はバックドア攻撃で1.41%減少した。 A backdoor attack allows a malicious user to manipulate the environment or corrupt the training data, thus inserting a backdoor into the trained agent. Such attacks compromise the RL system's reliability, leading to potentially catastrophic results in various key fields. In contrast, relatively limited research has investigated effective defenses against backdoor attacks in RL. This paper proposes the Recovery Triggered States (RTS) method, a novel approach that effectively protects the victim agents from backdoor attacks. RTS involves building a surrogate network to approximate the dynamics model. Developers can then recover the environment from the triggered state to a clean state, thereby preventing attackers from activating backdoors hidden in the agent by presenting the trigger. When training the surrogate to predict states, we incorporate agent action information to reduce the discrepancy between the actions taken by the agent on predicted states and the actions taken on real states. RTS is the first approach to defend against backdoor attacks in a single-agent setting. Our results show that using RTS, the cumulative reward only decreased by 1.41% under the backdoor attack. | 翻訳日:2023-04-04 19:04:01 公開日:2023-04-01 |
# 概念から展開へ:機械学習と性能評価を用いたインテリジェントストローク予測フレームワーク From Conception to Deployment: Intelligent Stroke Prediction Framework using Machine Learning and Performance Evaluation ( http://arxiv.org/abs/2304.00249v1 ) ライセンス: Link先を確認 | Leila Ismail, Huned Materwala | (参考訳) ストロークは世界で2番目に大きな死因である。
機械学習の分類アルゴリズムは脳卒中予測に広く採用されている。
しかし、これらのアルゴリズムは異なるデータセットと評価指標を用いて評価された。
さらに、ストロークデータ分析のための包括的なフレームワークは存在しない。
本稿では,文献における機械学習予測アルゴリズムの批判的検証に基づく知的脳卒中予測フレームワークを提案する。
ストローク予測に最もよく使われる5つの機械学習アルゴリズムは、客観的比較のための統一されたセットアップを用いて評価される。
解析と数値計算の結果から,ランダムフォレストアルゴリズムは脳卒中予測に最適であることがわかった。 Stroke is the second leading cause of death worldwide. Machine learning classification algorithms have been widely adopted for stroke prediction. However, these algorithms were evaluated using different datasets and evaluation metrics. Moreover, there is no comprehensive framework for stroke data analytics. This paper proposes an intelligent stroke prediction framework based on a critical examination of machine learning prediction algorithms in the literature. The five most used machine learning algorithms for stroke prediction are evaluated using a unified setup for objective comparison. Comparative analysis and numerical results reveal that the Random Forest algorithm is best suited for stroke prediction. | 翻訳日:2023-04-04 19:03:42 公開日:2023-04-01 |
# モデル再設計によるディープニューラルネットワークモデルの再利用 Reusing Deep Neural Network Models through Model Re-engineering ( http://arxiv.org/abs/2304.00245v1 ) ライセンス: Link先を確認 | Binhang Qi, Hailong Sun, Xiang Gao, Hongyu Zhang, Zhaotian Li, Xudong Liu | (参考訳) 今日のソフトウェア開発において重要なタスクとなったディープニューラルネットワーク(DNN)モデルのトレーニングは、しばしば計算リソースと時間の観点からコストがかかる。
ソフトウェア再利用のインスピレーションにより、既存の再利用によるDNNモデルの構築が近年注目を集めている。
DNNモデルの再利用に対する以前のアプローチには2つの制限がある。
1)モデル全体の再利用は、モデルの機能(ラベル)のごく一部しか必要とされないが、多くのオーバーヘッド(例えば、推論の計算コストや時間コスト)を引き起こす。
2) モデル再利用は、再利用モデルの欠陥と弱点を継承するので、新しいシステムはセキュリティ攻撃の脅威にさらされる。
上記の問題を解決するために、トレーニング済みのDNNモデルを再設計して再利用性を向上させるツールであるSeaMを提案する。
具体的には、対象問題と訓練されたモデルを考えると、SeaMは勾配に基づく探索法を用いて、対象問題に関連するモデルの重みを探索する。
関連する重みのみを保持する再設計モデルは、対象の問題を解決するために再利用される。
広く使われているモデルに対する評価の結果、seamによって製造された再設計モデルは元のモデルの10.11%の重みしか含んでおらず、推論時間に関して42.41%削減された。
ターゲット問題に対して、再設計されたモデルは、分類精度5.85%で元のモデルより優れている。
さらに、再設計されたモデルの再使用は、モデル全体の再利用よりも平均57%少ない欠陥を継承する。
私たちは、再利用のオーバーヘッドと欠陥の継承を減らすアプローチが、実用的なモデルの再利用にとって重要な一歩だと信じています。 Training deep neural network (DNN) models, which has become an important task in today's software development, is often costly in terms of computational resources and time. With the inspiration of software reuse, building DNN models through reusing existing ones has gained increasing attention recently. Prior approaches to DNN model reuse have two main limitations: 1) reusing the entire model, while only a small part of the model's functionalities (labels) are required, would cause much overhead (e.g., computational and time costs for inference), and 2) model reuse would inherit the defects and weaknesses of the reused model, and hence put the new system under threats of security attack. To solve the above problem, we propose SeaM, a tool that re-engineers a trained DNN model to improve its reusability. Specifically, given a target problem and a trained model, SeaM utilizes a gradient-based search method to search for the model's weights that are relevant to the target problem. The re-engineered model that only retains the relevant weights is then reused to solve the target problem. Evaluation results on widely-used models show that the re-engineered models produced by SeaM only contain 10.11% weights of the original models, resulting 42.41% reduction in terms of inference time. For the target problem, the re-engineered models even outperform the original models in classification accuracy by 5.85%. Moreover, reusing the re-engineered models inherits an average of 57% fewer defects than reusing the entire model. We believe our approach to reducing reuse overhead and defect inheritance is one important step forward for practical model reuse. | 翻訳日:2023-04-04 19:03:35 公開日:2023-04-01 |
# GLT-T++:3次元シームズ追跡のためのグローバルローカルトランスフォーマー GLT-T++: Global-Local Transformer for 3D Siamese Tracking with Ranking Loss ( http://arxiv.org/abs/2304.00242v1 ) ライセンス: Link先を確認 | Jiahao Nie, Zhiwei He, Yuxiang Yang, Xudong Lv, Mingyu Gao, Jing Zhang | (参考訳) 3D領域提案ネットワーク(RPN)に基づくシームズトラッカーは、深いハフ投票で顕著な成功を収めている。
しかし、投票のキューとして1つのシードポイント機能を使用することで、高品質な3D提案が得られない。
さらに、投票過程におけるシードポイントの平等な処理は、その重要性にかかわらず、この制限を悪化させる。
これらの課題に対処するために,より優れた提案を生成するための新しいトランスフォーマーベースの投票方式を提案する。
特に、グローバルローカルトランスフォーマー(glt)モジュールは、オブジェクトとパッチ対応の幾何学的プリエントをシードポイントの特徴に統合するために考案され、結果として、シードポイントのオフセット学習のためのロバストで正確なヒントが得られる。
GLTモジュールをトレーニングするために,シードポイントの潜在的重要性重みをトレーニング制約として学習する重要予測分岐を導入する。
この変圧器を用いた投票方式を3D RPNに組み込んで,GLT-Tと呼ばれる新しいシームズ法を開発した。
さらに,シアームパラダイムにおける最上位の提案は,追従性能を制限した最も正確な提案ではないことを明らかにする。
そこで本研究では,二進数予測タスクをランキング問題としてアプローチし,目標対応ランキング損失とローカライズ対応ランキング損失を設計し,提案手法の正確なランキングを作成する。
GLT-T++はGLT-Tの強化版である。
複数のベンチマークにおいて、GLT-TとGLT-T++は、リアルタイムの推論速度を維持しながら、トラッキング精度において最先端の手法より優れていることを示す。
ソースコードはhttps://github.com/haooozi/glt-tで入手できる。 Siamese trackers based on 3D region proposal network (RPN) have shown remarkable success with deep Hough voting. However, using a single seed point feature as the cue for voting fails to produce high-quality 3D proposals. Additionally, the equal treatment of seed points in the voting process, regardless of their significance, exacerbates this limitation. To address these challenges, we propose a novel transformer-based voting scheme to generate better proposals. Specifically, a global-local transformer (GLT) module is devised to integrate object- and patch-aware geometric priors into seed point features, resulting in robust and accurate cues for offset learning of seed points. To train the GLT module, we introduce an importance prediction branch that learns the potential importance weights of seed points as a training constraint. Incorporating this transformer-based voting scheme into 3D RPN, a novel Siamese method dubbed GLT-T is developed for 3D single object tracking on point clouds. Moreover, we identify that the highest-scored proposal in the Siamese paradigm may not be the most accurate proposal, which limits tracking performance. Towards this concern, we approach the binary score prediction task as a ranking problem, and design a target-aware ranking loss and a localization-aware ranking loss to produce accurate ranking of proposals. With the ranking losses, we further present GLT-T++, an enhanced version of GLT-T. Extensive experiments on multiple benchmarks demonstrate that our GLT-T and GLT-T++ outperform state-of-the-art methods in terms of tracking accuracy while maintaining a real-time inference speed. The source code will be made available at https://github.com/haooozi/GLT-T. | 翻訳日:2023-04-04 19:03:10 公開日:2023-04-01 |
# 光・磁気力学系におけるファノ型光応答と磁気弾性結合による4波混合 Controllable Fano-type optical response and four-wave mixing via magnetoelastic coupling in a opto-magnomechanical system ( http://arxiv.org/abs/2304.00237v1 ) ライセンス: Link先を確認 | Amjad Sohail, Rizwan Ahmed, Jia-Xin Peng, Aamir Shahzad, Tariq Munir, S. K. Singh, Marcos Cesar de Oliveira | (参考訳) 強磁性材料の磁気弾性を利用したファノ型光応答と4波混合(FWM)過程の解析を行った。
強磁性体の変形は、光学モードとマグノンモードの両方に同時に結合する機械的変位の役割を果たす。
本報告では, 磁歪誘起変位は, 有効マグノメカニカルカップリング, マグノンデチューニング, キャビティデチューニングなどのシステムパラメータを調整することにより, 出力場におけるファノプロファイルを示す。
磁気弾性相互作用もfwm現象を引き起こすことが判明した。
fwm信号の個数は、主に効果的なマグノメカニカルカップリングとマグノンデチューニングに依存する。
さらに、FWMスペクトルはマグノン(キャビティ)崩壊率の増大(減少)に伴う抑制挙動を示す。
本手法は,高感度検出と量子情報処理における新たな視点を開く。 We analytically investigate the Fano-type optical response and four-wave mixing (FWM) process by exploiting the magnetoelasticity of a ferromagnetic material. The deformation of the ferromagnetic material plays the role of mechanical displacement, which is simultaneously coupled to both optical and magnon modes. We report that the magnetostrictively induced displacement demonstrates Fano profiles, in the output field, which is well-tuned by adjusting the system parameters, like effective magnomechanical coupling, magnon detuning, and cavity detuning. It is found that the magnetoelastic interaction also gives rise to the FWM phenomenon. The number of the FWM signals mainly depends upon the effective magnomechanical coupling and the magnon detuning. Moreover, the FWM spectrum exhibits suppressive behavior upon increasing (decreasing) the magnon (cavity) decay rate. The present scheme will open new perspectives in highly sensitive detection and quantum information processing. | 翻訳日:2023-04-04 19:02:42 公開日:2023-04-01 |
# 一致波面センシングによる多光子空間波動関数の再構成 Reconstructing the multiphoton spatial wave function with coincidence wavefront sensing ( http://arxiv.org/abs/2304.00236v1 ) ライセンス: Link先を確認 | Yi Zheng, Mu Yang, Yu-Wei Liao, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo | (参考訳) 複数の粒子の量子波関数は、単独で働く検出器にはアクセスできない追加情報を提供する。
本稿では,多光子横空間波動関数の位相を再構成するための偶然波面センシング(CWS)手法を提案する。
空間的に解決された偶然光子計数が関与する。
弱測定波面センサを用いた2光子ケースの数値シミュレーションを行い、その正しさを検証し、相関に隠された位相情報を明らかにする。
我々の研究は、多部量子システムを特徴づける直接的な空間的方法を提供し、実験的なボヘミア力学や量子光学技術への応用のような基礎研究につながる。 The quantum wave function of multiple particles provides additional information which is inaccessible to detectors working alone. Here, we introduce the coincidence wavefront sensing (CWS) method to reconstruct the phase of the multiphoton transverse spatial wave function. The spatially resolved coincidence photon counting is involved. Numerical simulations of two-photon cases using the weak measurement wavefront sensor are performed to test its correctness, and the phase information hidden in the correlation are revealed. Our work provides a direct spatial way to characterize multipartite quantum systems, and leads to fundamental studies like experimental Bohmian mechanics and applications in quantum optical technologies. | 翻訳日:2023-04-04 19:02:27 公開日:2023-04-01 |
# インド議会は何を議論しているのか?
lok sabhaにおける質問時間に関する探索的分析 What Does the Indian Parliament Discuss? An Exploratory Analysis of the Question Hour in the Lok Sabha ( http://arxiv.org/abs/2304.00235v1 ) ライセンス: Link先を確認 | Suman Adhya, Debarshi Kumar Sanyal | (参考訳) TCPD-IPDデータセットは、1999年から2019年にかけてインド議会で議論された質問と回答の集合である。
このような膨大なコレクションを手動で分析することは難しいが、現代のテキスト分析ツールはそれをナビゲートするための強力な手段を提供することができる。
本稿では,データセットの探索的解析を行う。
特に,コーパスレベルの統計とデータセットの3つのサブセットの詳細な分析を行った。
後者の分析では、動的トピックモデルを用いてトピックの時間的進化を理解することに焦点を当てている。
議会の会話は、それぞれの時代の政治的・社会経済的緊張を反映している。 The TCPD-IPD dataset is a collection of questions and answers discussed in the Lower House of the Parliament of India during the Question Hour between 1999 and 2019. Although it is difficult to analyze such a huge collection manually, modern text analysis tools can provide a powerful means to navigate it. In this paper, we perform an exploratory analysis of the dataset. In particular, we present insightful corpus-level statistics and a detailed analysis of three subsets of the dataset. In the latter analysis, the focus is on understanding the temporal evolution of topics using a dynamic topic model. We observe that the parliamentary conversation indeed mirrors the political and socio-economic tensions of each period. | 翻訳日:2023-04-04 19:02:17 公開日:2023-04-01 |
# 非定常マルコフ決定過程に対するベイズオンライン変更点検出の再開 Restarted Bayesian Online Change-point Detection for Non-Stationary Markov Decision Processes ( http://arxiv.org/abs/2304.00232v1 ) ライセンス: Link先を確認 | Reda Alami, Mohammed Mahfoud, Eric Moulines | (参考訳) 本稿では,非定常強化学習(RL)環境における学習の問題点について考察する。
本稿では,より一般的なマルチミリ波分布から得られる入力ストリームを演算し,疑似アラームレートと検出遅延の観点からほぼ最適理論的保証を提供するRestarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)を提案する。
そこで本研究では,マルチノード分布からサンプル化した状態遷移カーネルをR-BOCPD-UCRL2と呼ぶMPP用UCRL2アルゴリズムの改良版を提案する。
We perform a finite-time performance analysis and show that R-BOCPD-UCRL2 enjoys a favorable regret bound of $O\left(D O \sqrt{A T K_T \log\left (\frac{T}{\delta} \right) + \frac{K_T \log \frac{K_T}{\delta}}{\min\limits_\ell \: \mathbf{KL}\left( {\mathbf{\theta}^{(\ell+1)}}\mid\mid{\mathbf{\theta}^{(\ell)}}\right)}}\right)$, where $D$ is the largest MDP diameter from the set of MDPs defining the piecewise stationary MDP setting, $O$ is the finite number of states (constant over all changes), $A$ is the finite number of actions (constant over all changes), $K_T$ is the number of change points up to horizon $T$, and $\mathbf{\theta}^{(\ell)}$ is the transition kernel during the interval $[c_\ell, c_{\ell+1})$, which we assume to be multinomially distributed over the set of states $\mathbb{O}$.
興味深いことに、パフォーマンスバウンダリは、MDP状態遷移の分布と報酬のばらつきによって直接スケールしない。
突然の変化もモデル化できます
実際には、r-bocpd-ucrl2は合成環境における様々なシナリオにおいて最先端技術を上回る。
実験の再現に使用できるコードリポジトリ(upon publication)とともに、詳細な実験セットアップを提供しています。 We consider the problem of learning in a non-stationary reinforcement learning (RL) environment, where the setting can be fully described by a piecewise stationary discrete-time Markov decision process (MDP). We introduce a variant of the Restarted Bayesian Online Change-Point Detection algorithm (R-BOCPD) that operates on input streams originating from the more general multinomial distribution and provides near-optimal theoretical guarantees in terms of false-alarm rate and detection delay. Based on this, we propose an improved version of the UCRL2 algorithm for MDPs with state transition kernel sampled from a multinomial distribution, which we call R-BOCPD-UCRL2. We perform a finite-time performance analysis and show that R-BOCPD-UCRL2 enjoys a favorable regret bound of $O\left(D O \sqrt{A T K_T \log\left (\frac{T}{\delta} \right) + \frac{K_T \log \frac{K_T}{\delta}}{\min\limits_\ell \: \mathbf{KL}\left( {\mathbf{\theta}^{(\ell+1)}}\mid\mid{\mathbf{\theta}^{(\ell)}}\right)}}\right)$, where $D$ is the largest MDP diameter from the set of MDPs defining the piecewise stationary MDP setting, $O$ is the finite number of states (constant over all changes), $A$ is the finite number of actions (constant over all changes), $K_T$ is the number of change points up to horizon $T$, and $\mathbf{\theta}^{(\ell)}$ is the transition kernel during the interval $[c_\ell, c_{\ell+1})$, which we assume to be multinomially distributed over the set of states $\mathbb{O}$. Interestingly, the performance bound does not directly scale with the variation in MDP state transition distributions and rewards, ie. can also model abrupt changes. In practice, R-BOCPD-UCRL2 outperforms the state-of-the-art in a variety of scenarios in synthetic environments. We provide a detailed experimental setup along with a code repository (upon publication) that can be used to easily reproduce our experiments. | 翻訳日:2023-04-04 19:02:08 公開日:2023-04-01 |
# liouville方程式を用いたセシウム原子の高周波場による光励起の研究 Investigation of Optical Pumping in Cesium Atoms with a Radio-Frequency Field, Using Liouville Equation ( http://arxiv.org/abs/2304.00301v1 ) ライセンス: Link先を確認 | Hossein Davoodi Yeganeh and Zahra Shaterzadeh-Yazdi | (参考訳) 光ポンピング(optical pumping)は、所望の原子の原子準数を工学する技術である。
liouville方程式を用いてセシウム原子の個体群進化を調べる。
この目的のために、基底状態から励起状態への電子遷移に適した周波数で円偏光を印加し、セシウムゼーマン準準位の緩和速度、再分布、および集団進化を計算する。
光ポンピング後のサブレベル人口の工学には、高周波場(RF)を用い、リウヴィル方程式におけるRF場の効果を検討する。
この方法では, 異なる光学実験で使用可能な高効率で, 原子準位における所望の人口分布を調製することができる。 Optical pumping is a technique for engineering atomic-sublevel population of desired atoms. We investigate the population evolution of Cesium atoms by employing Liouville equation. For this purpose, we apply a circularly polarized light at a frequency suitable for electronic transition from ground states to excited states and calculate the relaxation rate, repopulation, and population evolution of the Cesium Zeeman sublevels. For engineering the sublevel population after optical pumping, we employ a radiofrequency (RF) field and consider the effect of RF field in Liouville equation. With this approach, we are able to prepare desired distribution of the population in the atomic sublevels with high efficiency, which can be employed in different optical experiments. | 翻訳日:2023-04-04 18:54:29 公開日:2023-04-01 |
# Fair-CDA: グループフェアネスのための継続的および方向性拡張 Fair-CDA: Continuous and Directional Augmentation for Group Fairness ( http://arxiv.org/abs/2304.00295v1 ) ライセンス: Link先を確認 | Rui Sun, Fengwei Zhou, Zhenhua Dong, Chuanlong Xie, Lanqing Hong, Jiawei Li, Rui Zhang, Zhen Li, Zhenguo Li | (参考訳) 本研究では,公平性制約を課すための細粒度データ拡張戦略である「it fair-cda」を提案する。
特徴の絡み合い法を用いて,感度の高い属性に高い特徴を抽出した。
次に,群間の繊細な特徴の遷移経路上のモデルを正則化することにより,群の公平性が達成できることを示す。
経路方向の摂動強度を調整することにより,提案手法は制御可能かつ監査可能となる。
公平性制約による精度低下を緩和するために,拡張データのラベルをインデュートする校正モデルについても紹介する。
提案手法はデータ生成モデルを仮定せず,精度と公平性の両方に優れた一般化を実現する。
実験の結果,fair-cdaは,成人,セレン,映画など,広く使用されているベンチマークにおいて,最先端の手法を一貫して上回っていることがわかった。
特にfair-cdaは、成人データセットの精度を維持しながら、fairnessに対する86.3\%の相対的改善を得る。
さらに,Fair-CDAをオンラインレコメンデーションシステムで評価し,精度と公平性の観点から本手法の有効性を実証する。 In this work, we propose {\it Fair-CDA}, a fine-grained data augmentation strategy for imposing fairness constraints. We use a feature disentanglement method to extract the features highly related to the sensitive attributes. Then we show that group fairness can be achieved by regularizing the models on transition paths of sensitive features between groups. By adjusting the perturbation strength in the direction of the paths, our proposed augmentation is controllable and auditable. To alleviate the accuracy degradation caused by fairness constraints, we further introduce a calibrated model to impute labels for the augmented data. Our proposed method does not assume any data generative model and ensures good generalization for both accuracy and fairness. Experimental results show that Fair-CDA consistently outperforms state-of-the-art methods on widely-used benchmarks, e.g., Adult, CelebA and MovieLens. Especially, Fair-CDA obtains an 86.3\% relative improvement for fairness while maintaining the accuracy on the Adult dataset. Moreover, we evaluate Fair-CDA in an online recommendation system to demonstrate the effectiveness of our method in terms of accuracy and fairness. | 翻訳日:2023-04-04 18:54:17 公開日:2023-04-01 |
# biosequence2vec:生物配列の効率的な埋め込み生成 BioSequence2Vec: Efficient Embedding Generation For Biological Sequences ( http://arxiv.org/abs/2304.00291v1 ) ライセンス: Link先を確認 | Sarwan Ali, Usama Sardar, Murray Patterson, Imdad Ullah Khan | (参考訳) 表現学習は、機械学習パイプラインにおける重要なステップである。
現在の生物学的シーケンシングデータボリュームを考えると、明示的な表現の学習は、結果として生じる特徴ベクトルの次元性のために禁止される。
カーネルベースのメソッド、例えばSVMは、シーケンス分類などの機械学習(ML)タスクに対して、効果的で有用な代替手段である。
カーネルメソッドの3つの課題
(i)計算時間
(ii)メモリ使用量(n\times n$マトリクスを格納)及び
3)カーネル行列の使用はカーネルベースのML法に限られる(非カーネル分類器の一般化は困難)。
その間
(i)近似手法、チャレンジを用いて解くことができる。
(ii) 典型的なカーネルメソッドは残る。
同様に、カーネルベースのML手法は、主成分(カーネルPCA)を抽出することでカーネル行列に適用できるが、計算コストが高く、情報損失をもたらす可能性がある。
本稿では,計算やメモリ,一般化可能性の課題を避けつつ,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。
これは各シーケンスの低次元埋め込みを計算し、$k$-merの周波数ベクトルのランダムなプロジェクションを使い、ドット積と結果の表現を保存するために必要なメモリの計算を著しく削減する。
提案する高速アライメントフリー組込み手法は,任意の距離(例えば,$k$近傍)と非距離(例えば決定木)への入力として,分類およびクラスタリングタスクのためのml法として使用できる。
バイオシークエンスを入力として,SARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い,最先端の埋め込み法やカーネル法よりも予測性能が優れている。 Representation learning is an important step in the machine learning pipeline. Given the current biological sequencing data volume, learning an explicit representation is prohibitive due to the dimensionality of the resulting feature vectors. Kernel-based methods, e.g., SVM, are a proven efficient and useful alternative for several machine learning (ML) tasks such as sequence classification. Three challenges with kernel methods are (i) the computation time, (ii) the memory usage (storing an $n\times n$ matrix), and (iii) the usage of kernel matrices limited to kernel-based ML methods (difficult to generalize on non-kernel classifiers). While (i) can be solved using approximate methods, challenge (ii) remains for typical kernel methods. Similarly, although non-kernel-based ML methods can be applied to kernel matrices by extracting principal components (kernel PCA), it may result in information loss, while being computationally expensive. In this paper, we propose a general-purpose representation learning approach that embodies kernel methods' qualities while avoiding computation, memory, and generalizability challenges. This involves computing a low-dimensional embedding of each sequence, using random projections of its $k$-mer frequency vectors, significantly reducing the computation needed to compute the dot product and the memory needed to store the resulting representation. Our proposed fast and alignment-free embedding method can be used as input to any distance (e.g., $k$ nearest neighbors) and non-distance (e.g., decision tree) based ML method for classification and clustering tasks. Using different forms of biological sequences as input, we perform a variety of real-world classification tasks, such as SARS-CoV-2 lineage and gene family classification, outperforming several state-of-the-art embedding and kernel methods in predictive performance. | 翻訳日:2023-04-04 18:53:56 公開日:2023-04-01 |
# 混合解像トークン化を用いた視覚変換器 Vision Transformers with Mixed-Resolution Tokenization ( http://arxiv.org/abs/2304.00287v1 ) ライセンス: Link先を確認 | Tomer Ronen, Omer Levy, Avram Golbert | (参考訳) Vision Transformer は入力画像を等サイズのパッチの空間的に規則的なグリッドに分割して処理する。
逆にトランスフォーマーは元々自然言語のシーケンス上に導入され、各トークンは任意のサイズの生データのチャンクであるサブワードを表す。
本研究では,この手法を視覚変換器に適用し,標準均一格子を任意の大きさのパッチを表す混合解像度のトークン列に置き換える,新しい画像トークン化方式を提案する。
そこで我々は,Quadtreeアルゴリズムと新しいサリエンシスコアラを用いて,画像の低解像度領域を低解像度で処理するパッチモザイクを構築し,モデルの容量を重要な画像領域にルーティングする。
我々のQuadformerモデルは,バニラ ViT と同じアーキテクチャを用いて,計算予算の制御において,画像分類の精度向上を実現している。
コードとモデルはhttps://github.com/TomerRonen34/mixed- resolution-vit で公開されている。 Vision Transformer models process input images by dividing them into a spatially regular grid of equal-size patches. Conversely, Transformers were originally introduced over natural language sequences, where each token represents a subword - a chunk of raw data of arbitrary size. In this work, we apply this approach to Vision Transformers by introducing a novel image tokenization scheme, replacing the standard uniform grid with a mixed-resolution sequence of tokens, where each token represents a patch of arbitrary size. Using the Quadtree algorithm and a novel saliency scorer, we construct a patch mosaic where low-saliency areas of the image are processed in low resolution, routing more of the model's capacity to important image regions. Using the same architecture as vanilla ViTs, our Quadformer models achieve substantial accuracy gains on image classification when controlling for the computational budget. Code and models are publicly available at https://github.com/TomerRonen34/mixed-resolution-vit . | 翻訳日:2023-04-04 18:53:27 公開日:2023-04-01 |
# 機械学習を用いた受動光ネットワークにおける分岐同定 Branch Identification in Passive Optical Networks using Machine Learning ( http://arxiv.org/abs/2304.00285v1 ) ライセンス: Link先を確認 | khouloud Abdelli, Carsten Tropschug, Helmut Griesser, Sander Jansen, and Stephan Pachnicke | (参考訳) ほぼ同値な分岐を持つ受動光ネットワークの監視を改善するための機械学習手法を提案し,実験的に検証した。
診断精度は98.7%、事象定位誤差は0.5mである。 A machine learning approach for improving monitoring in passive optical networks with almost equidistant branches is proposed and experimentally validated. It achieves a high diagnostic accuracy of 98.7% and an event localization error of 0.5m | 翻訳日:2023-04-04 18:53:11 公開日:2023-04-01 |
# 量子コンピューティングのための多重シリコンダングリング結合電荷量子ビット:ハミルトニアンのヒルベルト空間解析 Multiple Silicon Dangling-Bond Charge qubits for quantum computing: A Hilbert-Space Analysis of the Hamiltonian ( http://arxiv.org/abs/2304.00283v1 ) ライセンス: Link先を確認 | Zahra Shaterzadeh-Yazdi and Payman Kazemikhah | (参考訳) シリコンベースのダングリング結合電荷量子ビットは、普遍的フォールトトレラントな固体量子コンピューティングの好都合なモデルの一つである。
普遍量子コンピューティングでは、計算ヒルベルト空間の評価と特徴付けを行い、計算空間の複雑さとサイズを減らすことが重要である。
ここでは、この問題を認識し、ダングリング結合量子ビットモデルにおけるヒルベルト空間の複雑性と特性を理解する。
所望のヒルベルト空間のサイズは、キュービット損失に関する仮定を考えると顕著に小さくすることができる。
さらに、空間における所望の部分集合の次元はスピン保存性により2倍に縮小する。
最後に、量子ビット情報、ハミルトン空間、ヒルベルト空間の記憶に必要な古典記憶は、量子ビット数が増えると解析される。 Silicon-based dangling-bond charge qubit is one of the auspicious models for universal fault-tolerant solid-state quantum computing. In universal quantum computing, it is crucial to evaluate and characterize the computational Hilbert space and reduce the complexity and size of the computational space. Here, we recognize this problem to understand the complexity and characteristics of the Hilbert space in our dangling-bond qubit model. The size of the desired Hilbert space can prominently be reduced by considering assumptions regarding the qubit loss. Moreover, the dimension of the desired subsets in the space shrinks by a factor of two due to the spin preservation property. Finally, the required classical memory for storage of the qubit information, Hamiltonian and Hilbert space is analysed when the number of qubits grows. | 翻訳日:2023-04-04 18:53:07 公開日:2023-04-01 |
# プログレッシブチャネルシンクネットワーク Progressive Channel-Shrinking Network ( http://arxiv.org/abs/2304.00280v1 ) ライセンス: Link先を確認 | Jianhong Pan, Siyuan Yang, Lin Geng Foo, Qiuhong Ke, Hossein Rahmani, Zhipeng Fan, Jun Liu | (参考訳) 現在、salienceベースのチャネルプルーニングは、ネットワーク圧縮において継続的なブレークスルーをもたらす。
実現において、サルニエンス機構はプランニングを導くためのチャネルサルニエンスの計量として用いられる。
したがって、サリエンスに基づくチャネルプルーニングは、実行時のチャネル幅を動的に調整することができ、フレキシブルプルーニング方式を提供する。
しかし、2つの問題が発生する: 特定のサリエンスエントリをゼロに切り離すためにゲーティング関数がしばしば必要であり、それが前方伝播を不安定にする; 動的アーキテクチャは推論速度をボトルネックにする推論におけるインデックス化により多くのコストをもたらす。
本稿では,選択したサレンスエントリをほぼゼロにするのではなく,実行時に圧縮するprogressive channel-shrinking (pcs) 手法を提案する。
また,フィルタインデクシングにおけるメモリアクセスコストを低減できる静的プルーニング方式を実現するために,ランニングシュライキングポリシーを提案する。
ResNet と VGG の2つのネットワーク上でのImageNet と CIFAR10 データセットの評価を行い,PCS がすべてのベースラインを上回り,圧縮性能のトレードオフの観点から最先端を実現することを示す。
さらに,推測の有意かつ実用的な加速を観察する。 Currently, salience-based channel pruning makes continuous breakthroughs in network compression. In the realization, the salience mechanism is used as a metric of channel salience to guide pruning. Therefore, salience-based channel pruning can dynamically adjust the channel width at run-time, which provides a flexible pruning scheme. However, there are two problems emerging: a gating function is often needed to truncate the specific salience entries to zero, which destabilizes the forward propagation; dynamic architecture brings more cost for indexing in inference which bottlenecks the inference speed. In this paper, we propose a Progressive Channel-Shrinking (PCS) method to compress the selected salience entries at run-time instead of roughly approximating them to zero. We also propose a Running Shrinking Policy to provide a testing-static pruning scheme that can reduce the memory access cost for filter indexing. We evaluate our method on ImageNet and CIFAR10 datasets over two prevalent networks: ResNet and VGG, and demonstrate that our PCS outperforms all baselines and achieves state-of-the-art in terms of compression-performance tradeoff. Moreover, we observe a significant and practical acceleration of inference. | 翻訳日:2023-04-04 18:52:55 公開日:2023-04-01 |
# NPR: 街路における夜間の場所認識 NPR: Nocturnal Place Recognition in Street ( http://arxiv.org/abs/2304.00276v1 ) ライセンス: Link先を確認 | Bingxi Liu, Yujie Fu, Feng Lu, Jinqiang Cui, Yihong Wu, Hong Zhang | (参考訳) 視覚的位置認識(VPR)は、クエリ写真に似たデータベースイメージを既知の画像の大きなデータベースと比較することで検索するタスクである。
実世界のアプリケーションでは、夜のクエリ画像による極端な照明変更は、vprが克服しなければならない大きな障害となる。
しかし、街路レベルのVPRのための昼夜対応の訓練セットは存在しない。
この課題に対処するために,我々はvprを分割し,夜行位置認識(npr)を克服する新しいパイプラインを提案する。
具体的には、最初にストリートレベルの昼夜データセットNightStreetを構築し、未ペア画像から画像への翻訳モデルのトレーニングに使用しました。
そして、このモデルを使って既存の大規模VPRデータセットを処理し、VPR-Nightデータセットを生成し、それらを2つの人気のあるVPRパイプラインと組み合わせる方法について実証した。
最後にvprフレームワークを提案し,理論,実験,アプリケーションレベルでの説明を行った。
本フレームワークでは,上位の手法を含む2つの公開データセットのパフォーマンスを大幅に向上させることができる。 Visual Place Recognition (VPR) is the task of retrieving database images similar to a query photo by comparing it to a large database of known images. In real-world applications, extreme illumination changes caused by query images taken at night pose a significant obstacle that VPR needs to overcome. However, a training set with day-night correspondence for city-scale, street-level VPR does not exist. To address this challenge, we propose a novel pipeline that divides VPR and conquers Nocturnal Place Recognition (NPR). Specifically, we first established a street-level day-night dataset, NightStreet, and used it to train an unpaired image-to-image translation model. Then we used this model to process existing large-scale VPR datasets to generate the VPR-Night datasets and demonstrated how to combine them with two popular VPR pipelines. Finally, we proposed a divide-and-conquer VPR framework and provided explanations at the theoretical, experimental, and application levels. Under our framework, previous methods can significantly improve performance on two public datasets, including the top-ranked method. | 翻訳日:2023-04-04 18:52:32 公開日:2023-04-01 |
# モノのインターネットにおけるデータのプライバシー保護 Data Privacy Preservation on the Internet of Things ( http://arxiv.org/abs/2304.00258v1 ) ライセンス: Link先を確認 | Jaydip Sen and Subhasis Dasgupta | (参考訳) 近年のハードウェアと情報技術の発展により、世界中の何十億もの接続されたインテリジェントデバイスが、人間の関与を最小限に抑えながら情報を交換できるようになった。
モノのインターネット(IoT)として知られるこのパラダイムは、2025年までに推定27億台のデバイスで急速に進歩している。
IoTデバイスの数の増加と成功しているIoTサービスは、膨大なデータを生み出しています。
しかし、この膨大なデータがユーザーのプライバシーに対する懸念を高めている。
この入門章では、モノのインターネットの分野で研究者が提案している既存のデータプライバシー保護スキームについて、簡単な調査を行っている。 Recent developments in hardware and information technology have enabled the emergence of billions of connected, intelligent devices around the world exchanging information with minimal human involvement. This paradigm, known as the Internet of Things (IoT) is progressing quickly with an estimated 27 billion devices by 2025. This growth in the number of IoT devices and successful IoT services has generated a tremendous amount of data. However, this humongous volume of data poses growing concerns for user privacy. This introductory chapter has presented a brief survey of some of the existing data privacy-preservation schemes proposed by researchers in the field of the Internet of Things. | 翻訳日:2023-04-04 18:52:15 公開日:2023-04-01 |
# radifusion:画像の注意と左右の非対称性を考慮した連続的マンモグラフィ画像を用いた乳癌リスク予測モデル RADIFUSION: A multi-radiomics deep learning based breast cancer risk prediction model using sequential mammographic images with image attention and bilateral asymmetry refinement ( http://arxiv.org/abs/2304.00257v1 ) ライセンス: Link先を確認 | Hong Hui Yeoh, Andrea Liew, Rapha\"el Phan, Fredrik Strand, Kartini Rahmat, Tuong Linh Nguyen, John L. Hopper, Maxine Tan | (参考訳) 乳がんは公衆衛生上の重要な問題であり、早期発見は高リスク患者を治療するために重要である。
シークエンシャルスクリーニングマンモグラムは、経時的に乳房組織の変化について重要な時空間情報を提供する。
本研究では,シーケンシャルマンモグラムを活用し,線状画像注目機構,放射線特徴量,異なるマンモグラフィビューを結合する新たなゲーティング機構,乳がんリスク評価のための左右非対称性に基づく微調整機構を組み込んだ,radifusionと呼ばれるディープラーニングアーキテクチャを提案する。
我々は、CSAWデータセットと呼ばれるスクリーニングデータセットを用いて、モデルを評価した。
その結果,1,749名の女性を対象に,1年間のAUC,2年間のAUC,2年間のAUCの3つの指標において,受信機動作特性曲線(AUC) 0.905, 0.872, 0.866の領域を有する他の最先端モデルと比較して,優れた性能を示した。
本研究は, 乳がんリスク評価の精度を高めるために, 画像注意, 放射線学的特徴, ゲーティング機構, 左右非対称性に基づく微調整などの深層学習機構を取り入れることの重要性を強調した。
また, 逐次マンモグラムからの時空間情報を活用することで, モデルの性能が向上したことを示す。
乳がんリスク評価のための強力なツールとしてRADIFUSIONが有用であることが示唆された。 Breast cancer is a significant public health concern and early detection is critical for triaging high risk patients. Sequential screening mammograms can provide important spatiotemporal information about changes in breast tissue over time. In this study, we propose a deep learning architecture called RADIFUSION that utilizes sequential mammograms and incorporates a linear image attention mechanism, radiomic features, a new gating mechanism to combine different mammographic views, and bilateral asymmetry-based finetuning for breast cancer risk assessment. We evaluate our model on a screening dataset called Cohort of Screen-Aged Women (CSAW) dataset. Based on results obtained on the independent testing set consisting of 1,749 women, our approach achieved superior performance compared to other state-of-the-art models with area under the receiver operating characteristic curves (AUCs) of 0.905, 0.872 and 0.866 in the three respective metrics of 1-year AUC, 2-year AUC and > 2-year AUC. Our study highlights the importance of incorporating various deep learning mechanisms, such as image attention, radiomic features, gating mechanism, and bilateral asymmetry-based fine-tuning, to improve the accuracy of breast cancer risk assessment. We also demonstrate that our model's performance was enhanced by leveraging spatiotemporal information from sequential mammograms. Our findings suggest that RADIFUSION can provide clinicians with a powerful tool for breast cancer risk assessment. | 翻訳日:2023-04-04 18:52:07 公開日:2023-04-01 |
# talkclip: テキスト誘導型表現型スピーキングによる会話ヘッド生成 TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles ( http://arxiv.org/abs/2304.00334v1 ) ライセンス: Link先を確認 | Yifeng Ma, Suzhen Wang, Yu Ding, Bowen Ma, Tangjie Lv, Changjie Fan, Zhipeng Hu, Zhidong Deng, Xin Yu | (参考訳) 表情特定音声ヘッドビデオを作成するために、従来の音声駆動ワンショット音声ヘッドメソッドでは、一致する話し方(つまり表情)で参照ビデオを使用する必要がある。
しかし、望ましいスタイルでビデオを見つけるのは簡単ではなく、アプリケーションを制限する可能性がある。
本研究では,自然言語によって音声中の表現が特定されるTalkCLIPと呼ばれる,表現制御可能なワンショット音声ヘッド手法を提案する。
これにより、望ましい話し方でビデオを探すことの難しさが大幅に軽減される。
ここでは、まずテキストとビデオのペアによる音声ヘッドデータセットを構築し、それぞれのビデオに代替的なプロンプトのような記述がある。
具体的には、粗いレベルの感情アノテーションと顔行動単位(AU)に基づくきめ細かいアノテーションについて記述する。
次に、CLIPベースのスタイルエンコーダを導入し、まず自然言語記述をCLIPテキスト埋め込み空間に投影し、テキスト埋め込みを話し言葉スタイルの表現に合わせる。
CLIPによって広範なテキスト知識がコード化されているため、本手法は訓練中に説明が見られない話し方も推測できる。
広汎な実験により,本手法は,テキスト記述による鮮明な表情による写真リアリスティック・トーキング・ヘッドの生成能力の向上を実証した。 In order to produce facial-expression-specified talking head videos, previous audio-driven one-shot talking head methods need to use a reference video with a matching speaking style (i.e., facial expressions). However, finding videos with a desired style may not be easy, potentially restricting their application. In this work, we propose an expression-controllable one-shot talking head method, dubbed TalkCLIP, where the expression in a speech is specified by the natural language. This would significantly ease the difficulty of searching for a video with a desired speaking style. Here, we first construct a text-video paired talking head dataset, in which each video has alternative prompt-alike descriptions. Specifically, our descriptions involve coarse-level emotion annotations and facial action unit (AU) based fine-grained annotations. Then, we introduce a CLIP-based style encoder that first projects natural language descriptions to the CLIP text embedding space and then aligns the textual embeddings to the representations of speaking styles. As extensive textual knowledge has been encoded by CLIP, our method can even generalize to infer a speaking style whose description has not been seen during training. Extensive experiments demonstrate that our method achieves the advanced capability of generating photo-realistic talking heads with vivid facial expressions guided by text descriptions. | 翻訳日:2023-04-04 18:46:08 公開日:2023-04-01 |
# 改良NSFFモデルに基づく弾頭時間効果の多視点再構成 Multi-view reconstruction of bullet time effect based on improved NSFF model ( http://arxiv.org/abs/2304.00330v1 ) ライセンス: Link先を確認 | Linquan Yu and Yan Gao and Yangtian Yan and Wentao Zeng | (参考訳) 弾丸タイム(英語: bullet time)は、映画、テレビ、ゲームで一般的に用いられる視覚効果の一種で、シーンのダイナミックなディテールを維持しながら、時間の経過が遅くなり、停止するように見える。
通常、被写体と共にゆっくり動くために複数のカメラセットが必要であり、コストとワンタイムのポストプロダクション技術を用いて合成される。
ニューラルレンダリングフィールドに基づく動的シーンパースペクティブ再構築技術はこの要件を解決するために利用できるが、現在の手法のほとんどは、ぼやけた入力画像と動的領域と静的領域の過度な適合により、再構成精度が劣っている。
NSFFアルゴリズムを用いて,映画やテレビの特殊効果シーンを新たな視点から再構成した。
再構成画像の精度を向上させるため,ファジィ過程の再構成と解析のためにファジィカーネルをネットワークに追加し,解析後の明確な視点をnsffに入力して精度を向上させる。
光フロー予測情報を用いて動的ネットワークをタイムリーに抑制することにより、動的ネットワークと静的ネットワークのリコンストラクション効果を独立して改善せざるを得なくなり、動的・静的シーンを理解・再構築する能力が向上する。
動的および静的なシーンのオーバーフィッティング問題を解決するために、新しい動的および静的なクロスエントロピー損失を設計する。
実験結果から,従来のNSFFおよび他の動的シーンの視点再構成アルゴリズムと比較して,改良されたNSFF-RFCTは再構成精度を改善し,動的シーンと静的シーンの理解能力を向上することが示された。 Bullet time is a type of visual effect commonly used in film, television and games that makes time seem to slow down or stop while still preserving dynamic details in the scene. It usually requires multiple sets of cameras to move slowly with the subject and is synthesized using post-production techniques, which is costly and one-time. The dynamic scene perspective reconstruction technology based on neural rendering field can be used to solve this requirement, but most of the current methods are poor in reconstruction accuracy due to the blurred input image and overfitting of dynamic and static regions. Based on the NSFF algorithm, this paper reconstructed the common time special effects scenes in movies and television from a new perspective. To improve the accuracy of the reconstructed images, fuzzy kernel was added to the network for reconstruction and analysis of the fuzzy process, and the clear perspective after analysis was input into the NSFF to improve the accuracy. By using the optical flow prediction information to suppress the dynamic network timely, the network is forced to improve the reconstruction effect of dynamic and static networks independently, and the ability to understand and reconstruct dynamic and static scenes is improved. To solve the overfitting problem of dynamic and static scenes, a new dynamic and static cross entropy loss is designed. Experimental results show that compared with original NSFF and other new perspective reconstruction algorithms of dynamic scenes, the improved NSFF-RFCT improves the reconstruction accuracy and enhances the understanding ability of dynamic and static scenes. | 翻訳日:2023-04-04 18:45:45 公開日:2023-04-01 |
# SVT:効率的なビデオ理解のための超音速ビデオトランス SVT: Supertoken Video Transformer for Efficient Video Understanding ( http://arxiv.org/abs/2304.00325v1 ) ライセンス: Link先を確認 | Chenbin Pan, Rui Hou, Hanchao Yu, Qifan Wang, Senem Velipasalar, and Madian Khabsa | (参考訳) 既存のビデオトランスフォーマーは、開始から終了までの一定の解像度でビデオを処理するか、あるいはプールとダウンスケーリングの戦略を取り入れることで、冗長な情報の大部分を特別に処理することなく、全ビデオコンテンツをネットワーク全体で処理する。
本稿では,視覚トランスフォーマの奥行きに沿って潜在表現を集約するセマンティック・プーリング・モジュール(spm)を組み込んだsupertoken video transformer(svt)を提案する。
その結果,提案手法は,潜在表現と類似のセマンティクスを融合することで冗長性を効果的に低減でき,従って下流タスクの高度情報の割合を増加できることがわかった。
この手法は,Kinectics と something-Something-V2 ベンチマークの計算処理を著しく削減しつつ,ViT と MViT の両方の性能を向上させる。
具体的には、Kinectics-400ベンチマークでは、MAE-pretrained ViT-BとViT-Lを1.5%、GFLOPを33%、FLOPを0.2%、FLOPを55%削減し、Kinectics-400ではMViTv2-Bを0.2%、Something-V2では22%の精度でMViTv2-Bを0.3%改善しています。 Whether by processing videos with fixed resolution from start to end or incorporating pooling and down-scaling strategies, existing video transformers process the whole video content throughout the network without specially handling the large portions of redundant information. In this paper, we present a Supertoken Video Transformer (SVT) that incorporates a Semantic Pooling Module (SPM) to aggregate latent representations along the depth of visual transformer based on their semantics, and thus, reduces redundancy inherent in video inputs.~Qualitative results show that our method can effectively reduce redundancy by merging latent representations with similar semantics and thus increase the proportion of salient information for downstream tasks.~Quantitatively, our method improves the performance of both ViT and MViT while requiring significantly less computations on the Kinectics and Something-Something-V2 benchmarks.~More specifically, with our SPM, we improve the accuracy of MAE-pretrained ViT-B and ViT-L by 1.5% with 33% less GFLOPs and by 0.2% with 55% less FLOPs, respectively, on the Kinectics-400 benchmark, and improve the accuracy of MViTv2-B by 0.2% and 0.3% with 22% less GFLOPs on Kinectics-400 and Something-Something-V2, respectively. | 翻訳日:2023-04-04 18:45:17 公開日:2023-04-01 |
# 二重確率モデル:不偏ラベル雑音による学習と推論安定性 Doubly Stochastic Models: Learning with Unbiased Label Noises and Inference Stability ( http://arxiv.org/abs/2304.00320v1 ) ライセンス: Link先を確認 | Haoyi Xiong, Xuhong Li, Boyang Yu, Zhanxing Zhu, Dongrui Wu, Dejing Dou | (参考訳) ランダムラベルノイズ(または観測ノイズ)は、実践的な機械学習環境で広く存在する。
これまでの研究では,ラベルノイズが学習性能に与える影響を主に重視していたが,本研究はラベルノイズの暗黙的正規化効果を,確率的勾配降下(sgd)のミニバッチサンプリング条件下で検討し,ラベルノイズの偏りを仮定した。
具体的には,2つの拡散項(すなわち二重確率モデル)を持つ確率微分可能方程式(sde)としてsgdのダイナミクスをモデル化する。
第1拡散項は、他の多くのsgdの研究と同様に、(ラベルなし)損失勾配のミニバッチサンプリングによって生じるが、本モデルは、ラベルノイズのミニバッチサンプリングによって生じるsgdダイナミクスの第2ノイズ項を暗黙の正規化として検討する。
我々の理論解析では、そのような暗黙の正則化器は、パラメータの摂動(すなわち推論安定性)に対してモデル出力を安定化できる収束点を好む。
同様の現象が研究されているが、sgd は ornstein-uhlenbeck のような過程とは考えておらず、近似の収束によってより一般化された結果が得られる。
本研究では,ニューラルネットワークの深層学習と線形回帰のための非バイアスランダムラベルノイズを用いて,SGDの暗黙正則化を解析するための2つの実験的検討を設計した。 Random label noises (or observational noises) widely exist in practical machine learning settings. While previous studies primarily focus on the affects of label noises to the performance of learning, our work intends to investigate the implicit regularization effects of the label noises, under mini-batch sampling settings of stochastic gradient descent (SGD), with assumptions that label noises are unbiased. Specifically, we analyze the learning dynamics of SGD over the quadratic loss with unbiased label noises, where we model the dynamics of SGD as a stochastic differentiable equation (SDE) with two diffusion terms (namely a Doubly Stochastic Model). While the first diffusion term is caused by mini-batch sampling over the (label-noiseless) loss gradients as many other works on SGD, our model investigates the second noise term of SGD dynamics, which is caused by mini-batch sampling over the label noises, as an implicit regularizer. Our theoretical analysis finds such implicit regularizer would favor some convergence points that could stabilize model outputs against perturbation of parameters (namely inference stability). Though similar phenomenon have been investigated, our work doesn't assume SGD as an Ornstein-Uhlenbeck like process and achieve a more generalizable result with convergence of approximation proved. To validate our analysis, we design two sets of empirical studies to analyze the implicit regularizer of SGD with unbiased random label noises for deep neural networks training and linear regression. | 翻訳日:2023-04-04 18:44:47 公開日:2023-04-01 |
# ハイブリッド六方晶窒化ホウ素銀ナノキューブ系単一光子放出体のプラズモン強化量子特性 Plasmon Enhanced Quantum Properties of Single Photon Emitters with Hybrid Hexagonal Boron Nitride Silver Nanocube Systems ( http://arxiv.org/abs/2304.00314v1 ) ライセンス: Link先を確認 | Mohammadjavad Dowran, Andrew Butler, Suvechhya Lamichhane, Adam Erickson, Ufuk Kilic, Sy-Hwang Liou, Christos Argyropoulos, Abdelghani Laraoui | (参考訳) 六方晶窒化ホウ素(hBN)は、室温で良好な量子特性を持つ単一光子エミッタ(SPE)の有望な極薄ホストとして出現し、集積量子フォトニックネットワークにとって非常に望ましい要素である。
このような用途でこれらのSPEを使用する際の大きな課題は、量子効率が低いことである。
近年の研究では、金属ナノキャビティ内に埋め込まれた多層hBNフレークにホウ素空孔欠陥などのエミッタのアンサンブルを統合する際に、最大2桁の量子効率の改善が報告されている。
しかし、これらの実験はSPEに拡張されておらず、主に多光子効果に焦点を当てている。
本稿では,超薄型hBNフレークで生成したSPEとプラズモン銀ナノキューブからなるハイブリッドナノフォトニック構造の量子単一光子特性について検討する。
以上の結果から,SPE特性の200%のプラスモニック化が示され,SPE蛍光が強く増加した。
このような増強は、hBNフレークがプラズモン効果を引き起こすAgナノキューブと直接接触する厳密な数値シミュレーションによって説明される。
コンパクトなハイブリッドナノフォトニクスプラットフォームで室温で得られた高強度かつ高速な単一光子放出は、量子光学通信および計算における様々な新しい応用に非常に有用である。 Hexagonal boron nitride (hBN) has emerged as a promising ultrathin host of single photon emitters (SPEs) with favorable quantum properties at room temperature, making it a highly desirable element for integrated quantum photonic networks. One major challenge of using these SPEs in such applications is their low quantum efficiency. Recent studies have reported an improvement in quantum efficiency by up to two orders of magnitude when integrating an ensemble of emitters such as boron vacancy defects in multilayered hBN flakes embedded within metallic nanocavities. However, these experiments have not been extended to SPEs and are mainly focused on multiphoton effects. Here, we study the quantum single photon properties of hybrid nanophotonic structures composed of SPEs created in ultrathin hBN flakes coupled with plasmonic silver nanocubes. We demonstrate > 200% plasmonic enhancement of the SPE properties, manifested by a strong increase in the SPE fluorescence. Such enhancement is explained by rigorous numerical simulations where the hBN flake is in direct contact with the Ag nanocubes that cause the plasmonic effects. The presented strong and fast single photon emission obtained at room-temperature with a compact hybrid nanophotonic platform can be very useful to various emerging applications in quantum optical communications and computing. | 翻訳日:2023-04-04 18:44:15 公開日:2023-04-01 |
# 病態予測 : システムレビューと今後の展開 Medical Pathologies Prediction : Systematic Review and Proposed Approach ( http://arxiv.org/abs/2304.00311v1 ) ライセンス: Link先を確認 | Chaimae Taoussi, Imad Hafidi, Abdelmoutalib Metrane | (参考訳) 医療部門はすべての地域において重要な柱であり、医療プロセスの最適化やケアの質の向上、患者の管理を促進するために多くの研究が行われている。
In this article we have analyzed and examined different works concerning the exploitation of the most recent technologies such as big data, artificial intelligence, machine learning, and deep learning for the improvement of health care, which enabled us to propose our general approach concentrating on the collection, preprocessing and clustering of medical data to facilitate access, after analysis, to the patients and health professionals to predict the most frequent pathologies with better precision within a notable timeframe.
キーワード:医療、ビッグデータ、人工知能、自動言語処理、データマイニング、予測モデル。 The healthcare sector is an important pillar of every community, numerous research studies have been carried out in this context to optimize medical processes and improve care quality and facilitate patient management. In this article we have analyzed and examined different works concerning the exploitation of the most recent technologies such as big data, artificial intelligence, machine learning, and deep learning for the improvement of health care, which enabled us to propose our general approach concentrating on the collection, preprocessing and clustering of medical data to facilitate access, after analysis, to the patients and health professionals to predict the most frequent pathologies with better precision within a notable timeframe. keywords: Healthcare, big data, artificial intelligence, automatic language processing, data mining, predictive models. | 翻訳日:2023-04-04 18:43:52 公開日:2023-04-01 |
# 地図の強い絡み合いを解き明かす Degradable Strongly Entanglement Breaking Maps ( http://arxiv.org/abs/2304.00309v1 ) ライセンス: Link先を確認 | Repana Devendra, Gunjan sapra and K. Sumesh | (参考訳) 本稿では,分離可能なヒルベルト空間上の分解可能な強絡み破れ写像の構造定理と各種特性について述べる。
有限次元の場合、単位分解可能なエンタングルメント破断写像は、ちょうど行列代数上のユニタリエンタングルメント破断写像の凸集合の $c^*$-extreme point であることが証明される。
その結果, 単位分解性正部分変換 (PPT-) マップの構造が得られた。 In this paper, we provide a structure theorem and various characterizations of degradable strongly entanglement breaking maps on separable Hilbert spaces. In the finite dimensional case, we prove that unital degradable entanglement breaking maps are precisely the $C^*$-extreme points of the convex set of unital entanglement breaking maps on matrix algebras. Consequently, we get a structure for unital degradable positive partial transpose (PPT-) maps. | 翻訳日:2023-04-04 18:43:43 公開日:2023-04-01 |
# CapsFlow: カプセルネットワークによる光フロー推定 CapsFlow: Optical Flow Estimation with Capsule Networks ( http://arxiv.org/abs/2304.00306v1 ) ライセンス: Link先を確認 | Rahul Chand, Rajat Arora, K Ram Prabhakar, R Venkatesh Babu | (参考訳) 本稿では,コンピュータビジョンの基本的なタスクである光フローの問題を解決するために,最近導入されたCapsule Networksを使用するフレームワークを提案する。
最先端アーキテクチャの既存の状態のほとんどは、それらの特徴にマッチする相関オープレーションを使用する。
相関層はハイパーパラメータの選択に敏感であり、対象の基盤構造に先行しないが、時空間的特徴はネットワークの受容野によって制限される。
また、人間は動く物体全体を見るので、相関関係や時間的特徴ではエンコードできない。
一方、カプセルは分離実体をモデル化し、そのポーズを連続行列としてモデル化する。
そこで本研究では, カプセルによって検出された物体のポーズを, より単純な線形操作でモデル化できることを示す。
本研究では,FlowNetC と PWC-Net モデルより優れる小さな玩具データセット上で再試行を行う。 We present a framework to use recently introduced Capsule Networks for solving the problem of Optical Flow, one of the fundamental computer vision tasks. Most of the existing state of the art deep architectures either uses a correlation oepration to match features from them. While correlation layer is sensitive to the choice of hyperparameters and does not put a prior on the underlying structure of the object, spatio temporal features will be limited by the network's receptive field. Also, we as humans look at moving objects as whole, something which cannot be encoded by correlation or spatio temporal features. Capsules, on the other hand, are specialized to model seperate entities and their pose as a continuous matrix. Thus, we show that a simpler linear operation over poses of the objects detected by the capsules in enough to model flow. We show reslts on a small toy dataset where we outperform FlowNetC and PWC-Net models. | 翻訳日:2023-04-04 18:43:38 公開日:2023-04-01 |
# 予測的異質性:測定と応用 Predictive Heterogeneity: Measures and Applications ( http://arxiv.org/abs/2304.00305v1 ) ライセンス: Link先を確認 | Jiashuo Liu and Jiayun Wu and Bo Li and Peng Cui | (参考訳) ビッグデータの本質的かつ基本的な特性として、データの多様性は、精密医療、自動運転、金融アプリケーションなど、さまざまな現実世界のアプリケーションに存在する。
機械学習アルゴリズムでは、異なるサブ人口間の予測機構が互いに異なる可能性が高いため、データの不均一性の無知は、一般化性能とアルゴリズム的公平性を著しく損なう。
本研究では,機械学習モデルの予測に影響を及ぼすデータの不均一性に着目し,まずモデル容量と計算量制約を考慮に入れた \emph{usable predict heterogeneity} を提案する。
我々は、おそらくほぼ正しい(pac)境界を持つ有限データから確実に推定できることを証明する。
さらに,データから利用可能な予測の不均一性を調べるために,二値最適化アルゴリズムを設計する。
経験的に、調査された異種性は、所得予測、作物収量予測および画像分類タスクにおけるサブ人口区分に対する洞察を提供し、そのような異種性を活用することは、分配の一般化性能に恩恵をもたらす。 As an intrinsic and fundamental property of big data, data heterogeneity exists in a variety of real-world applications, such as precision medicine, autonomous driving, financial applications, etc. For machine learning algorithms, the ignorance of data heterogeneity will greatly hurt the generalization performance and the algorithmic fairness, since the prediction mechanisms among different sub-populations are likely to differ from each other. In this work, we focus on the data heterogeneity that affects the prediction of machine learning models, and firstly propose the \emph{usable predictive heterogeneity}, which takes into account the model capacity and computational constraints. We prove that it can be reliably estimated from finite data with probably approximately correct (PAC) bounds. Additionally, we design a bi-level optimization algorithm to explore the usable predictive heterogeneity from data. Empirically, the explored heterogeneity provides insights for sub-population divisions in income prediction, crop yield prediction and image classification tasks, and leveraging such heterogeneity benefits the out-of-distribution generalization performance. | 翻訳日:2023-04-04 18:43:24 公開日:2023-04-01 |
# 二次元暗状態光格子における干渉誘起異方性 Interference induced anisotropy in a two-dimensional dark state optical lattice ( http://arxiv.org/abs/2304.00302v1 ) ライセンス: Link先を確認 | Edvinas Gvozdiovas and Ian B. Spielman and Gediminas Juzeli\=unas | (参考訳) 二色光学定在波による回折限界以下の空間的特徴を有する超低温原子の二次元光学格子について述べる。
空間上のすべての点で、これらのフィールドは内部原子状態を3レベルLambda結合構成で結合する。
暗黒状態の局所的な波動関数に後続的に従えば、空間的に均一なボルン・オッペンハイマーポテンシャルが幾何スカラーとベクトルポテンシャルによって増強され、波動関数の空間的急激な変化によって現れる。
系のパラメータによっては、幾何学的スカラーポテンシャルはクロニッヒ・ペニー格子の2次元アナログからジグザグ型の障壁を持つ管の配列に補間可能であることが分かる。
幾何学的ベクトルポテンシャルは、隣接する管間の破壊的干渉を引き起こすように調整できる空間的に周期的に有効な磁場(ベリー曲率)を誘導し、パラメータ空間の臨界点でそれらを分離する。
我々は, 励起状態からの崩壊を含むエネルギースペクトルを数値的に検討し, 断熱近似が強い結合強度の音響であり, 暗黒状態多様体における無視できない損失をもたらすことを見出した。
さらに、スペクトルは、オンサイト損失とホッピングが損失と利得の両方を特徴とする非エルミート密結合モデルによって明確に記述されている。 We describe a two-dimensional optical lattice for ultracold atoms with spatial features below the diffraction limit created by a bichromatic optical standing wave. At every point in space these fields couple the internal atomic states in a three-level Lambda coupling configuration. Adiabatically following the local wavefunction of the resulting dark state yields a spatially uniform Born-Oppenheimer potential augmented by geometric scalar and vector potentials appearing due to spatially rapid changes of the wavefunction. Depending on system parameters, we find that the geometric scalar potential can interpolate from a 2D analogue of the Kronig-Penney lattice, to an array of tubes with a zig-zag shaped barrier. The geometric vector potential induces a spatially periodic effective magnetic field (the Berry's curvature) that can be tuned to cause destructive interference between neighboring tubes, thereby decoupling them at a critical point in parameter space. We numerically investigate the energy spectrum including decay from the excited state, and find that the adiabatic approximation is sound for strong coupling strengths, leading to negligible loss in the dark state manifold. Furthermore, the spectrum is well-described by a non-Hermitian tight binding model with on-site losses, and hopping characterized by both loss and, surprisingly, gain. | 翻訳日:2023-04-04 18:43:06 公開日:2023-04-01 |
# ドメインエキスパートからの臨界状態を用いた適応的故障探索 Adaptive Failure Search Using Critical States from Domain Experts ( http://arxiv.org/abs/2304.00365v1 ) ライセンス: Link先を確認 | Peter Du, Katherine Driggs-Campbell | (参考訳) 潜在的な障害ケースを明らかにすることは、自動運転車のような安全クリティカルシステムを検証するための重要なステップである。
障害検索は、シミュレーションまたは実世界のテストでかなりの車両走行距離をログすることで行うことができる。
障害イベントのスパーシティのため、ナイーブなランダム探索アプローチでは、潜在的なシステムの弱点を見つけるためにかなりの時間を要する。
その結果,シミュレーションにおける自律的ポリシの障害軌跡を効率的に探索し,発見するための適応探索手法が提案されている。
アダプティブストレステスト(AST)はマルコフ決定プロセスとして障害探索の問題を提起する手法の一つであり、高確率故障を見つけるために強化学習技術を用いる。
しかし、この定式化は環境中の全てのエージェントの行動の確率モデルを必要とする。
環境アクションが離散的でエージェント間の依存関係が存在するシステムでは、分散を完全に特徴づけたり、適切なプロキシを見つけることは不可能である。
本研究は,データ駆動型手法を用いて,人間が<クリティカルな状態を特定する方法をモデル化し,ASTにおける障害探索をガイドする適切な分類法を学習することを提案する。
本稿では,ASTフレームワークにクリティカルステートを組み込むことにより,自律運転政策における安全違反の増加に伴う障害シナリオを発生させることを示す。 Uncovering potential failure cases is a crucial step in the validation of safety critical systems such as autonomous vehicles. Failure search may be done through logging substantial vehicle miles in either simulation or real world testing. Due to the sparsity of failure events, naive random search approaches require significant amounts of vehicle operation hours to find potential system weaknesses. As a result, adaptive searching techniques have been proposed to efficiently explore and uncover failure trajectories of an autonomous policy in simulation. Adaptive Stress Testing (AST) is one such method that poses the problem of failure search as a Markov decision process and uses reinforcement learning techniques to find high probability failures. However, this formulation requires a probability model for the actions of all agents in the environment. In systems where the environment actions are discrete and dependencies among agents exist, it may be infeasible to fully characterize the distribution or find a suitable proxy. This work proposes the use of a data driven approach to learn a suitable classifier that tries to model how humans identify {critical states and use this to guide failure search in AST. We show that the incorporation of critical states into the AST framework generates failure scenarios with increased safety violations in an autonomous driving policy with a discrete action space. | 翻訳日:2023-04-04 18:37:02 公開日:2023-04-01 |
# リスクアウェアリカレント強化学習によるマスタリングペアトレーディング Mastering Pair Trading with Risk-Aware Recurrent Reinforcement Learning ( http://arxiv.org/abs/2304.00364v1 ) ライセンス: Link先を確認 | Weiguang Han, Jimin Huang, Qianqian Xie, Boyi Zhang, Yanzhao Lai, Min Peng | (参考訳) ペアトレーディングは、市場リスクを排除するための投資家にとって最も単純なヘッジ戦略であるが、人間の専門知識としてペアトレーディングを行う強化学習(RL)手法には大きな課題である。
取引利益全体と明確な関係を持たない何千もの正しい行動をとるためにrl法が必要であり、そのほとんどが歴史に一度も現れていない市場における無限の状態を推論する必要がある。
しかし、既存のRL法は、資産価格の動きと取引のリスクの間の時間的つながりを無視している。
取引コストの高い取引と潜在的な損失を伴う頻繁な取引につながり、人間の専門知識の取引レベルにはほとんど達しない。
そこで我々は,人間専門家と同様のペア取引における長期取引機会を活用できるリスク認識エージェントであるCREDITを紹介する。
CREDITは、2つの資産の物価変動の長期的パターンを捉えて利益を得ることができるように、国家に埋め込まれた時間的相関を十分に考慮するための時間的注意機構とともに、初めて双方向GRUを適用する。
また、取引期間中の取引の利益とリスクの両方をモデル化した経済理論に触発されたリスク対応報酬も設計する。
当社のエージェントは、高リターンと損失の可能性を伴うリスクの高い取引を回避し、強固な取引選好でペア取引をマスターする上で役立ちます。
実験では、既存の強化学習手法をペアトレーディングで上回り、5年間の米国株データで大きな利益を得ている。 Although pair trading is the simplest hedging strategy for an investor to eliminate market risk, it is still a great challenge for reinforcement learning (RL) methods to perform pair trading as human expertise. It requires RL methods to make thousands of correct actions that nevertheless have no obvious relations to the overall trading profit, and to reason over infinite states of the time-varying market most of which have never appeared in history. However, existing RL methods ignore the temporal connections between asset price movements and the risk of the performed trading. These lead to frequent tradings with high transaction costs and potential losses, which barely reach the human expertise level of trading. Therefore, we introduce CREDIT, a risk-aware agent capable of learning to exploit long-term trading opportunities in pair trading similar to a human expert. CREDIT is the first to apply bidirectional GRU along with the temporal attention mechanism to fully consider the temporal correlations embedded in the states, which allows CREDIT to capture long-term patterns of the price movements of two assets to earn higher profit. We also design the risk-aware reward inspired by the economic theory, that models both the profit and risk of the tradings during the trading period. It helps our agent to master pair trading with a robust trading preference that avoids risky trading with possible high returns and losses. Experiments show that it outperforms existing reinforcement learning methods in pair trading and achieves a significant profit over five years of U.S. stock data. | 翻訳日:2023-04-04 18:36:41 公開日:2023-04-01 |
# Tirso de Molina の仕事における自動オーサリングの貢献 Automatic Authorship Attribution in the Work of Tirso de Molina ( http://arxiv.org/abs/2304.00363v1 ) ライセンス: Link先を確認 | Miguel Cavadas and Pablo Gamallo | (参考訳) 自動著作者帰属(automatic authorship attribution, aaa)は、デジタル人文科学から著作者帰属研究へツールや技術を適用した結果である。
定量的かつ統計的なアプローチを通じて、この分野は、伝統的な批評家が何世紀にもわたって扱ってきた有名な著作問題に関するさらなる結論を導き、スタイル比較への新たな扉を開くことができる。
本論文の目的は、スペインの劇作家ティルソ・デ・モリーナ(1579-1648)が伝統的に作曲した5人の喜劇作家の著作物、ラ・ニンファ・デル・シエロ、エル・ブルラドール・デ・セビラ、タン・ラルゴ・メ・ロ・フィアス、ラ・ムジェ・ポル・フエルザ、エル・コンデナード・ポル・デ・デ・ディシアドの著者の検証によって、これらのツールや技法の可能性を実証することである。
この目的を達成するために、ティルソ、アンドレス・デ・クララモンテ(1560年-1626年頃)、アントニオ・ミラ・デ・アメスクア(1577年-1644年)、ルイス・ヴェレス・デ・グエバーラ(1579年-1644年)の戯曲で作られたコーパスで、Rからスティロ・パッケージによるクラスタリング分析に関する実験が行われた。
結果は、La mujer por fuerzaを除くすべてのティルソへの帰属が否定されたことを示している。 Automatic Authorship Attribution (AAA) is the result of applying tools and techniques from Digital Humanities to authorship attribution studies. Through a quantitative and statistical approach this discipline can draw further conclusions about renowned authorship issues which traditional critics have been dealing with for centuries, opening a new door to style comparison. The aim of this paper is to prove the potential of these tools and techniques by testing the authorship of five comedies traditionally attributed to Spanish playwright Tirso de Molina (1579-1648): La ninfa del cielo, El burlador de Sevilla, Tan largo me lo fiais, La mujer por fuerza and El condenado por desconfiado. To accomplish this purpose some experiments concerning clustering analysis by Stylo package from R and four distance measures are carried out on a corpus built with plays by Tirso, Andres de Claramonte (c. 1560-1626), Antonio Mira de Amescua (1577-1644) and Luis Velez de Guevara (1579-1644). The results obtained point to the denial of all the attributions to Tirso except for the case of La mujer por fuerza. | 翻訳日:2023-04-04 18:36:11 公開日:2023-04-01 |
# SeSDF: インシシトな3次元衣服の復元のための自己進化型手指距離場 SeSDF: Self-evolved Signed Distance Field for Implicit 3D Clothed Human Reconstruction ( http://arxiv.org/abs/2304.00359v1 ) ライセンス: Link先を確認 | Yukang Cao, Kai Han, Kwan-Yee K. Wong | (参考訳) 本稿では,1枚の画像や未編集のマルチビュー画像からヒトの衣服を復元する問題に対処する。
既存の手法では、人間の詳細な形状を復元するのに苦労し、しばしば多面的再構成のための校正を必要とする。
パラメトリックsmpl-xモデルを利用することで,任意の数の入力画像を用いて,無補間設定で人間モデルを再構成できる柔軟なフレームワークを提案する。
本フレームワークのコアとなるのは, SMPL-Xモデルから得られた符号付き距離場(SDF)の変形を学習するための, 自己進化型符号付き距離場(SeSDF)モジュールである。
さらに,SMPL-Xパラメータを組み込んだ多視点画像の自己校正法を提案する。
これにより、面倒な手動キャリブレーションの要求が軽減され、我々の手法の柔軟性が大幅に向上する。
さらに,ヒトモデル再構成に最も有用な特徴を考慮し,効果的な咬合・認識機能融合戦略を提案する。
我々は,公開ベンチマークの枠組みを徹底的に評価し,定性的かつ定量的に最先端技術に対して有意な優位性を示した。 We address the problem of clothed human reconstruction from a single image or uncalibrated multi-view images. Existing methods struggle with reconstructing detailed geometry of a clothed human and often require a calibrated setting for multi-view reconstruction. We propose a flexible framework which, by leveraging the parametric SMPL-X model, can take an arbitrary number of input images to reconstruct a clothed human model under an uncalibrated setting. At the core of our framework is our novel self-evolved signed distance field (SeSDF) module which allows the framework to learn to deform the signed distance field (SDF) derived from the fitted SMPL-X model, such that detailed geometry reflecting the actual clothed human can be encoded for better reconstruction. Besides, we propose a simple method for self-calibration of multi-view images via the fitted SMPL-X parameters. This lifts the requirement of tedious manual calibration and largely increases the flexibility of our method. Further, we introduce an effective occlusion-aware feature fusion strategy to account for the most useful features to reconstruct the human model. We thoroughly evaluate our framework on public benchmarks, demonstrating significant superiority over the state-of-the-arts both qualitatively and quantitatively. | 翻訳日:2023-04-04 18:35:24 公開日:2023-04-01 |
# オフラインメタRLにおけるタスク表現学習における文脈分布シフトについて On Context Distribution Shift in Task Representation Learning for Offline Meta RL ( http://arxiv.org/abs/2304.00354v1 ) ライセンス: Link先を確認 | Chenyang Zhao, Zihao Zhou, Bin Liu | (参考訳) オフラインメタ強化学習(OMRL)は、オフラインデータセットから転送可能な知識を学び、新しいターゲットタスクの学習プロセスを容易にすることを目的としている。
コンテキストベースのrlは、コンテキストエンコーダを使用して、タスク表現を推論してエージェントを新しいタスクに迅速に適応させ、推論されたタスク表現に基づいて行動ポリシーを調整する。
本稿では、文脈に基づくOMRL、特にOMRLにおけるタスク表現学習の問題について考察する。
オフラインデータセットでトレーニングされたコンテキストエンコーダが、トレーニングとテストに使用されるコンテキスト間の分散シフトに悩まされることを実証的に実証した。
そこで本研究では,ロバストなタスクコンテキストエンコーダを学習するためのハードサンプリング方式を提案する。
異なる連続制御タスクをベースとした実験結果から,本手法は,ベースライン法と比較して,より堅牢なタスク表現とテスト性能が向上することを示した。
私たちのコードはhttps://github.com/ZJLAB-AMMI/HS-OMRLで公開されています。 Offline meta reinforcement learning (OMRL) aims to learn transferrable knowledge from offline datasets to facilitate the learning process for new target tasks. Context-based RL employs a context encoder to rapidly adapt the agent to new tasks by inferring about the task representation, and then adjusting the acting policy based on the inferred task representation. Here we consider context-based OMRL, in particular, the issue of task representation learning for OMRL. We empirically demonstrate that the context encoder trained on offline datasets could suffer from distribution shift between the contexts used for training and testing. To tackle this issue, we propose a hard sampling based strategy for learning a robust task context encoder. Experimental results, based on distinct continuous control tasks, demonstrate that the utilization of our technique results in more robust task representations and better testing performance in terms of accumulated returns, compared with baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/HS-OMRL. | 翻訳日:2023-04-04 18:35:02 公開日:2023-04-01 |
# 群衆がペルソナに出会う:大規模オープンドメインペルソナ対話コーパスの作成 When Crowd Meets Persona: Creating a Large-Scale Open-Domain Persona Dialogue Corpus ( http://arxiv.org/abs/2304.00350v1 ) ライセンス: Link先を確認 | Won Ik Cho, Yoon Kyung Lee, Seoyeon Bae, Jihwan Kim, Sangah Park, Moosung Kim, Sowon Hahn, Nam Soo Kim | (参考訳) 単語意味論は微妙なテキストの変更や注釈付き概念の定義に弱いため、自然言語データセットの構築には注意が必要である。
このような傾向は、質問応答や対話生成といった生成的なタスクや、トピック分類や感情分析といった分類ベースのコーパスを作成するタスクにも見られます。
オープンドメインの会話には,任意のトピックについて自由に会話する2人以上のクラウドワーカーが関与する。
1) データセットはプライバシー上の懸念から ``obtained" ではなく ``crafted" でなければならない。
2)このような対話の有償作成は,現実の環境でのクラウドワーカーの行動と異なる場合がある。
本研究では,大規模なオープンドメインペルソナ対話のコーパスを作成する際に,ペルソナは,固定されたペルソナを持つ複数の俳優と,特定されていない群衆からユーザ側ワーカーが会話を行うことを意味する。 Building a natural language dataset requires caution since word semantics is vulnerable to subtle text change or the definition of the annotated concept. Such a tendency can be seen in generative tasks like question-answering and dialogue generation and also in tasks that create a categorization-based corpus, like topic classification or sentiment analysis. Open-domain conversations involve two or more crowdworkers freely conversing about any topic, and collecting such data is particularly difficult for two reasons: 1) the dataset should be ``crafted" rather than ``obtained" due to privacy concerns, and 2) paid creation of such dialogues may differ from how crowdworkers behave in real-world settings. In this study, we tackle these issues when creating a large-scale open-domain persona dialogue corpus, where persona implies that the conversation is performed by several actors with a fixed persona and user-side workers from an unspecified crowd. | 翻訳日:2023-04-04 18:34:46 公開日:2023-04-01 |
# マルチエージェントサンプリングに基づくモーションプランニングの因子化 Factorization of Multi-Agent Sampling-Based Motion Planning ( http://arxiv.org/abs/2304.00342v1 ) ライセンス: Link先を確認 | Alessandro Zanardi, Pietro Zullo, Andrea Censi, Emilio Frazzoli | (参考訳) 現代のロボティクスは、共有環境内で作動する複数の具体化エージェントを含むことが多い。
このような場合のパスプランニングは、シングルエージェントのシナリオよりもかなり難しい。
標準的なサンプリングベースアルゴリズム(SBA)は、ロボットの関節空間における解の探索に利用できるが、エージェントの数が増えるにつれて、この手法はすぐに計算的に難解になる。
この問題に対処するために、既存の手法に最小限の変更しか必要としないサンプリングベースアルゴリズムに分解の概念を統合する。
解の探索中、エージェントの異なる部分集合(すなわち分解)を独立した低次元の探索空間に分解し、それらの将来の解が分解ヒューリスティックを用いて互いに独立であることを証明する。
その結果、ある(ハイパー)エッジがエージェントを独立したサブグラフに分割するリーンハイパーグラフを徐々に構築する。
最良の場合、このアプローチは探索空間の次元性の成長を指数関数からエージェント数における線形へと減少させることができる。
平均して、SBAの最適性、完全性、および任意の時間特性を保ちながら、高品質な解を見つけるのに必要なサンプルは少ない。
本稿では,因子化sbaの汎用実装を行い,prm*のサンプル複雑性の観点から分析的なゲインを導出し,rrgの実証結果を示す。 Modern robotics often involves multiple embodied agents operating within a shared environment. Path planning in these cases is considerably more challenging than in single-agent scenarios. Although standard Sampling-based Algorithms (SBAs) can be used to search for solutions in the robots' joint space, this approach quickly becomes computationally intractable as the number of agents increases. To address this issue, we integrate the concept of factorization into sampling-based algorithms, which requires only minimal modifications to existing methods. During the search for a solution we can decouple (i.e., factorize) different subsets of agents into independent lower-dimensional search spaces once we certify that their future solutions will be independent of each other using a factorization heuristic. Consequently, we progressively construct a lean hypergraph where certain (hyper-)edges split the agents to independent subgraphs. In the best case, this approach can reduce the growth in dimensionality of the search space from exponential to linear in the number of agents. On average, fewer samples are needed to find high-quality solutions while preserving the optimality, completeness, and anytime properties of SBAs. We present a general implementation of a factorized SBA, derive an analytical gain in terms of sample complexity for PRM*, and showcase empirical results for RRG. | 翻訳日:2023-04-04 18:34:29 公開日:2023-04-01 |
# JacobiNeRF: 相互情報勾配によるNeRF整形 JacobiNeRF: NeRF Shaping with Mutual Information Gradients ( http://arxiv.org/abs/2304.00341v1 ) ライセンス: Link先を確認 | Xiaomeng Xu, Yanchao Yang, Kaichun Mo, Boxiao Pan, Li Yi, Leonidas Guibas | (参考訳) 本研究では,ニューラルラディアンス場(NeRF)を訓練し,シーンの出現だけでなく,シーンポイント,エリア,エンティティ間の意味的相関関係を符号化する手法を提案する。
従来の一階光度再構成の目的とは対照的に,本手法は,無作為なシーン摂動下での相互情報を最大化するために,ジャコビアンを整列するための学習ダイナミクスを明示的に定式化する。
この2階情報に注意を払って、ネットワーク重みが1つのエンティティ、領域、あるいはポイントの勾配に沿ってデルタによって変化するとき、意味的に意味のあるシナジーを表現するためにNeRFを形成することができる。
この相互情報モデリングの利点を実証するために, 形状から生じるシーンエンティティの協調行動を利用して, セマンティックおよびインスタンスセグメンテーションのためのラベル伝搬を行う。
実験の結果,jacobinerfは2dピクセルと3dポイント間のアノテーション伝達において,相互情報のシェーピングを必要とせず,より効率的であることが判明した。
同じ機械は、エンティティの選択やシーンの変更にも利用できる。 We propose a method that trains a neural radiance field (NeRF) to encode not only the appearance of the scene but also semantic correlations between scene points, regions, or entities -- aiming to capture their mutual co-variation patterns. In contrast to the traditional first-order photometric reconstruction objective, our method explicitly regularizes the learning dynamics to align the Jacobians of highly-correlated entities, which proves to maximize the mutual information between them under random scene perturbations. By paying attention to this second-order information, we can shape a NeRF to express semantically meaningful synergies when the network weights are changed by a delta along the gradient of a single entity, region, or even a point. To demonstrate the merit of this mutual information modeling, we leverage the coordinated behavior of scene entities that emerges from our shaping to perform label propagation for semantic and instance segmentation. Our experiments show that a JacobiNeRF is more efficient in propagating annotations among 2D pixels and 3D points compared to NeRFs without mutual information shaping, especially in extremely sparse label regimes -- thus reducing annotation burden. The same machinery can further be used for entity selection or scene modifications. | 翻訳日:2023-04-04 18:34:08 公開日:2023-04-01 |
# メッシュ物理のための拡張スケーラブルサロゲートを学習するための科学計算アルゴリズム Scientific Computing Algorithms to Learn Enhanced Scalable Surrogates for Mesh Physics ( http://arxiv.org/abs/2304.00338v1 ) ライセンス: Link先を確認 | Brian R. Bartoldson, Yeping Hu, Amar Saini, Jose Cadena, Yucheng Fu, Jie Bao, Zhijie Xu, Brenda Ng, Phan Nguyen | (参考訳) データ駆動モデリングアプローチは、大規模な物理問題を研究するために高速なサロゲートを生成することができる。
その中でも、メッシュベースのデータを操作するグラフニューラルネットワーク(GNN)は、物理的忠実性を促進する帰納的バイアスを持つため望ましいが、ハードウェアの制限により、大規模な計算領域への適用は妨げられている。
3次元メッシュ上でGNNサロゲートのクラスをトレーニングするのはtextit{possible} であることを示す。
我々は、メッシュベースの物理モデリングのためのGNNのサブクラスであるMeshGraphNets(MGN)をドメイン分解アプローチを通じて拡張し、特定の条件下でのドメイン全体のトレーニングに数学的に等価なトレーニングを容易にする。
これにより,計算流体力学(CFD)シミュレーションを生成するために,ノードの‘textit{millions}’を用いてMGNをメッシュ上で訓練することができた。
さらに,高次数値積分によるMGNの高速化を図り,MGNの誤差やトレーニング時間を削減できることを示す。
3.1mノードメッシュ上の3d$\text{co}_2$-capture cfdシミュレーションのデータセットで検証した。
本研究は,実世界のアプリケーションにMGNをスケーリングする実践的な方法を示す。 Data-driven modeling approaches can produce fast surrogates to study large-scale physics problems. Among them, graph neural networks (GNNs) that operate on mesh-based data are desirable because they possess inductive biases that promote physical faithfulness, but hardware limitations have precluded their application to large computational domains. We show that it is \textit{possible} to train a class of GNN surrogates on 3D meshes. We scale MeshGraphNets (MGN), a subclass of GNNs for mesh-based physics modeling, via our domain decomposition approach to facilitate training that is mathematically equivalent to training on the whole domain under certain conditions. With this, we were able to train MGN on meshes with \textit{millions} of nodes to generate computational fluid dynamics (CFD) simulations. Furthermore, we show how to enhance MGN via higher-order numerical integration, which can reduce MGN's error and training time. We validated our methods on an accompanying dataset of 3D $\text{CO}_2$-capture CFD simulations on a 3.1M-node mesh. This work presents a practical path to scaling MGN for real-world applications. | 翻訳日:2023-04-04 18:33:44 公開日:2023-04-01 |
# 幾何学的注意を伴うフィードフォワードネットワークを用いた3次元点雲の体積属性圧縮 Volumetric Attribute Compression for 3D Point Clouds using Feedforward Network with Geometric Attention ( http://arxiv.org/abs/2304.00335v1 ) ライセンス: Link先を確認 | Tam Thuc Do, Philip A. Chou, Gene Cheung | (参考訳) 対象のボリューム属性関数 $f : \mathbb{R}^3 \rightarrow \mathbb{R}$ を与えられた場合、エンコーダで$f$を特徴づけるパラメータベクトル $\theta$ を量子化し、エンコーダで$f$ を符号化し、復調する $f_{\hat{\theta}}(\mathbf{x})$ 既知の3Dポイントで $\mathbf{x}$'s をデコーダで符号化する。
関数空間のネスト列にまたがる一括定数関数を用いた以前の処理領域適応階層変換(RAHT)を拡張し,固有分解のない関数空間にまたがる高次B-スプラインベースを実装したフィードフォワード線形ネットワークを提案する。
feedforwardネットワークアーキテクチャは、システムがエンドツーエンドのニューラルネットワークに適していることを意味する。
我々のネットワークの鍵は空間変化の畳み込みであり、その重みは正規化のために既知の3次元幾何学から計算されるグラフ演算子に似ている。
エンコーダにおける正規化の層数は行列逆テイラー級数における項数に等しいことを示す。
実世界の3次元点雲の実験結果は、RAHTよりも2~3dBのエネルギー圧縮と20~30%のビットレート還元を示す。 We study 3D point cloud attribute compression using a volumetric approach: given a target volumetric attribute function $f : \mathbb{R}^3 \rightarrow \mathbb{R}$, we quantize and encode parameter vector $\theta$ that characterizes $f$ at the encoder, for reconstruction $f_{\hat{\theta}}(\mathbf{x})$ at known 3D points $\mathbf{x}$'s at the decoder. Extending a previous work Region Adaptive Hierarchical Transform (RAHT) that employs piecewise constant functions to span a nested sequence of function spaces, we propose a feedforward linear network that implements higher-order B-spline bases spanning function spaces without eigen-decomposition. Feedforward network architecture means that the system is amenable to end-to-end neural learning. The key to our network is space-varying convolution, similar to a graph operator, whose weights are computed from the known 3D geometry for normalization. We show that the number of layers in the normalization at the encoder is equivalent to the number of terms in a matrix inverse Taylor series. Experimental results on real-world 3D point clouds show up to 2-3 dB gain over RAHT in energy compaction and 20-30% bitrate reduction. | 翻訳日:2023-04-04 18:33:25 公開日:2023-04-01 |
# 類似構造によるコントラスト学習のメカニズム理解に向けて:理論的分析 Towards Understanding the Mechanism of Contrastive Learning via Similarity Structure: A Theoretical Analysis ( http://arxiv.org/abs/2304.00395v1 ) ライセンス: Link先を確認 | Hiroki Waida, Yuichiro Wada, L\'eo and\'eol, Takumi Nakagawa, Yuhui Zhang, Takafumi Kanamori | (参考訳) コントラスト学習は自己指導型表現学習への効果的なアプローチである。
近年、コントラスト学習の理論的な理解が進んでいるが、学習表現のクラスターを特徴づける方法についての研究はまだ限られている。
本稿では, 理論的観点からのキャラクタリゼーションの解明を目的とする。
この目的のために、カーネル関数を他のフレームワークに適用する際に重要な役割を果たすカーネルコントラスト学習(KCL)と呼ばれるカーネルベースのコントラスト学習フレームワークを検討する。
本稿では,統計的依存関係の観点から学習表現の類似性構造を定式化する。
この定式化によるカーネルベースコントラスト損失の理論的性質について検討する。
まず,カーネルベースのコントラスト学習フレームワークを用いて学習した表現の構造を特徴付ける。
本稿では,下流課題の分類誤差の新たな上限を示し,本理論がコントラスト学習の実証的成功と一致していることを示す。
また、KCLの一般化誤差境界も確立する。
最後に,KCL の下流分類タスクへの一般化能力の保証を代理境界を用いて示す。 Contrastive learning is an efficient approach to self-supervised representation learning. Although recent studies have made progress in the theoretical understanding of contrastive learning, the investigation of how to characterize the clusters of the learned representations is still limited. In this paper, we aim to elucidate the characterization from theoretical perspectives. To this end, we consider a kernel-based contrastive learning framework termed Kernel Contrastive Learning (KCL), where kernel functions play an important role when applying our theoretical results to other frameworks. We introduce a formulation of the similarity structure of learned representations by utilizing a statistical dependency viewpoint. We investigate the theoretical properties of the kernel-based contrastive loss via this formulation. We first prove that the formulation characterizes the structure of representations learned with the kernel-based contrastive learning framework. We show a new upper bound of the classification error of a downstream task, which explains that our theory is consistent with the empirical success of contrastive learning. We also establish a generalization error bound of KCL. Finally, we show a guarantee for the generalization ability of KCL to the downstream classification task via a surrogate bound. | 翻訳日:2023-04-04 18:28:15 公開日:2023-04-01 |
# パラメトリックPDEのためのマルチレベルCNN Multilevel CNNs for Parametric PDEs ( http://arxiv.org/abs/2304.00388v1 ) ライセンス: Link先を確認 | Cosmas Hei{\ss}, Ingo G\"uhring and Martin Eigel | (参考訳) 偏微分方程式(pdes)のための多レベル解法とニューラルネットワークに基づく深層学習の概念を結合し,高次元パラメトリックpdesの効率的な数値解法を提案する。
詳細な理論解析により,提案手法は,最微細メッシュの分解能に対数的にのみ依存する重み数で任意の精度でマルチグリッドvサイクルを近似できることを示した。
その結果、(確率的な)パラメータ次元に依存しないニューラルネットワークによるパラメトリックPDEの解に対する近似境界を導出することができる。
提案手法の性能は,不確実性定量化における共通ベンチマーク問題である高次元パラメトリック線形楕円型pdesで示される。
最先端のディープラーニングベースの解法よりも大幅に改善されている。
特に難しい例として,100パラメータ次元の高次元非アフィンガウシアン場とランダムクッキー問題を用いたランダム導電率について検討した。
提案手法のマルチレベル構造により,より微細なレベルにおいてトレーニングサンプルの量を削減できるため,トレーニングデータの生成時間とトレーニング時間を大幅に短縮することができる。 We combine concepts from multilevel solvers for partial differential equations (PDEs) with neural network based deep learning and propose a new methodology for the efficient numerical solution of high-dimensional parametric PDEs. An in-depth theoretical analysis shows that the proposed architecture is able to approximate multigrid V-cycles to arbitrary precision with the number of weights only depending logarithmically on the resolution of the finest mesh. As a consequence, approximation bounds for the solution of parametric PDEs by neural networks that are independent on the (stochastic) parameter dimension can be derived. The performance of the proposed method is illustrated on high-dimensional parametric linear elliptic PDEs that are common benchmark problems in uncertainty quantification. We find substantial improvements over state-of-the-art deep learning-based solvers. As particularly challenging examples, random conductivity with high-dimensional non-affine Gaussian fields in 100 parameter dimensions and a random cookie problem are examined. Due to the multilevel structure of our method, the amount of training samples can be reduced on finer levels, hence significantly lowering the generation time for training data and the training time of our method. | 翻訳日:2023-04-04 18:27:59 公開日:2023-04-01 |
# halp: スケルトンに基づく自己教師付き行動学習のための潜在正の幻覚 HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised Learning of Actions ( http://arxiv.org/abs/2304.00387v1 ) ライセンス: Link先を確認 | Anshul Shah, Aniket Roy, Ketul Shah, Shlok Kumar Mishra, David Jacobs, Anoop Cherian, Rama Chellappa | (参考訳) 近年,行動認識のための骨格配列エンコーダの監視学習が注目されている。
しかし、ラベルのないエンコーダの学習は依然として難しい問題である。
先行研究は、ポーズシーケンスに対比学習を適用することで有望な結果を示しているが、学習表現の品質は、ポジティブな結果を作るのに使われるデータ拡張と密接に関連しているとしばしば観察される。
しかし, ポーズ列の増大は, 骨格関節の幾何的制約を強制する必要があるため, その動作を現実的にするためには難しい課題である。
本研究では,ラベルを使わずにスケルトンベース行動認識モデルを構築するための,新しいコントラスト学習手法を提案する。
私たちの重要な貢献は、単純なモジュールであるHalucinate Latent Positivesのコントラスト学習へのHaLPです。
具体的には、HaLPはポーズの潜在空間を適切な方向に探索し、新しい陽性を生成する。
そこで本研究では, 合成正の硬さを明示的に制御して解くための新しい最適化式を提案する。
目的に対する近似を提案し、最小限のオーバーヘッドで閉じた形で解けるようにする。
実験により, 標準コントラスト学習フレームワーク内で生成した正値を用いることで, NTU-60, NTU-120, PKU-IIなどのベンチマークにおいて, 線形評価, 伝達学習, kNN評価などのタスクにおいて一貫した改善がもたらされることを示す。
私たちのコードはhttps://github.com/anshulbshah/HaLPで公開されます。 Supervised learning of skeleton sequence encoders for action recognition has received significant attention in recent times. However, learning such encoders without labels continues to be a challenging problem. While prior works have shown promising results by applying contrastive learning to pose sequences, the quality of the learned representations is often observed to be closely tied to data augmentations that are used to craft the positives. However, augmenting pose sequences is a difficult task as the geometric constraints among the skeleton joints need to be enforced to make the augmentations realistic for that action. In this work, we propose a new contrastive learning approach to train models for skeleton-based action recognition without labels. Our key contribution is a simple module, HaLP - to Hallucinate Latent Positives for contrastive learning. Specifically, HaLP explores the latent space of poses in suitable directions to generate new positives. To this end, we present a novel optimization formulation to solve for the synthetic positives with an explicit control on their hardness. We propose approximations to the objective, making them solvable in closed form with minimal overhead. We show via experiments that using these generated positives within a standard contrastive learning framework leads to consistent improvements across benchmarks such as NTU-60, NTU-120, and PKU-II on tasks like linear evaluation, transfer learning, and kNN evaluation. Our code will be made available at https://github.com/anshulbshah/HaLP. | 翻訳日:2023-04-04 18:27:44 公開日:2023-04-01 |
# 会話を続ける: ChatGPTを使って、337のバグのうち162を0.42ドルで修正する Keep the Conversation Going: Fixing 162 out of 337 bugs for $0.42 each using ChatGPT ( http://arxiv.org/abs/2304.00385v1 ) ライセンス: Link先を確認 | Chunqiu Steven Xia, Lingming Zhang | (参考訳) 自動プログラム修復(APR)は、バグギープログラムのパッチを自動的に生成することを目的としている。
最近のAPRの研究は、最新のLarge Language Models(LLM)を活用して、APRのパッチを直接生成することに重点を置いている。
LLMベースのAPRツールは、最初に元のバグコードを使って構築された入力プロンプトを構築した後、LLMに問い合わせてパッチを生成する。
LLMベースのAPRツールは最先端の結果を達成することができるが、多くのパッチを最初に生成し、その後検証する古典的なGenerate and Validate修復パラダイムに従っている。
これは、多くの繰り返しパッチにつながるだけでなく、テストの失敗や妥当なパッチにおいて重要な情報を見逃すことになる。
これらの制約に対処するため、我々はChatRepairを提案する。ChatRepairは、パッチ生成を即時フィードバックでインターリーブし、会話スタイルでAPRを実行する最初の完全に自動化された会話駆動型APRアプローチである。
ChatRepairはまずLLMに、まず最初に関連するテスト失敗情報を供給し、続いて、より強力なAPRのために、同じバグの早期パッチの試みの失敗と成功から学ぶ。
すべてのテストに合格しなかった初期のパッチについては、不正なパッチと関連するテスト失敗情報を組み合わせて、LCMが次のパッチを生成するための新しいプロンプトを構築します。
このようにして、同じ間違いを犯すことは避けることができる。
すべてのテストに合格した初期のパッチについては、LLMに元の可視パッチの代替版を生成するよう依頼します。
このようにして、初期の成功からさらなる構築と学習を行い、より妥当なパッチを生成して、正しいパッチを持つ可能性を高めることができます。
私たちのアプローチは一般的なものですが、最先端の対話ベースのLLM -- ChatGPTを使ってChatRepairを実装します。
ChatGPTにアクセスするコストを計算することで、337のバグのうち162をそれぞれ0.42ドルで修正できます! Automated Program Repair (APR) aims to automatically generate patches for buggy programs. Recent APR work has been focused on leveraging modern Large Language Models (LLMs) to directly generate patches for APR. Such LLM-based APR tools work by first constructing an input prompt built using the original buggy code and then queries the LLM to generate patches. While the LLM-based APR tools are able to achieve state-of-the-art results, it still follows the classic Generate and Validate repair paradigm of first generating lots of patches and then validating each one afterwards. This not only leads to many repeated patches that are incorrect but also miss the crucial information in test failures as well as in plausible patches. To address these limitations, we propose ChatRepair, the first fully automated conversation-driven APR approach that interleaves patch generation with instant feedback to perform APR in a conversational style. ChatRepair first feeds the LLM with relevant test failure information to start with, and then learns from both failures and successes of earlier patching attempts of the same bug for more powerful APR. For earlier patches that failed to pass all tests, we combine the incorrect patches with their corresponding relevant test failure information to construct a new prompt for the LLM to generate the next patch. In this way, we can avoid making the same mistakes. For earlier patches that passed all the tests, we further ask the LLM to generate alternative variations of the original plausible patches. In this way, we can further build on and learn from earlier successes to generate more plausible patches to increase the chance of having correct patches. While our approach is general, we implement ChatRepair using state-of-the-art dialogue-based LLM -- ChatGPT. By calculating the cost of accessing ChatGPT, we can fix 162 out of 337 bugs for \$0.42 each! | 翻訳日:2023-04-04 18:27:15 公開日:2023-04-01 |
# Auxiliary Supervisionによる小型データセットのマルチモーダルフュージョンの改良 Improved Multimodal Fusion for Small Datasets with Auxiliary Supervision ( http://arxiv.org/abs/2304.00379v1 ) ライセンス: Link先を確認 | Gregory Holste, Douwe van der Wal, Hans Pinckaers, Rikiya Yamashita, Akinori Mitani, Andre Esteva | (参考訳) 前立腺がんは、世界中の男性におけるがん関連死因の1つである。
多くのがんと同様に、診断には画像、臨床リスクファクターなどの異種患者情報の専門的な統合が含まれる。
このため, 画像と非画像の深層多モード融合への取り組みが, 臨床判定タスクにおいて行われている。
これらの研究の多くは、各患者のモダリティから学習した特徴を融合させる方法を提案し、クロスモーダルアテンションゲーティング、クロネッカー製品融合、直交正則化などの技術により、下流の改善をもたらす。
これらの強化された融合操作は、機能結合によって改善されるが、非常に高い学習能力を持つことが多い。
高度に表現力の高い融合操作をデザインする代わりに,訓練中に補助的監督源を生成することで最適化を支援する小型データセットによるマルチモーダル融合の改善のための3つの簡単な方法を提案する。
前立腺癌診断における病理組織像と表在性臨床像からのアプローチを検証した。
提案手法は実装が簡単で,画像と非画像のデータを用いた任意の分類タスクに適用可能である。 Prostate cancer is one of the leading causes of cancer-related death in men worldwide. Like many cancers, diagnosis involves expert integration of heterogeneous patient information such as imaging, clinical risk factors, and more. For this reason, there have been many recent efforts toward deep multimodal fusion of image and non-image data for clinical decision tasks. Many of these studies propose methods to fuse learned features from each patient modality, providing significant downstream improvements with techniques like cross-modal attention gating, Kronecker product fusion, orthogonality regularization, and more. While these enhanced fusion operations can improve upon feature concatenation, they often come with an extremely high learning capacity, meaning they are likely to overfit when applied even to small or low-dimensional datasets. Rather than designing a highly expressive fusion operation, we propose three simple methods for improved multimodal fusion with small datasets that aid optimization by generating auxiliary sources of supervision during training: extra supervision, clinical prediction, and dense fusion. We validate the proposed approaches on prostate cancer diagnosis from paired histopathology imaging and tabular clinical features. The proposed methods are straightforward to implement and can be applied to any classification task with paired image and non-image data. | 翻訳日:2023-04-04 18:26:25 公開日:2023-04-01 |
# 3次元複合幾何変換による知識グラフ埋め込み Knowledge Graph Embedding with 3D Compound Geometric Transformations ( http://arxiv.org/abs/2304.00378v1 ) ライセンス: Link先を確認 | Xiou Ge, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo | (参考訳) 2次元幾何変換のカスケードは知識グラフ(KG)内の実体間の関係をモデル化するために利用され、有効なKG埋め込み(KGE)モデルである CompoundE へと導かれた。
さらに、3次元空間の回転は、その非可換性を利用して新しいKGEモデルRotate3Dとして提案された。
本研究では,化合物と回転3dに着想を得て,変換,回転,スケーリング,反射,せん断を含む3次元複合幾何変換を活用し,化合物3dと呼ばれるkgeモデル群を提案する。
CompoundE3Dは、KGの豊富な基礎特性にマッチする複数の設計のバリエーションを可能にする。
各変種は関係のサブセットに対して独自の利点を持つので、複数の変種をアンサンブルすることで優れた性能が得られる。
CompoundE3Dの有効性と柔軟性を4つの一般的なリンク予測データセットで実験的に検証した。 The cascade of 2D geometric transformations were exploited to model relations between entities in a knowledge graph (KG), leading to an effective KG embedding (KGE) model, CompoundE. Furthermore, the rotation in the 3D space was proposed as a new KGE model, Rotate3D, by leveraging its non-commutative property. Inspired by CompoundE and Rotate3D, we leverage 3D compound geometric transformations, including translation, rotation, scaling, reflection, and shear and propose a family of KGE models, named CompoundE3D, in this work. CompoundE3D allows multiple design variants to match rich underlying characteristics of a KG. Since each variant has its own advantages on a subset of relations, an ensemble of multiple variants can yield superior performance. The effectiveness and flexibility of CompoundE3D are experimentally verified on four popular link prediction datasets. | 翻訳日:2023-04-04 18:25:50 公開日:2023-04-01 |
# 人-機械相互作用における個人化感情計算に関する研究 A Survey on Personalized Affective Computing in Human-Machine Interaction ( http://arxiv.org/abs/2304.00377v1 ) ライセンス: Link先を確認 | Jialin Li, Alia Waleed, Hanan Salam | (参考訳) パーソナライゼーション(パーソナライゼーション)の目標は、1つ以上のパフォーマンスメトリクスを最適化し、特定の制約に固執することで、特定の個人やグループに対応するモデルを訓練することである。
本稿では,情緒・人格計算におけるパーソナライズの必要性について論じる(以下「情緒コンピューティング」という)。
本稿では,感情コンピューティングにおけるパーソナライゼーションの最先端手法に関する調査を行う。
本稿は,情緒的コンピューティングモデルのパーソナライゼーションに向けたトレーニング手法と目標について述べる。
既存のアプローチは,(1)目標固有モデル,(2)グループ固有モデル,(3)重みに基づくアプローチ,(4)微調整アプローチ,(5)マルチタスク学習,(6)生成ベースモデル,(7)特徴拡張という7つのカテゴリに分類される。
さらに,調査対象文献の統計的メタ分析を行い,異なる情緒的タスク,インタラクションモード,インタラクションコンテキスト,パーソナライゼーションのレベルについて分析した。
それに基づいて、この方向を探究したい人のために、ロードマップを提供します。 In computing, the aim of personalization is to train a model that caters to a specific individual or group of people by optimizing one or more performance metrics and adhering to specific constraints. In this paper, we discuss the need for personalization in affective and personality computing (hereinafter referred to as affective computing). We present a survey of state-of-the-art approaches for personalization in affective computing. Our review spans training techniques and objectives towards the personalization of affective computing models. We group existing approaches into seven categories: (1) Target-specific Models, (2) Group-specific Models, (3) Weighting-based Approaches, (4) Fine-tuning Approaches, (5) Multitask Learning, (6) Generative-based Models, and (7) Feature Augmentation. Additionally, we provide a statistical meta-analysis of the surveyed literature, analyzing the prevalence of different affective computing tasks, interaction modes, interaction contexts, and the level of personalization among the surveyed works. Based on that, we provide a road-map for those who are interested in exploring this direction. | 翻訳日:2023-04-04 18:25:28 公開日:2023-04-01 |
# 移動負荷問題に対する物理インフォームド機械学習 Physics-informed machine learning for moving load problems ( http://arxiv.org/abs/2304.00369v1 ) ライセンス: Link先を確認 | Taniya Kapoor, Hongrui Wang, Alfredo N\'u\~nez, and Rolf Dollevoet | (参考訳) 本稿では,物理インフォームド機械学習(piml)を用いた移動負荷の前方および逆問題をシミュレートする新しい手法を提案する。
物理インフォームドニューラルネットワーク(PINN)は、移動負荷問題の基盤となる物理を利用して、ビームの偏向と負荷の大きさを予測する。
この研究で考慮された移動荷重の数学的表現は、構造物を横切る荷重の影響を捉えるためにディラックデルタ関数を含む。
ディラックデルタ関数をピンで近似することは、1つの点における出力の瞬時変化のために困難であり、損失関数の収束が困難である。
本稿では,ディラックデルタ関数をガウス関数に近似することを提案する。
組み込まれたガウス関数物理方程式は、ビームの偏向をシミュレートし、負荷の大きさを予測するために物理学インフォームド・ニューラル・アーキテクチャで用いられる。
数値計算の結果,PIMLは移動荷重のモデルに対する前方および逆問題のシミュレーションに有効な方法であることがわかった。 This paper presents a new approach to simulate forward and inverse problems of moving loads using physics-informed machine learning (PIML). Physics-informed neural networks (PINNs) utilize the underlying physics of moving load problems and aim to predict the deflection of beams and the magnitude of the loads. The mathematical representation of the moving load considered in this work involves a Dirac delta function, to capture the effect of the load moving across the structure. Approximating the Dirac delta function with PINNs is challenging because of its instantaneous change of output at a single point, causing difficulty in the convergence of the loss function. We propose to approximate the Dirac delta function with a Gaussian function. The incorporated Gaussian function physical equations are used in the physics-informed neural architecture to simulate beam deflections and to predict the magnitude of the load. Numerical results show that PIML is an effective method for simulating the forward and inverse problems for the considered model of a moving load. | 翻訳日:2023-04-04 18:25:10 公開日:2023-04-01 |
# 1および2光子逆散乱の利点 Advantages of one and two-photon inverse scattering ( http://arxiv.org/abs/2304.00368v1 ) ライセンス: Link先を確認 | H. Avetisyan, V. Mkrtchian, A.E. Allahverdyan | (参考訳) 散乱対象の未知誘電率を求めるために散乱場の遠方界スペクトル相互相関関数を用いた逆散乱問題について検討した。
インシデントフィールドの1光子状態は、後方散乱系で測定が行われるため、(ナイーブな)レイリー推定と比較して、感受性の2倍以上のフーリエ成分を解決できる。
コヒーレント状態はこの最適解像度に達することができない(あるいは無視できる可視性で)。
2光子状態を使用することで1光子解像度が向上するが、その改善(視認性は100〜%)は2倍小さく、オブジェクトの事前情報を要求する。
この改善は2つの独立したレーザー場によっても実現できる。
2つの光子の絡み合った状態を使用すると、先行情報への依存が減少する(完全に排除されない)。 We study an inverse scattering problem in which the far-field spectral cross-correlation functions of scattered fields are used to determine the unknown dielectric susceptibility of the scattering object. One-photon states for the incident field can resolve (at $100\%$ visibility) twice more Fourier components of the susceptibility compared to the (naive) Rayleigh estimate, provided that the measurement is performed in the back-scattering regime. Coherent states are not capable of reaching this optimal resolution (or do so with negligible visibility). Using two-photon states improves upon the one-photon resolution, but the improvement (at $100\%$ visibility) is smaller than twice, and it demands prior information on the object. This improvement can also be realized via two independent laser fields. The dependence on the prior information can be decreased (but not eliminated completely) upon using entangled states of two photons. | 翻訳日:2023-04-04 18:24:54 公開日:2023-04-01 |
# 行動要約の対比による自律ロボット能力の伝達 Conveying Autonomous Robot Capabilities through Contrasting Behaviour Summaries ( http://arxiv.org/abs/2304.00367v1 ) ライセンス: Link先を確認 | Peter Du, Surya Murthy, Katherine Driggs-Campbell | (参考訳) 人工知能の進歩により、ますます有能な学習ベースの自律エージェントが可能となり、人間の観察者がエージェントの行動のメンタルモデルを構築することはより困難になる。
自律的なエージェントのデプロイを成功させるためには、人間はエージェントの個々の制限を理解するだけでなく、どのように互いに比較するかの洞察も持てなければならない。
そのためには、人間の解釈可能なエージェント行動要約を生成する効果的な方法が必要である。
エージェントの振る舞いの要約は、エージェントが特定のアクションを1つの時間ステップで選択した理由を説明するメソッドを通じて過去に取り組まれてきた。
しかし、複雑なタスクの場合、アクションごとの説明はエージェントのグローバル戦略を伝えることができないかもしれない。
その結果、研究者は、人間がエージェント全体の能力を評価するのに役立つ、多段階の要約に目を向けた。
最近では、複数のエージェントを評価するためにコントラストの例を生成するために、複数ステップの要約も使われている。
しかし、過去の手法は、要約を生成するために非構造化探索法に大きく依存しており、エージェントは離散的な行動空間を持つ必要がある。
本稿では,連続状態と動作空間をサポートした行動要約を効率的に生成する適応探索法を提案する。
本研究は,人間に与えられた課題に対して優れた自律エージェントを見分けるのに役立つサマリーの有効性を評価するためのユーザスタディを行う。
この結果から, 適応探索は, 限られた観測時間予算で優れたエージェントを正確に選択できる情報コントラストのシナリオを効果的に識別できることが示唆された。 As advances in artificial intelligence enable increasingly capable learning-based autonomous agents, it becomes more challenging for human observers to efficiently construct a mental model of the agent's behaviour. In order to successfully deploy autonomous agents, humans should not only be able to understand the individual limitations of the agents but also have insight on how they compare against one another. To do so, we need effective methods for generating human interpretable agent behaviour summaries. Single agent behaviour summarization has been tackled in the past through methods that generate explanations for why an agent chose to pick a particular action at a single timestep. However, for complex tasks, a per-action explanation may not be able to convey an agents global strategy. As a result, researchers have looked towards multi-timestep summaries which can better help humans assess an agents overall capability. More recently, multi-step summaries have also been used for generating contrasting examples to evaluate multiple agents. However, past approaches have largely relied on unstructured search methods to generate summaries and require agents to have a discrete action space. In this paper we present an adaptive search method for efficiently generating contrasting behaviour summaries with support for continuous state and action spaces. We perform a user study to evaluate the effectiveness of the summaries for helping humans discern the superior autonomous agent for a given task. Our results indicate that adaptive search can efficiently identify informative contrasting scenarios that enable humans to accurately select the better performing agent with a limited observation time budget. | 翻訳日:2023-04-04 18:24:36 公開日:2023-04-01 |
# diversevul:深層学習に基づく脆弱性検出のための新しい脆弱なソースコードデータセット DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection ( http://arxiv.org/abs/2304.00409v1 ) ライセンス: Link先を確認 | Yizheng Chen, Zhoujie Ding, Xinyun Chen, David Wagner | (参考訳) 我々は、新しい脆弱なソースコードデータセットを提案し、リリースする。
セキュリティ問題サイトをクロールしてデータセットをキュレートし、対応するプロジェクトから脆弱性修正コミットとソースコードを抽出します。
新しいデータセットには、150のcwe、26,635の脆弱な関数、そして7,861のコミットから抽出された352,606の非vulnerable関数が含まれています。
私たちのデータセットは、以前のすべてのデータセットの合計よりも305以上のプロジェクトをカバーしています。
トレーニングデータの多様性と量の増加は、脆弱性検出のためのディープラーニングモデルの性能を向上させることを示す。
新しいデータセットと過去のデータセットを組み合わせることで、ソフトウェア脆弱性の検出にディープラーニングを使用することによる課題の分析と、有望な研究方向性を示す。
4家族11のモデルアーキテクチャについて検討した。
以上の結果から,高い偽陽性率,低いF1スコア,ハードなCWEの検出が困難であるため,ディープラーニングは依然として脆弱性検出の準備ができていないことが明らかとなった。
特に,深層学習モデルの導入において重要な一般化課題を提示する。
しかし、将来的な研究の方向性も明らかにする。
我々は,大規模言語モデル(LLM)が脆弱性検出の未来であり,手動機能工学によるグラフニューラルネットワーク(GNN)よりも優れていることを示す。
さらに、ソースコード固有の事前学習目標の開発は、脆弱性検出性能を改善するための有望な研究方向である。 We propose and release a new vulnerable source code dataset. We curate the dataset by crawling security issue websites, extracting vulnerability-fixing commits and source codes from the corresponding projects. Our new dataset contains 150 CWEs, 26,635 vulnerable functions, and 352,606 non-vulnerable functions extracted from 7,861 commits. Our dataset covers 305 more projects than all previous datasets combined. We show that increasing the diversity and volume of training data improves the performance of deep learning models for vulnerability detection. Combining our new dataset with previous datasets, we present an analysis of the challenges and promising research directions of using deep learning for detecting software vulnerabilities. We study 11 model architectures belonging to 4 families. Our results show that deep learning is still not ready for vulnerability detection, due to high false positive rate, low F1 score, and difficulty of detecting hard CWEs. In particular, we demonstrate an important generalization challenge for the deployment of deep learning-based models. However, we also identify hopeful future research directions. We demonstrate that large language models (LLMs) are the future for vulnerability detection, outperforming Graph Neural Networks (GNNs) with manual feature engineering. Moreover, developing source code specific pre-training objectives is a promising research direction to improve the vulnerability detection performance. | 翻訳日:2023-04-04 18:16:30 公開日:2023-04-01 |
# エッカートと湯川ポテンシャルのクラスを持つクライン・ゴルドン方程式の任意の$\ell$-状態解とその非相対論的熱的性質 Arbitrary $\ell$-state solutions of the Klein-Gordon equation with the Eckart plus a class of Yukawa potential and its non-relativistic thermal properties ( http://arxiv.org/abs/2304.00406v1 ) ライセンス: Link先を確認 | Mehmet Demirci and Ramazan Sever | (参考訳) 我々は, パラメトリックニキフォロフ-ウバロフ法を用いて, クライン・ゴードン方程式とエッカートと湯川ポテンシャルのクラスを組み合わせた境界状態解を報告する。
遠心運動とクーロン行動の項を扱うために,近似法の改良を適用した。
我々は、任意の$\ell$-状態エネルギー固有値と、上記の系の閉形式における対応する正規化波動関数を示す。
本稿では,他の物理システムに有用であると考えられる可能性に関する諸事例について論じるとともに,文献上の過去の報告と一致していることを示す。
さらに, 非相対論的熱力学量(分配関数, 平均エネルギー, 自由エネルギー, 比熱, エントロピー)について検討した。
エネルギー固有値は量子数 $n_r$ と $\ell$ とパラメータ $\delta$ に関して敏感である。
その結果、エネルギー固有値はより小さい量子数 $\ell$ またはより小さいパラメータ $\delta$ でより有界であることが示される。 We report bound state solutions of the Klein Gordon equation with a novel combined potential, the Eckart plus a class of Yukawa potential by means of the parametric Nikiforov-Uvarov method. To deal the centrifugal and the coulombic behavior terms, we apply an improved approximation scheme. We present any $\ell$-state energy eigenvalues and the corresponding normalized wave functions of a mentioned system in a closed form. We discuss various special cases related to our considered potential which are utility for other physical systems, and show that these are consistent with previous reports in literature. Moreover, we examine the non-relativistic thermodynamic quantities: Partition function, mean energy, free energy, specific heat and entropy, for the potential model in question. We find that the energy eigenvalues are sensitive with regards to the quantum numbers $n_r$ and $\ell$ as well as the parameter $\delta$. Our results show that energy eigenvalues are more bounded at either smaller quantum number $\ell$ or smaller parameter $\delta$. | 翻訳日:2023-04-04 18:16:08 公開日:2023-04-01 |
# 単純な発振器への磁場中の粒子の正準同値 Canonical equivalence of a particle in a magnetic field to a simple oscillator ( http://arxiv.org/abs/2304.00401v1 ) ライセンス: Link先を確認 | Henryk Gzyl | (参考訳) 定磁場中の粒子からなる古典的(量子的な)系は、(一意的に)2次元調和振動子と自由粒子と等価であることが証明されている。
また、離散スペクトルの固有ベクトルは2次元調和振動子の絡み合い状態であることが示されている。 It is proved that a classical (respec. quantum) system consisting of a particle in a constant magnetic field is canonically (respec. unitarily) equivalent to a 2-dimensional harmonic oscillator plus a free particle. It is also shown that the eigenvectors of the discrete spectrum are entangled states of the 2-dimensional harmonic oscillator. | 翻訳日:2023-04-04 18:15:48 公開日:2023-04-01 |
# ゼロからヒーローへ:極端に複雑に複雑な数学 From Zero to Hero: Convincing with Extremely Complicated Math ( http://arxiv.org/abs/2304.00399v1 ) ライセンス: Link先を確認 | Maximilian Weiherer and Bernhard Egger | (参考訳) スーパーヒーローになることは、ほとんどすべての子供の夢です。
保護された子供時代は、大人になるのに必要なことを何でもする。
一生懸命働き、一生懸命遊ぶ -- 一日中。
しかし、年をとるにつれて、気を散らす傾向が増します。
彼らは軌道を降りています。
単純な数学として 恐れられていることを発見し始めます
最後に、彼らは研究者として、退屈で非印象的な論文を一日中書いている。
トップレベルのカンファレンスも、敬意も、グループもなし。
人生は終わった。
最終的にこの悲劇を終わらせるために、我々はゼロ2ヒーローと呼ばれる基本的な新しいアルゴリズムを提案し、すべての研究論文を科学的傑作に変えた。
次世代の大規模言語モデルに基づいて、信じられないほど単純な数学を含むLaTeX文書が与えられたら、私たちのシステムは自動的にすべての方程式を複雑化し、自分を含む誰も、何が起きているのかを理解できない。
将来のレビュアーは方程式の複雑さによって吹き飛ばされ、すぐに受け入れられるでしょう。
zero2heroは、あなたがHero$^{\text{TM}}$にふさわしいので、トラックに戻される。
コードは \url{https://github.com/mweiherer/zero2hero} でリークされる。 Becoming a (super) hero is almost every kid's dream. During their sheltered childhood, they do whatever it takes to grow up to be one. Work hard, play hard -- all day long. But as they're getting older, distractions are more and more likely to occur. They're getting off track. They start discovering what is feared as simple math. Finally, they end up as a researcher, writing boring, non-impressive papers all day long because they only rely on simple mathematics. No top-tier conferences, no respect, no groupies. Life's over. To finally put an end to this tragedy, we propose a fundamentally new algorithm, dubbed zero2hero, that turns every research paper into a scientific masterpiece. Given a LaTeX document containing ridiculously simple math, based on next-generation large language models, our system automatically over-complicates every single equation so that no one, including yourself, is able to understand what the hell is going on. Future reviewers will be blown away by the complexity of your equations, immediately leading to acceptance. zero2hero gets you back on track, because you deserve to be a hero$^{\text{TM}}$. Code leaked at \url{https://github.com/mweiherer/zero2hero}. | 翻訳日:2023-04-04 18:15:41 公開日:2023-04-01 |
# 混合交通における連結・自動走行車:効率的なオンランプマージのための人間の運転行動学習 Connected and Automated Vehicles in Mixed-Traffic: Learning Human Driver Behavior for Effective On-Ramp Merging ( http://arxiv.org/abs/2304.00397v1 ) ライセンス: Link先を確認 | Nishanth Venkatesh, Viet-Anh Le, Aditya Dave, Andreas A. Malikopoulos | (参考訳) 交通状況の混合を特徴とする高速道路の合流シナリオは、車載車(hdv)と接触する自動走行車(cav)のモデリングと制御の重大な課題をもたらす。
本稿では,CAVとHDVの相互作用の近似情報状態モデルを用いて,ハイウェイマージ時の安全操作を行う手法を提案する。
提案手法では, 制御戦略を生成する前に, 近似情報状態を用いて入出力HDVの動作を学習し, マージを容易にする。
まず,次世代シミュレーションレポジトリから抽出した混在交通状況におけるHDVの挙動を予測するために,実世界のデータに対する本フレームワークの有効性を検証する。
そして,標準逆強化学習手法を用いて,高速道路統合シナリオにおけるHDV-CAV相互作用のシミュレーションデータを生成する。
生成モデルの事前知識を仮定することなく,我々の近似情報状態モデルが観測のみを用いてhdvの将来軌道を予測できることを示す。
次に,HDVと融合しながらCAVの安全制御ポリシを生成し,攻撃性から保守性に至るまで,運転行動のスペクトルを示す。
数値シミュレーションを行い,提案手法の有効性を示す。 Highway merging scenarios featuring mixed traffic conditions pose significant modeling and control challenges for connected and automated vehicles (CAVs) interacting with incoming on-ramp human-driven vehicles (HDVs). In this paper, we present an approach to learn an approximate information state model of CAV-HDV interactions for a CAV to maneuver safely during highway merging. In our approach, the CAV learns the behavior of an incoming HDV using approximate information states before generating a control strategy to facilitate merging. First, we validate the efficacy of this framework on real-world data by using it to predict the behavior of an HDV in mixed traffic situations extracted from the Next-Generation Simulation repository. Then, we generate simulation data for HDV-CAV interactions in a highway merging scenario using a standard inverse reinforcement learning approach. Without assuming a prior knowledge of the generating model, we show that our approximate information state model learns to predict the future trajectory of the HDV using only observations. Subsequently, we generate safe control policies for a CAV while merging with HDVs, demonstrating a spectrum of driving behaviors, from aggressive to conservative. We demonstrate the effectiveness of the proposed approach by performing numerical simulations. | 翻訳日:2023-04-04 18:15:25 公開日:2023-04-01 |
# 時間的畳み込みネットワークによるサーバーレスクラウドのコールドスタート管理 Managing Cold-start in The Serverless Cloud with Temporal Convolutional Networks ( http://arxiv.org/abs/2304.00396v1 ) ライセンス: Link先を確認 | Tam N. Nguyen | (参考訳) サーバレスクラウドは、ほとんどのクラウド管理義務から顧客を解放する革新的なクラウドサービスモデルである。
他のクラウドモデルと同じアドバンテージを提供するが、コストははるかに低い。
その結果、サーバレスクラウドは、システムセキュリティ、バンキング、ヘルスケアといった、インパクトの高い領域にますます採用されています。
サーバーレスクラウドのパフォーマンスに対する大きな脅威はコールドスタートであり、顧客の要求に応えるために必要なクラウドリソースをプロビジョニングするとき、サービスプロバイダや/または顧客に受け入れられないコストが発生する。
本稿では、サーバレスクラウドスタックのインフラストラクチャレベルとファンクションレベルにおけるコールドスタート問題に対処する、新しい低結合で高結合なアンサンブルポリシを提案する。
このアンサンブルポリシは、10分から15分後の関数インスタンスの到着予測に重点を置いている。
時間畳み込みネットワーク(TCN)深層学習法を用いて達成可能である。
大規模なサーバレスクラウドプロバイダの実際のデータセットにおけるベンチマーキングの結果は、TCNが他の一般的な機械学習アルゴリズムを時系列で上回っていることを示している。
コールドスタート管理を超えて、仮想ソフトウェア定義ネットワークアセットのプロビジョニングを最適化するなど、他のクラウド問題を解決するために提案されたポリシーと公開コードを採用することができる。 Serverless cloud is an innovative cloud service model that frees customers from most cloud management duties. It also offers the same advantages as other cloud models but at much lower costs. As a result, the serverless cloud has been increasingly employed in high-impact areas such as system security, banking, and health care. A big threat to the serverless cloud's performance is cold-start, which is when the time of provisioning the needed cloud resource to serve customers' requests incurs unacceptable costs to the service providers and/or the customers. This paper proposes a novel low-coupling, high-cohesion ensemble policy that addresses the cold-start problem at infrastructure- and function-levels of the serverless cloud stack, while the state of the art policies have a more narrowed focus. This ensemble policy anchors on the prediction of function instance arrivals, 10 to 15 minutes into the future. It is achievable by using the temporal convolutional network (TCN) deep-learning method. Bench-marking results on a real-world dataset from a large-scale serverless cloud provider show that TCN out-performs other popular machine learning algorithms for time series. Going beyond cold-start management, the proposed policy and publicly available codes can be adopted in solving other cloud problems such as optimizing the provisioning of virtual software-defined network assets. | 翻訳日:2023-04-04 18:15:03 公開日:2023-04-01 |
# HARFLOW3D:FPGAデバイス上でのHARのためのレイテンシ指向3D-CNN加速器ツールフロー HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices ( http://arxiv.org/abs/2303.17218v2 ) ライセンス: Link先を確認 | Petros Toupas, Alexander Montgomerie-Corcoran, Christos-Savvas Bouganis, Dimitrios Tzovaras | (参考訳) 人間行動認識タスク(HAR)では、3D畳み込みニューラルネットワークが極めて有効であることが証明され、最先端の結果が得られた。
本研究では,そのモデル固有の特性とターゲットFPGAデバイスの特徴を考慮し,そのようなモデルをFPGAにマッピングするための,新たなストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGA特性の記述を入力として、計算のレイテンシを最小化する設計を生成する。
ツールフローは、いくつかの部分で構成されています。
一 三次元CNNパーサー
二 性能及び資源モデル
三 生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム
四 3Dモデルに適した資源対応最適化エンジン
v)FPGAの合成可能なコードへの自動マッピング。
幅広いモデルやデバイスをサポートするツールフローの能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通じて示されている。
さらに、ツールフローはFPGAにマップされていない3D CNNモデルの高性能な結果をもたらし、この分野におけるFPGAベースのシステムの可能性を示している。
全体として、harflow3dは、最先端のハンドチューニングアプローチと比較して、競争力のあるレイテンシを提供する能力を示しており、既存の作業に比べて最大5$\times$のパフォーマンスを実現している。 For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model's inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works. | 翻訳日:2023-04-04 11:48:06 公開日:2023-04-01 |
# TraffNet: ロードネットワークディジタル双生児のためのトラフィック生成の因果関係の学習 TraffNet: Learning Causality of Traffic Generation for Road Network Digital Twins ( http://arxiv.org/abs/2303.15954v3 ) ライセンス: Link先を確認 | Ming Xu, Yunyi Ma, Ruimin Li, Geqi Qi, Xiangfu Meng, Haibo Jin | (参考訳) 道路ネットワークデジタルツイン(RNDT)は、次世代のインテリジェント交通システムの開発において重要な役割を担い、より正確な交通計画と制御を可能にしている。
ジャスト・イン・タイム(JIT)意思決定をサポートするため、RNDTはオンラインセンサデータからトラフィックパターンを動的に学習し、高忠実度シミュレーション結果を生成するモデルを必要とする。
グラフニューラルネットワークに基づく現在の交通予測技術は、最先端のパフォーマンスを達成したが、これらの手法は、歴史交通データにおけるマイニング相関によってのみ将来の交通を予測し、Origin-Destination(OD)要求やルート選択といったトラフィック生成の原因を無視している。
したがって、そのパフォーマンスはJITの判断には信頼できない。
このギャップを埋めるために,交通量の因果関係を車両軌道データから学習するTraffNetという新しいディープラーニングフレームワークを導入する。
まず,ヘテロジニアスグラフを用いて道路網を表現し,モデルが交通量の因果的特徴を取り入れられるようにした。
次に,トラヒックドメインの知識に触発されて,道路セグメント毎にod要求とパスレベルの依存関係をエンコードする組込みベクトルを学習するトラヒック因果関係学習手法を提案する。
そして、トラフィック生成の基盤となるプロセスに適合するように、時間的依存関係をモデル化する。
最後に、実験はTraffNetの有効性を検証する。
traffnetのコードはhttps://github.com/mayunyi-1999/traffnet_code.gitで入手できる。 Road network digital twins (RNDTs) play a critical role in the development of next-generation intelligent transportation systems, enabling more precise traffic planning and control. To support just-in-time (JIT) decision making, RNDTs require a model that dynamically learns the traffic patterns from online sensor data and generates high-fidelity simulation results. Although current traffic prediction techniques based on graph neural networks have achieved state-of-the-art performance, these techniques only predict future traffic by mining correlations in historical traffic data, disregarding the causes of traffic generation, such as Origin-Destination (OD) demands and route selection. Therefore, their performance is unreliable for JIT decision making. To fill this gap, we introduce a novel deep learning framework called TraffNet that learns the causality of traffic volumes from vehicle trajectory data. First, we use a heterogeneous graph to represent the road network, allowing the model to incorporate causal features of traffic volumes. Next, inspired by the traffic domain knowledge, we propose a traffic causality learning method to learn an embedding vector that encodes OD demands and path-level dependencies for each road segment. Then, we model temporal dependencies to match the underlying process of traffic generation. Finally, the experiments verify the utility of TraffNet. The code of TraffNet is available at https://github.com/mayunyi-1999/TraffNet_code.git. | 翻訳日:2023-04-04 11:47:13 公開日:2023-04-01 |
# 建築模型のテクスチャ欠陥修復のための意味的画像翻訳 Semantic Image Translation for Repairing the Texture Defects of Building Models ( http://arxiv.org/abs/2303.17418v2 ) ライセンス: Link先を確認 | Qisen Shang, Han Hu, Haojia Yu, Bo Xu, Libin Wang, Qing Zhu | (参考訳) 都市環境における3次元建築モデルの正確な表現は、テクスチャの閉塞、ぼやけ、詳細の欠如といった、標準的なフォトグラムテクスチャマッピングパイプラインによる緩和が難しい課題によって著しく妨げられている。
現在の画像補完法は、しばしば構造化結果の生成に苦慮し、高度に構造化されたfa\c{c}adeテクスチャの複雑な性質を多様なアーキテクチャスタイルで効果的に扱う。
さらに, 既存の画像合成法は, 現実的なfa\c{c}adeテクスチャ合成を実現するのに不可欠な, 高周波細部保存や人工規則構造保存の困難さに直面する。
これらの課題に対処するために、構造ラベルマップからアーキテクチャスタイルを忠実に反映したfa\c{c}adeテクスチャ画像の合成手法を提案する。
細部や規則構造を保存するために,周波数情報やコーナーマップを利用した正規性を考慮したマルチドメイン手法を提案する。
また、汎用的なスタイル転送を可能にするために、SEANブロックをジェネレータに組み込んでいます。
好ましくない領域を伴わずに, 妥当な構造化画像を生成するため, 画像補完技術を用いて, 画像推定に先立って, セマンティクスによるオクルージョン除去を行う。
また,既存のテクスチャを欠いたfa\c{c}adeの特定のスタイルでテクスチャ画像を合成し,手動のアノテートラベルを用いた。
公開されているfa\c{c}ade画像および3dモデルデータセットにおける実験結果から,本手法は優れた結果をもたらし,欠陥のあるテクスチャに関連する問題を効果的に解決できることが分かる。
コードとデータセットは、さらなる研究と開発のために公開されます。 The accurate representation of 3D building models in urban environments is significantly hindered by challenges such as texture occlusion, blurring, and missing details, which are difficult to mitigate through standard photogrammetric texture mapping pipelines. Current image completion methods often struggle to produce structured results and effectively handle the intricate nature of highly-structured fa\c{c}ade textures with diverse architectural styles. Furthermore, existing image synthesis methods encounter difficulties in preserving high-frequency details and artificial regular structures, which are essential for achieving realistic fa\c{c}ade texture synthesis. To address these challenges, we introduce a novel approach for synthesizing fa\c{c}ade texture images that authentically reflect the architectural style from a structured label map, guided by a ground-truth fa\c{c}ade image. In order to preserve fine details and regular structures, we propose a regularity-aware multi-domain method that capitalizes on frequency information and corner maps. We also incorporate SEAN blocks into our generator to enable versatile style transfer. To generate plausible structured images without undesirable regions, we employ image completion techniques to remove occlusions according to semantics prior to image inference. Our proposed method is also capable of synthesizing texture images with specific styles for fa\c{c}ades that lack pre-existing textures, using manually annotated labels. Experimental results on publicly available fa\c{c}ade image and 3D model datasets demonstrate that our method yields superior results and effectively addresses issues associated with flawed textures. The code and datasets will be made publicly available for further research and development. | 翻訳日:2023-04-04 11:35:20 公開日:2023-04-01 |